Pooling data in stata forex


Eu pensei que o agrupamento de dados simplesmente significava combinar dados que foram previamente divididos em categorias. Essencialmente, ignorando as categorias e fazendo o conjunto de dados um pool gigante de dados. Eu acho que esta é uma questão mais sobre a terminologia do que a aplicação de estatísticas. Por exemplo: Eu quero comparar 2 sites, e dentro de cada site eu tenho dois tipos de ano (bom e pobre). Se eu quiser comparar os 2 sites em geral (ou seja, ignorando os tipos de ano), é correto dizer que estou agrupando os dados dentro de cada site Além disso, uma vez que vários anos de dados compreendem os tipos de ano bons e pobres , Também é correto dizer que eu estou reunindo os dados entre os anos para alcançar o ano bom e pobre conjunto de dados ano dentro de cada site Obrigado pela sua ajuda Mog perguntou Jun 27 11 at 16:03 Sim, seus exemplos estão corretos. O Oxford English Dictionary define pool como: 1.1 trans. Para lançar em um estoque comum ou fundo para ser distribuído de acordo com o acordo para combinar (capital ou interesses) para o benefício comum spec. De empresas ferroviárias concorrentes, etc. Partilhar ou dividir (tráfego ou recibos). Outro exemplo seria: você mede os níveis sanguíneos de substância X em machos e fêmeas. Você não vê diferenças estatísticas entre os dois grupos para que você agrupe os dados juntos. Ignorando o sexo do sujeito experimental. Se é estatisticamente correto para fazer isso depende muito do caso específico. O pooling pode se referir à combinação de dados, mas também pode se referir à combinação de informações, em vez de dados brutos. Um dos usos mais comuns de pooling é estimar uma variância. Se acreditarmos que 2 populações têm a mesma variância, mas não necessariamente a mesma média, então podemos calcular as 2 estimativas da variância de amostras dos dois grupos e, em seguida, agrupá-los (tomar uma média ponderada) para obter uma única estimativa de A variância comum. Não calculamos uma única estimativa da variância a partir dos dados combinados, porque se as médias não forem iguais, então isso inflará a estimativa da variância. Respondeu Jun 27 11 at 16:26 Se os tamanhos de amostra são iguais, então a média simples tende a trabalhar. Geralmente, damos a cada ponto de dados o mesmo peso, a fórmula padrão é multiplicar cada variância pelos graus de liberdade (ou o número no denominador para o grupo, n-1), então somar todas as peças, então dividir pela soma de Os graus de liberdade (todos os ni-1). Considere o modelo de regressão linear, e vamos fingir que temos dois grupos de dados, grupo1 e grupo2. Nós poderíamos ter mais grupos tudo dito abaixo generaliza a mais de dois grupos. Poderíamos estimar os modelos separadamente digitando ou poderíamos reunir os dados e estimar um único modelo, sendo que a diferença entre essas duas abordagens é que estamos restringindo a variância do residual para ser a mesma nos dois grupos quando agrupamos os dados. Quando estimamos separadamente, obtemos N (0, sigma 2) para o grupo 1 N (0, sigma 2) para o grupo 2 A diferença é que nós Têm agora restringido a variância de u para o grupo1 para ser o mesmo que a variância de u para o grupo2. Se você executar esta experiência com dados reais, você observará o seguinte: Você obterá os mesmos valores para os coeficientes de qualquer maneira. Você obterá diferentes erros padrão e, portanto, diferentes estatísticas de teste e intervalos de confiança. Se u é conhecido por ter a mesma variação nos dois grupos, os erros padrão obtidos a partir da regressão agrupada são melhores, pois eles são mais eficientes. Se as variâncias são realmente diferentes, no entanto, então os erros padrão obtidos a partir da regressão agrupada estão errados. 2. Ilustração (Veja o arquivo-do e o log com os resultados na seção 7) Eu criei um conjunto de dados (contendo dados inventados) em y. X1. E x2. O conjunto de dados tem 74 observações para o grupo1 e outras 71 observações para o grupo2. Usando esses dados, eu posso executar as regressões separadamente digitando ou eu posso executar o modelo agrupado digitando eu fiz isso em Stata, e deixe-me resumir os resultados. Quando eu digitei o comando 1, obtive os seguintes resultados (erros padrão entre parênteses): e quando eu executei o comando 2, obtive Quando eu corri o comando 3, eu obtive A interceptação e os coeficientes em x1 e x2 em 3 são os mesmos que em 1, mas os erros padrão são diferentes. Além disso, se eu somar os coeficientes apropriados em 3, obtenho os mesmos resultados que 2: Os coeficientes são os mesmos, estimados de qualquer maneira. (O fato de que os coeficientes em 3 estão um pouco fora daqueles em 2 é apenas porque eu não escrevo números suficientes.) Os erros-padrão para os coeficientes são diferentes. Eu também anotei o Var (u) estimado, o que é relatado como RMSE na saída de regressão Statarsquos. Em termos de desvio padrão, u tem s. d. 15,528 no grupo 1, 6,8793 no grupo 2, e se limitarmos estes dois números muito diferentes para serem os mesmos, o conjunto de s. d. É 12.096. 3. Agrupando dados sem restringir a variância residual Podemos reunir os dados e estimar uma equação sem restringir as variâncias residuais dos grupos para que sejam iguais. Anteriormente, digitamos e começamos exatamente da mesma maneira. Para isso, acrescentamos que a constante 3 que aparece duas vezes é 3 porque havia três coeficientes sendo estimados em cada grupo (um intercepto, um coeficiente para x1 e um coeficiente para x2). Se houvesse um número diferente de coeficientes sendo estimados, esse número mudaria. Em qualquer caso, isto reproduzirá exatamente os erros padrão relatados estimando os dois modelos separadamente. A vantagem é que agora podemos testar a igualdade de coeficientes entre as duas equações. Por exemplo, podemos agora ler os resultados da regressão combinada se o efeito de x1 é o mesmo nos grupos 1 e 2 (resposta: é bg2x10 porque bx1 é o efeito no grupo 1 e bx1bg2x1 é o efeito no grupo 2, por isso A diferença é bg2x1). E, usando o teste. Podemos testar outras restrições também. Por exemplo, se você quisesse provar a si mesmo que os resultados de 4 são os mesmos que digitar regredir y x1 x2 se group2. Você poderia digitar 4. Ilustração Usando os dados inventados, eu fiz exatamente isso. Para recapitular, primeiro eu estimava regressões separadas: e então eu corri a regressão de variância-constrangida, e então eu corri a regressão de variância-não restringida, apenas para lembrá-lo, aqui está o que os comandos 1 e 2 relataram: Esses resultados são os mesmos que 1 e 2. (Não preste atenção ao RMSE relatado por regressar neste último passo o RMSE relatado é o desvio padrão de nenhum dos dois grupos, mas é, em vez disso, uma média ponderada consulte o FAQ sobre este se você Se você quiser saber os erros padrão dos respectivos resíduos, olhe para trás na saída das instruções resumidas digitadas ao produzir a variável de ponderação.) Nota técnica: emsp Na criação de pesos, nós digitamos e similarmente para o grupo 2. O 3 que aparece no fator de normalização da amostra finita (r (N) -1) / (r (N) -3) aparece porque há três coeficientes por grupo sendo estimados. Se nosso modelo tivesse menos ou mais coeficientes, esse número mudaria. De fato, o fator de normalização da amostra finita muda muito pouco. No trabalho real, eu teria ignorado e digitado, a menos que o número de observações em um dos grupos fosse muito pequeno. O fator de normalização foi incluído aqui para que 4 produziria os mesmos resultados que 1 e 2. 5. A (falta de) importância de não restringir a variância Será que importa se nós restringir a variância Aqui, não importa muito. Por exemplo, se depois de testarmos se o grupo 2 é o mesmo que o grupo 1, obtemos Se ao invés tivéssemos constrangido as variâncias a ser as mesmas, estimando o modelo usando e então repetido o teste. A estatística F relatada seria de 309,08. Se houvesse mais grupos, e as diferenças de variância fossem grandes entre os grupos, isso poderia se tornar mais importante. 6. Outra forma de ajustar o modelo de variância-não-estendida Statarsquos xtgls, painéis (het) comando (ver xtgls) se encaixa exatamente o modelo que temos vindo a descrever, a única diferença é que ele não faz todos os ajustes de amostra finita, Os erros-padrão são apenas um pouco diferentes dos produzidos pelo método que acabamos de descrever. (Para ser claro, xtgls, painéis (het) não faz o ajuste descrito na nota técnica acima, e não faz os ajustes de amostra finita regressar faz, então variâncias são invariáveis ​​normalizadas por N. o número de observações, Em vez de N - k observações menos número de coeficientes estimados.) De qualquer forma, para estimar xtgls, painéis (het). Você agrupa os dados como sempre, para estimar o modelo. O resultado de fazer isso com meus dados ficcionais são Esses são os mesmos coeficientes que sempre vimos. Os erros padrão produzidos por xtgls, painéis (het) aqui são cerca de 2 menores do que aqueles produzidos por 4 e em geral será um pouco menor porque xtgls, painéis (het) é um estimador baseado assintótica. Os dois estimadores são assintoticamente equivalentes, no entanto, e de fato rapidamente se tornam idênticos. A única advertência que eu aconselho é não usar xtgls, painéis (het) se o número de graus de liberdade (observações menos número de coeficientes) está abaixo de 25 em qualquer dos grupos. Em seguida, a abordagem OLS ponderada 4 é melhor (e você deve fazer o ajuste de amostra finita descrito na nota técnica acima). 7. Apêndice: do-file e log fornecendo resultados relatados acima 7.1 do-file O seguinte do-file, chamado uncv. do, foi usado. Até a leitura da linha ldquoBEGINNING OF DEMONSTRATIONrsquo, o arquivo-do está relacionado com a construção do dataset artificial para a demonstração: uncv. do 7.2 log O do-file mostrado em 7.1 produziu o seguinte resultado: uncv. logAnnouncement 26 Jul 2017, 10: 25 Você pode dar exemplos de como os nomes mudam entre os trimestres Você está confiante de que apenas os nomes mudaram e não os rótulos de valor Eu tive recentemente um problema semelhante e acabou renomeando as variáveis ​​em cada trimestre, salvando esses arquivos (com nomes diferentes ) E, em seguida, mesclar os arquivos com as variáveis ​​renomeadas. Outra maneira seria a primeira mesclar os trimestres e, em seguida, mesclar a variável com a ajuda de. replace varvarothername se trimestre, mas eu acho que a estratégia é mais complicado e tem um maior risco de erro Comentário

Comments