Saturday 23 December 2017

How to merge 2 datasets in stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Stat ao oferecer um presente Módulo de Aprendizagem Stata Combinando dados Este módulo irá ilustrar como você pode combinar arquivos no Stata. Os exemplos incluirão anexos de arquivos, fusão de uma a uma combinação de fósforo e fusão de uma a várias combinações. Anexando arquivos de dados Quando você tem dois arquivos de dados, você pode combiná-los empilhando-os um sobre o outro. Por exemplo, temos um arquivo contendo papéis e um arquivo contendo mães como mostrado abaixo. Se quisermos combinar esses arquivos empilhando-os um sobre o outro, podemos usar o comando append como mostrado abaixo. Podemos usar o comando da lista para ver se isso funcionou corretamente. O anexo funcionou adequadamente. Os pais e as mães são empilhados em um único arquivo. Mas, há um pequeno problema. Não podemos dizer aos pais das mães. Vamos tentar fazer isso novamente, mas primeiro vamos criar uma variável chamada momdad no arquivo de dados dos pais e mães que conterá papai para o arquivo de dados dos pais e mãe para o arquivo de dados das mães. Quando combinamos os dois arquivos, a variável momdad nos informará de quem são as mães e os pais. Aqui fazemos a variável momdad para o arquivo de dados dos pais. Nós salvamos o arquivo chamando dads1. Aqui fazemos a variável momdad para o arquivo de dados das mães. Nós salvamos o arquivo chamando moms1. Agora, adicione os pais1 e os moms1 juntos. Agora, quando listamos os dados, a variável momdad mostra quem são as mães e os pais. Combinação de fósforos Outra forma de combinar arquivos de dados é a fusão de correspondência. Digamos que queríamos combinar os pais com o arquivo de dados faminc, tendo a informação dos pais e a informação familiar lado a lado. Podemos fazer isso com uma fusão de correspondência. Vamos dar uma olhada nos papéis e no arquivo faminc. Queremos combinar os arquivos de dados para que pareçam assim. Observe que a variável familiar é usada para associar a observação do arquivo de papéis à observação apropriada do arquivo faminc. A estratégia para mesclar os arquivos é assim. 1. classifique os pais no famoso e salve esse arquivo (chamando-o de Dads2). 2. classifique a faminc em famid e guarde esse arquivo (chamando faminc2). 3. use o arquivo dads2 4. Misture o arquivo dads2 com o arquivo faminc2 usando famid para combiná-los. Aqui estão esses quatro passos. 1. Classifique o arquivo de pais por famid e salve-o como dads2 2. Classifique o arquivo faminc por famid e salve-o como faminc2. 3. Use o arquivo dads2 4. Misture com o arquivo faminc2 usando famed como variável chave. Parece que isso funcionou bem, mas qual é essa variável de mesclagem. A variável de mesclagem indica, para cada observação, como foi a fusão. Isso é útil para identificar registros incompatíveis. A fusão pode ter um dos três valores 1 - O registro contém informações apenas do arquivo1 (por exemplo, uma gravação dad2 com nenhuma gravação faminc2 correspondente. 2 - A gravação contém informações apenas do arquivo 2 (por exemplo, uma gravação faminc2 sem registro correspondente de dad2). O registro contém informações de ambos os arquivos (por exemplo, os registros dad2 e faminc2 correspondem). Quando você tem muitos registros, a tabulação de mesclagem é muito útil para resumir quantos incompatíveis você tem. No nosso caso, todos os registros correspondem de modo que o valor para a mesclagem Foi sempre 3. Combinações de fósforos de um a outro O outro tipo de fusão é chamado de fundação de um para muitos. Nossa união de uma a uma combinava pais e faminc e havia uma correspondência de um a um. Se fundir papás com Crianças, pode haver várias crianças por pai e, portanto, esta é uma fusão de uma a outra. Como você vê abaixo, a estratégia para a fusão de um para muitos é realmente a mesma coisa que a união de um para um. 1. classificar os pais no famoso e Salve esse arquivo como dads3 2. classifique as crianças no famoso e salve isso Arquivo como kids3 3. use o arquivo dads3 4. mescla o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. Os 4 passos são mostrados abaixo. 1. Classifique o arquivo de dados dos pais em famid e salve esse arquivo como dads3. 2. Classifique o arquivo de dados dos filhos em famid e salve esse arquivo como kids3. 3. Use o arquivo dads3. 4. Mesclar o arquivo dads3 com o arquivo kids3 usando famid para combiná-los. Permite listar os resultados. Os resultados são um pouco mais fáceis de ler se classificarmos os dados sobre familiar e nascimento. Como você vê, isso é basicamente o mesmo que uma fusão de um para um. Você pode se perguntar se a ordem dos arquivos na instrução de mesclagem é relevante. Aqui, alteramos a ordem dos arquivos e os resultados são os mesmos. A única diferença é a ordem dos registros após a fusão. Exemplo de anexos de dados Exemplo de mesclar etapas de exemplo (one-to-one e one-to-many) Programa de exemplo de mesclagem de correspondência O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pelo University of California. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital, ajudando o Grupo de Consultoria Estatal, dando um presente. Perguntas frequentes sobre Stata: Como mesclar vários arquivos no Stata. Este FAQ é baseado em uma página desenvolvida pelo Programa de Assistentes de Estatística de Graduação da Boston College. Agradecemos sua permissão para reproduzir esta FAQ aqui. Não é incomum que os dados, especialmente os dados da pesquisa, sejam encontrados em vários conjuntos de dados (existem razões práticas para a distribuição de conjuntos de dados desta forma). Quando os dados são distribuídos em vários arquivos, as variáveis ​​que você deseja usar serão muitas vezes espalhadas por vários conjuntos de dados. Para trabalhar com informações contidas em dois ou mais arquivos de dados, é necessário combinar os segmentos em um novo arquivo que contém todas as variáveis ​​com as quais você pretende trabalhar. Primeiro, você precisará descobrir quais variáveis ​​você precisa e quais conjuntos de dados os contêm, você pode fazer isso consultando o livro de códigos. Além de encontrar as variáveis ​​que deseja para a sua análise, você precisa saber o nome da variável ID. Uma variável id é uma variável que é exclusiva de um caso (observação) no conjunto de dados. Para um determinado indivíduo, o ID deve ser o mesmo em todos os conjuntos de dados. Isso permitirá que você combine os dados de diferentes conjuntos de dados com a pessoa certa. Para dados transversais, isso geralmente será uma única variável, em outros casos, são necessárias duas ou mais variáveis, isso geralmente é visto nos dados do painel, onde a identificação do assunto e a data ou a onda são muitas vezes necessárias para identificar uma observação de forma exclusiva. Para que a Stata funde os conjuntos de dados, a variável id, ou variáveis, terá que ter o mesmo nome em todos os arquivos. Além disso, se a variável for uma string em um conjunto de dados, ela também deve ser uma string em todos os outros conjuntos de dados, e o mesmo é verdadeiro para as variáveis ​​numéricas (o tipo de armazenamento específico não é importante, desde que sejam numéricos). Depois de identificar todas as variáveis ​​que você precisa e saber quais são as variáveis ​​id, você pode começar a mesclar os conjuntos de dados. Um exemplo simples Um bom primeiro passo é descrever nossos dados. Podemos fazer isso sem abrir o arquivo (isso pode ser útil se os arquivos forem muito grandes), tudo o que temos a fazer é abrir o Stata e emitir o comando. O comando de descrição nos fornece muitas informações úteis, para os nossos propósitos, as coisas mais importantes que mostra é que o ID da variável é numérico e que os dados não são classificados (os dados devem ser ordenados pela variável id ou variáveis ​​para fundir ). Observamos também que as variáveis ​​que queremos deste conjunto de dados são de fato no conjunto de dados. Queremos fazer isso para todos os nossos três conjuntos de dados, mas para economizar espaço apenas mostra a saída para um dos conjuntos de dados. Vamos assumir que os conjuntos de dados são todos não classificados e que a variável id tem o mesmo nome (ID) nos três conjuntos de dados. Uma vez que os conjuntos de dados não são classificados, precisamos abrir cada conjunto de dados, classificá-lo e, em seguida, guarde o conjunto de dados ordenado. Embora possamos usar os dados de um site facilmente dentro do Stata, não podemos salvá-lo lá. Portanto, note que todos os comandos de uso extraem conjuntos de dados do nosso site, mas guarde-os no diretório d: dados no computador do usuário. A sintaxe abaixo abre cada conjunto de dados, classifica-o por identificação e, em seguida, salva-o em uma nova localização com um novo nome. Se o conjunto de dados já estivesse no nosso computador, poderíamos salvá-lo no mesmo local e, possivelmente mesmo com o mesmo nome (substituindo o antigo conjunto de dados), esta é a escolha dos usuários. Em seguida, nós realmente combinamos os conjuntos de dados. O comando de mesclagem combina observações correspondentes do conjunto de dados atualmente na memória (chamado conjunto de dados mestre) com aqueles de um conjunto de dados de formato Stata diferente (chamado de conjunto de dados de uso) em observações únicas. Supondo que possamos ter dados3 abertos a partir da execução da sintaxe acima, esse será nosso conjunto de dados mestre. A primeira linha de sintaxe abaixo funde os dados. Diretamente após o comando de mesclagem é o nome da variável (ou variáveis) que atendem as variáveis ​​id, neste caso id. Em seguida, o argumento usando isso diz a Stata que acabamos de listar as variáveis ​​de identificação, e que o que se segue é o (s) conjunto (s) de dados a ser mesclado. Os nomes estão listados, com apenas espaços (sem vírgulas, etc.) entre eles. (Nota, se os nomes ou caminhos de seus conjuntos de dados incluir espaços, certifique-se de anexá-los entre aspas, ou seja.) A próxima linha de sintaxe salva nosso novo conjunto de dados mesclado. Observe que a mesclagem não produz saída. Agora podemos dar uma olhada em nosso conjunto de dados recém-fundido. Na saída acima, vemos o número de casos (200), que está correto. Isso é importante, pois os problemas com o processo de mesclagem muitas vezes resultam em casos muito poucos, ou mais frequentemente muitos, no conjunto de dados mesclado. Também vemos uma lista das variáveis, que inclui todas as variáveis ​​que queremos. O conjunto de dados mesclado contém três variáveis ​​extras. Essas novas variáveis ​​são mescladas. Merge1 e Merge2. A combinação de comandos sempre gerará pelo menos uma variável adicional denominada fusão. Quando vários arquivos são especificados no uso. O comando produzirá variáveis ​​de mesclagem adicionais, uma para cada um dos conjuntos de dados na lista de utilização (no nosso caso, merge1 e merge2). Essas variáveis ​​nos dizem para onde veio cada observação no conjunto de dados, isso é útil como um cheque de que seus dados se fundiam corretamente. Às vezes, uma observação não estará presente em um determinado conjunto de dados, isso não significa necessariamente que algo deu errado no processo de mesclagem, mas este é outro lugar onde muitas vezes você pode obter pistas sobre o que poderia ter dado errado no processo de mesclagem. Porque neste exemplo, todos os conjuntos de dados incluem todos os casos e, como a fusão foi como deveria, as variáveis ​​de mesclagem não são muito interessantes. Vamos discutir essas variáveis ​​em maior detalhe abaixo, quando lidamos com conjuntos de dados onde nem todos os casos estão presentes em todos os conjuntos de dados. Eliminando variáveis ​​indesejadas Não é incomum achar que um grande conjunto de dados contém muitas variáveis ​​que você não vai usar em sua análise. Você pode simplesmente deixar essas variáveis ​​em seus conjuntos de dados quando você as juntar, no entanto, há várias razões pelas quais você não pode querer fazer isso. Primeiro, há um limite no número de variáveis ​​que o Stata pode lidar. Em Small Stata, o limite é 99, no StataIC o limite é 2,047 e em StataSE e StataMP o limite é 32,767. Esses limites podem ver alto, mas se você mesclar vários conjuntos de dados, cada um com um grande número de variáveis, você pode exceder o limite para seu tipo de Stata. A segunda razão pela qual você não deseja deixar variáveis ​​desnecessárias em seu conjunto de dados é que cada variável na memória usa recursos adicionais do sistema. Algumas variáveis ​​extras não vão machucar nada, mas se você tiver uma grande quantidade de variáveis ​​indesejadas, pode estar desperdiçando recursos do sistema. Abaixo, mostramos vários métodos para eliminar variáveis ​​extras. Uma opção é que quando você abre os conjuntos de dados para ordená-los, você também pode eliminar as variáveis ​​que você não planeja usar. Dependendo se é mais fácil listar as variáveis ​​que você deseja que você planeje usar em sua análise, ou para listar as variáveis ​​que não precisa, você pode usar os comandos para manter ou soltar. Há pelo menos uma opção adicional, você pode abrir os conjuntos de dados colocando apenas as variáveis ​​que você precisa na memória. Se eu tiver um conjunto de dados contendo várias variáveis, mas as únicas variáveis ​​que eu preciso são id e read. Posso adicionar nomes de variáveis ​​ao meu comando de uso como mostrado na primeira linha de sintaxe abaixo. Isso é particularmente útil com arquivos muito grandes que exigem muita memória para abrir. Depois de abrir o subconjunto desejado de variáveis, tudo o que você precisa fazer é salvar o subconjunto de dados sob um novo nome. No exemplo acima, o conjunto de dados2 continha as seguintes variáveis: id, read, write, math, science e socst. Suponha que minha análise apenas exige que as variáveis ​​sejam lidas e gravadas. As únicas variáveis ​​do conjunto de dados2 que são necessárias são essas duas e a ID da variável para fundir os dados com outro conjunto de dados. Abaixo estão exemplos do mesmo tipo de preparação de dados feito acima, usando cada uma das técnicas descritas. Essas técnicas são equivalentes, na medida em que produzem o mesmo resultado final. A eficiência de cada técnica varia de acordo com a situação. Usando manter para selecionar variáveis: Usando drop para remover variáveis ​​indesejadas: Abrindo um subconjunto dos dados: as variáveis ​​de mesclagem As variáveis ​​de mesclagem criadas pelo comando de mesclagem são fáceis de perder, mas são muito importantes. Conforme discutido acima, eles nos informam sobre qual (s) conjunto (s) de dados de cada caso veio. Isso é importante porque muitos valores que vieram de um único conjunto de dados podem sugerir um problema no processo de mesclagem. No entanto, não é incomum que alguns casos estejam em um conjunto de dados, mas não em outro. Nos dados do painel, isso pode ocorrer quando um determinado respondente não participou de todas as ondas do estudo. Também pode ocorrer por vários outros motivos. Por exemplo, uma entrevistada pode aparecer no subconjunto dos dados com informações demográficas, mas estar completamente ausente do subconjunto de dados com informações sobre crianças entrevistadas, porque ela não tem filhos. Uma vez que os casos que não estão presentes em todos os conjuntos de dados não são necessariamente um problema, para que as informações nas variáveis ​​de mesclagem sejam úteis, você precisa saber o que esperar se os conjuntos de dados se mesclaram corretamente. No exemplo acima, onde os mesmos 200 casos apareceram em três conjuntos de dados, espero ver 200 casos, todos os quais vieram de todos os três conjuntos de dados. Se houver alguns casos em falta em alguns conjuntos de dados, espero ver um certo número de casos que não vieram de todos os conjuntos de dados, mas ainda preciso ter certeza de que não existem muitos que provêm de apenas alguns dos Conjuntos de dados. Ter muitos ou todos os casos no seu conjunto de dados mesclado vêm de um, ou apenas alguns dos conjuntos de dados que você mesclou é um sinal de que a variável id não coincide corretamente entre os conjuntos de dados. Isso é particularmente comum quando a variável id é uma string. Abaixo, examinamos um conjunto de dados após a fusão para ver se tudo foi conforme o esperado. A saída abaixo mostra o arquivo descrito para um conjunto de dados data1m. dta, se olharmos o número de observações (obs), vemos que o conjunto de dados contém apenas 197 casos, mas sabemos que o estudo global inclui 200 casos, então sabemos que lá Três casos faltam inteiramente de data1m. Esta é uma informação importante se nós interpretem corretamente as variáveis ​​de mesclagem mais tarde. Finalmente, classificamos os dados e salmos sob um novo nome. Para economizar espaço, não mostraremos a saída para os outros dois conjuntos de dados (o código aparece abaixo, caso queira executá-lo). Suponha que, quando executamos, descreva em data2m e data3m, descobrimos que eles também estão faltando casos. Dataset data2m contém 196 observações e dataet3m contém 197. É possível que alguns desses casos estejam faltando nos três conjuntos de dados (ou seja, as observações faltantes se sobrepõem em conjuntos de dados), mas também é possível que todas as 200 observações ocorram em pelo menos uma das Conjuntos de dados. Nós descobriremos uma vez que fundiremos os dados. Uma vez que examinamos e ordenamos os conjuntos de dados, podemos juntá-los. A sintaxe abaixo faz isso, observe que o comando é o mesmo que no primeiro exemplo. Por padrão, a Stata permitirá que os casos sejam provenientes de qualquer um dos três conjuntos de dados. Existem opções que permitem que você controle de quais conjuntos de dados os casos provêm, você pode descobrir sobre eles digitando help merge (sem as aspas) no Stata. Como antes, o comando de mesclagem criou três novas variáveis ​​fundidas. Merge1. E mesclar2. A mesclagem de variáveis ​​fornece informações sobre quais casos estavam presentes no conjunto de dados mestre, ele assume um dos três valores: a observação está presente apenas no conjunto de dados mestre

No comments:

Post a Comment