# Combinar Arquivos ( *merging* )

Em determinadas situações ocorre de os dados necessários à execução de uma tarefa estarem em arquivos diferentes e é necessário reuní-los em um único conjunto de dados.

Para exemplificar, considere o caso em que o auditor necessite confirmar com terceiros os valores que compõem o saldo da conta  `Clientes`, por exemplo.

Os dados cadastrais, como endereço, código de identificação do cliente, CEP, etc, constam de um arquivo e os valores devidos pelos clientes, em outro. Ocorre que o auditor necessita do endereço e dos valores devidos para elaborar uma carta de circularização. Para isso, é indispensável que em ambos os arquivos exista um campo que identifique o cliente de forma única. Para a execução deste procedimento o R dispõe da função `merge()`, cuja utilização será mostrada mais adiante. 

Para ilustra este procedimento serão utilizados os conjuntos de dados `Arfile.ASC` e `Address.ASC` que possuem, respectivamente, informações sobre o contas a receber de uma empresa e o endereço dos clientes. O objetivo é combinar estes arquivos para que se disponha de apenas um com os dados contidos em ambos.

Estes dois conjuntos de dados são arquivos texto de formato fixo e, dessa forma, sua importação depende de conhecermos o *layout* dos arquivos, o que consta do documento `Descricao Arquivos Dados_v3.doc` que acompanha os conjuntos de dados utilizados.

Com base nas informações contidas naquele documento, a importação dos dados pode ser feita da seguinte forma:

In [1]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')

contas_receber <- read.fwf('Arfile.ASC',
                           widths = c(11, 4, 4, 15, 8),
                           col.names = c('account', 'division', 'store', 'balance', 'duedate'), 
                           strip.white = TRUE)

endereco <- read.fwf('Address.ASC',
                     widths = c(11, 33, 33, 30, 25, 5),
                     col.names = c('account', 'name1', 'name2', 'street', 'cityst', 'zip'),
                     comment.char='',
                     strip.white = TRUE)




Importados os conjuntos de dados, é sempre uma boa prática verficar se tudo correu bem no processo de importação.  

In [2]:
str(contas_receber)
head(contas_receber)

'data.frame':	989 obs. of  5 variables:
 $ account : Factor w/ 981 levels "S0000000003",..: 601 359 460 789 198 59 565 454 319 56 ...
 $ division: int  246 87 87 9045 139 28 87 87 139 28 ...
 $ store   : int  20 3 20 20 4 9 7 20 4 5 ...
 $ balance : num  13192 261 9541 2254 2287 ...
 $ duedate : int  20010101 20010103 20010106 20010110 20010110 20010111 20010113 20010113 20010113 20010114 ...


account,division,store,balance,duedate
S0000309077,246,20,13192.42,20010101
S0000041943,87,3,260.97,20010103
S0000143191,87,20,9541.28,20010106
S0000459709,9045,20,2254.19,20010110
S0000030187,139,4,2286.84,20010110
S0000002624,28,9,3993.9,20010111


In [3]:
str(endereco)
head(endereco)

'data.frame':	981 obs. of  6 variables:
 $ account: Factor w/ 981 levels "S0000000003",..: 222 568 241 897 21 671 526 643 775 666 ...
 $ name1  : Factor w/ 974 levels "& SAUNDRA FAHRING",..: 656 888 727 592 554 265 308 26 509 167 ...
 $ name2  : Factor w/ 560 levels "","% WILLIAM T ARCHER JR",..: 1 1 1 1 1 426 1 1 1 1 ...
 $ street : Factor w/ 960 levels "1 CHARLOTTE LANE",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ cityst : Factor w/ 121 levels "4700 BRAGA  PORTUGAL",..: 29 86 118 107 84 63 99 29 99 79 ...
 $ zip    : int  72134 6850 72185 72174 72160 72945 72166 72134 72166 72178 ...


account,name1,name2,street,cityst,zip
S0000031637,LYNDA RANSEGNOLA,,1 CHARLOTTE LANE,"DENVILLE, AZ",72134
S0000249225,SOPHIE F. NATHAN,,1 COOLIDGE ST.,"NORWALK, CT",6850
S0000032500,MERLE DEL POLITO,,1 EAST SHAWNEE TRAIL,"WHARTON, AZ",72185
S0000800468,KERRI STRACCO,,1 FRANCIS TERRACE P. O. BOX 68,"STANHOPE, AZ",72174
S0000001037,JULIE ANN LAMPE,,1 NEWHAMPSHIRE STREET,"NEWTON, AZ",72160
S0000452339,FREDERICK G. KARASEK,OR MARYANN KARASEK,1 OAK KNOLL ROAD,"MENDHAM, AZ",72945


Importados os dados, estamos agora em condições de efetivamente realizar a combinação das duas bases de dados. Para tanto, é necessário que em ambos os conjuntos de dados exista uma coluna que identifique os registros (linhas) de forma única, um campo de identificação dos registros. No nosso exemplo, óe possível verificar que a coluna `account`, que identifica o cliente, consta dos dois conjuntos de dados e será o campo utilizado para realizar a junção dos arquivos.

In [4]:
nova_base <- merge(contas_receber, endereco, by='account')
head(nova_base, 3)


account,division,store,balance,duedate,name1,name2,street,cityst,zip
S0000000003,28,5,9609.75,20010227,ITF CHURCH CEMETERY PERPETUITY AS,TRUSTEES BERKSHIRE VALLEY PRESB.,10 HOLLY DRIVE,"DENVILLE, AZ",72134
S0000000036,28,40,120.98,20011129,JONES/SHEPARD,,81 MAIN ST,"HACKETTSTOWN, AZ",72140
S0000000140,28,8,3092.04,20011226,LESLIE E OR ROY S LARSEN,,3 ROSEVILLE ROAD,"STANHOPE, AZ",72174


In [None]:
nrow(nova_base)

Agora dispomos de um conjunto de dados com os campos existentes nos dois conjuntos de dados iniciais.

Com relação a este procedimento, ainda cabem alguns comentários.

No procedimento realizado acima, também conhecido como `inner join`, o conjunto de dados resultante (no nosso caso `nova_base`) conterá apenas as informações relativas às contas que existirem em ambos os cojuntos de dados. As contas que estiverem no conjunto de dados `contas_receber` e não estiverem em `endereco` não constarão da base de dados resultante. O mesmo ocorrendo ao contrário, ou seja, as contas que estiverem no conjunto de dados `endereco` mas não estiverem em `contas_receber` também não serão apresentados. O `inner join` mostrará a interseção das duas bases.

Os argumentos `all=`, `all.x=` e `all.y=` da função `merge()` permitem controlar quais registros incluir no resultado, possibilitando a realização de `right joins`, `left joins` e `full joins`.

Para uma melhor compreensão dos argumentos `all.x=` e `all.y=` é necessário frisar que os conjuntos de dados fornecidos à função `merge()` são considerados como `x` (primeiro conjunto de dados) e `y` (segundo conjunto de dados). No exemplo acima, o conjunto de dados `contas_receber` é o `x` e `endereco` é `y`.

Assim, o argumento `all.x=TRUE` indica que desejamos que a combinação dos arquivos seja do tipo `right join`, no qual todos os registros de `x` são incluídos na base de de dados resultante, independentemente de estare ou não em `y`. Utilizando-se `all.y=TRUE` obtemos o `left join`. O `full join` é obtido com `all=TRUE`.