<h1> Trabalhando com tabelas dentro do Python </h1>
Aqui começamos a utilizar tabelas e aplicar conceitos do ACL dentro do Python

---

<h2> Comandos simples </h2>

In [37]:
# Informando que vamos usar a biblioteca Pandas
import pandas as pd

In [38]:
# Lendo um arquivo txt/csv
departamento = pd.read_csv("Departamento.txt")

In [39]:
# Listando os primeiros registros de uma tabela
departamento.head()

Unnamed: 0,A00,Head Office
0,B01,Purchasing
1,C01,Marketing
2,D11,Design
3,D21,Finance & Accounting
4,E01,Information Services


In [40]:
# Listando os ultimos registros de uma tabela 
departamento.tail()

Unnamed: 0,A00,Head Office
2,D11,Design
3,D21,Finance & Accounting
4,E01,Information Services
5,E11,Warehouse
6,E21,Sales


In [41]:
# Listando registros especificos de uma tabela
departamento.iloc[1:3]

Unnamed: 0,A00,Head Office
1,C01,Marketing
2,D11,Design


In [42]:
# Exibindo colunas especificas
departamento['A00'].head()

0    B01
1    C01
2    D11
3    D21
4    E01
Name: A00, dtype: object

In [43]:
# Criando campos calculados
departamento['novo_campo'] = "Profissão "+departamento['Head Office']
departamento.head()

Unnamed: 0,A00,Head Office,novo_campo
0,B01,Purchasing,Profissão Purchasing
1,C01,Marketing,Profissão Marketing
2,D11,Design,Profissão Design
3,D21,Finance & Accounting,Profissão Finance & Accounting
4,E01,Information Services,Profissão Information Services


---

<h2> Importação de todos os arquivos </h2>

In [44]:
# Importando arquivos do projeto

# Aqui temos que tomar os cuidados devidos com o cabecalho do arquivo
# Portanto usamos os parametros "header = None" para o cabecalho inexistente
# E o parametro "names" para dar nome as colunas
departamento = pd.read_csv("Departamento.txt", header = None, names = ['ID', 'Depto'])

# Os dois arquivos excel já estão nos formatos corretos basta importar
folha = pd.read_excel("Folha.xls")
funcionarios = pd.read_excel("Funcionarios.xls")

# Caso tenha problemas com o pacote xlrd instale-o a partir
# do Anaconda e reinicie o notebook



In [45]:
# Verificando o conteudo de departamento
departamento.head()

Unnamed: 0,ID,Depto
0,A00,Head Office
1,B01,Purchasing
2,C01,Marketing
3,D11,Design
4,D21,Finance & Accounting


In [46]:
# Verificando o conteudo de folha
folha.head()

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350


In [47]:
# Verificando o conteido de funcionarios
funcionarios.head()

Unnamed: 0,MATRICULA,NOME,SOBRENOME,ENDERECO,CIDADE,ESTADO,PAIS,CODIGO_PAIS,CODIGO_DEPARTAMENTO,RAMAL,DATA_ADMISSAO,CARGO,NIVEL_FORMACAO,SEXO,DATA_NASCIMENTO,SALARIO_ANUAL,BONUS,COMISSAO,ULTIMO_PAGAMENTO
0,10,CARMEN,BACARDI BOLIVAR,"AV. CENTRAL, CALLES 5 Y 6",ALAJUELA,,,CR,A00,3978,1983-12-28,PRES,18,F,1952-08-09,52750,1000,4220,4395.83
1,20,POILIN,BREATNACH,HITDORFER STRASSE 12,ESSEN,,,DE,B01,3476,1992-10-05,MANAGER,18,M,1967-01-28,41250,800,3300,3637.5
2,30,GREGORY,QUINLAN,298 MAIN STREET,INDIANAPOLIS,IN,UNITED STATES,US,C01,4738,1994-03-31,MANAGER,20,F,1960-05-06,38250,800,3060,3187.5
3,50,MARKUS,BOCKELKAMP,AACHENER STRASSE 1053-1055,LANGENFELD,,,DE,E01,6789,1968-08-12,MANAGER,16,M,1944-09-10,40175,800,3214,3347.92
4,60,SAVI,MADAN,GROUND FLOOR,"COBHAM, SURREY",ENGLAND,GREAT BRITAIN,GB,D11,6423,1992-09-09,MANAGER,16,M,1964-07-02,32250,600,2580,2687.5


---

<h2>Operações em tabelas </h2>

Semelhante ao ACL, o Python não permite que façamos alterações em tabelas externas quando importamos ela para dentro do nosso notebook. Mas diferentemente do ACL, existem métodos que nos permitem alterar a fonte de dados de forma mais incisiva, no nosso contexto vamos tentar trabalhar de forma semelhante ao ACL.<br>
<br> Para realizar operações com tabelas sem alterar o resultado inicial e preservar o nosso __dataframe__, vamos fazer uma cópia de cada uma das tabelas que importamos para memória e trabalhar em cima da cópia.

In [48]:
# Criar uma copia de um dataframe e simples como:
copy_departamento = departamento.copy()
copy_folha = folha.copy()
copy_funcionarios = funcionarios.copy()

In [49]:
# Os testes vao ser feitos primordialmente no dataframe de folha de pagamento
copy_folha.head()

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350


In [50]:
# Comando shape
# Verifica a quantidade de linhas e colunas
copy_folha.shape

# (44 linhas e 7 colunas)

(44, 7)

In [51]:
# Comando columns
# Verifica as colunas de um dataframe
copy_folha.columns

Index(['Matricula', 'Salario_Bruto', 'Desconto', 'Salario_Liquido', 'Cod_Dep',
       'Data_Pag', 'Numero_Cheque'],
      dtype='object')

In [52]:
# Comando count()
# Verifica a quantidade de dados nao nulos por coluna
copy_folha.count()

Matricula          44
Salario_Bruto      44
Desconto           44
Salario_Liquido    44
Cod_Dep            44
Data_Pag           44
Numero_Cheque      44
dtype: int64

In [53]:
# Expressão de criação de nova coluna ['']
# Criando uma nova coluna em um dataframe
copy_folha['campo_calculado'] = 'Curso Python Diligent'

# Tambem podemos criar colunas com operacoes matematicas
copy_folha['salario_bruto_anual'] = copy_folha['Salario_Bruto'] * 12

# Usamos o comando head para ver as colunas criadas
copy_folha.head()

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346,Curso Python Diligent,52749.96
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347,Curso Python Diligent,41250.0
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348,Curso Python Diligent,38250.0
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349,Curso Python Diligent,40175.04
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,Curso Python Diligent,32250.0


In [54]:
# Exibindo colunas especificas de uma tabela
copy_folha[['salario_bruto_anual','Matricula']].head()

Unnamed: 0,salario_bruto_anual,Matricula
0,52749.96,10
1,41250.0,20
2,38250.0,30
3,40175.04,50
4,32250.0,60


In [55]:
# Comando describe()
# Descrevendo as estatisticas basicas de um dataframe
copy_folha.describe()

# Esse comando e bem semelhante ao statistics do ACL, onde temos as 
# estatisticas basicas da tabela, divididas por coluna

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Numero_Cheque,salario_bruto_anual
count,44.0,44.0,44.0,44.0,44.0,44.0
mean,45646.295455,2263.305909,452.66,1810.645909,12367.590909,27159.670909
std,84796.382333,701.548491,140.309741,561.23875,13.013978,8418.581897
min,10.0,1278.33,255.67,1022.66,12346.0,15339.96
25%,127.5,1830.83,366.17,1464.66,12356.75,21969.96
50%,235.0,2179.17,435.83,1743.34,12367.5,26150.04
75%,332.5,2437.5,487.5,1950.0,12378.25,29250.0
max,200340.0,4395.83,879.17,3516.66,12393.0,52749.96


In [56]:
# Comandos max(), min(), sum(), median(), mean() e std()
# Podemos usar as métricas do comando describe de forma individual em colunas especificas

copy_folha['Salario_Bruto'].max()

4395.83

In [57]:
copy_folha['Salario_Bruto'].std()

701.548491388102

In [58]:
# Comando isnull()
# Verifica se temos dados nulos em um dataset

copy_folha.isnull().sum()

# Aqui utilizamos dois comandos o isnull para verificar dados nulos
# e o comando sum, para verificar quantos nulos temos em cada coluna

Matricula              0
Salario_Bruto          0
Desconto               0
Salario_Liquido        0
Cod_Dep                0
Data_Pag               0
Numero_Cheque          0
campo_calculado        0
salario_bruto_anual    0
dtype: int64

In [59]:
# Comando dropna
# Podemos deletar dados que são nulos

copy_folha.dropna().head()
# Nesse caso não teremos efeito, umas vez que nao temos dados nulos

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346,Curso Python Diligent,52749.96
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347,Curso Python Diligent,41250.0
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348,Curso Python Diligent,38250.0
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349,Curso Python Diligent,40175.04
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,Curso Python Diligent,32250.0


In [60]:
# Comando fillna
# Tambem podemos preencher os nulos

copy_folha.fillna(99).head()
# Nesse caso, substituiriamos todos os dados nulos por 99
# Tambem sem efeito pois nao temos dados nulos

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346,Curso Python Diligent,52749.96
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347,Curso Python Diligent,41250.0
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348,Curso Python Diligent,38250.0
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349,Curso Python Diligent,40175.04
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,Curso Python Diligent,32250.0


In [61]:
# Comando sort()
# Podemos ordenar tabelas por colunas, do maior para o menor e vice-versa

copy_folha.sort_values(by='Salario_Bruto').head()
# Aqui utilizamos um comando, com um parametro e depois encadiamos outro comando para exibir apenas as primeiras 5 colunas do dataframe

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
27,290,1278.33,255.67,1022.66,E11,2010-08-29,12373,Curso Python Diligent,15339.96
41,200310,1325.0,265.0,1060.0,E11,2010-08-30,12387,Curso Python Diligent,15900.0
29,310,1325.0,265.0,1060.0,E11,2010-08-30,12375,Curso Python Diligent,15900.0
24,260,1437.5,287.5,1150.0,D21,2010-08-26,12370,Curso Python Diligent,17250.0
28,300,1479.17,295.83,1183.34,E11,2010-08-30,12374,Curso Python Diligent,17750.04


In [62]:
# Comando sort()
# Ainda, podemos ordenar de forma decrescente

copy_folha.sort_values(by='Salario_Bruto', ascending=True).head()
# Perceba que o parametro 'ascending' dita se a ordenacao vai ser ascendente (crescente) ou nao

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
27,290,1278.33,255.67,1022.66,E11,2010-08-29,12373,Curso Python Diligent,15339.96
41,200310,1325.0,265.0,1060.0,E11,2010-08-30,12387,Curso Python Diligent,15900.0
29,310,1325.0,265.0,1060.0,E11,2010-08-30,12375,Curso Python Diligent,15900.0
24,260,1437.5,287.5,1150.0,D21,2010-08-26,12370,Curso Python Diligent,17250.0
28,300,1479.17,295.83,1183.34,E11,2010-08-30,12374,Curso Python Diligent,17750.04


In [63]:
# Comando LOC
# Podemos selecionar registros especificos de uma coluna

copy_folha.loc[12, 'Cod_Dep']
# Aqui pegamos o decimo segundo registro da coluna matricula

'C01'

In [64]:
# Comando GroupBy()
# Agrupando dados atraves de uma chave

copy_folha[['Salario_Liquido', 'Salario_Bruto']].groupby(copy_folha['Cod_Dep']).mean()
# Aqui estamos selecionando os campos Salario Liquido e Salario Bruto
# agrupando por codigo do departamento e puxando a média de cada um deles

Unnamed: 0_level_0,Salario_Liquido,Salario_Bruto
Cod_Dep,Unnamed: 1_level_1,Unnamed: 2_level_1
A00,2723.332,3404.166
B01,2750.0,3437.5
C01,1981.495,2476.8725
D11,1676.489091,2095.608182
D21,1711.24,2139.048571
E01,2678.34,3347.92
E11,1304.333333,1630.416667
E21,1640.1725,2050.21125
E83,1330.0,1662.5


In [65]:
# Criando um novo dataframe a partir de resultados
# Muitas vezes criamos resultados que queremos salvar para apresentar 
# ou consultar em outro lugar, o Python ofere suporte a muitos tipos
# de arquivos diferentes

# Primeiro vamos aprender a salvar nossos resultados em uma tabela a parte
# Aqui salvamos o resultado do nosso processamento em um novo dataframe
media_departamento = copy_folha[['Salario_Liquido', 'Salario_Bruto']].groupby(copy_folha['Cod_Dep']).mean()

# Aqui salvamos o resultado em um arquivo excel
media_departamento.to_excel('Resultados/02_01_media_departamento.xlsx')
# Vale notar que podemos usar pastas de todo o sistema

# Aqui também é bom lembrar que qualquer operacao que encadiarmos
# vai ser salva no nosso dataframe final. Por exemplo, se eu 
# quiser exportar os primeiros 10 registros do meu dataframe
copy_folha.head(10).to_excel('Resultados/02_02_folha_pagamento_10_primeiros.xlsx')

# Ainda, podemos fazer toda a primeira operacao em uma linha so
copy_folha[['Salario_Liquido', 'Salario_Bruto']].groupby(copy_folha['Cod_Dep']).mean().to_excel('Resultados/media_departamento2.xlsx')
# A melhor recomendacao e que facamos codigos que sejam legiveis
# para outros, aqui temos apenas um exemplo de funcoes encadeadas

<h2>Amostragem </h2>

O Python oferece uma quantidade enorme de formas estatisticas de se fazer amostragem. Aqui vamos focar nas mais simples e reprodutiveis.

In [66]:
# Comando sample
# Amostragem simples e aleatoria 

amostra = copy_folha.sample(5)
# Uma amostra simples de 5 linhas da tabela

amostra.head()
# Aqui usamos o comando head para mostrar a
# amostra, repare que a cada vez que voce
# roda o comando uma nova amostra e gerada

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,Curso Python Diligent,32250.0
21,230,1848.33,369.67,1478.66,D21,2010-08-23,12367,Curso Python Diligent,22179.96
26,280,2187.5,437.5,1750.0,E11,2010-08-28,12372,Curso Python Diligent,26250.0
20,220,2486.67,497.33,1989.34,D11,2010-08-22,12366,Curso Python Diligent,29840.04
41,200310,1325.0,265.0,1060.0,E11,2010-08-30,12387,Curso Python Diligent,15900.0


In [67]:
# Comando sample
# Amostragem com e sem reposicao

amostra = copy_folha.sample(5, replace=False)
# Para utilizarmos a reposicao basta adicionarmos
# o parametro replace. Quando usado False, nao
# temos repeticao na amostra...

amostra = copy_folha.sample(5, replace=True)
# Quando usamos True, temos repeticao.
# Inclusive, quando usamos repeticao, o
# python entende que podemos ter mais amostras
# do que o numero total de linhas.

In [68]:
# Comando sample
# Semente de aleatoriedade para reproducao

amostra = copy_folha.sample(5, replace=False, random_state = 42)
# Para termos sementes de aleatoriedade e 
# poder reproduzir experimentos, utilizamos
# o parametro random_state com um numero
# a sua escolha, no exemplo, 42.

amostra.head()
# Repare que agora, nao importa quantas
# vezes voce execute o comando, a amostra
# aleatoria sempre vai ser a mesma

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,campo_calculado,salario_bruto_anual
37,200170,2056.67,411.33,1645.34,D11,2010-08-30,12383,Curso Python Diligent,24680.04
24,260,1437.5,287.5,1150.0,D21,2010-08-26,12370,Curso Python Diligent,17250.0
25,270,2281.67,456.33,1825.34,D21,2010-08-27,12371,Curso Python Diligent,27380.04
36,200140,2368.33,473.67,1894.66,C01,2010-08-30,12382,Curso Python Diligent,28419.96
34,200010,3875.0,775.0,3100.0,A00,2010-08-30,12380,Curso Python Diligent,46500.0


<h2> Joins e agregações </h2>

Nessa analise, trabalhamos com 3 tabelas (departamento, folha e funcionarios), essas tabelas possuem uma chave de ligacao entre elas.
<br>
* departamenteo se liga atraves de __ID__ com a tabela de funcionarios atraves da coluna __CODIGO_DEPARTAMENTO__;
* funcionarios se liga atraves de __MATRICULA__ com a tabela de folha atraves da coluna __MATRICULA__;
* folha tambem se liga com departamento, atraves da coluna __COD_DEPT__ em folha e da coluna __ID__ em departamento;
<br>
Como convencao, daqui para frente nesse notebook, vamos nos referir a tabelas e campos com o seguinte formato {tabela}.{campo}. Algo como __funcionarios.Salario_Bruto__ para todos os exemplos daqui para frente.

<h3> Joins (merge) </h3>

Dentro do Python existem duas formas de ser fazer join, com o comando join() e com o comando merge(), como queremos que a experiencia seja a mais proxima possivel do ACL, vamos usar o merge().
<br>
Como todo comando no Python temos varios parametros, mas aqui vamos focar em alguns especificos. O comando com os parametros que vamos focar seria:<br>
__novaTabela.merge(left, right, how, left_on, right_on)__<br><br> 
O que cada parametro quer dizer:
* __left__ = Tabela da esquerda
* __right__ = Tabela da direita
* __how__ = Aqui podemos usar os classicos de qualquer comando join, 'left', 'right', 'outer', 'inner', 'cross', o padrao caso nao coloquemos nada e o 'inner'. Caso voce tenha qualquer duvida ou dificuldade sobre qual comando voce precisa usar dentro de uma operacao, consulte os especialistas Dilligent.
* __left_on__ = Chave primaria da tabela da esquerda
* __right_on__ = Chave primaria da tabela da direita

In [84]:
# Apenas para garantirmos que estamos usando uma tabela nova e que nao vamos alterar resultados iniciais, vamos copiar a tabela de folha
copy_folha = folha

# Aqui um exemplo de como fazer um merge
copy_folha = copy_folha.merge(funcionarios, how="left", left_on = 'Matricula', right_on = 'MATRICULA')

# Veja o resultado
copy_folha.head()

# Aqui juntamos todos os pagamentos com todos os funcionarios usando a estrategia left,
# e isso significa que caso exista um dado na tabela de folha que nao tenha correspondente
# na tabela de funcionarios, os registros que foram adicionados sao 

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,MATRICULA,NOME,SOBRENOME,...,RAMAL,DATA_ADMISSAO,CARGO,NIVEL_FORMACAO,SEXO,DATA_NASCIMENTO,SALARIO_ANUAL,BONUS,COMISSAO,ULTIMO_PAGAMENTO
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346,10.0,CARMEN,BACARDI BOLIVAR,...,3978.0,1983-12-28,PRES,18.0,F,1952-08-09,52750.0,1000.0,4220.0,4395.83
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347,20.0,POILIN,BREATNACH,...,3476.0,1992-10-05,MANAGER,18.0,M,1967-01-28,41250.0,800.0,3300.0,3637.5
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348,30.0,GREGORY,QUINLAN,...,4738.0,1994-03-31,MANAGER,20.0,F,1960-05-06,38250.0,800.0,3060.0,3187.5
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349,50.0,MARKUS,BOCKELKAMP,...,6789.0,1968-08-12,MANAGER,16.0,M,1944-09-10,40175.0,800.0,3214.0,3347.92
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,60.0,SAVI,MADAN,...,6423.0,1992-09-09,MANAGER,16.0,M,1964-07-02,32250.0,600.0,2580.0,2687.5


In [85]:
# Agora que temos todos os registros de folha e funcionarios em uma tabela, vamos adicionar
# as informacoes de departamento tambem

# Repare que como ja haviamos agregado as informacoes de departamento na tabela de folha
# nao precisamos fazer isso novamente, basta usarmos a mesma tabela e o mesmo processo
# para adicionar as informacoes de departamento
copy_folha = copy_folha.merge(departamento, how="left", left_on = 'CODIGO_DEPARTAMENTO', right_on = 'ID')

# Agora temos um resultado que tem o conteudo das 3 tabelas
copy_folha.head()

Unnamed: 0,Matricula,Salario_Bruto,Desconto,Salario_Liquido,Cod_Dep,Data_Pag,Numero_Cheque,MATRICULA,NOME,SOBRENOME,...,CARGO,NIVEL_FORMACAO,SEXO,DATA_NASCIMENTO,SALARIO_ANUAL,BONUS,COMISSAO,ULTIMO_PAGAMENTO,ID,Depto
0,10,4395.83,879.17,3516.66,A00,2010-08-02,12346,10.0,CARMEN,BACARDI BOLIVAR,...,PRES,18.0,F,1952-08-09,52750.0,1000.0,4220.0,4395.83,A00,Head Office
1,20,3437.5,687.5,2750.0,B01,2010-08-03,12347,20.0,POILIN,BREATNACH,...,MANAGER,18.0,M,1967-01-28,41250.0,800.0,3300.0,3637.5,B01,Purchasing
2,30,3187.5,637.5,2550.0,C01,2010-08-04,12348,30.0,GREGORY,QUINLAN,...,MANAGER,20.0,F,1960-05-06,38250.0,800.0,3060.0,3187.5,C01,Marketing
3,50,3347.92,669.58,2678.34,E01,2010-08-05,12349,50.0,MARKUS,BOCKELKAMP,...,MANAGER,16.0,M,1944-09-10,40175.0,800.0,3214.0,3347.92,E01,Information Services
4,60,2687.5,537.5,2150.0,D11,2010-08-06,12350,60.0,SAVI,MADAN,...,MANAGER,16.0,M,1964-07-02,32250.0,600.0,2580.0,2687.5,D11,Design


<h3> Concat </h3>

A concatenacao e a operacao que nos permite fazer o "append" de varias tabelas em uma so. Esse comando e muito util quando temos varios pequenos arquivos e queremos coloca-los em um grande arquivo.<br>
Apesar de termos varios parametros que podemos explorar, aqui o importante e garantir que as duas tabelas tenham exatamente o mesmo formato de colunas e usar o comando:<br>
__tabela = pd.concat([tabela_A, tabela_B])__<br>
<br> Vale notar que aqui precisamos colocar as tabelas entre colchetes []

In [86]:
# Para garantirmos que nao estamos substituindo qualquer arquivooriginal vamos
# fazer uma tabela copia de departamentos.
copy_departamento = departamento

In [88]:
# Aqui vamos copiar o conteudo da tabela departamento varias vezes para a
# tabela copy_departamento. Nesse tipo de teste e bom verificar quantas 
# linhas temos na tabela de departamentos.
copy_departamento.shape

(8, 2)

In [91]:
# Podemos verificar que temos 8 linhas na tabela copy_departamentos, ou seja,
# a cada vez que copiarmos o conteudo para a tabela, deveremos ter 8 linhas
# a mais
copy_departamento = pd.concat([copy_departamento, departamento])
copy_departamento.shape

(16, 2)

In [92]:
# So para garantirmos que o mecanismo funcionou, fazemos a operacao de novo
copy_departamento = pd.concat([copy_departamento, departamento])
copy_departamento.shape

(24, 2)

In [94]:
# Agora vejamos as 24 primeiras linhas do dataframe
copy_departamento.head(24)

Unnamed: 0,ID,Depto
0,A00,Head Office
1,B01,Purchasing
2,C01,Marketing
3,D11,Design
4,D21,Finance & Accounting
5,E01,Information Services
6,E11,Warehouse
7,E21,Sales
0,A00,Head Office
1,B01,Purchasing


---