# Python para Data Science - Pandas

Neste tutorial, vamos mostrar alguns métodos tratar dados em Pandas:

Iniciemos com os valores "missing" ou faltantes:

In [1]:
import numpy as np #biblioteca numpy será apresentada em outro tutorial. Aqui usaremos  para gerar valores missing (NaN)
import pandas as pd

Criamos um DataFrame a partir de um Dicionário, com alguns valores faltantes:

In [None]:
df = pd.DataFrame({'A':[1,2,6],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,np.nan]})
df

Com a função "dropna", sem parâmetros/ argumentos, serão excluídas as linhas que contém pelo menos um valor faltante

In [None]:
df.dropna()

Podemos especificar a dimensão (axis) na qual a função "dropna" deverá ser executada.

Para axis = 1, serão excluídas as colunas que contém pelo menos um valor faltante:

In [None]:
df.dropna(axis=1)

Para axis =0, serão excluídas as linhas (equivalente a dropna()) que contém pelo menos um valor faltante.

In [None]:
df.dropna(axis=0)

Podemos substituir os valores faltantes por um valor fixo utilizando a função "fillna":

In [None]:
df.fillna(value='Conteúdo')

Aqui os valores faltantes da coluna B são substituídos pela média dos valores da coluna A:

In [None]:
df['B'].fillna(value=df['A'].mean())

## Agrupamento de Dados

Você pode agrupar dados linhas com base em uma coluna utilizando a função "groupby".

Seja o seguinte DataFrame:

In [2]:
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}

df1 = dataframe = pd.DataFrame(data)
df1

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


Suponha que desejamos saber o valor total de vendas por Empresa.

Então vamos agrupar as linhas com base na coluna Empresa.

In [3]:
por_empresa = df1.groupby('Empresa')

Você deve especificar uma função para ser aplicada aos campos numéricos - neste caso o valor da venda

In [4]:
por_empresa.sum()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [None]:
por_empresa.min()

In [None]:
por_empresa.mean()

In [None]:
por_empresa.describe()

## Concatenar, Juntar e Mesclar

Existem três maneiras principais de combinar os DataFrames: mesclando, juntando e concatenando (merge, join e concat, respectivamente)

A seguir, criamos os DataFrames:

In [None]:
df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df3 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df2

In [None]:
df3

### Concatenação

Concatenação basicamente cola DataFrames. 

As dimensões devem corresponder ao longo do eixo que você está concatenando. 

Você pode usar pd.concat e passar uma lista de DataFrames para união.

In [None]:
pd.concat([df2,df3])

In [None]:
pd.concat([df2,df3],axis=1)

O resultado expressa união nas colunas - axis = 1. 
Como os índices (axis = 0) são diferentes em df2 e df3, aparece NaN.

### Mesclar

Mesclar parte do princípio que a união se dará com base em um elemento em comum.

A função mesclar permite que você mescle os quadros de dados juntos usando uma lógica semelhante à mesclagem de tabelas SQL juntas (o parâmetro how define o método de mesclagem e utilizaremos o valor 'inner' - outros valores serão apresentados posteriormente)

Por exemplo:

In [None]:
esquerda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
direita = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})  

In [None]:
pd.merge(esquerda,direita,how='inner',on='key')

## Juntar

Juntar é um método conveniente para combinar as colunas de dois DataFrames indexados potencialmente diferentes em um único resultado DataFrame.

Junta DataFrames que, potencialmente, podem ter uma diferença em seus itens. Agrega colunas quando os índices são iguais.

In [None]:
esquerda = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
esquerda

In [None]:
direita

Agrega o DataFrame direita ao DataFrame esquerda, preenchendo com NaN quando os índices não existem no DataFrame direita.

In [None]:
esquerda.join(direita)

Agrega o DataFrame direita ao DataFrame esquerda, preenchendo com NaN quando os índices não existem no DataFrame direita.


In [None]:
direita.join(esquerda)