# Pandas

Os exemplos abaixo foram tirados do artigo a seguir: https://towardsdatascience.com/pandas-from-basic-to-advanced-for-data-scientists-aee4eed19cfe

Pandas é a biblioteca python mais comumente usada para manipulação e análise de dados.

## Importando o Pandas

Vamos importar o pandas. Costumamos chamá-lo de pd.

In [41]:
import pandas as pd 

## Lendo um dataframe

Para ler um arquivo externo, comumente usamos o read_csv, que vem no pandas.

In [42]:
df = pd.read_csv("exemplo.csv") # df significa dataframe

## Filtrando o dataframe

Às vezes, você precisa manipular apenas colunas específicas. E se você quisesse analisar como a temperatura está mudando? Neste caso, vamos selecionar a temperatura e o dia, conforme a célula abaixo:

In [43]:
df[['temperature','day']]

Unnamed: 0,temperature,day
0,32,01/01/2017
1,36,01/02/2017
2,28,01/03/2017
3,33,01/04/2017
4,90,01/05/2017
5,85,01/06/2017
6,87,01/07/2017
7,92,01/08/2017
8,45,01/09/2017
9,50,01/10/2017


## Mudando o nome de uma coluna no dataframe

Deu o nome errado para um coluna e não quer ir até o excel mudar? Aqui você pode fazer isso da seguinte forma:

In [44]:
df.rename(columns = {'temperature': 'temp', 'event':'eventtype'})

Unnamed: 0,day,city,temp,windspeed,eventtype
0,01/01/2017,new york,32,6,Rain
1,01/02/2017,new york,36,7,Sunny
2,01/03/2017,new york,28,12,Snow
3,01/04/2017,new york,33,7,Sunny
4,01/05/2017,mumbai,90,5,Sunny
5,01/06/2017,mumbai,85,12,Fog
6,01/07/2017,mumbai,87,15,Fog
7,01/08/2017,mumbai,92,5,Rain
8,01/09/2017,paris,45,20,Sunny
9,01/10/2017,paris,50,13,Cloudy


Também podemos filtrar o dataframe: Suponha que você gostaria de ver as cidades que são mais quentes junto com as datas. Você pode fazer o seguinte:

In [45]:
df[['day','city']][df.event=='Sunny']

Unnamed: 0,day,city
1,01/02/2017,new york
3,01/04/2017,new york
4,01/05/2017,mumbai
8,01/09/2017,paris


## Usando o groupby e o agg

E se você quisesse ver a temperatura média e a velocidade média do vento? Podemos usar o groupby e o agg para fazer isso.

In [46]:
df.groupby('city').agg({'temperature':'mean', 'windspeed':'mean'})

Unnamed: 0_level_0,temperature,windspeed
city,Unnamed: 1_level_1,Unnamed: 2_level_1
mumbai,88.5,9.25
new york,32.25,8.0
paris,47.75,12.75


## Mesclando dois dataframes

E se houver mais de um dataframe e você quiser analisá-los juntos? Nesse caso, precisamos mesclá-los. Então, usamos o merge! Nos exemplos a seguir, nossa chave de cruzamento ( será a coluna 'city'. 

Primeiro, vamos criar dois dataframes a partir do df, que já temos:

In [47]:
df1 = pd.DataFrame({
 'city': ['new york','florida','mumbai'],
 'temperature': [22,37,35],
})
df2 = pd.DataFrame({
 'city': ['chicago','new york','florida'],
 'humidity': [65,68,75],
})

In [48]:
df1

Unnamed: 0,city,temperature
0,new york,22
1,florida,37
2,mumbai,35


In [49]:
df2

Unnamed: 0,city,humidity
0,chicago,65
1,new york,68
2,florida,75


Agora sim, vamos usar o merge. Primeiro, vamos usar o merge simples, que apenas nos retorna as linhas correspondentes em ambos os dataframes.

In [50]:
pd.merge(df1,df2,on='city')

Unnamed: 0,city,temperature,humidity
0,new york,22,68
1,florida,37,75


Se você quiser obter todas as linhas de ambos os dataframes, você pode adicionar um novo parâmetro: how.

In [51]:
pd.merge(df1,df2,on='city',how='outer')

Unnamed: 0,city,temperature,humidity
0,new york,22.0,68.0
1,florida,37.0,75.0
2,mumbai,35.0,
3,chicago,,65.0


Podemos também fazer um LEFT JOIN, que nos retorna todos os registros do dataframe à esquerda (df1) e os registros correspondentes do dataframe à direita (df2). O resultado é NULL do lado direito, se não houver correspondência.

In [52]:
pd.merge(df1,df2,on='city',how='left')

Unnamed: 0,city,temperature,humidity
0,new york,22,68.0
1,florida,37,75.0
2,mumbai,35,


Podemos também fazer um RIGHT JOIN, que nos retorna todos os registros do dataframe à direita (df2) e os registros correspondentes do dataframe à esquerda (df1). O resultado é NULL do lado esquerdo, quando não há correspondência.

In [53]:
pd.merge(df1,df2,on='city',how='right')

Unnamed: 0,city,temperature,humidity
0,new york,22.0,68
1,florida,37.0,75
2,chicago,,65


## Crosstab

Suponha que você queira ver a contagem de frequência do tipo de evento (chuvoso, ensolarado, etc) em cada cidade. O crosstab torna isso muito fácil.

In [54]:
pd.crosstab(df.city,df.event)

event,Cloudy,Fog,Rain,Snow,Sunny
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
mumbai,0,2,1,0,1
new york,0,0,1,1,2
paris,3,0,0,0,1
