# Manipulação utilizando os recursos do Pandas

### Bibliotecas Python

In [2]:
import pandas as pd
import numpy as np

### Cria tabela em Pandas

In [4]:
df = pd.DataFrame({'A':[1,2,np.nan],'B':[5,np.nan,np.nan],'C':[1,2,3]})
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


### Manipulação de valores NaN

In [5]:
#Exclui qualquer linha com valores nulos
df.dropna(axis=0, inplace=False)

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [7]:
#Exclui qualquer coluna com valores nulos
df.dropna(axis=1, inplace=False)

Unnamed: 0,C
0,1
1,2
2,3


(inplace=False) não modifica a estrutura do dataframe (df).

(inplace=True) modifica a estrutura do dataframe (df).

In [10]:
#Excluir linhas com no minimo 2 valores
df.dropna(axis=0, thresh=2, inplace=False)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [11]:
#Preenchendo valores NaN
df.fillna(value='XXX', inplace=False)

Unnamed: 0,A,B,C
0,1,5,1
1,2,XXX,2
2,XXX,XXX,3


In [12]:
df.fillna(value=df['A'].mean(), inplace=False)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,1.5,2
2,1.5,1.5,3


### Trabalhando com Group by em Pandas

In [32]:
# Novo DataFrame
data = {'Profissão':['Waitress','Music','Music','Scientist','Scientist','Waitress'],
       'Pessoa':['Bernadette','Charlie','Amy','Leonard','Sheldon','Penny'],
       'Salario':[1200,8000,2300,2000,2100,1200]}
df = pd.DataFrame(data)
df

Unnamed: 0,Profissão,Pessoa,Salario
0,Waitress,Bernadette,1200
1,Music,Charlie,8000
2,Music,Amy,2300
3,Scientist,Leonard,2000
4,Scientist,Sheldon,2100
5,Waitress,Penny,1200


In [33]:
#Forma grupos
df.groupby('Profissão')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000211B5633438>

In [34]:
#Qual a média de cada grupo
df.groupby('Profissão').mean()

Unnamed: 0_level_0,Salario
Profissão,Unnamed: 1_level_1
Music,5150
Scientist,2050
Waitress,1200


In [35]:
#Qual o somatório de cada grupo
df.groupby('Profissão').sum()

Unnamed: 0_level_0,Salario
Profissão,Unnamed: 1_level_1
Music,10300
Scientist,4100
Waitress,2400


In [40]:
#Recurso para otimização de grupos
pd.DataFrame(df.groupby('Profissão').describe().loc['Music']).transpose()

Unnamed: 0_level_0,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Salario
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Music,2.0,5150.0,4030.508653,2300.0,3725.0,5150.0,6575.0,8000.0


In [37]:
pd.DataFrame(df.groupby('Profissão').describe().loc['Scientist']).transpose()

Unnamed: 0_level_0,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Salario
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Scientist,2.0,2050.0,70.710678,2000.0,2025.0,2050.0,2075.0,2100.0


In [39]:
pd.DataFrame(df.groupby('Profissão').describe().loc[['Music','Scientist']])

Unnamed: 0_level_0,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Salario
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Profissão,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Music,2.0,5150.0,4030.508653,2300.0,3725.0,5150.0,6575.0,8000.0
Scientist,2.0,2050.0,70.710678,2000.0,2025.0,2050.0,2075.0,2100.0
