# Manipulação de dados ausentes

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({'A': [1,2,np.nan],
                   'B': [5, np.nan, np.nan],
                   'C': [7,8,9]})

In [4]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,,8
2,,,9


In [5]:
# Uma forma é jogar fora linhas ou colunas que conter dados ausentes, com método dorpna

df.dropna() # Remove linhas com dados ausentes

Unnamed: 0,A,B,C
0,1.0,5.0,7


In [6]:
# se eu informar o eixo 1 ele apaga as colunas com valores ausentes

df.dropna(axis=1)

Unnamed: 0,C
0,7
1,8
2,9


In [9]:
# eu posso informar qual vai ser o critério de corte através do parametro thresh, nesse exemplo se encontrar 2 ou mais dados ausentes
df.dropna(axis=1, thresh=2)

Unnamed: 0,A,C
0,1.0,7
1,2.0,8
2,,9


In [10]:
# ou usando o método fillna que irá preencher os valores vazios com algum outro valor

df.fillna(value=0)

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,0.0,8
2,0.0,0.0,9


In [11]:
# Ou definir com uma média para não atrapalhar a distribuição da amostragem

df.fillna(value=df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,1.5,5.0,9


In [12]:
# ou se quiser decobrir a média de uma coluna e aplicar ela nos vazios

df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [None]:
# ou preencher com o último valor observável, para serie temporais, para algo como validar o PIB de um país, ou serie de cotações do dia anterior hoje.
df.ffill()

Unnamed: 0,A,B,C
0,1.0,5.0,7
1,2.0,5.0,8
2,2.0,5.0,9


In [3]:
import pandas as pd
data = {'Classe':['Júnior','Júnior','Pleno','Pleno','Sênior','Sênior'],
       'Nome':['Jorge','Carlos','Roberta','Patrícia','Bruno','Vera'],
       'Venda':[200,120,340,124,243,350]}

In [4]:
df = pd.DataFrame(data)

In [5]:
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [None]:
# obter a média de venda por classe 

df.groupby('Classe')['Venda'].mean()

Nome
Bruno       243.0
Carlos      120.0
Jorge       200.0
Patrícia    124.0
Roberta     340.0
Vera        350.0
Name: Venda, dtype: float64

In [15]:
# obter quem vendeu menos
df.groupby('Nome')['Venda'].min()

Nome
Bruno       243
Carlos      120
Jorge       200
Patrícia    124
Roberta     340
Vera        350
Name: Venda, dtype: int64

In [19]:
# saber qual nome vendeu menos, indiferente a classe

df_baguncado = df.groupby('Nome')['Venda'].min()

df_sorted = df_baguncado.sort_values()

nome_menos_vendido = df_sorted.index[0]

nome_menos_vendido

'Carlos'

In [21]:
df2 = df.copy()

In [22]:
df2['Venda'] = [220,150,430,612,689,155]

In [23]:
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [24]:
df2

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,220
1,Júnior,Carlos,150
2,Pleno,Roberta,430
3,Pleno,Patrícia,612
4,Sênior,Bruno,689
5,Sênior,Vera,155


In [25]:
df3 = pd.concat([df, df2])

In [26]:
df3

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350
0,Júnior,Jorge,220
1,Júnior,Carlos,150
2,Pleno,Roberta,430
3,Pleno,Patrícia,612
