# Preparação dos Dados (Data Prep)
### Missing Values ou Dados Faltantes
#### O Pandas tem uma série de métodos para lidar com esses problemas em DataFrames

In [1]:
import pandas as pd

In [None]:
df1 = pd.DataFrame(
    {
        "aluno": ["João", "Maria", "Helena", "Joel", "Gabriel"],
        "idade": [30, 25, 18, 29, 45]
    }
)
df1

In [5]:
df2 = pd.DataFrame(
    {
        "nome": ['Joel', 'Gabriel'],
        'altura': [1.60, 1.73]
    }
)

df2

Unnamed: 0,nome,altura
0,Joel,1.6
1,Gabriel,1.73


In [15]:
df_merge = pd.merge(
        df1,
        df2,
        how = 'left',
        left_on = 'aluno',
        right_on = 'nome'
    ).drop('nome', axis = 'columns')

In [18]:
df_merge

Unnamed: 0,aluno,idade,altura
0,João,30,
1,Maria,25,
2,Helena,18,
3,Joel,29,1.6
4,Gabriel,45,1.73


In [23]:
df_merge.isnull().sum()

Unnamed: 0,0
aluno,0
idade,0
altura,3


In [28]:
df_merge.isna().sum()

Unnamed: 0,0
aluno,0
idade,0
altura,3


In [32]:
# Opção mais drástica e menos recomendada
# Apagar a coluna com dados faltantes ou apagar as linhas com dados faltantes


df_merge.dropna()

Unnamed: 0,aluno,idade,altura
3,Joel,29,1.6
4,Gabriel,45,1.73


In [35]:
df_merge.dropna(axis = 'columns')

Unnamed: 0,aluno,idade
0,João,30
1,Maria,25
2,Helena,18
3,Joel,29
4,Gabriel,45


In [62]:
# Uma forma mais sofisticada é substituri os dados faltantes por um valor fixo
df_merge = df_merge.fillna(0)

Unnamed: 0,aluno,idade,altura
0,João,30,1.665
1,Maria,25,1.665
2,Helena,18,1.665
3,Joel,29,1.6
4,Gabriel,45,1.73


In [58]:
# preenchendo Missing Values com medidas estatísticas
df_merge['altura'].mena()
df_merge['altura'].median()
df_merge['altura'].max()
df_merge['altura'].min()
df_merge['altura'].mode()

1.665

In [64]:
df_merge.fillna(df_merge['altura'].mean())

Unnamed: 0,aluno,idade,altura
0,João,30,1.665
1,Maria,25,1.665
2,Helena,18,1.665
3,Joel,29,1.6
4,Gabriel,45,1.73
