### Análise Exploratória de Dados (EDA) - Parte 2

#### -> Identificação de valores nulos e outliers
Identificar e tratar valores nulos e outliers nos ajuda a garantir integridade dos dados e aumentar a precisão das análises e modelagens. 

- `Valores Nulos`: Refere-se a entradas ausentes em um conjunto de dados. Valores nulos podem ocorrer devido a falhas na coleta de dados ou por motivos específicos relacionados ao contexto.

- `Outliers`: São valores que se desviam significativamente do restante dos dados. A presença de outliers pode indicar variabilidade natural nos dados, erros de medição ou eventos raros. Identificá-los é essencial, pois podem influenciar indevidamente as análises estatísticas e os modelos preditivos.

----------------------

#### Conferindo valores nulos com `isna()`

Muitos datasets têm valores nulos ou ausentes, que prejudicam a análise dos dados. Devemos garantir que esses dados sejam preenchidos. <br>
O método `isna()` verifica a presença de valores nulos no DataFrame:


In [None]:
df.isna()  # aparece True para os valores nulos

df.isna().sum()   # somatória de todos os 'Trues' para cada coluna

#### Tratando valores nulos com `fillna()`

Para tratar valores nulos, há diferentes estratégias para cada caso. <br>
- Uma estratégia é substituir os valores faltantes pela média da coluna.<br>
Ex: coluna idade tem valores nulos. Calculo a média separadamente e substituo os valores nulos pela média. 


In [None]:
# calculando a média
idade_media = int(df['Age'].mean())

# substituindo os valores nulos
df.loc[:, 'Age'] = df['Age'].fillna(idade_media)

#### Excluindo valores nulos com `dropna()`
Outra estratégia abordada para tratar valores nulos seria a exclusão dos mesmos. <br>
Podemos excluir tanto colunas inteiras que têm valores nulos, quanto as linhas que têm valores nulos

In [None]:
# removendo linhas com valores nulos
df_sem_nulos = df.dropna()

# Removendo linhas onde a coluna 'Idade' tem valores nulos
df_sem_nulos_idade = df.dropna(subset=['Idade'])

# Removendo linhas onde a coluna 'Idade' tem valores nulos, diretamente no próprio DataFrame
df.dropna(subset=['Idade'], inplace=True)


# nos dois exemplos acima, estamos criando novos datasets sem os valores nulos
# já no terceiro exemplo, estamos modificando o próprio dataframe com o método 'inplace=True'

In [None]:
# removendo colunas com valores nulos
df_sem_colunas_nulas = df.dropna(axis=1) 

# remover uma colunas específica sem criar um novo dataset
df.drop(columns=['Nome_Coluna'], inplace=True)