# Disciplina de Mineração de Dados

## Introdução aos Pandas

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

---

### Valores ausentes - Forma geral

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [None]:
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(thresh=2)

In [None]:
df.fillna(value='Conteúdo')

In [None]:
df['A'].fillna(value=df['A'].mean())

### Valores ausentes - Ambiente controlado

A primeira coisa que devemos saber quando lidaremos com um conjunto de dados novos é: qual a quantidade e a proporção dos _missing values_ (dados ausentes)?

Para identificar valores ausentes, por colunas, podemos:

- Utilizar a função: **df.describe()** para retornar um resumo estatístico das variáveis numéricas;
- Utilizar a função: **df.info()** para dar um resumo de valores não-nulos encontrados;
- Utilizar a função: **df.isnull().sum()** para retornar a soma dos valores nulos encontrados.

Usando essa última opção, veremos as 10 colunas com mais valores ausentes para esse dataset.

Usaremos o dataset disponível em [Brasilian houses to rent](https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent), que possui dados com imóveis para alugar no Brasil.

In [None]:
df = pd.read_csv('houses_to_rent_v2.csv')

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.isnull().sum()

### Valores ausentes - Exluindo valores ausentes

Esta é uma decisão mais radical, e deve ser feita apenas em casos os quais não haverão impactos significativos ao modelo. Ao eliminar uma linha inteira, você joga fora um monte de informação que poderia ser extremamente importante.

Para fazer isso, utilize a função **df.dropna()**. Esse método é direto e remove os valores **NaN** encontrados no DataFrame.

Por padrão, se o eixo não for informado, serão eliminadas todas as linhas relativas à celula contendo o valor ausente (df.dropna(axis=0)).

Caso deseje eliminar uma coluna inteira onde existam **NaN**, deve-se informar explicitamente com **df.dropna(axis=1)**.

In [None]:
df.loc[df['rent amount (R$)'].isna()]

In [None]:
shape_anterior = df.shape
print(f'Shape anterior: {shape_anterior}')

df.dropna(subset=['city'], inplace=True)
print(f'Shape atual: {df.shape}')

In [None]:
df.columns

### Valores ausentes - Preenchendo com valores

Esta abordagem é a mais utilizada, pois as informações úteis não seram removidas do _dataset_. Uma dúvida que pode surgir é: **qual valor utilizar para prencher os dados ausentes?**

Existem técnicas avançadas que são combinadas com o preenchimento de valores como, por exemplo, analisar as correlações ou mesmo construir um modelo preditivo para informar os valores ausentes.

Entretanto, uma abordagem direta e simples consiste em substituir os **NaN** pela mediana da coluna. Isso é feito mediante o método **df.fillna()**, informando o valor desejado como argumento.

In [None]:
df = pd.read_csv('houses_to_rent_v2.csv')

median = df['rent amount (R$)'].median()
df.fillna(median, inplace=True)

df.isnull().sum()

In [None]:
df = pd.read_csv('houses_to_rent_v2.csv')

median = df['rent amount (R$)'].median()
print(f'A mediana é de R$: {median}')
df['rent amount (R$)'].fillna(median, inplace=True)

df.isnull().sum()

In [None]:
df.loc[df['rent amount (R$)'].isna()]

In [None]:
df.iloc[4]

### Valores ausentes - Preenchendo com o valor mais frequente

Anteriormente, para preencher os valores ausentes usamos a mediana da coluna. Entretanto, caso a variável fosse categórica (e não numérica), poderíamos verificar qual o valor mais frequente e usar ele no preenchimento.

Para identificar o valor mais frequente, basta usar o método **value_counts()**, extrair o maior valor e informar ele como argumento de **fillna()**.

In [None]:
df = pd.read_csv('houses_to_rent_v2.csv')

In [None]:
df['rent amount (R$)'].value_counts().index[0]

In [None]:
valor_frequente = df['rent amount (R$)'].value_counts().index[0]
print(f'O valor mais frequente é: R$ {valor_frequente}')

df['rent amount (R$)'].fillna(valor_frequente, inplace=True)

In [None]:
df.iloc[4]