# Aula 6 - Como limpar dados em Data Frames?

Nesta aula vamos continuar aprendendo a usar o [pandas](https://pandas.pydata.org/) para:
- Identificação de valores missings
- Identificação de valores atípicos
- Deletar informações de uma tabela

___
**PROBLEMA 1:**

Imagine que você está trabalhando com um conjunto de dados de vendas de seguros de saúde, porém, ele contém valores faltantes em várias colunas.

Seu objetivo é identificar e lidar com esses valores ausentes para realizar uma análise correta.

O que você deve fazer?

____

**PROBLEMA 2:**

Ao analisar dados de uma pesquisa de valores de plano de saúde, é necessário identificar os valores que fogem muito da média e podem ser considerados valores atípicos.

Como realizamos essa análise?

____

Para começarmos, vamos abrir o conjunto de dados na pasta *datasets* com o título **medical_insurance**.

Esse *dataset* é um conjunto modificado de um famoso *dataset* disponível no link [medical insurance](https://www.kaggle.com/datasets/mirichoi0218/insurance), no site do Kaggle.

In [None]:
import pandas as pd

In [None]:
df_insurance = pd.read_csv('../datasets/Medical_insurance.csv')

In [None]:
#Ver as informações


In [None]:
#Ver as idades


In [None]:
import numpy as np

In [None]:
# Função para substituir 60 por NaN


In [None]:
#Trocar as idades de 60 por Nan


____

## 1. O que são valores *missings* e como tratá-los?

Valores faltantes, também conhecidos como "missing values" ou "NaN" (Not a Number), referem-se à ausência de dados em um conjunto de dados.


Eles podem ocorrer por diversas razões, como erros na coleta de dados, falhas nos sistemas de armazenamento, problemas de integração entre fontes de dados ou simplesmente porque a informação não estava disponível no momento da coleta.

### 1.1. Como identificamos os valores ausentes?

Para identificar um valor faltante, podemos usar alguns métodos de pandas, como por exemplo: ```isna(), notna(), isnull(), notnull()```

As funções **isnull()** e **isna()** verifica se há valores faltantes em um dataframe e retorna um dataframe com booleanos do mesmo tamanho que o original: True se for um valor faltante e False, caso contrário.

In [None]:
#Aplicando a função isnull


In [None]:
#Aplicando a função isna


Podemos ainda aplicá-las para uma coluna específica (age):

#### 1.2. Como lidamos com valores faltantes?

Existem várias estratégias para lidar com valores faltantes, e a escolha de método pode depender do contexto dos dados e da quantidade de valores ausentes:

a. Remoção

b. Preenchimento com valores estatísticos

c. Imputação avançada

#### Remoção de valores faltantes

Uma abordagem simples é eliminar colunas ou linhas que contenham valores faltantes.

Para isso, vamos usar o método ```.dropna()``` do pandas.

**Obs.:** Pode levar a perda de informação relevante.

Basicamente, neste método temos os seguintes argumentos:
* axis: determina se removemos linhas ('axis' = 0) ou colunas ('axis'=1). O **padrão** é linhas ('axis'=0);
* how: Condição para remoção: 'how'='any' - padrão - (remove linhas ou colunas com pelo menos 1 *NaN*) e 'how'= 'all' (remove linhas ou colunas onde todos os valores são *NaN*;
* thresh: Especifica o número mínimo de valores não nulos necessários para manter a linha ou coluna.
* subset: Permite especificar uma lista de colunas para considerar na busca por valores faltantes.
* inplace: Determina se a modificação deve ser feita no DataFrame original. Se True, altera o DataFrame existente; se False (padrão), retorna um novo DataFrame sem alterar o original.

In [None]:
#Vamos remover as linhas com dados faltantes


**Obs.:** Para mexer diretamente no DataFrame, precisamos alterar o **inplace** para ```True```.

#### Preenchimento com valores estatísticos:

Valores faltantes podem ser preenchidos com estatísticas resumidas, como média, mediana ou moda dos dados disponíveis na mesma coluna.

Isso pode ser feito usando o método ```.fillna()``` em Pandas.

o método ```fillna()``` em Pandas é usado para preencher valores faltantes (NaN) em um DataFrame com um valor específico ou estratégia escolhida.

Sua sintaxe é:

```DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)```

* value: Valor escalar, dicionário, série ou DataFrame usado para preencher os valores faltantes. Pode ser um valor único, um dicionário com substituições específicas por coluna, ou uma série/DataFrame correspondente ao índice.
* method: Método para preencher valores faltantes. Alguns métodos disponíveis são:
  * 'ffill' ou 'pad': Preenche os valores faltantes com o último valor válido conhecido para frente.
  * 'bfill' ou 'backfill': Preenche os valores faltantes com o próximo valor válido conhecido para trás.
* axis: Determina se a operação deve ser aplicada ao longo das colunas (axis=1) ou linhas (axis=0).
* inplace: Se True, modifica o DataFrame original; se False (padrão), retorna um novo DataFrame com os valores preenchidos.
* limit: Especifica o número máximo de valores preenchidos consecutivos ao usar method='ffill' ou method='bfill'.
* downcast: Permite reduzir a memória usada para tipos de dados numéricos ao preencher valores (exemplo: downcasting para tipos menores, como float para int).

In [None]:
#Vamos substituir os dados faltantes pela idade que nós retiramos (60)


Se eu quiser saber a quantidade?

E o percentual?

In [None]:
# Preenchendo os valores faltantes com o último valor válido conhecido (forward fill)


E para preencher com a média ou outra medida estatística?

In [None]:
#Preenchendo com o 60


____

## 2. Como identificar valores atípicos?

Valores atípicos ou *Outlier* são dados diferentes dos outros pontos que podem causar problemas em procedimentos estatísticos (mudar uma média).

**Exemplo:** Mudar uma idade e ver a média.

In [None]:
#Imagine o seguinte array


In [None]:
#Imagine o seguinte array


* Solução 1: Ordenar os dados para encontrar outliers;
* Solução 2: Utilizar gráficos: dispersão, boxplot;
* Solução 3: Utilizar IQR para encontrar;
* Solução 4: Utilizar o Z-score.

#Com o boxplot



In [None]:
import matplotlib.pyplot as plt

In [None]:
#Uma coluna específica


# Mostrando o boxplot


## Deletar informações de um DataFrame

Ao trabalhar com dados de uma base de clientes, pode ser necessário remover informações de clientes que não estão mais ativos na empresa.

Vimos como fazemos para remover dados faltantes. Mas, se por acaso, tivermos dados duplicados no dataset. O que fazer?

### **Método duplicated():**

o método ```duplicated()``` em Pandas é utilizado para identificar linhas duplicadas em um DataFrame.

Ele retorna uma série booleana que indica se cada linha é uma duplicata (ou seja, se aparece em uma linha anterior).

**Sintaxe:**

```DataFrame.duplicated(subset=None, keep='first')```

* subset (opcional): Permite especificar uma lista de colunas para verificar duplicatas apenas nessas colunas. Se não for fornecido, a verificação será em todas as colunas.

* keep (opcional): Define como marcar as duplicatas. Pode assumir três valores:
  * 'first' (padrão): Marca como True todas as ocorrências duplicadas, exceto a primeira.
  * 'last': Marca como True todas as ocorrências duplicadas, exceto a última False: Marca todas as ocorrências duplicadas como True.

#Como ver isso como um DF?

Como deletar os dados duplicados?