# 🎯 Aula 4 - Dados Atípicos: Constantes e Nulos e Duplicados 🎯

Imagine que temos dados de satisfação dos clientes sobre o serviço de consultoria de investimentos.
Os dados foram prenchidos pelos clientes no formulário por email logo após resgatarem seus investimentos.

Ao analisar os dados, você percebeu que o campo `Recomendação` está com dados 80% dos dados em branco.
Além disso, o campo `numero_agencia` está sempre com o mesmo valor `001`.

O que isto poderia significar? Se esses dados fossem usados para analisar, por exemplo, a persona atual dos clientes, qual o impacto desses campos com valores atípicos para a análise? 

Nesses casos de dados atípicos, o que poderíamos fazer? 

## Dados Constantes

### Problemática

Dados constantes em uma coluna (onde todos os valores são iguais) geralmente não agregam valor à análise. Eles não variam e, portanto, não contribuem para a diferenciação ou correlação com outras variáveis.

### Remoção com .drop

Para remover uma coluna de um DataFrame no Python, você pode usar o método `.drop.`
Vamos trazer os dados do titanic e tirar a coluna `Name`:

In [8]:
import pandas as pd

# carregar 
df = pd.read_excel('./data/titanic.xlsx')

# Removendo a coluna constante
df.drop(columns='Name')

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1.0,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1.0,1,female,35.0,1,0,113803,53.1000,C123,S
4,5,0.0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,,3,male,,0,0,A.5. 3236,8.0500,,S
1305,1306,,1,female,39.0,0,0,PC 17758,108.9000,C105,C
1306,1307,,3,male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1307,1308,,3,male,,0,0,359309,8.0500,,S


## Dados Nulos

### Problemática

Dados nulos podem ser problemáticos pois indicam a falta de informação, o que pode afetar a precisão dos modelos e análises. Exemplos de problemas associados são:

- **Distorsão de Estatísticas:** Dados nulos podem levar a cálculos incorretos de medidas estatísticas, como média e desvio padrão.
- **Comprometimento de Modelos:** Em modelos de Machine Learning, dados nulos podem causar erros ou levar a resultados imprecisos.
- **Perda de Informações:** A exclusão de linhas com dados nulos pode resultar na perda de dados valiosos.


### Removendo dados nulos

Uma das possíveis estratégias para tratar os dados nulos é sua completa remoção.

#### Removendo colunas
Quando temos uma coluna com boa parte dos dados nulos, significa que não conseguiríamos tirar insights dessas colunas. Além disso, modelos de machine learning e ferramentas de visualização de dados não precisam utilizar esses dados. Portanto, podemos remover esses dados sem problemas.

In [15]:
# Vamo observar a porcentagem de dados nulos dos dados
df.isna().sum()/df.shape[0]*100

PassengerId     0.000000
Survived       31.932773
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            20.091673
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.076394
Cabin          77.463713
Embarked        0.152788
dtype: float64

In [None]:
# Apagar os dados de Cabin, por ser praticamente vazio nos dados
df.drop(columns='Cabin')

#### Removendo linhas nulas

Às vezes algumas colunas de interese possuem vazios e fazem muita falta para compreensão dos dados.
Por exemplo, no campo `Survived`, que nos diz se os passageiros sobreviveram ou não, não temos 32% dos dados. Podemos neste caso, remover os registros vazios, já que não sabemos se elas são sobre pessoas que sobreviveram ou não.

In [None]:
# Remover registros nulos da coluna `Survived`
df.dropna(subset='Survived')

### Estratégias para preenchimento de dados nulos:

Existem diversas estratégias para preencher dados nulos, entre elas, pode-se citar:

1. **Preenchimento com média, mediana ou moda**
- **Aplicação:** Recomendado para dados contínuos (média, mediana) e categóricos (moda).
- **Prós:**
  - Preserva a forma geral do conjunto de dados.
  - Rápido e eficiente para grandes conjuntos de dados.
- **Contras:**
  - Pode ser enganoso se a distribuição dos dados for assimétrica ou tiver outliers significativos.
  - Não leva em conta a possível correlação entre as variáveis.


In [24]:
# Definir a moda dos dados
embarked_moda = df['Embarked'].mode()

# Inputar dados nulos
df['Embarked'].fillna(embarked_moda)

0       S
1       C
2       S
3       S
4       S
       ..
1304    S
1305    C
1306    S
1307    S
1308    C
Name: Embarked, Length: 1309, dtype: object

2. **Preenchimento com Valores Anteriores ou Posteriores**
- **Aplicação:** Ideal para séries temporais ou dados onde a sequência é importante.
- Prós:
  - Mantém a sequência lógica nos dados, o que é crucial em séries temporais.
- Contras:
  - Pode introduzir viés se houver mudanças abruptas ou tendências nos dados.


In [35]:
import numpy as np

# Series exemplo
lista_base = [0]*4+[1]
minha_series = pd.Series(lista_base*10).cumsum()
minha_series.loc[[11,12,13]] = np.nan

# observar dados faltantes
minha_series[5:15]

# preencher dados faltantes com valores anteriores ou posteriores
minha_series.fillna(method='ffill')[5:15]
minha_series.fillna(method='bfill')[5:15]

5     1.0
6     1.0
7     1.0
8     1.0
9     2.0
10    2.0
11    3.0
12    3.0
13    3.0
14    3.0
dtype: float64

3. **Métodos de Interpolação**
- **Aplicação:** Útil em séries temporais ou quando os dados seguem uma tendência.
- **Prós:**
  - Oferece um método mais sofisticado e adaptativo para estimar valores nulos.
- **Contras:**
  - Pode ser complexo de implementar e entender.


In [40]:
# Series exemplo
lista_base = [0,1]
minha_series = pd.Series(lista_base*50).cumsum()
minha_series.loc[[11,12,13]] = np.nan

# observar dados faltantes
minha_series[5:15]

# preencher com dados interpolados
minha_series.interpolate(method='linear')[5:15]

5     3.0
6     3.0
7     4.0
8     4.0
9     5.0
10    5.0
11    5.5
12    6.0
13    6.5
14    7.0
dtype: float64

## Dados Inputados Errados

### Problemática

Dados inseridos incorretamente podem levar a análises errôneas. Podem ser erros tipográficos, valores fora de escala, entre outros.


### Resolução com .apply

A função .apply do Pandas permite aplicar uma função a cada elemento de uma coluna, o que pode ser usado para corrigir dados errados.

Suponha que uma coluna `Age` tenha um valores negativos, o que é claramente um erro.<br>
Suponha também que idades fracionadas podem ser também arredondadas.

In [42]:
# Função para correção
def corrigir_idade(idade):
    if idade < 0:
        return idade * -1
    else:
        return np.round(idade,0)    

# Aplicando a correção
df['Age'].apply(corrigir_idade)

0       22.0
1       38.0
2       26.0
3       35.0
4       35.0
        ... 
1304     NaN
1305    39.0
1306    38.0
1307     NaN
1308     NaN
Name: Age, Length: 1309, dtype: float64

# Dados Duplicados

Às vezes acontece de termos dados duplicados no dataset, por diversos motivos, mas devemos sempre considerar se esses dados duplicados deveriam ser considerados nas nossas análises ou não.

Para detectarmos dados duplicados, primeiro precisamos entender o que determina um dado ser duplicado? Varia de análise para análise. 

Por exemplo, numa situação em que queiramos contar quantas ocorrências de C0V1D aconteceram num município. Se uma determinada pessoa ficou doente mais de uma vez, seria considerado dado duplicado?

Agora imagine a mesma situação, porém queremos contar quantas pessoas do município ficaram doentes. Seria considerado dado duplicado?

Vamos então verificar no dataset se há algum ID ou Nome igual utilizando `.duplicates` por exemplo:

In [None]:
# procurar duplicados
df[df['Name'].duplicated(keep=False)]

Caso encontremos duplicados e queremos remover, podemos utilizar o método `drop_duplicates` (veja a documentação caso tenha alguma dúvida)

In [None]:
# deletar duplicados
df['Name'].drop_duplicates(keep='last')

# Hands-on

1. Olhando para os dados tente encontrar dados duplicados, por exemplo, no teu caso de dados, faz sentido ter duas pessoas diferentes com a mesma idade, educação, salario, morando no mesmo local? <br> <br> Além disso, o que você poderia considerar com dado duplicado?

2. Olhando para os dados nulos, qual ou quais as colunas que podem ser afetadas por esses tipos de dados? E qual a tua estratégia para tratar esses dados nulos?


## Referências

[Documentação Pandas](https://pandas.pydata.org/docs/)