# Tratamento de Dados em Falta

### O que são dados em falta?

Os dados em falta, também chamados de valores nulos, representam a ausência de informação numa determinada entrada de um conjunto de dados. Estas ausências podem ocorrer por vários motivos, como erros durante a recolha de dados, campos não aplicáveis a certas observações, ou até limitações técnicas no sistema utilizado para armazenar os dados.

Por exemplo, num sistema de registo hospitalar, pode acontecer que informações como "idade" ou "pressão arterial" estejam em falta porque não foram recolhidas no momento da consulta ou porque não são relevantes para todos os pacientes.

### Por que motivo devemos tratar os dados em falta?

A presença de dados em falta pode prejudicar gravemente a análise de dados e a criação de modelos preditivos. Muitos algoritmos de machine learning e métodos estatísticos não conseguem lidar adequadamente com valores ausentes, o que pode comprometer a precisão dos resultados ou, em alguns casos, impedir a execução da análise.

Além disso, a ausência de dados pode distorcer a análise ao criar interpretações erradas de padrões ou correlações. Assim, o tratamento adequado dos dados em falta é essencial para garantir que os resultados sejam fiáveis e representem correctamente a realidade do fenómeno em estudo.


### Célula 1: Instalação das Bibliotecas

Se necessário, instale as bibliotecas pandas e numpy
Esta célula é útil se estiveres a correr o notebook num ambiente onde estas bibliotecas não estejam instaladas.
Podes descomentar a linha abaixo para fazer a instalação diretamente no Jupyter Notebook.




In [None]:
# !pip install pandas numpy

In [21]:
# Importar as bibliotecas pandas e numpy. Pandas é utilizado para manipulação e análise de dados, enquanto Numpy é útil para operações com arrays e cálculos numéricos.

import pandas as pd
import numpy as np


In [19]:
# # Carregar conjunto de dados do link GitHub
dataset = pd.read_csv("https://raw.githubusercontent.com/DSAI-For-Moz/guia-pratico-machine-learning/refs/heads/main/datasets/pre-processamento/Titanic-Dataset.csv")

# Eliminamos a coluna PassengerID por nao ter um valor intrínseco na interpretação dos dados (apenas ID para o SGDB)
dataset.drop(["PassengerId"], axis='columns', inplace=True)

# Percentagem de valores nulos por coluna
null_percentage = (dataset.isnull().sum() / len(dataset)) * 100
print(null_percentage)


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.865320
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Cabin       77.104377
Embarked     0.224467
dtype: float64


Podemos observar que as colunas **Age, Cabin e Embarked** tem valores nulos em uma percentagem de **20%, 77% e 2%** respectivamente

No passo a seguir, iremos aplicar algumas técnicas de tratamento de valores nulos, tendo em conta o valor intrínseco dos dados.


### Técnicas de Tratamento

Existem diversas técnicas para lidar com valores nulos, e a escolha da melhor abordagem depende do contexto específico do problema e do tipo de análise que será realizada

## **1. Exclusão de Observações:**
 

In [3]:
df = dataset.copy()
df.shape

(891, 11)

**Exclusão completa**: Remover todas as linhas que contenham pelo menos um valor nulo. Essa técnica é simples, mas pode levar à perda de muitas informações, especialmente se os dados nulos estiverem distribuídos aleatoriamente.

Para a feature **Embarked** observamos uma taxa de valores nulos relativamente baixa. Assim sendo, opta-se por eliminar observações cujo valor esteja ausente:

In [4]:
df = df.dropna(subset=["Embarked"], axis=0)

print("Percentagem de valores nulos apos eliminar registros nulos na coluna Embarked: ")
(df.isnull().sum()/len(df))*100

Percentagem de valores nulos apos eliminar registros nulos na coluna Embarked: 


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Cabin       77.277840
Embarked     0.000000
dtype: float64

**Exclusão por coluna**: Remove as colunas que contenham muitos valores nulos. Essa técnica é útil quando uma coluna tem um número muito grande de valores ausentes, tornando-a pouco informativa.

Em situações em que a quantidade de valores nulos seja relativamente alta em relação ao número total de observações, optou-se por eliminar a coluna. 

Neste caso não optamos por imputar valores representativos como a média ou mediana. Pois ao eliminar a coluna evitamos atribuir em grande escala,  valores equivocados ao modelo, e consequentemente afetar a sua precisão.


In [5]:
df.drop( ["Cabin"], axis='columns', inplace=True) 

print("Formato do dataset apos eliminar a coluna Cabin: ")
print(df.shape)

(df.isnull().sum()/len(df))*100

Formato do dataset apos eliminar a coluna Cabin: 
(889, 10)


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

## **2. Imputação de Valores:**
Esta abordagem permite preencher valores ausentes em um conjunto de dados 


In [6]:
df2 = df.copy()
(df2.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64


**Imputação por média, mediana ou moda**: 
**Média**: Útil em dados simétricos, mas pode ser afetada por outliers.<br>
**Mediana**: Melhor para dados assimétricos, pois é menos sensível a outliers.<br>
**Moda**: Ideal para dados categóricos, substituindo valores nulos pela categoria mais frequente.
 


Alterne em cada método abaixo: remove o '#' <br> 

In [7]:
# Imputação por mediana para a coluna 'Age'
df2['Age'].fillna(df['Age'].median(), inplace=True)

# Imputação por média para a coluna 'Age'
#df2['Age'].fillna(df['Age'].mean(), inplace=True)

# Imputação por moda para a coluna 'Age'
#df2['Age'].fillna(df['Age'].mode()[0], inplace=True)

print ("Coluna Age após imputar por média/mediana/moda: ")
print((df2.isnull().sum()/len(df))*100)

print("\nDataFrame após imputação por média/mediana/moda:")
df2.sample(10) 


Coluna Age após imputar por média/mediana/moda: 
Survived    0.0
Pclass      0.0
Name        0.0
Sex         0.0
Age         0.0
SibSp       0.0
Parch       0.0
Ticket      0.0
Fare        0.0
Embarked    0.0
dtype: float64

DataFrame após imputação por média/mediana/moda:


Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
173,0,3,"Sivola, Mr. Antti Wilhelm",male,21.0,0,0,STON/O 2. 3101280,7.925,S
355,0,3,"Vanden Steen, Mr. Leo Peter",male,28.0,0,0,345783,9.5,S
170,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,S
64,0,1,"Stewart, Mr. Albert A",male,28.0,0,0,PC 17605,27.7208,C
128,1,3,"Peter, Miss. Anna",female,28.0,1,1,2668,22.3583,C
307,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9,C
394,1,3,"Sandstrom, Mrs. Hjalmar (Agnes Charlotta Bengt...",female,24.0,0,2,PP 9549,16.7,S
804,1,3,"Hedman, Mr. Oskar Arvid",male,27.0,0,0,347089,6.975,S
385,0,2,"Davies, Mr. Charles Henry",male,18.0,0,0,S.O.C. 14879,73.5,S
408,0,3,"Birkeland, Mr. Hans Martin Monsen",male,21.0,0,0,312992,7.775,S


**Imputação por valor constante**: Substitui os valores nulos por um valor constante pré-definido, como zero. Essa técnica é útil quando se sabe que o valor nulo representa uma categoria específica.

In [8]:
df3 = df.copy()
(df3.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

**Imputação por KNN (k-Nearest Neighbors)**: Busca os k vizinhos mais próximos de uma observação com valor nulo e utiliza a média ou mediana desses vizinhos para imputar o valor ausente. <br> <br>
Esta técnica considera a similaridade entre as observações. Ao calcular a média ou mediana dos vizinhos mais próximos, pode capturar padrões locais nos dados, tornando-a uma abordagem eficaz em muitos cenários. 
Essa técnica é útil quando os dados são numéricos e existe uma relação entre as variáveis.

In [38]:
df5 = df.copy()
(df5.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

In [44]:
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)
df5[['Age']] = imputer.fit_transform(df5[['Age']])

(df5.isnull().sum()/len(df))*100

Survived    0.0
Pclass      0.0
Name        0.0
Sex         0.0
Age         0.0
SibSp       0.0
Parch       0.0
Ticket      0.0
Fare        0.0
Embarked    0.0
dtype: float64

**Resumo:**

A escolha da melhor técnica de tratamento dos valores ausentes em um conjunto de dados, depende bastante do propósito dos dados, seja para uma análise e relatório ou para alimentar um modelo de aprendizado de máquina 

A decisão sobre qual técnica utilizar para lidar com valores ausentes em um conjunto de dados é crucial e depende fortemente do contexto e do objetivo da análise. Cada técnica possui suas vantagens e desvantagens, e a escolha inadequada pode comprometer a qualidade dos resultados.

**1. Exclusão de Dados:**
**Quando usar:** Quando o número de dados faltantes é pequeno e não compromete significativamente a representatividade do conjunto de dados. <br> **Vantagens:** Simples e direta. <br> **Desvantagens:** Pode levar à perda de informações importantes, especialmente se os dados faltantes não forem aleatórios.

**2. Imputação:**
**Quando usar:** Quando a quantidade de dados faltantes é moderada a alta.

**2.1. Tipos de imputação:**
**Média, mediana ou moda:** Simples, mas pode introduzir viés se os dados não forem distribuídos normalmente. <br> **Imputação por uma constante:** Útil para variáveis categóricas ou quando se deseja destacar a ausência de informação. <br> **Métodos de aprendizado de máquina:** Utilizam algoritmos para prever os valores faltantes com base nas demais variáveis.

Este notebook foi feito com ❤️ por Pinto Armando. 

🎯 **Quer acompanhar o meu trabalho e ficar por dentro das novidades em ciência de dados?**  
Siga-me no [LinkedIn](https://www.linkedin.com/in/pinto-armando-macuacua/).