# Tratamento de Dados em Falta

### O que s√£o dados em falta?

Os dados em falta, tamb√©m chamados de valores nulos, representam a aus√™ncia de informa√ß√£o numa determinada entrada de um conjunto de dados. Estas aus√™ncias podem ocorrer por v√°rios motivos, como erros durante a recolha de dados, campos n√£o aplic√°veis a certas observa√ß√µes, ou at√© limita√ß√µes t√©cnicas no sistema utilizado para armazenar os dados.

Por exemplo, num sistema de registo hospitalar, pode acontecer que informa√ß√µes como "idade" ou "press√£o arterial" estejam em falta porque n√£o foram recolhidas no momento da consulta ou porque n√£o s√£o relevantes para todos os pacientes.

### Por que motivo devemos tratar os dados em falta?

A presen√ßa de dados em falta pode prejudicar gravemente a an√°lise de dados e a cria√ß√£o de modelos preditivos. Muitos algoritmos de machine learning e m√©todos estat√≠sticos n√£o conseguem lidar adequadamente com valores ausentes, o que pode comprometer a precis√£o dos resultados ou, em alguns casos, impedir a execu√ß√£o da an√°lise.

Al√©m disso, a aus√™ncia de dados pode distorcer a an√°lise ao criar interpreta√ß√µes erradas de padr√µes ou correla√ß√µes. Assim, o tratamento adequado dos dados em falta √© essencial para garantir que os resultados sejam fi√°veis e representem correctamente a realidade do fen√≥meno em estudo.


### C√©lula 1: Instala√ß√£o das Bibliotecas

Se necess√°rio, instale as bibliotecas pandas e numpy
Esta c√©lula √© √∫til se estiveres a correr o notebook num ambiente onde estas bibliotecas n√£o estejam instaladas.
Podes descomentar a linha abaixo para fazer a instala√ß√£o diretamente no Jupyter Notebook.




In [None]:
# !pip install pandas numpy

In [21]:
# Importar as bibliotecas pandas e numpy. Pandas √© utilizado para manipula√ß√£o e an√°lise de dados, enquanto Numpy √© √∫til para opera√ß√µes com arrays e c√°lculos num√©ricos.

import pandas as pd
import numpy as np


In [19]:
# # Carregar conjunto de dados do link GitHub
dataset = pd.read_csv("https://raw.githubusercontent.com/DSAI-For-Moz/guia-pratico-machine-learning/refs/heads/main/datasets/pre-processamento/Titanic-Dataset.csv")

# Eliminamos a coluna PassengerID por nao ter um valor intr√≠nseco na interpreta√ß√£o dos dados (apenas ID para o SGDB)
dataset.drop(["PassengerId"], axis='columns', inplace=True)

# Percentagem de valores nulos por coluna
null_percentage = (dataset.isnull().sum() / len(dataset)) * 100
print(null_percentage)


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.865320
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Cabin       77.104377
Embarked     0.224467
dtype: float64


Podemos observar que as colunas **Age, Cabin e Embarked** tem valores nulos em uma percentagem de **20%, 77% e 2%** respectivamente

No passo a seguir, iremos aplicar algumas t√©cnicas de tratamento de valores nulos, tendo em conta o valor intr√≠nseco dos dados.


### T√©cnicas de Tratamento

Existem diversas t√©cnicas para lidar com valores nulos, e a escolha da melhor abordagem depende do contexto espec√≠fico do problema e do tipo de an√°lise que ser√° realizada

## **1. Exclus√£o de Observa√ß√µes:**
 

In [3]:
df = dataset.copy()
df.shape

(891, 11)

**Exclus√£o completa**: Remover todas as linhas que contenham pelo menos um valor nulo. Essa t√©cnica √© simples, mas pode levar √† perda de muitas informa√ß√µes, especialmente se os dados nulos estiverem distribu√≠dos aleatoriamente.

Para a feature **Embarked** observamos uma taxa de valores nulos relativamente baixa. Assim sendo, opta-se por eliminar observa√ß√µes cujo valor esteja ausente:

In [4]:
df = df.dropna(subset=["Embarked"], axis=0)

print("Percentagem de valores nulos apos eliminar registros nulos na coluna Embarked: ")
(df.isnull().sum()/len(df))*100

Percentagem de valores nulos apos eliminar registros nulos na coluna Embarked: 


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Cabin       77.277840
Embarked     0.000000
dtype: float64

**Exclus√£o por coluna**: Remove as colunas que contenham muitos valores nulos. Essa t√©cnica √© √∫til quando uma coluna tem um n√∫mero muito grande de valores ausentes, tornando-a pouco informativa.

Em situa√ß√µes em que a quantidade de valores nulos seja relativamente alta em rela√ß√£o ao n√∫mero total de observa√ß√µes, optou-se por eliminar a coluna. 

Neste caso n√£o optamos por imputar valores representativos como a m√©dia ou mediana. Pois ao eliminar a coluna evitamos atribuir em grande escala,  valores equivocados ao modelo, e consequentemente afetar a sua precis√£o.


In [5]:
df.drop( ["Cabin"], axis='columns', inplace=True) 

print("Formato do dataset apos eliminar a coluna Cabin: ")
print(df.shape)

(df.isnull().sum()/len(df))*100

Formato do dataset apos eliminar a coluna Cabin: 
(889, 10)


Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

## **2. Imputa√ß√£o de Valores:**
Esta abordagem permite preencher valores ausentes em um conjunto de dados 


In [6]:
df2 = df.copy()
(df2.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64


**Imputa√ß√£o por m√©dia, mediana ou moda**: 
**M√©dia**: √ötil em dados sim√©tricos, mas pode ser afetada por outliers.<br>
**Mediana**: Melhor para dados assim√©tricos, pois √© menos sens√≠vel a outliers.<br>
**Moda**: Ideal para dados categ√≥ricos, substituindo valores nulos pela categoria mais frequente.
 


Alterne em cada m√©todo abaixo: remove o '#' <br> 

In [7]:
# Imputa√ß√£o por mediana para a coluna 'Age'
df2['Age'].fillna(df['Age'].median(), inplace=True)

# Imputa√ß√£o por m√©dia para a coluna 'Age'
#df2['Age'].fillna(df['Age'].mean(), inplace=True)

# Imputa√ß√£o por moda para a coluna 'Age'
#df2['Age'].fillna(df['Age'].mode()[0], inplace=True)

print ("Coluna Age ap√≥s imputar por m√©dia/mediana/moda: ")
print((df2.isnull().sum()/len(df))*100)

print("\nDataFrame ap√≥s imputa√ß√£o por m√©dia/mediana/moda:")
df2.sample(10) 


Coluna Age ap√≥s imputar por m√©dia/mediana/moda: 
Survived    0.0
Pclass      0.0
Name        0.0
Sex         0.0
Age         0.0
SibSp       0.0
Parch       0.0
Ticket      0.0
Fare        0.0
Embarked    0.0
dtype: float64

DataFrame ap√≥s imputa√ß√£o por m√©dia/mediana/moda:


Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
173,0,3,"Sivola, Mr. Antti Wilhelm",male,21.0,0,0,STON/O 2. 3101280,7.925,S
355,0,3,"Vanden Steen, Mr. Leo Peter",male,28.0,0,0,345783,9.5,S
170,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,S
64,0,1,"Stewart, Mr. Albert A",male,28.0,0,0,PC 17605,27.7208,C
128,1,3,"Peter, Miss. Anna",female,28.0,1,1,2668,22.3583,C
307,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9,C
394,1,3,"Sandstrom, Mrs. Hjalmar (Agnes Charlotta Bengt...",female,24.0,0,2,PP 9549,16.7,S
804,1,3,"Hedman, Mr. Oskar Arvid",male,27.0,0,0,347089,6.975,S
385,0,2,"Davies, Mr. Charles Henry",male,18.0,0,0,S.O.C. 14879,73.5,S
408,0,3,"Birkeland, Mr. Hans Martin Monsen",male,21.0,0,0,312992,7.775,S


**Imputa√ß√£o por valor constante**: Substitui os valores nulos por um valor constante pr√©-definido, como zero. Essa t√©cnica √© √∫til quando se sabe que o valor nulo representa uma categoria espec√≠fica.

In [8]:
df3 = df.copy()
(df3.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

**Imputa√ß√£o por KNN (k-Nearest Neighbors)**: Busca os k vizinhos mais pr√≥ximos de uma observa√ß√£o com valor nulo e utiliza a m√©dia ou mediana desses vizinhos para imputar o valor ausente. <br> <br>
Esta t√©cnica considera a similaridade entre as observa√ß√µes. Ao calcular a m√©dia ou mediana dos vizinhos mais pr√≥ximos, pode capturar padr√µes locais nos dados, tornando-a uma abordagem eficaz em muitos cen√°rios. 
Essa t√©cnica √© √∫til quando os dados s√£o num√©ricos e existe uma rela√ß√£o entre as vari√°veis.

In [38]:
df5 = df.copy()
(df5.isnull().sum()/len(df))*100

Survived     0.000000
Pclass       0.000000
Name         0.000000
Sex          0.000000
Age         19.910011
SibSp        0.000000
Parch        0.000000
Ticket       0.000000
Fare         0.000000
Embarked     0.000000
dtype: float64

In [44]:
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)
df5[['Age']] = imputer.fit_transform(df5[['Age']])

(df5.isnull().sum()/len(df))*100

Survived    0.0
Pclass      0.0
Name        0.0
Sex         0.0
Age         0.0
SibSp       0.0
Parch       0.0
Ticket      0.0
Fare        0.0
Embarked    0.0
dtype: float64

**Resumo:**

A escolha da melhor t√©cnica de tratamento dos valores ausentes em um conjunto de dados, depende bastante do prop√≥sito dos dados, seja para uma an√°lise e relat√≥rio ou para alimentar um modelo de aprendizado de m√°quina 

A decis√£o sobre qual t√©cnica utilizar para lidar com valores ausentes em um conjunto de dados √© crucial e depende fortemente do contexto e do objetivo da an√°lise. Cada t√©cnica possui suas vantagens e desvantagens, e a escolha inadequada pode comprometer a qualidade dos resultados.

**1. Exclus√£o de Dados:**
**Quando usar:** Quando o n√∫mero de dados faltantes √© pequeno e n√£o compromete significativamente a representatividade do conjunto de dados. <br> **Vantagens:** Simples e direta. <br> **Desvantagens:** Pode levar √† perda de informa√ß√µes importantes, especialmente se os dados faltantes n√£o forem aleat√≥rios.

**2. Imputa√ß√£o:**
**Quando usar:** Quando a quantidade de dados faltantes √© moderada a alta.

**2.1. Tipos de imputa√ß√£o:**
**M√©dia, mediana ou moda:** Simples, mas pode introduzir vi√©s se os dados n√£o forem distribu√≠dos normalmente. <br> **Imputa√ß√£o por uma constante:** √ötil para vari√°veis categ√≥ricas ou quando se deseja destacar a aus√™ncia de informa√ß√£o. <br> **M√©todos de aprendizado de m√°quina:** Utilizam algoritmos para prever os valores faltantes com base nas demais vari√°veis.

Este notebook foi feito com ‚ù§Ô∏è por Pinto Armando. 

üéØ **Quer acompanhar o meu trabalho e ficar por dentro das novidades em ci√™ncia de dados?**  
Siga-me no [LinkedIn](https://www.linkedin.com/in/pinto-armando-macuacua/).