# **Data Cleaning**

## **1. Introdução**

Recentemente, houve um aumento no número de desabamentos de edifícios em Lagos e nas principais cidades da Nigéria. A Olusola Insurance Company oferece uma apólice de seguro de edifícios que protege os edifícios contra danos que podem ser causados ​​por incêndio ou vandalismo, por inundação ou tempestade.

Como Cientista de Dados temos como objectivo construir um modelo preditivo para determinar se um edifício terá uma reivindicação de seguro durante um determinado período ou não.

O modelo será baseado nas características do edifício. A variável alvo, Reivindicação, é:

- 1 se o edifício tiver pelo menos uma reivindicação durante o período segurado.
- 0 se o edifício não tiver uma reivindicação durante o período segurado.

Ver mais sobre os dados Zindi: <a herf="https://zindi.africa/competitions/insurance-prediction-challenge">Insurance Prediction Challenge</a>

_____________________________________________________

**O processo de data cleaning (limpeza de dados) é fundamental para garantir a qualidade dos dados antes de treinar um modelo de machine learning, Neste notebook executaremos o basico de limpeza de dados**

* Garbage in, garbage out, lembre sempre.

## **2. Importar modulos e Dados**

- Neste passo, importamos as bibliotecas necessárias para manipular e analisar os dados. 
- Certifique-se de que todas as bibliotecas estão instaladas no seu ambiente Python.


Caso não tenha as bibliotecas instaladas, remova o comentário `#` da célula abaixo e execute para instalar:


In [4]:
# !pip install pandas
# !pip install warnings

In [19]:
import pandas as pd # Para ler dados e estrutura em dataframe
import warnings # Para parar os warnings, não influiencia no treino

warnings.filterwarnings('ignore')

In [21]:
# Carregar os dados de treino
data = pd.read_csv('https://raw.githubusercontent.com/DSAI-For-Moz/guia-pratico-machine-learning/main/datasets/pre-processamento/train_data_2.csv')

# Descrição dos dados
variable_description = pd.read_csv('https://raw.githubusercontent.com/DSAI-For-Moz/guia-pratico-machine-learning/refs/heads/main/datasets/pre-processamento/VariableDescription.csv')


In [23]:
# Informações dos dados
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7160 entries, 0 to 7159
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Customer Id         7160 non-null   object 
 1   YearOfObservation   7160 non-null   int64  
 2   Insured_Period      7160 non-null   float64
 3   Residential         7160 non-null   int64  
 4   Building_Painted    7160 non-null   object 
 5   Building_Fenced     7160 non-null   object 
 6   Garden              7153 non-null   object 
 7   Settlement          7160 non-null   object 
 8   Building Dimension  7054 non-null   float64
 9   Building_Type       7160 non-null   int64  
 10  Date_of_Occupancy   6652 non-null   float64
 11  NumberOfWindows     7160 non-null   object 
 12  Geo_Code            7058 non-null   object 
 13  Claim               7160 non-null   int64  
dtypes: float64(3), int64(4), object(7)
memory usage: 783.3+ KB


In [None]:
# Imprir a descrição dos dados
variable_description

Unnamed: 0,Variable,Description
0,Customer Id,Identification number for the Policy holder
1,YearOfObservation,year of observation for the insured policy
2,Insured_Period,duration of insurance policy in Olusola Insura...
3,Residential,is the building a residential building or not
4,Building_Painted,"is the building painted or not (N-Painted, V-N..."
5,Building_Fenced,"is the building fence or not (N-Fenced, V-Not ..."
6,Garden,building has garden or not (V-has garden; O-no...
7,Settlement,Area where the building is located. (R- rural ...
8,Building Dimension,Size of the insured building in m2
9,Building_Type,"The type of building (Type 1, 2, 3, 4)"


In [None]:
# Resumo dos dados
data.head()

Unnamed: 0,Customer Id,YearOfObservation,Insured_Period,Residential,Building_Painted,Building_Fenced,Garden,Settlement,Building Dimension,Building_Type,Date_of_Occupancy,NumberOfWindows,Geo_Code,Claim
0,H14663,2013,1.0,0,N,V,V,U,290.0,1,1960.0,.,1053,0
1,H2037,2015,1.0,0,V,N,O,R,490.0,1,1850.0,4,1053,0
2,H3802,2014,1.0,0,N,V,V,U,595.0,1,1960.0,.,1053,0
3,H3834,2013,1.0,0,V,V,V,U,2840.0,1,1960.0,.,1053,0
4,H5053,2014,1.0,0,V,N,O,R,680.0,1,1800.0,3,1053,0


*A primeira análise dos dados mostra que o dataset tem 7.160 registros e 14 colunas, com alguns valores ausentes e tipos de dados misturados. Vamos aplicar data cleaning passo a passo, explicando cada etapa:*

## **3. Dados Ausentes**

**Verificar dados ausentes**

In [None]:
# Verificar dados ausentes
data.isnull().sum()

Customer Id             0
YearOfObservation       0
Insured_Period          0
Residential             0
Building_Painted        0
Building_Fenced         0
Garden                  7
Settlement              0
Building Dimension    106
Building_Type           0
Date_of_Occupancy     508
NumberOfWindows         0
Geo_Code              102
Claim                   0
dtype: int64

**Colunas com valores ausentes:**

- Garden;
- Building Dimension;
- Date_of_Occupancy;
- Geo_Code;

Opções?

1. **Remover linhas ou colunas:** Se houver muitas entradas faltantes em uma coluna ou linha, pode ser apropriado remover essas linhas ou colunas.

    **Pró:** Fácil de implementar, garante que apenas dados completos sejam utilizados.

    **Contra:** Perda de informações, especialmente se houver muitos dados ausentes.

2. **Substituir valores ausentes:** Preencher valores ausentes com a média, mediana, moda ou usar técnicas mais avançadas, como interpolação ou imputação por modelos, mas por enqunato seguiremos com o básico.

    **Pró:** Mantém o máximo de dados possível.

    **Contra:** Pode introduzir viés, especialmente se os valores imputados não forem representativos.

In [None]:
# Preencher o campo 'Garden' ausente com o moda (valor mais frequente)
data['Garden'].fillna(data['Garden'].mode()[0], inplace=True)

# Preencher 'Building Dimension' e 'Date_of_Occupancy' ausentes com a mediana
data['Building Dimension'].fillna(data['Building Dimension'].median(), inplace=True)
data['Date_of_Occupancy'].fillna(data['Date_of_Occupancy'].median(), inplace=True)

# Descartar linhas com 'Geo_Code' ausente
data.dropna(subset=['Geo_Code'], inplace=True)

In [None]:
# Verificar novamente
data.isnull().sum()

Customer Id           0
YearOfObservation     0
Insured_Period        0
Residential           0
Building_Painted      0
Building_Fenced       0
Garden                0
Settlement            0
Building Dimension    0
Building_Type         0
Date_of_Occupancy     0
NumberOfWindows       0
Geo_Code              0
Claim                 0
dtype: int64

Podemos confirmar que estamos sem valores ausentes

## **4. Tratamento de Valores Inválidos**

1. **Erros de digitação ou inconsistências:** Detectar e corrigir valores que fogem do padrão ou que foram introduzidos erroneamente.

2. **Valores fora do intervalo esperado (outliers):** Detectar valores que estão muito além do intervalo esperado. Dependendo da situação.



A coluna **NumberOfWindows** contém um ponto (.) e >=10 em alguns registros, o que indica valores inválidos, e edificios com mais de 10 janelas, como referece a número de janelas de um edificio, vamos colocar moda para subustituir os pontos e no outro caso manteremos o 10.

Prós e contras:
- **Pró:** Mantém o dado para treinamento.
- **Contra:** Pode não ser uma boa representação se o valor original era muito diferente.

In [None]:
# Substituiremos o '.' por NaN e então preencheremos com o valor mais frequente
data['NumberOfWindows'] = data['NumberOfWindows'].replace(r'\.', pd.NA, regex=True)
data['NumberOfWindows'] = data['NumberOfWindows'].replace(r'>=10',10, regex=True)
data['NumberOfWindows'].fillna(data['NumberOfWindows'].mode()[0], inplace=True)

## **3.3. Verificação de Duplicatas**

Verificar se existem registros duplicados, já que duplicatas podem distorcer o treinamento.

In [None]:
# Eliminado o Customer ID pois não há representatividade, cada id é unico
data = data.drop('Customer Id', axis=1)

# Identificar duplicatas
duplicated_rows = data[data.duplicated()]

# Exibir duplicatas (Não temos)
print(len(duplicated_rows))


8


Temos 8 registros duplicados

In [None]:
# Remover duplicatas, mantendo a primeira ocorrência
data_cleaned = data.drop_duplicates(keep='first')

In [None]:
# Salvando os dados para utilizar nos modelos
data_cleaned.to_csv('data-science-nigeria-2019-challenge-1-insurance-prediction/data_cleaned.csv', index=False)

*"Em algum lugar, algo incrível está esperando para ser descoberto."* - Carl Sagan

TEM MAIS 🚀🚀

Ver mais: <a herf="decision_tree.ipynb">Decision Tree</a> <br>
Ver mais: <a herf="decision_tree.ipynb">Supporte Vector Machine</a>

by Do Rosário, Euclides