<a href="https://colab.research.google.com/github/Mads8760/Ciencia-de-dados/blob/main/Ciencia_de_dados_modelagem_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Exercício de Pré-processamento de Dados

**Objetivo:**  
O objetivo deste exercício é criar um dataset sintético, introduzir valores ausentes (NaN) e realizar o pré-processamento dos dados de duas formas: removendo as linhas com valores ausentes e utilizando o `SimpleImputer` para preenchê-los. O dataset deve ser gerado usando o `make_classification` da **scikit-learn**.

### Tarefas:
1. **Criação do Dataset Sintético**:
   - Use o `make_classification` para gerar um dataset com 3 atributos de características e 1 coluna alvo com 3 possíveis classes. Considere um dataset com 100 linhas.
   - Introduza valores ausentes (NaN) aleatoriamente nas colunas de atributos e na coluna alvo (target).
   - Certifique-se de que as colunas de atributos e a coluna alvo contenham valores ausentes.

2. **Pré-processamento do Dataset**:
   - **Remoção de Linhas com NaN**: Utilize o método `dropna()` do pandas para remover as linhas com valores ausentes.
   - **Preenchimento com `SimpleImputer`**: Use o `SimpleImputer` da **scikit-learn** para preencher os valores ausentes. Aplique a imputação usando a **média** para as colunas de atributos numéricos e a **moda** para a coluna alvo.

### Instruções:
- Importe as bibliotecas necessárias para o processo de criação do dataset e para o pré-processamento.
- Faça uso do `make_classification` para criar um dataset com 100 amostras e 3 classes.
- Introduza valores ausentes nas colunas de atributos e na coluna alvo.
- Realize os dois tipos de pré-processamento descritos acima.
- Exiba os resultados antes e depois da remoção de linhas com NaN e do preenchimento com `SimpleImputer`.

In [None]:
#Criação do dataset sintético
#importação da bibliotecas
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_openml, make_classification, make_blobs
from sklearn.preprocessing import (StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder, FunctionTransformer)
from sklearn.impute import SimpleImputer
from scipy.cluster.vq import whiten
import matplotlib.pyplot as plt
import seaborn as sns

#configuração de estilo
sns.set(style="whitegrid")


In [None]:
#criação do dataset
n_features = 3
X,y = make_classification(n_samples=100, n_features=n_features, n_classes=3, n_informative=3, n_redundant=0, n_repeated=0, random_state=42)
df_synthetic = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(1, n_features + 1)])
df_synthetic['target'] = y
#introudção de valores ausentes (NaN) nas colunas de caracteristicas aleatoriamente
nan_indices = np.random.choice(df_synthetic.index, size=int(df_synthetic.shape[0] * 0.1), replace=False)
df_synthetic.loc[nan_indices, 'feature_1'] = np.nan #Adicionando NaN em feature_1

nan_indices = np.random.choice(df_synthetic.index, size=int(df_synthetic.shape[0] * 0.5), replace=False)
df_synthetic.loc[nan_indices, 'feature_2'] = np.nan #Adicionando NaN em feature_2

nan_indices = np.random.choice(df_synthetic.index, size=int(df_synthetic.shape[0] * 0.3), replace=False)
df_synthetic.loc[nan_indices, 'target'] = np.nan #Adicionando NaN em target

#Exibindo as prieiras linhas do DataFrame gerado
df_synthetic

Unnamed: 0,feature_1,feature_2,feature_3,target
0,-0.715750,-0.422006,0.687009,1.0
1,1.461035,,-1.297552,
2,1.186305,-0.480685,0.596490,2.0
3,1.487668,0.350327,0.917712,
4,0.754303,-1.762492,-2.411042,2.0
...,...,...,...,...
95,-0.581225,,1.097611,
96,1.455147,,-1.433561,
97,0.412524,-1.344643,-0.448685,2.0
98,0.909501,0.016836,-0.558033,


In [None]:
#Pré-processamento do dataset. Remoção de linhas com NaN
df_synthetic_dropna = df_synthetic.dropna()
df_synthetic_dropna


Unnamed: 0,feature_1,feature_2,feature_3,target
0,-0.71575,-0.422006,0.687009,1.0
2,1.186305,-0.480685,0.59649,2.0
4,0.754303,-1.762492,-2.411042,2.0
12,-3.875926,0.38663,-1.806973,1.0
26,1.014236,-0.055047,-0.0769,1.0
29,0.003933,0.347153,-0.075247,1.0
34,1.215335,-0.580419,1.190509,2.0
44,-2.826435,1.537266,-0.740383,0.0
46,-0.71827,-0.157521,-0.784705,0.0
50,-0.26372,0.90059,-1.167197,0.0


In [None]:
#Pré-processamento do Dataset - Preencimento com SimpleImputer
imputer = SimpleImputer(strategy='mean')
result_imputer = imputer.fit_transform(df_synthetic)
df_synthetic_imputed = pd.DataFrame(result_imputer, columns=df_synthetic.columns)
print("Tamanho do dataset: ", df_synthetic_imputed.shape)
df_synthetic_imputed.head()

Tamanho do dataset:  (100, 4)


Unnamed: 0,feature_1,feature_2,feature_3,target
0,-0.71575,-0.422006,0.687009,1.0
1,1.461035,-0.266235,-1.297552,1.028571
2,1.186305,-0.480685,0.59649,2.0
3,1.487668,0.350327,0.917712,1.028571
4,0.754303,-1.762492,-2.411042,2.0
