# Preparação dos Datasets

Aqui trataremos de:

- Selecionar os datasets com os quais trabalharemos

- Limpar dados

- Reduzir a dimensionalidade dos dados para um espaço 2D (se necessário)

- Reduzir a quantidade de rótulos dos nossos datasets para 2 rótulos (se necessário)

## Criação das Funções de Limpeza, Redução e Plotagem

Aqui, vamos criar as funções que usaremos para limpar os dados, reduzir eles para 2 dimensões e plotar eles de acordo com seus rótulos:

### Limpeza

Agora que importamos todos os nossos datasets, vamos criar uma função que faz a limpeza dos dados, que consistirá apenas em:

- Eliminar dados duplicados
- Eliminar dados null/None/NaN
- Tranformar os Dados em um Pandas Dataframe

OBS.: como veremos mais a frente, alguns dos nossos datasets precisarão de mais trabalho para limpeza, essa será apenas uma função de limpeza mais simples.

In [6]:
import pandas as pd

def cleanData(data):
    
    dataframe = pd.DataFrame(data=data.data, columns=data.feature_names)
    dataframe['target'] = data.target

    dataframe = dataframe.dropna()
    dataframe = dataframe.drop_duplicates()

    return dataframe

Usaremos essa função mais a frente.

### Redução de Dimensão

Agora que importamos e limpamos todos os nossos datasets, vamos criar uma função que faz a redução de dimensionalidade dos dados para 2D:

In [7]:
from sklearn.decomposition import PCA

def reduce2DPCA(df):
    # Assuming last column is 'label'
    features = df.iloc[:, :-1]
    labels = df.iloc[:, -1]
    
    pca = PCA(n_components=2)
    reduced_features = pca.fit_transform(features)
    
    reduced_df = pd.DataFrame(reduced_features, columns=['x', 'y'])
    reduced_df['label'] = labels.reset_index(drop=True)
    
    return reduced_df

Usaremos essa função mais a frente.

### Plotagem

Agora que importamos, limpamos e reduzimos para 2D todos os nossos datasets, vamos criar uma função que faz a plota os nossos dados com cores diferentes para cada rótulo para podermos identificar quais são linearmente separáveis dos outros:

In [8]:
import matplotlib.pyplot as plt

def plotData(df, title):

    if not {'x', 'y', 'label'}.issubset(df.columns):
        print("DataFrame must contain 'x', 'y', and 'label' columns.")
        return
    
    plt.figure(figsize=(10, 6))
    
    uniqueLabels = df['label'].unique()
    for label in uniqueLabels:
        subset = df[df['label'] == label]
        plt.scatter(subset['x'], subset['y'], label=label)

    plt.xlabel('x')
    plt.ylabel('y')
    plt.legend()
    plt.title(title)
    plt.show()

Agora vamos usar essa última função para plotar os nossos dados e verificar visualmente quais rotulos são linearmente separáveis.

### Juntando essas funções

Juntando as funções que:

- Faz a limpeza dos dados
- Reduz os dados para 2D
- Plota dos dados

Temos a seguinte função:

In [9]:
def cleanReducePlotData(data, title):
    
    plotData(reduce2DPCA(cleanData(data)), title)

## Seleção dos Datasets

Aqui vamos selecionar e importar os datasets que usaremos para esse trabalho.

Usaremos dados de diferentes fontes para aplicar nosso modelo a diversas situações e ver seu desempenho mediante os diferentes desafios.

Os primeiros datasets que utilizaremos estarão contidos no scikit learn: 

- Iris Plants

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

- Forest Covertypes

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_covtype.html#sklearn.datasets.fetch_covtype

- Wine Recognition

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine

- Optical Recognition of Handwritten Digits

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits

- Diabetes

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes

- Breast Cancer Wisconsin (Diagnostic)

    Para mais informações, acesse:

    https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer

Para variarmos as fontes dos nossos dados, os próximos 2 serão datasets obtidos do kaggle:

- Most Streamed Spotify Songs 2023

    Para mais informações, acesse:

    https://www.kaggle.com/datasets/nelgiriyewithana/top-spotify-songs-2023

- Mobile Price Classification

    Para mais informações, acesse:

    https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification

Por último, usamos as funções make_classification e make_blob do scikit learn para gerarmos 2 datasets aleatórios seguindo certos parâmetros. 

Dado isso, não anexaremos referências a esses datasets, porém sua implementação será visto mais a frente.