# Etapas Básicas de um Projeto de Machine Learning

Um projeto de Machine Learning pode ser dividido em três etapas principais:

1. **Dados (*)**: 
   - Coleta de dados relevantes para o problema.
   - Pré-processamento: limpeza de dados, tratamento de valores faltantes, normalização ou padronização, e divisão em conjuntos de treino e teste.
   - Feature engineering: criar novas variáveis ou transformar as existentes para melhorar o desempenho do modelo.
     
    **Essa etapa é a mais importante!!!**

2. **Modelos**:
   - Escolha de um algoritmo adequado: o tipo de problema (**classificação**, **regressão**, etc.) define a escolha do modelo.
   - Treinamento: ajustar o modelo aos dados de treino para que ele aprenda padrões nos dados.
   - Ajuste de hiperparâmetros: afinar parâmetros do modelo para melhorar seu desempenho.
     

3. **Avaliação (Eval)**:
   - Avaliar o desempenho do modelo em dados de teste.
   - Métricas de avaliação: acurácia, precisão, recall, F1-score, AUC-ROC (para classificação), ou erro quadrático médio (para regressão).
   - Validação cruzada e técnicas de otimização: garantir que o modelo generalize bem e evite overfitting.


## Dados

### Dataset Iris

Um dataset comum para **classificação** é o Iris Dataset, onde o objetivo é classificar espécies de flores com base em medidas de comprimento e largura de sépalas e pétalas.


In [1]:
# Importando bibliotecas
import seaborn as sns
import pandas as pd

# Carregando o dataset Iris
iris = sns.load_dataset('iris')

ModuleNotFoundError: No module named 'seaborn'

In [None]:
# Exibindo as primeiras linhas do dataset
iris.head()

In [None]:
iris.describe() # função do Pandas

In [None]:
iris["species"].value_counts()

In [None]:
# Plotando um gráfico de dispersão para visualização das classes
sns.pairplot(iris, hue="species")

### Dataset California Housing

Este dataset foi derivado do Censo de 1990 da Califórnia e contém os seguintes atributos preditores:

- MedInc: Renda mediana dos residentes do bairro.
- HouseAge: Idade média das casas no bairro.
- AveRooms: Número médio de quartos por domicílio.
- AveBedrms: Número médio de quartos por domicílio.
- Population: População do bairro.
- AveOccup: Número médio de residentes por domicílio.
- Latitude: Latitude do bairro.
- Longitude: Longitude do bairro.

A variável alvo é o valor médio das casas em milhares de dólares, representado como MedHouseVal (em milhares de dólares).

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np

# Carregando o dataset
california_housing = fetch_california_housing(as_frame=True)
df = california_housing.frame

In [None]:
# Exibindo as primeiras linhas do dataset
df.head()

In [None]:
import matplotlib.pyplot as plt

# Visualizando a distribuição do preço médio das casas
plt.figure(figsize=(10, 6))
plt.hist(df['MedHouseVal'], bins=30, color='blue', alpha=0.7)
plt.title('Distribuição dos preços das casas')
plt.xlabel('MedHouseVal')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Exemplo: Calcular a média e o desvio padrão da coluna 'MedInc' (renda média)
medinc = df['MedInc'].values  # Obter a coluna como array NumPy

mean_medinc = np.mean(medinc)  # Média da renda média
std_medinc = np.std(medinc)    # Desvio padrão da renda média

print(f"Média da renda média: {mean_medinc}")
print(f"Desvio padrão da renda média: {std_medinc}")


In [None]:
df['MedInc'] + df['MedInc']

## Bibliotecas Basicas

Para trabalhar com dados em Python, utilizamos as seguintes bibliotecas:

1. **pandas**:
   - **Descrição**: Pandas é uma biblioteca poderosa para análise e manipulação de dados, oferecendo estruturas de dados como DataFrames, que facilitam o processamento e a análise de grandes volumes de dados.
   - **Uso**: Utilizada para carregar e exibir datasets tabulares, como no caso do Iris Dataset e do California Housing Dataset.


2. **matplotlib**:
   - **Descrição**: Matplotlib é uma biblioteca popular para criar visualizações 2D, como gráficos de linhas, dispersão, histogramas, entre outros. É uma ferramenta fundamental para visualizações personalizadas.
   - **Uso**: Utilizada para criar gráficos como histogramas para explorar a distribuição de variáveis (por exemplo, no California Housing Dataset).


3. **seaborn**:
   - **Descrição**: Seaborn é uma biblioteca baseada no matplotlib que facilita a criação de gráficos estatísticos bonitos e informativos. Oferece uma interface simples para visualizações de dados.
   - **Uso**: Utilizada para visualizar dados com gráficos, como o `pairplot` para explorar relações entre variáveis no Iris Dataset.


4. **NumPy**
- **Descrição**: NumPy (Numerical Python) é uma biblioteca essencial para computação científica em Python, fornecendo suporte para arrays multidimensionais, além de funções matemáticas, lógicas e transformações. É amplamente utilizada para manipulação eficiente de grandes conjuntos de dados numéricos e cálculos complexos, como álgebra linear, transformadas de Fourier e geração de números aleatórios.

- **Uso**: Utilizada para realizar operações matriciais, cálculos vetorizados e manipulação de dados numéricos em aplicações de aprendizado de máquina, como no pré-processamento de dados ou cálculos de otimização.

5. **scikit-learn**:
   - **Descrição**: Falaremos sobre ela no futuro.

## Problemas Clássicos no Processamento de Dados e Soluções com Python

Em projetos de Machine Learning, o processamento de dados é uma etapa crítica. Abaixo estão alguns problemas comuns encontrados durante essa fase e como resolvê-los utilizando ferramentas do Python.

1. **Dados Faltantes**:
   - **Descrição**: Dados ausentes (missing values) podem comprometer a análise e a precisão dos modelos.
   - **Solução**: Podemos substituir os valores ausentes com `fillna()` ou remover linhas/colunas incompletas com `dropna()` do **pandas**.

In [None]:
df["novo"] = np.nan
df

In [None]:
df.fillna(0)  # Substitui valores faltantes pela média da coluna

In [None]:
df.dropna()  # Remove linhas com valores faltantes

2. **Dados Duplicados**:
   - **Descrição**: Dados duplicados podem distorcer as conclusões e enviesar os resultados.
   - **Solução**: Usar o método `drop_duplicates()` do **pandas** para remover duplicatas.

In [None]:
df = df.drop_duplicates()  # Remove duplicatas

3. **Outliers**:
   - **Descrição**: Outliers são valores extremos que não seguem o padrão do resto dos dados e podem impactar negativamente a performance do modelo.
   - **Solução**: Detectar outliers com o método do intervalo interquartil (IQR) e removê-los ou limitar os valores com `clip()` do **pandas**.

In [None]:
Q1 = df.quantile(0.05)
Q3 = df.quantile(0.95)
IQR = Q3 - Q1
df_outliers_removed = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]

In [None]:
df_outliers_removed.shape, df.shape

4. **Escalonamento de Variáveis**:
   - **Descrição**: Variáveis com diferentes escalas podem prejudicar algoritmos que dependem da distância entre valores, como KNN e Regressão Linear.
   - **Solução**: Normalizar ou padronizar as variáveis usando `MinMaxScaler()` ou `StandardScaler()` da biblioteca **scikit-learn**.

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = MinMaxScaler()  # Normalização entre 0 e 1
df_scaled = scaler.fit_transform(df)

scaler_standard = StandardScaler()  # Padronização (média 0, desvio padrão 1)
df_standardized = scaler_standard.fit_transform(df)


5. **Colinearidade**:
   - **Descrição**: Variáveis altamente correlacionadas podem fornecer informações redundantes e atrapalhar o desempenho de alguns modelos.
   - **Solução**: Calcular a matriz de correlação com o **pandas** e remover ou transformar variáveis colineares.

In [None]:
correlation_matrix = df.drop(columns=["Longitude", "Latitude"]).corr()
sns.heatmap(correlation_matrix, annot=True)  # Exibe a matriz de correlação


6. **Dados Desbalanceados**:
   - **Descrição**: Em problemas de classificação, classes desbalanceadas podem levar o modelo a favorecer a classe majoritária, ignorando a minoritária.
   - **Solução**: Usar métricas de avaliação como **F1-score**, **recall**, **precision** e **AUC-ROC**, que são menos sensíveis ao desbalanceamento do que a simples acurácia. (falaremos mais sobre isso no futuro)

7. **Formatação Inconsistente**:
   - **Descrição**: Dados vindos de diferentes fontes podem ter formatação inconsistente, como diferentes formatos de datas ou capitalização variada.
   - **Solução**: Padronizar formatação com métodos como `pd.to_datetime()` para datas e `str.lower()` para strings no **pandas**.

In [None]:
df = pd.DataFrame({
    'Nome': ['Alice', 'bob', 'Carlos'],
    'Data_Venda': ['2023/10/01', '01-10-2023', '10/01/2023']
})
df

In [None]:
from datetime import datetime

def parse_date(date_str):
    for fmt in ('%Y/%m/%d', '%d-%m-%Y', '%m/%d/%Y', '%Y.%m.%d'):
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            continue
    return pd.NaT  # Retorna NaT caso nenhum formato funcione

# Padronizar a capitalização dos nomes (tudo minúsculo)
df['Nome'] = df['Nome'].str.lower()

# Aplicar a função para padronizar as datas
df['Data_Venda'] = df['Data_Venda'].apply(parse_date)

df

9. **Transformação de Dados Categóricos**:
   - **Descrição**: Variáveis categóricas não podem ser diretamente utilizadas por muitos algoritmos de aprendizado de máquina.
   - **Solução**: Converter variáveis categóricas em variáveis numéricas usando **pandas** `get_dummies()` ou `LabelEncoder()` da **scikit-learn**.

In [None]:
# Exemplo de DataFrame simples com uma variável categórica
df = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carlos', 'Diana'],
    'Cor_Favorita': ['Vermelho', 'Azul', 'Verde', 'Azul']
})
df

In [None]:
# Converter a variável categórica 'Cor_Favorita' em variáveis dummy (one-hot encoding)
df_dummies = pd.get_dummies(df, columns=['Cor_Favorita'])

print(df_dummies)