# Preprocessamento

- df.shape
- df.info()
- df.describe()

## Feature Scaling

##### Mais sensíveis:  
Otimização:
- Regressão Linear
- Regressao Logística
- Redes Neurais

Distância:
- SVM
- KNN
- K-means

##### Menos sensíveis:  
- Arvore de Decisão
- Randon Forest
  
2. Tipos
    - Normalization
    - Standardization

## Dimension Reduction

# Estrutura de um Modelo de Machine Learning

<img src="https://cdn-images-1.medium.com/max/1000/1*ZiYvylk60EY2XG7ck1lqJA.png" width=500>

- **Conjunto de dados de treino**: são os dados utilizados para a construção do modelo, os dados que o modelo utilizará "para aprender";


- **Conjunto de dados de validação**: conjunto de dados usados para testar o modelo e aprimorar a sua performance, seja na seleção de hyperparâmetros/seleção de modelo;


- **Treinamento do modelo**: é a etapa em que cálculos matemáticos são feitos para que a equação que descreve o modelo seja criada! É assim que "o modelo aprende!";


- **Seleção de hiperparâmetros/seleção de modelo**: etapa em que os hiperperâmetros que constituem o modelo são selecionados. Aqui, técnicas como **grid search** e **cross validation** são muito importantes! Falaremos disso mais tarde.


- **Conjunto de dados de teste**: conjunto de dados utilizado para testar o modelo após ele ter sido treinado. Essa é a melhor forma de simular o modelo em produção ou podemos dizer "na vida real", onde o nosso modelo será testado com dados que ele nunca viu;


- **Avaliação**: forma de avaliar a performance do modelo. Há várias métricas e formas diferentes de avaliação, que conheceremos melhor mais tarde.

## Split Train Test

```python
from sklearn.model_selection import train_test_split

X = df.drop(columns=target)
y = df.target
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=42,
                                                    stratify=y)
```

## Métricas de Avaliação

```python
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))
```

<img src="https://static.packt-cdn.com/products/9781838555078/graphics/C13314_06_05.jpg" width=400>

Visto isso, as seguintes métricas numéricas de avaliação são bastante comuns na avaliação de modelos de classificação:

- Acurácia (Accuracy): porcentagem de classificações CORRETAS do modelo;

- Precisão (Precision): das respostas retornadas, quantas são relevantes? -- é a razão entre verdadeiros positivos e o  número de **preditos positivos**, isto é, positivos quanto à **label predita pelo modelo**.

- Revocação/Sensibilidade (Recall/Sensitivity): das respostas relevantes, quantas são retornadas? -- é a razão entre verdadeiros positivos e o  número de **verdadeiramente positivos**, isto é, positivos quanto à **label real**.

- F1-Score: média harmônica de precision e recall.

<img src="https://miro.medium.com/max/1080/1*t1vf-ofJrJqtmam0KSn3EQ.png" height="400" width="400">

# Supervisionados

## Modelos de Classificação

### Regressão Logística

- Utilizado quando a clasificação é binária
- Se apoia na probabilidade de uma função signoide e um threshold

```python
from sklearn.linear_model import LogisticRegression
reg = LogisticRegression()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)
```

##### - Hiperparâmetros

 - Penalty
 - Max_iter
 - C
 - Solver

### Decision Tree

```python
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(random_state=42,
                             max_depth=n) # A profundidade da árvore evita overfiting
dtc.get_params() # Apresentar como o modelo está parametrizado
dtc.fit(X_train, y_train)
y_pred = dtc.predict(X_test)
```

##### - Hiperparâmetros

 - Criterion
 - Max_depht
 - Min_samples_split
 - Min_samples_leaf
 - Max_features

#### **- Critério de Gini ou Entropia**

##### **- Critério de Gini**

A **impureza de Gini** mede o quão "impuras" são as folhas das árvores construídas após as quebras nos nós. O coeficiente é dado por:

$$Gini(D) = 1 - \sum{p_{i}^2}$$

Onde $p_i$ são as proporções de separação do target em cada quebra.

- $G(\text{p1}) = 1 - (\frac{p1_1}{p1_t}^2 + \frac{p1_2}{p1_t}^2)$

    <br>
- $G(\text{p2}) = 1 - ( \frac{p2_1}{p2_t}^2 + \frac{p2_2}{p2_t}^2)$

Ou seja, após a divisão, a impureza total passa a ser a média ponderada: 

- $G(\text{médio-pós-divisão}) = \frac{p1}{p_t} \times G(\text{p1}) + \frac{p2}{p_t} \times G(\text{p2})$

Assim, **a perda de impureza proporcionada pela quebra** dos dados segundo a feature **sexo** é de:

- $\Delta G_{\text{sexo}} = G(\text{pré-divisão}) - G(\text{pós-divisão})$



O **critério de Gini** consiste em **escolher a quebra que proporciona a maior perda de impureza**, ou, equivalentemente, **a maior purificação**. Portanto, quanto maior, melhor.

##### **- Critério de entropia**

A **entropia** é uma quantidade definida em física e teoria da informação com o objetivo de quantificar **o grau de desordem de um sistema**, ou, equivalentemente, **o quanto de informação se tem sobre determinado sistema**.

A entropia é dada por:

 $$E = -\sum{p_{i} \times \log_{2}{p_{i}}}$$
 
 
Onde $p_i$ são as proporções de separação do target em cada quebra.

Aqui estaremos interessados **em como a impureza muda após as quebras**. 
 
Aqui também estaremos interessados **em como a entropia muda após as quebras**. Nosso objetivo será **maximizar o ganho de informação proporcionado pela quebra nos nós** -- mais precisamente, estamos interessados em determinar **qual é a quebra que proporciona o maior ganho de informação**.

- **Entropia antes da divisão**: 

    - $E(\text{p1}) = -1 \times (\frac{p1_1}{p1_t} \log_{2}\frac{p1_1}{p1_t} + \frac{p1_2}{p1_t} \log_{2}\frac{p1_2}{p1_t})$

        <br>
    - $E(\text{p2}) = -1 \times (\frac{p2_1}{p2_t} \log_{2}\frac{p2_1}{p2_t} + \frac{p2_2}{p2_t} \log_{2}\frac{p2_2}{p2_t})$
    
    A entropia ponderada após a divisão por **sexo** é:
    
    <br>
    
    - $E(\text{pós-divisão}) = \frac{p1}{p_t} \times E(\text{p1}) + \frac{p2}{p_t} \times E(\text{p2})$
    
    Assim, o ganho de informação após a divisão por **sexo** é:
    
    <br>
    
    - $\Delta E_{\text{sexo}} = E(\text{pré-divisão}) - E(\text{pós-divisão})$


**Qual escolher?**
- Calcular log é mais caro computacionalmente
- A "vantagem" logaritmica é justamente quando o valor percorre uma gama grande de valores

### Decision Tree Regression

# Data Visualization

## Pair Plot

Função para comparar feature por feature e buscar as correlações da base

**O parâmetro "hue" é o discretizador da curva, ou seja, o seu target**

Dessa forma, é bom buscar o formato da distribuição da feature com ela mesma. Se as curvas do hue forem muito diferentes, podem trazer algum insight

- sns.pairplot(df, hue=label)

## CountPlot

- sns.countplot(feature, normalize=True)