<strong><font size = "4" color = "black">Introdução à Ciência de Dados</font></strong><br>
<font size = "3" color = "gray">Prof. Valter Moreno</font><br>
<font size = "3" color = "gray">2022</font><br>  

<hr style="border:0.1px solid gray"> </hr>
<font size = "5" color = "black">Introdução ao Python</font><p>
    <font size = "5" color = "black">Aula 10: Machine Learning com <i>scikit-learn</i></font>
<hr style="border:0.1px solid gray"> </hr>

O pacote *open-source* `scikit-learn` é um dos mais utilizados para a implementação de técnicas de Machine Learning em Python. Ele inclui uma variedade de ferramentas para o preprocessamento de dados e para o treinamento, avaliação e seleção de modelos. Sua documentação oficial é extensa, e inclui diversos tutoriais sobre suas aplicações:

 - [scikit-learn.org](https://scikit-learn.org/stable/index.html)
 - [scikit-learn Tutorials](https://scikit-learn.org/stable/tutorial/index.html)
 
 Mais recursos podem ser encontrados nos seguintes websites:
 
 - [Scikit Learn - Introduction](https://www.tutorialspoint.com/scikit_learn/scikit_learn_introduction.htm)
 - [Python Machine Learning: Scikit-Learn Tutorial](https://www.datacamp.com/community/tutorials/machine-learning-python)
 - [scikit-learn User Guide](https://scikit-learn.org/stable/user_guide.html)

In [1]:
import pandas as pd
import numpy as np

# Definição do número de casas decimais no numpy
np.set_printoptions(precision = 2)

# *Datasets*

O `scikit-learn` inclui bases de dados e métodos para a carga de bases de certas fontes, e para a geração de dados sintéticos. Mais detalhes são fornecidos em [Dataset loading utilities](https://scikit-learn.org/stable/datasets.html). Seguem exemplos.

In [2]:
from sklearn import datasets

Os métodos do tipo `load_` retornam como resultado um objeto do tipo *bunch*, que é um dicionário com chaves para os atributos ou *features* $X$ (*data*), os valores a serem previstos $y$ (*target*), e outras informações sobre o *dataset*.

In [3]:
# Exemplos de bases simples (toy datasets):
iris = datasets.load_iris()
type(iris)

sklearn.utils.Bunch

In [4]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [5]:
iris.get('data')[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [6]:
iris.get('target')[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [7]:
print(iris.get('DESCR'))

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

Os métodos podem também gerar *dataframes* do `pandas`:

In [8]:
iris = datasets.load_iris(as_frame = True)
iris.get('frame').head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [9]:
# Deleção do objeto criado:
del(iris)

Os métodos do tipo `fetch_` carregam bases de dados reais, baixando-as da internet quando necessário.

In [10]:
housing = datasets.fetch_california_housing(as_frame = True)
print(housing.get('DESCR'))

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

In [11]:
housing.get('frame').head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [12]:
del(housing)

O `scikit-learn` inclui métodos para carregar dados de fontes externas, como o repositório [OpenML](https://openml.org). Note que o método inclui um parâmetro (*data_home*) para definir o diretório em que os dados serão guardados. 

In [13]:
marketing = datasets.fetch_openml(data_id = 1461,
                                  target_column = "Class",
                                  as_frame = True)

In [14]:
print(marketing.get('DESCR'))

**Author**: Paulo Cortez, Sérgio Moro
**Source**: [UCI](https://archive.ics.uci.edu/ml/datasets/bank+marketing)
**Please cite**: S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.       

**Bank Marketing**  
The data is related with direct marketing campaigns of a Portuguese banking institution. The marketing campaigns were based on phone calls. Often, more than one contact to the same client was required, in order to access if the product (bank term deposit) would be (or not) subscribed. 

The classification goal is to predict if the client will subscribe a term deposit (variable y).

### Attribute information  
For more information, read [Moro et al., 2011].

Input variables:

- bank client data:

1 - age (numeric) 

2 - job : type of job (categorical

In [15]:
marketing.get('frame').head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,Class
0,58.0,management,married,tertiary,no,2143.0,yes,no,unknown,5.0,may,261.0,1.0,-1.0,0.0,unknown,1
1,44.0,technician,single,secondary,no,29.0,yes,no,unknown,5.0,may,151.0,1.0,-1.0,0.0,unknown,1
2,33.0,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5.0,may,76.0,1.0,-1.0,0.0,unknown,1
3,47.0,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5.0,may,92.0,1.0,-1.0,0.0,unknown,1
4,33.0,unknown,single,unknown,no,1.0,no,no,unknown,5.0,may,198.0,1.0,-1.0,0.0,unknown,1


In [16]:
del(marketing)

# *Pipelines* de *Machine Learning*

Os principais tipos de elemento de *Machine Learning* (ML) implementados no `scikit-learn` são os *estimadores* (*estimators*) e os *preprocessadores* (*pre-processors*). *Preprocessadores* são usados para transformar os dados que serã fornecidos para os algoritmos de ML implementados em *estimadores*. Os dois tipos de elementos podem ser combinados e encadeados em objetos do tipo *pipeline*.

*Preprocessadores* incluem dois métodos básicos: `fit` e `transform`. O método `fit` define a transformação a ser realizada, e o método `transform`, a aplica aos dados.

*Estimadores* incluem os métodos básicos `fit` e `predict`. O primeiro é usado para treinar modelos, e o segundo, para fazer previsões.

Assim como os *estimadores*, *pipelines* também incluem os métodos `fit` e `predict`, que são usados da mesma forma.

## Bases de treinamento e teste

Normalmente, os dados obtidos para gerar modelos de ML devem ser divididos em bases de treinamento e teste. O `scikit-learn` inclui métodos para esse propósito, como `train_test_split`.

In [17]:
X, y = datasets.fetch_california_housing(return_X_y = True)

In [18]:
print(f"Dimensões de X: {X.shape}\nDimensões de y: {y.shape}")

Dimensões de X: (20640, 8)
Dimensões de y: (20640,)


In [19]:
# Geração das bases de treinamento e teste:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size = .25,
                                                    random_state = 42)

In [20]:
print("Bases de treinamento:")
print(f"Dimensões de X: {X_train.shape}\nDimensões de y: {y_train.shape}\n")
print("Bases de teste:")
print(f"Dimensões de X: {X_test.shape}\nDimensões de y: {y_test.shape}\n")

Bases de treinamento:
Dimensões de X: (15480, 8)
Dimensões de y: (15480,)

Bases de teste:
Dimensões de X: (5160, 8)
Dimensões de y: (5160,)



O mesmo método pode ser aplicado a *dataframes* do `pandas`.

In [21]:
dados = datasets.fetch_california_housing(as_frame = True).get('frame')
dados_train, dados_test = train_test_split(dados, test_size = .25)

In [22]:
dados_train.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
14483,8.496,34.0,7.825971,1.05087,1817.0,2.432396,32.82,-117.26,5.00001
13646,1.9234,43.0,4.821023,1.099432,1181.0,3.355114,34.08,-117.31,0.746
5928,6.2456,13.0,6.456897,1.06681,1187.0,2.55819,34.1,-117.8,1.617
13229,8.5282,25.0,7.83105,1.107306,1284.0,2.931507,34.15,-117.66,3.601
18817,1.8839,32.0,11.572519,2.206107,304.0,2.320611,39.66,-120.48,0.71


In [23]:
dados_test.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
18621,4.8,20.0,5.430233,1.104651,229.0,2.662791,37.08,-122.04,2.615
3485,8.1125,16.0,7.399167,1.0325,3468.0,2.89,34.28,-118.55,4.286
15619,3.2356,50.0,3.502809,1.026685,958.0,1.345506,37.8,-122.42,5.00001
14923,5.766,30.0,6.608824,0.980882,1883.0,2.769118,32.64,-117.06,1.861
12706,2.5238,22.0,4.6184,1.056,2607.0,2.0856,38.6,-121.39,1.188


## Validação Cruzada

O fluxo de um processo de ML típico é mostrado na figura abaixo, retirada da documentação do `scikit-learn`.

<img src="https://scikit-learn.org/stable/_images/grid_search_workflow.png" width="500px"></br>
<i>Fonte</i>: https://scikit-learn.org/stable/modules/cross_validation.html

A validação cruzada (*cross validation*) é uma etapa importante da geração de modelos, especialmente para a definição dos *hiperparâmetros* que definem como o algoritmo de ML irá funcionar. Em tais casos, a base de treinamento original é dividida em um ou mais pares de bases de treinamento e validação, as quais são usadas para a calibragem dos hiperparâmetros. Quando $k$ pares de bases de treinamento e validação são criados, o processo é denominado $k$*-fold cross validation*.

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width="500px"></br>
<i>Fonte</i>: https://scikit-learn.org/stable/modules/cross_validation.html

A seguir, implementamos um *5-fold cross validation* para modelos de regressão linear gerados com a base de dados *California Housing*.

In [26]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

# Estimador que define o algoritmo de ML a ser usado:
reg = LinearRegression()

# Geração da métrica de avaliação para os modelos obtidos no k-fold cross validation:
scores = cross_val_score(reg, 
                         dados_train.loc[:, "MedInc":"Longitude"], dados_train.loc[:, "MedHouseVal"], 
                         cv = 5)

Por default, no `scikit-learn`, o desempenho dos modelos de regressão linear é avaliado pela média do erro ao quadrado (*Mean Squared Error*):
<p>
<center>$MSE = \min_{w} || X w - y||_2^2$</center>
</p>

In [27]:
print(f"MSE obtidos: {scores}")

MSE obtidos: [0.2  0.6  0.59 0.63 0.61]


In [32]:
print(f"Média dos MSE: {np.mean(scores):.2f}")
print(f"Desvio padrão dos MSE: {np.std(scores):.2f}")

Média dos MSE: 0.53
Desvio padrão dos MSE: 0.16


O parâmetro *scoring* do método `cross_val_score` é usado para definir outras [métricas de avaliação de modelos](https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter), como a média dos valores absolutos dos percentuais de erro (*Mean Absolute Percentage Error*). 

In [33]:
scores = cross_val_score(reg, 
                         dados_train.loc[:, "MedInc":"Longitude"], dados_train.loc[:, "MedHouseVal"], 
                         cv = 5,
                         scoring = "neg_mean_absolute_percentage_error")

In [36]:
print(f"MAPE obtidos: {scores}")
print(f"Média dos MAPE: {np.mean(scores):.3f}")
print(f"Desvio padrão dos MAPE: {np.std(scores):.3f}")

MAPE obtidos: [-0.33 -0.31 -0.32 -0.32 -0.32]
Média dos MAPE: -0.318
Desvio padrão dos MAPE: 0.004


O método `cross_validate` é mais versátil do que o método `cross_val_score`:

 - ele permite a especificação de mais de uma métrica de avaliação de modelos; e
 - ele retorna um dicionário com mais informações sobre o processo de validação cruzada.

In [42]:
from sklearn.model_selection import cross_validate

scoring = ["neg_mean_squared_error", "neg_mean_absolute_percentage_error"]
scores = cross_validate(reg, 
                        dados_train.loc[:, "MedInc":"Longitude"], dados_train.loc[:, "MedHouseVal"], 
                        cv = 5,
                        scoring = scoring,
                        return_train_score = True,
                        return_estimator = False)

In [43]:
scores

{'fit_time': array([0.01, 0.01, 0.01, 0.01, 0.01]),
 'score_time': array([0., 0., 0., 0., 0.]),
 'test_neg_mean_squared_error': array([-1.03, -0.53, -0.54, -0.5 , -0.54]),
 'train_neg_mean_squared_error': array([-0.52, -0.52, -0.52, -0.53, -0.52]),
 'test_neg_mean_absolute_percentage_error': array([-0.33, -0.31, -0.32, -0.32, -0.32]),
 'train_neg_mean_absolute_percentage_error': array([-0.31, -0.32, -0.32, -0.32, -0.32])}

## Transformação de dados