## Desafio - Utilizando Pipeline para concatenar modelos de Machine Learning

<b>Modelo preditivo de classificação para prever o valor de uma variável binária (true ou false) a partir de dados numéricos.</b><br>
Esse é um desafio da Data Science Academy do curso Big Data Real-Time Analytics com Python e Spark. 
O objetivo do desafio é pesquisar e aplicar a função de Pipeline do Scikit-learn para concatenar transformações e estimadores nos dados.

A primeira e segunda etapa do desafio já havia sido realizada pela Data Science Academy, e foram passadas algumas instruções para as etapas seguintes.

### ETAPA 1
Importação dos módulos a serem utilizados no desafio.

In [1]:
# Import dos módulos
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings("ignore")

### ETAPA 2
Criação dos dados de treino e de teste para o problema de classificação.

In [2]:
# Dados de treino
n_train = 10
np.random.seed(0)
df_treino = pd.DataFrame({"var1": np.random.random(n_train), \
                          "var2": np.random.random(n_train), \
                          "var3": np.random.random(n_train), \
                          "var4": np.random.randint(0,2,n_train).astype(bool),\
                          "target": np.random.randint(0,2,n_train).astype(bool)})

In [3]:
# Dados de teste
n_test = 3
np.random.seed(1)
df_teste = pd.DataFrame({"var1": np.random.random(n_test), \
                         "var2": np.random.random(n_test), \
                         "var3": np.random.random(n_test), \
                         "var4": np.random.randint(0,2,n_test).astype(bool),\
                         "target": np.random.randint(0,2,n_test).astype(bool)})

### DESAFIO

Antes de começar efetivamente a resolução das etapas seguintes, imprimi os dados criados anteriormente para visualizar o formato do dataframe e a distribuição dos dados.

In [15]:
df_treino

Unnamed: 0,var1,var2,var3,var4,target
0,0.548814,0.791725,0.978618,True,True
1,0.715189,0.528895,0.799159,False,True
2,0.602763,0.568045,0.461479,True,False
3,0.544883,0.925597,0.780529,False,False
4,0.423655,0.071036,0.118274,True,False
5,0.645894,0.087129,0.639921,False,True
6,0.437587,0.020218,0.143353,False,True
7,0.891773,0.83262,0.944669,False,False
8,0.963663,0.778157,0.521848,False,True
9,0.383442,0.870012,0.414662,False,False


In [16]:
df_teste

Unnamed: 0,var1,var2,var3,var4,target
0,0.417022,0.302333,0.18626,False,True
1,0.720324,0.146756,0.345561,False,False
2,0.000114,0.092339,0.396767,False,False


### ETAPA 3
#### Crie um modelo com PCA para redução de dimensionalidade com 3 componentes

É importante ressaltar nesse momento que a aplicação do PCA e do Pipeline aqui têm caráter didático apenas. Como temos poucas variáveis (colunas) no dataset, não seria necessário aplicar o PCA.

O PCA (Principal Component Analysis) é um método para redução de dimensionalidade. Esse método é usado quando temos um dataset com um número muito grande de variáveis e que pode ocasionar problemas como overfitting, ou necessitar de um poder computacional bastante alto. <br>
Esse método reduz a quantidade de variáveis no dataset sem que informações importantes presentes nessas variáveis sejam perdidas. Em resumo, essa técnica é baseada em aprendizagem não supervisionada, na qual o algoritmo faz uma busca por padrões entre as variáveis e constroi os componentes principais por meio de eixos ortogonais em direções que maximizam a variância. <br>

Antes de construir o modelo de redução de dimensionalidade, é importante que os dados originais sejam separados em variáveis preditoras e variável target.

In [5]:
# Separando a variável target das demais
# Dados de treino
df_treino_data = df_treino.iloc[:, 0:4]
df_treino_target = df_treino.iloc[:, 4]

# Dados de teste
df_teste_data = df_teste.iloc[:, 0:4]
df_teste_target = df_teste.iloc[:, 4]

A construção do modelo do PCA é praticamente igual à construção de demais modelos de Machine Learning, abstraindo os parâmetros específicos de cada um.

In [6]:
# Construindo o modelo
pca = PCA(n_components = 3)

In [7]:
# Treinando o modelo
pca.fit(df_treino_data)

PCA(n_components=3)

### ETAPA 4
#### Aplique o PCA aos datasets e crie dataframes do pandas com os resultados

In [8]:
# Aplicando o modelo nos datasets e criando os dataframes
df_treino_pca = pd.DataFrame(pca.transform(df_treino_data))
df_teste_pca = pd.DataFrame(pca.transform(df_teste_data))

### ETAPA 5
#### Crie um modelo de regressão logística

In [10]:
# Criando o modelo
modelo_rl = LogisticRegression()

### ETAPA 6
#### Usando o recurso de pipeline do scikit-learn para encadear 2 algoritmos em um mesmo modelo, concatene o resultado do PCA e Regressão Logística

In [11]:
# Construindo o pipeline
pipe = Pipeline([('PCA', pca), ('LogisticRegression', modelo_rl)])

In [12]:
# Treinando o modelo
pipe.fit(df_treino_data, df_treino_target)

Pipeline(steps=[('PCA', PCA(n_components=3)),
                ('LogisticRegression', LogisticRegression())])

### ETAPA 7
#### Faça previsões com o modelo treinado

In [13]:
# Fazendo previsões
pipe.predict(df_teste_data)

array([ True,  True,  True])

In [17]:
# Avaliando o score do modelo
# Com o método score, o modelo aplica todas as transformações e apresenta a % dos resultados com o estimador final.
print(f"Score final: {round((pipe.score(df_teste_data, df_teste_target))*100, 3)}%")

Score final: 33.333%


Para finalizar, o intuito desse desafio foi entender e aplicar o Pipeline com dois algoritmos, um para transformação (nesse caso para Feature Extraction) e outro para implementar um modelo de classificação. <br>
Por isso, o score final do modelo não é interessante, e nem significativo, uma vez que esse exemplo foi realizado para fins didáticos.