# **Modelos Preditivos e Séries Temporais**
Exercitar os seguintes conceitos trabalhados no Módulo:
- Análise exploratória de dados (EDA - Exploratory Data Analysis).
- Comparação e treinamento de modelos de classificação.

**Enunciado**

Neste desafio, serão abordados conceitos apresentados durante a disciplina Modelos
Preditivos e Séries Temporais (MPT). Será utilizado o dataset “Banknote authetication”,
disponível no UCI Machine Learning Repository
(https://archive.ics.uci.edu/ml/datasets/banknote+authentication).
Este dataset consiste de atributos contínuos (variance, skewness, curtosis e entropy)
extraídos de imagens de cédulas reais e falsificadas através de uma etapa de
processamento de sinais (transformação de Wavelet), além da indicação se o exemplo é
de uma cédula genuína (class = 0) ou falsificada (class = 1).


**3. Divida o dataset utilizando a função train_test_split, conforme:**

- a. Conjunto de treino (70%);
- b. Conjunto de teste (30%);
- c. random_state=1.


**4. Utilize a variável “class” como saída e as demais como entrada dos modelos.**

**5. Para implementação dos algoritmos, utilize as seguintes definições (do sklearn):**
- a. Algoritmo KNN:
clf_KNN = KNeighborsClassifier(n_neighbors=5)
- b. Algoritmo Árvore de Decisão (Decision Tree):
clf_arvore = DecisionTreeClassifier(random_state=1)
- c. Algoritmo Floresta Aleatória (Random Forest):
clf_floresta = RandomForestClassifier(max_depth=8, random_state=1)
- d. Algoritmo SVM:
clf_svm = SVC(gamma='auto',kernel='rbf', random_state=1)
- e. Algoritmo Rede MLP:
clf_mlp = MLPClassifier(hidden_layer_sizes=(2,),
 solver='lbfgs',
random_state=1)




# 1. Acessar o ambiente Google Colaboratory (recomendado) ou qualquer ambiente de desenvolvimento em Python.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#  Carregar o dataset https://pycourse.s3.amazonaws.com/banknote_authentication.txt para análise utilizando o pandas. Exemplo:

In [2]:
df = pd.read_csv('https://pycourse.s3.amazonaws.com/banknote_authentication.txt', header=None, names=['variance', 'skewness', 'curtosis', 'entropy', 'class'])

In [3]:
# Amostra do dataframe
df.head()

Unnamed: 0,variance,skewness,curtosis,entropy,class
0,3.6216,8.6661,-2.8073,-0.44699,0
1,4.5459,8.1674,-2.4586,-1.4621,0
2,3.866,-2.6383,1.9242,0.10645,0
3,3.4566,9.5228,-4.0112,-3.5944,0
4,0.32924,-4.4552,4.5718,-0.9888,0


In [4]:
# Dimensões (linhas x colunas) do dataframe
df.shape

(1372, 5)

In [5]:
# Estatísticas básicas das variáveis numéricas do dataframe
df.describe()

Unnamed: 0,variance,skewness,curtosis,entropy,class
count,1372.0,1372.0,1372.0,1372.0,1372.0
mean,0.433735,1.922353,1.397627,-1.191657,0.444606
std,2.842763,5.869047,4.31003,2.101013,0.497103
min,-7.0421,-13.7731,-5.2861,-8.5482,0.0
25%,-1.773,-1.7082,-1.574975,-2.41345,0.0
50%,0.49618,2.31965,0.61663,-0.58665,0.0
75%,2.821475,6.814625,3.17925,0.39481,1.0
max,6.8248,12.9516,17.9274,2.4495,1.0


# Utilize a variável “class” como saída e as demais como entrada dos modelos.

In [6]:
X = df.iloc[:, :-1].values
y = df.iloc[:, 4].values

Divida o dataset utilizando a função train_test_split, conforme:

a. Conjunto de treino (70%);

b. Conjunto de teste (30%);

 c. random_state=1.

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# Para implementação dos algoritmos, utilize as seguintes definições (do sklearn):

a. Algoritmo KNN:

In [19]:
from sklearn.neighbors import KNeighborsClassifier
clf_KNN = KNeighborsClassifier(n_neighbors=5)

b. Algoritmo Árvore de Decisão (Decision Tree):

In [20]:
from sklearn.tree import DecisionTreeClassifier
clf_arvore = DecisionTreeClassifier(random_state=1)

c. Algoritmo Floresta Aleatória (Random Forest):

In [21]:
from sklearn.ensemble import RandomForestClassifier
clf_floresta = RandomForestClassifier(max_depth=8, random_state=1)

d. Algoritmo SVM:

In [22]:
from sklearn.svm import SVC
clf_svm = SVC(gamma='auto', kernel='rbf', random_state=1)

e. Algoritmo Rede MLP:

In [23]:
from sklearn.neural_network import MLPClassifier
clf_mlp = MLPClassifier(hidden_layer_sizes=(2,), solver='lbfgs', random_state=1)

# Pergunta 1
Qual o tamanho desse dataset (número de linhas, número de colunas)?

In [8]:
df.shape

(1372, 5)

# Pergunta 2
Qual variável possui o maior range (diferença entre valor máximo e mínimo)?

In [9]:
ranges = df.max() - df.min()
ranges.sort_values(ascending=False).head(1)

skewness    26.7247
dtype: float64

# Pergunta 3
Qual a média da coluna skewness?

In [10]:
df['skewness'].mean()

1.9223531206393603

# Pergunta 4
Qual a média da coluna entropy?

In [11]:
df['entropy'].mean()

-1.191656520043731

# Pergunta 5
Qual a mediana da coluna variance?

In [12]:
df['variance'].median()

0.49618

# Pergunta 6
Qual a desvio padrão da coluna curtosis?

In [13]:
df['curtosis'].std()

4.310030090106595

# Pergunta 7
Qual a porcentagem de exemplos do dataset que são cédulas falsas (class=1)?

In [15]:
qtd_falsas = (df['class'] == 1).sum() #1 são as cedulas falsas
qtd_total = df.shape[0]#Quantidade de registros

qtd_falsas / qtd_total * 100

44.460641399416915

# Pergunta 8
Qual o valor da correlação de Pearson entre as variáveis skewness e curtosis?

In [18]:
df[['skewness', 'curtosis']].corr().iloc[0,1]

-0.786895224306578

# Pergunta 9
Qual a acurácia do KNN no conjunto de teste?

In [24]:
clf_KNN.fit(X_train, y_train)
y_pred_KNN = clf_KNN.predict(X_test)

In [25]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred_KNN)

0.9975728155339806

#Pergunta 10
Qual a acurácia da Árvore de Decisão no conjunto de teste?


In [31]:
clf_arvore.fit(X_train, y_train)
y_pred_arvore = clf_arvore.predict(X_test)

In [29]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred_arvore)

0.9878640776699029

# Pergunta 11
Qual a acurácia do Random Forest no conjunto de teste?

In [32]:
clf_floresta.fit(X_train, y_train)
y_pred_floresta= clf_floresta.predict(X_test)

In [33]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred_floresta)

0.9951456310679612

# Pergunta 12
Analisando o valor da importância relativa das features do Random Forest (atributo feature_importances_), qual feature melhor contribuiu para a predição de class?

In [34]:
index_max = clf_floresta.feature_importances_.argmax()
df.columns[index_max]

'variance'

# Pergunta 13
Qual o valor da importância relativa da feature skewness?

In [35]:
feature_skewness = (df.columns == 'skewness').argmax()
clf_floresta.feature_importances_[feature_skewness]

0.24058588894949182

# Pergunta 14
Qual a acurácia do SVM no conjunto de teste?

In [36]:
clf_svm.fit(X_train, y_train)
y_pred_svm = clf_svm.predict(X_test)

In [37]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred_svm)

1.0

# Pergunta 15
Qual a acurácia da rede MLP no conjunto de teste?

In [38]:
clf_mlp.fit(X_train, y_train)
y_pred_mlp = clf_mlp.predict(X_test)

In [39]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred_mlp)

1.0