# Revisão ScikitLearn

In [4]:
import pandas as pd

df = pd.read_csv('german_credit_data.csv').drop('id', axis=1)
df.head()

Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,67,male,2,own,,little,1169,6,radio/TV,good
1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,49,male,1,own,little,,2096,12,education,good
3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,53,male,2,free,little,little,4870,24,car,bad


## Este conjunto de dados é resultado de dados de várias mulheres e indica se um tumor é benigmo ou maligno

## Inicialmente, vamos separar nossos dados de entrada na variável X e dados de saída na variável y

In [6]:
X = df.drop('Risk', axis=1)
y = df['Risk']

0      good
1       bad
2      good
3      good
4       bad
       ... 
995    good
996    good
997    good
998     bad
999    good
Name: Risk, Length: 1000, dtype: object

## Antes de treinar nosso classificador, temos que fazer o pré-processamento dos dados. 
## Primeiro, vamos eliminar as linhas que contém dados nulos.

In [7]:
df.dropna()

Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,53,male,2,free,little,little,4870,24,car,bad
7,35,male,3,rent,little,moderate,6948,36,car,good
9,28,male,3,own,little,moderate,5234,30,car,bad
...,...,...,...,...,...,...,...,...,...,...
989,48,male,1,own,little,moderate,1743,24,radio/TV,good
993,30,male,3,own,little,little,3959,36,furniture/equipment,good
996,40,male,3,own,little,little,3857,30,car,good
998,23,male,2,free,little,little,1845,45,radio/TV,bad


## Agora, vamos reunir numa nova variável somente as colunas que possuem dados do tipo numérico, e vamos deixar todos estes dados na mesma escala usando a classe MinMaxScaler()

In [13]:
from sklearn.preprocessing import MinMaxScaler

X_num = df.select_dtypes(exclude='object')
minmax = MinMaxScaler()
X_num = minmax.fit_transform(X_num)
X_num

array([[0.85714286, 0.66666667, 0.05056674, 0.02941176],
       [0.05357143, 0.66666667, 0.31368989, 0.64705882],
       [0.53571429, 0.33333333, 0.10157368, 0.11764706],
       ...,
       [0.33928571, 0.66666667, 0.03048311, 0.11764706],
       [0.07142857, 0.66666667, 0.08776274, 0.60294118],
       [0.14285714, 0.66666667, 0.23803235, 0.60294118]])

## Funções usadas

- select_dtypes() : retorna todas as colunas que tipo que você específica, ou elimina todas as colunas do tipo que você especifíca
- fit_transform() : usada para dimensionar conjuntos de dados através de uma ferramenta de pre-processamento, então podemos usá-la com MinMaxScaler, com OneHotEncoder, etc.

## Agora, faremos o préprocessamento dos dados do tipo 'object' usando a classe OneHotEncoder

In [15]:
from sklearn.preprocessing import OneHotEncoder

X_cat = X.select_dtypes(include='object')
onehot = OneHotEncoder(sparse=False, drop='first')
X_cat = onehot.fit_transform(X_cat)
X_cat

array([[1., 1., 0., ..., 1., 0., 0.],
       [0., 1., 0., ..., 1., 0., 0.],
       [1., 1., 0., ..., 0., 0., 0.],
       ...,
       [1., 1., 0., ..., 1., 0., 0.],
       [1., 0., 0., ..., 1., 0., 0.],
       [1., 1., 0., ..., 0., 0., 0.]])

## Agora que já tratamos os dois tipos de dados presentes em nosso conjunto de dados, vamos juntar ambas as matrizes numa só, usando a função 'append' da biblioteca Numpy

In [18]:
import numpy as np

X_all = np.append(X_num, X_cat, axis=1)
X_all

array([[0.85714286, 0.66666667, 0.05056674, ..., 1.        , 0.        ,
        0.        ],
       [0.05357143, 0.66666667, 0.31368989, ..., 1.        , 0.        ,
        0.        ],
       [0.53571429, 0.33333333, 0.10157368, ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.33928571, 0.66666667, 0.03048311, ..., 1.        , 0.        ,
        0.        ],
       [0.07142857, 0.66666667, 0.08776274, ..., 1.        , 0.        ,
        0.        ],
       [0.14285714, 0.66666667, 0.23803235, ..., 0.        , 0.        ,
        0.        ]])

## Agora, usaremos a função 'train_test_split', que divide aleatoriamente nossos dados num conjunto de treinamento e num conjunto de testes

In [20]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_all, y, train_size = 2/3, random_state=1)

## Com o préprocessamento realizado, já temos nossos dados preparados e separados entre teste e treinamento, então, faremos três classificadores diferentes, usando os algoritmos SVM, KNeighbors e DecisionTree

In [21]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

svc = SVC()
svc.fit(X_train, y_train)
accuracy_score(y_test, svc.predict(X_test))

0.7634730538922155

## Algoritmo SVM
### O SVM é um algoritmo de aprendizado supervisionado linear, que é utilizado na classificação de um conjunto de pontos onde busca uma linha de separação entre duas classes distintas, o SVM escolhe a reta entre eles — também chamada de hiperplano em maiores dimensões.

In [31]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
accuracy_score(y_test, knn.predict(X_test))

0.7065868263473054

## Algoritmo K-nearest neighbors

### O KNN tenta classificar cada amostra de um conjunto de dados avaliando sua distância em relação aos vizinhos mais próximos. Se os vizinhos mais próximos forem majoritariamente de uma classe, a amostra em questão será classificada nesta categoria.

In [32]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(max_depth=None, max_leaf_nodes=None)
dt.fit(X_train, y_train)
accuracy_score(y_test, dt.predict(X_test))

0.655688622754491

## Decision Tree

### Para cada pergunta da árvore vamos responder “SIM” ou “NÃO”. Essas respostas vão nos guiar até a decisão final.

### Parâmetros da classe DecisionTreeClassifier usados: max_depth : altura da arvore, max_leaf_nodes : quantidade de nós

In [33]:
## Agora, vamos supor que temos 2 dados novos e queremos saber qual é a classificação deles.
## Primeiro, podemos fazer um dataframe pandas com os novos dados.