# Tutorial Scikit Learn

In [1]:
import pandas as pd
from IPython.display import Image
import sklearn
import numpy as np

## 1 - Introdução: problemas típicos de Machine Learning são: 

**1.1 - Classificação:** Problema onde cada instância deve ser classificada segundo categorias (Problema supervisionado)

**1.2 - Regressão:** Problema onde a cada instância deve ser atribuído um (ou mais) valor(es) contínuos (Problema supervisionado)

**1.3 - Clusterização:** Problema onde as instâncias devem ser agrupadas em um número (Problema não-supervisionado)

**1.4 - Reducao de dimensionalidade:** Representacao de um conjunto de dados em um espaco menor (com menos features). (Problema não-supervisionado) 



<img src="tasks_ML.jpeg" style="width:650px;height:200px;">
<caption><center> <u> <font color='purple'> **Figure 1** </u><font color='purple'>  : Tarefas típicas de Machine Learning. Retirado de: https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d  <br> </center></caption>


# Nesse tutorial iremos abordar modelos para resolução de problemas de classificação utilizando a biblioteca Scikit-Learn. 
#### Para tanto, utilizaremos um conjunto de dados disponível na internet e faremos etapas de preprocessamento e enfim treinaremos modelos para classificação e avaliaremos os seus resultados.

## 1.1 Classificação

# <img src="ml_classification.jpg" style="width:650px;height:200px;">
<caption><center> <u> <font color='purple'> **Figure 1** </u><font color='purple'>  : Classificação. Retirado de: https://en.proft.me/2015/12/24/types-machine-learning-algorithms/ <br> </center></caption>


### 1.1.1 Load Dataset

será utilizado o dataset Adult ou (Census Income): presente aqui https://archive.ics.uci.edu/ml/datasets/adult

In [2]:
df= pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data',header=None)
df.columns = [
    "Age", "WorkClass", "fnlwgt", "Education", "EducationNum",
    "MaritalStatus", "Occupation", "Relationship", "Race", "Gender",
    "CapitalGain", "CapitalLoss", "HoursPerWeek", "NativeCountry", "Income"
]

In [3]:
df.head(10)

Unnamed: 0,Age,WorkClass,fnlwgt,Education,EducationNum,MaritalStatus,Occupation,Relationship,Race,Gender,CapitalGain,CapitalLoss,HoursPerWeek,NativeCountry,Income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


### 1.1.3 Preprocessamento dos dados

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
Age              32561 non-null int64
WorkClass        32561 non-null object
fnlwgt           32561 non-null int64
Education        32561 non-null object
EducationNum     32561 non-null int64
MaritalStatus    32561 non-null object
Occupation       32561 non-null object
Relationship     32561 non-null object
Race             32561 non-null object
Gender           32561 non-null object
CapitalGain      32561 non-null int64
CapitalLoss      32561 non-null int64
HoursPerWeek     32561 non-null int64
NativeCountry    32561 non-null object
Income           32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


**A célula acima mostra que:**

- Há 15 features, sendo 6 de números inteiros e 9 object (não-numéricos -> features categóricas)
- Há 32561 instâncias
- Nao há missing values

In [5]:
df['Income'].value_counts(normalize=True)

 <=50K    0.75919
 >50K     0.24081
Name: Income, dtype: float64

O que queremos prever está na coluna Income.

Nota-se que esta variável está desbalanceada, o que é comum em casos reais e confere uma dificuldade maior.

Para o preprocessamento uma boa sequência de passos é:
- antes de tudo dividir seu conjunto de dados em treino (dados que seu modelo irá ver para treinar) e teste (dados para avaliação do modelo, não vistos pelo modelo), bem como dividir features de labels. 
- Fazer a divisao das features em categóricas, numéricas e ordinais.
- Aplicar normalizacao nas numéricas, One Hot Encoder nas categóricas e LabelEncoder ou One Hot Encoder nas ordinais. 

OBS: Mesmo que o label seja categórico, não é necessário fazer One hot Encoder, só LabelEncoder

para mais informacoes sobre o que é One-Hot_Encoder e Labbel encoder, confira:
http://minerandodados.com.br/index.php/2018/02/04/one-hot-encoding-como-funciona-python/

### 1.1.2 Dividir em Treino e teste

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
label_cols=['Income']
feature_cols=[x for x in df.columns if x not in label_cols]

In [8]:
X_train, X_test, y_train, y_test = train_test_split(df[feature_cols],df[label_cols],test_size=0.2,random_state=42)

#### Selecionar features categóricas

In [9]:
categ_cols=[x for x in X_train.columns if X_train[x].dtype==('O')]
categ_cols

['WorkClass',
 'Education',
 'MaritalStatus',
 'Occupation',
 'Relationship',
 'Race',
 'Gender',
 'NativeCountry']

In [10]:
numeric_cols =[ x for x in feature_cols if x not in categ_cols]
numeric_cols

['Age', 'fnlwgt', 'EducationNum', 'CapitalGain', 'CapitalLoss', 'HoursPerWeek']

#### Fazer normalizacao em features numéricas

In [11]:
from sklearn import preprocessing

In [12]:
for x in numeric_cols:
    scaler=preprocessing.StandardScaler()
    X_train[x]=scaler.fit_transform(X_train[x].values.reshape(-1, 1))
    X_test[x]=scaler.transform(X_test[x].values.reshape(-1, 1))



#### Fazer Label Encoder

In [13]:
# Label encoder para transformar cada feature categorica em numérica
le_list=[]
for x in categ_cols:
    le = preprocessing.LabelEncoder()
    X_train[x]=le.fit_transform(X_train[x])
    X_test[x]=le.transform(X_test[x])
    le_list.append(le)

# Label encoder no target

le=preprocessing.LabelEncoder()
y_train[label_cols]=le.fit_transform(y_train[label_cols].values.ravel()).reshape(-1,1)
y_test[label_cols]=le.transform(y_test[label_cols].values.ravel()).reshape(-1,1)

#### One-hot_encoder 

In [14]:
for x in categ_cols:
    print(x, 'tem {} valores únicos'.format(np.shape(np.unique(df[x]))[0]))

WorkClass tem 9 valores únicos
Education tem 16 valores únicos
MaritalStatus tem 7 valores únicos
Occupation tem 15 valores únicos
Relationship tem 6 valores únicos
Race tem 5 valores únicos
Gender tem 2 valores únicos
NativeCountry tem 42 valores únicos


In [15]:
# Fit OHE nos dados de treino

ohe=preprocessing.OneHotEncoder(sparse=False)
aux=ohe.fit_transform(X_train[categ_cols])
df_aux=pd.DataFrame(index=X_train.index,columns=['feat_ohe_{}'.format(i) for i in range(np.shape(aux)[1])],data=aux)
X_train=pd.concat([X_train,df_aux],axis=1)

# Aplicar nos dados de teste

aux=ohe.transform(X_test[categ_cols])
df_aux=pd.DataFrame(index=X_test.index,columns=['feat_ohe_{}'.format(i) for i in range(np.shape(aux)[1])],data=aux)
X_test=pd.concat([X_test,df_aux],axis=1)

**Drop categ_cols e add ohe categ cols**

In [16]:
X_train.drop(categ_cols,axis=1,inplace=True)
X_test.drop(categ_cols,axis=1,inplace=True)

Alternativamente, pode-se utilizar a funcao do pandas get_dummies para fazer o One Hot encoder

# Agora estamos Prontos para Modelagem :)

#### 1.1.4 Modelos de Classificação

Exemplo inicial de classificacao a partir de um modelo

In [17]:
from sklearn.neural_network import MLPClassifier

In [18]:
classifier = MLPClassifier()

In [19]:
classifier.fit(X_train,y_train.values.ravel())

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(100,), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

In [20]:
pred_test=classifier.predict(X_test)
pred_train=classifier.predict(X_train)

### Agora vamos avaliar como o modelo se saiu tanto no treino quanto no teste. Lembrando que o que importa para performance é como ele se saiu no teste (dados nao vistos pelo modelo)

In [21]:
from sklearn.metrics import accuracy_score


In [22]:
print("accuracy no treino foi {} ".format(accuracy_score(y_train,pred_train)))
print("accuracy no teste foi {} ".format(accuracy_score(y_test,pred_test)))

accuracy no treino foi 0.8951550982800983 
accuracy no teste foi 0.8524489482573315 


##### Outras métricas relacionadas com a classificacao

In [23]:

from sklearn.metrics import precision_recall_fscore_support
precision, recall, fscore, support = precision_recall_fscore_support(y_test, pred_test, labels=[1])
print ("Precision: ", precision) # if label 1 is predicted, how often is it really label 1
print ("Recall: ", recall) # How likely is the prediction of an instance with label 1 really label 1
print ("F_score: ", fscore) # harmonic mean of precision and recall
print ("support: ", support) # how often does this label occur

Precision:  [0.71358543]
Recall:  [0.64863144]
F_score:  [0.67955985]
support:  [1571]


# Cross-validation

Porém nossa avaliação está fortemente ligada a divisao de treino e teste que foi feita uma única vez, para ter maior validade estatística o melhor a se fazer é utilizar a cross-validation (separar os seus dados em K partes e treinar o modelo K vezes, cada vez utilizando K-1 partes para treinar e a restante para avaliação).

<img src="cv.png" style="width:60px;height:30px;">
<caption><center> <u> <font color='purple'> **Figure 3** </u><font color='purple'>  : Exemplo de Cross-validation com 10 folds. Retirado de: https://medium.com/@sebastiannorena/some-model-tuning-methods-bfef3e6544f0 <br> </center></caption>


In [24]:
X=pd.concat([X_train,X_test])
y=pd.concat([y_train,y_test])

In [40]:
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline

Para fazer o cross validation vamos criar uma pipeline para toda vez que preprocessar dividir em K-1 folds de treino fitar e transformar os elementos da pipeline e depois só transformar o fold de teste restante

In [41]:
scaler=preprocessing.StandardScaler()
pipeline=Pipeline([('transformer',scaler),('estimator',classifier)])

In [42]:
scores = cross_val_score(pipeline, X, y.values.ravel(), cv=10, scoring="accuracy")
scores

array([0.83512435, 0.84213759, 0.84398034, 0.84183047, 0.84336609,
       0.8470516 , 0.83814496, 0.8482801 , 0.84029484, 0.8482801 ])

In [43]:
scores.mean()

0.8428490440925197

# Utilizando varios modelos para classificar (Selecionando o melhor)

In [44]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression


In [50]:
from xgboost import XGBClassifier as xgbc

In [51]:
clf_names = ["k-Nearest Neighbors", 
             "Decision Tree", 
             "Random Forest", 
             "Neural Net", 
             "Naive Bayes",
             "AdaBoost",
            "Logistic Regression",
            'Extreme Gradient Boosting Tree']
clfs = [KNeighborsClassifier(),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    MLPClassifier(),
    GaussianNB(),
    AdaBoostClassifier(),
    LogisticRegression(),
    xgbc()]


In [None]:
for name, clf in zip(clf_names, clfs):
    print (name)
    scaler=preprocessing.StandardScaler()
    pipeline=Pipeline([('transformer',scaler),('estimator',clf)])
    %time scores = cross_val_score(clf, X, y.values.ravel(), cv=10, scoring="accuracy")
    print ("Accuracy de acordo com ocross-validation: ", scores.mean(), "\n")

k-Nearest Neighbors
