In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Modelos de Classificação
- Em modelos de classificação estamos tentando prever o valor de uma categoria (banana ou maçã, fraude ou não, 0 ou 1, etc)
- Podemos usar algoritmos como o Árvore de Classificação, KNN, SVM, ...
- Vamos usar novamente a base do titanic disponível em:
    - Base: `titanic_train.csv`

In [None]:
# Importando o pandas
import pandas as pd

In [None]:
# Importando a base
base = pd.read_csv("/content/drive/MyDrive/Minicurso_Ciencia_Dados/titanic_train.csv")
base

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
# Verificando as informações da base
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


**Podemos começar o tratamento retirando a coluna "Cabin" que tem muitos valores vazios**

In [None]:
# Eliminando a coluna 'Cabin'
base = base.drop("Cabin", axis = 1)
base

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


In [None]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


**E então retirar todos os valores vazios**
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

In [None]:
# Eliminando valores vazios
base = base.dropna()
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Name         712 non-null    object 
 4   Sex          712 non-null    object 
 5   Age          712 non-null    float64
 6   SibSp        712 non-null    int64  
 7   Parch        712 non-null    int64  
 8   Ticket       712 non-null    object 
 9   Fare         712 non-null    float64
 10  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 66.8+ KB


**E também retirar as colunas que não são valores inteiros**

In [None]:
# Selecionando as colunas com o tipo "object"
colunas_descarte = base.dtypes[base.dtypes.values == "object"].index

In [None]:
# Eliminando essas colunas
base = base.drop(colunas_descarte, axis = 1)

In [None]:
# Verificando novamente as informações da base
base
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


# O Scikit-Learn
- Ferramentas simples e eficientes para análise preditiva de dados
- Acessível a todos e reutilizável em vários contextos
- Construído em NumPy, SciPy e Matplotlib
- Disponível em: https://scikit-learn.org/

In [None]:
# Definindo o X e y para o treino
X = base.drop("Survived", axis = 1)
y = base.Survived

### Utilizando o KNN
- https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier

In [None]:
# Importando o KNN
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Criando o nosso classificador
neigh = KNeighborsClassifier(n_neighbors=3)

In [None]:
# Fazendo o fit com os dados
neigh.fit(X, y)

KNeighborsClassifier(n_neighbors=3)

In [None]:
# Avaliando o modelo
neigh.score(X, y)

0.7907303370786517

### Utilizando a Árvore de Decisão
- https://scikit-learn.org/stable/modules/tree.html#classification

In [None]:
# Importando a árvore de decisão
from sklearn import tree

In [None]:
# Criando o nosso classificador
clfArvore = tree.DecisionTreeClassifier(random_state=0)

In [None]:
# Fazendo o fit com os dados
clfArvore = clfArvore.fit(X, y)

In [None]:
# Avaliando o modelo
clfArvore.score(X, y)

1.0

### Utilizando a Regressão Logística
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

In [None]:
# Importando a regressão logística
from sklearn.linear_model import LogisticRegression

In [None]:
# Criando o nosso classificador e fazendo o fit com os dados
clfLog = LogisticRegression(random_state=0, max_iter = 1000).fit(X, y)

In [None]:
# Avaliando o modelo
clfLog.score(X, y)

0.7064606741573034

### Avaliando modelos de classificação
- https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics
- Para isso, vamos usar os dados de teste
    - Base: `titanic_test.csv`

In [None]:
# Importando e visualizando a base de teste
teste = pd.read_csv("/content/drive/MyDrive/Minicurso_Ciencia_Dados/titanic_test.csv")

In [None]:
# Fazendo os mesmos tratamentos
teste = teste.drop("Cabin", axis = 1)
teste = teste.dropna()
teste = teste.drop(colunas_descarte, axis = 1)

In [None]:
# Verificando as informações da base
teste.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 331 entries, 0 to 415
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  331 non-null    int64  
 1   Survived     331 non-null    int64  
 2   Pclass       331 non-null    int64  
 3   Age          331 non-null    float64
 4   SibSp        331 non-null    int64  
 5   Parch        331 non-null    int64  
 6   Fare         331 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 20.7 KB


In [None]:
# Separando X e y da base
X_teste = teste.drop("Survived", axis = 1)
y_teste = teste.Survived

In [None]:
# Fazendo a predicão com o KNN
pred_KNN = neigh.predict(X_teste)

In [None]:
# Predict com a Árvore de Decisão
pred_arvore = clfArvore.predict(X_teste)

In [None]:
# Predict com Regressão Logística
pred_Log = clfLog.predict(X_teste)

**Matriz de confusão**
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix

![img1-2.png](attachment:img1-2.png)

In [None]:
# Importando a matriz de confusão
from sklearn.metrics import confusion_matrix

In [None]:
# Verificando a matriz para o KNN
confusion_matrix(y_teste, pred_KNN)
#tem maior facilidade para descobrir quem vai sobreviver (valores positivos)

array([[ 68, 136],
       [ 35,  92]])

In [None]:
     0     1      previu
0   68    136

1   35    92

valor 
verdadeiro

In [None]:
# Para a Árvore de Decisão
confusion_matrix(y_teste, pred_arvore)

array([[110,  94],
       [ 43,  84]])

In [None]:
     0     1      previu
0   110   94

1   43    84

valor 
verdadeiro

In [None]:
# E para a Regressão Logística
confusion_matrix(y_teste, pred_Log)
#tem maior facilidade para descobrir quem não vai sobreviver (valores negativos)

array([[131,  73],
       [ 64,  63]])

In [None]:
     0     1      previu
0   131   73

1   64    63

valor 
verdadeiro

**Acurácia**
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score

In [None]:
# Importando a métrica de acurácia
from sklearn.metrics import accuracy_score

In [None]:
# Verificando o erro para o KNN
accuracy_score(y_teste, pred_KNN)

0.48338368580060426

In [None]:
# Para a Árvore de Decisão
accuracy_score(y_teste, pred_arvore)

0.5861027190332326

In [None]:
# E para a Regressão Logística
accuracy_score(y_teste, pred_Log)

0.5861027190332326

**Precisão**
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score

In [None]:
# Importando o precision_score
from sklearn.metrics import precision_score

In [None]:
# Verificando o erro para o KNN
precision_score(y_teste, pred_KNN)
# 92 / (92 + 136)

0.40350877192982454

In [None]:
# Para a Árvore de Decisão
precision_score(y_teste, pred_arvore)
# 84 / (84 + 94)

0.47191011235955055

In [None]:
# E para a Regressão Logística
precision_score(y_teste, pred_Log)
# 63 / (63 + 73)

0.4632352941176471

**Recall**
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score

In [None]:
# Importando o recall_score
from sklearn.metrics import recall_score

In [None]:
# Verificando o erro para o KNN
recall_score(y_teste, pred_KNN)
# 92 / (92 + 35)

0.7244094488188977

In [None]:
# Para a Árvore de Decisão
recall_score(y_teste, pred_arvore)
# 84 / (84 + 43)

0.6614173228346457

In [None]:
# E para a Regressão Logística
recall_score(y_teste, pred_Log)
# 63 / (63 + 63)

0.49606299212598426