# Modelos de Classificação
- Prever o valor de uma categoría
- Com aprendizado supervisionado
- Arvore de Classificação, KNN, SVM, ...

In [184]:
import pandas as pd

In [185]:
base = pd.read_csv('../datasets/titanic_train.csv')

In [186]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [187]:
# Eliminar Coluna ('Cabin') da base de dados

# axis=1  para eleminar uma Coluna
# axis=0 para eleminar uma Linha

# Salvando a nova base dentro da variavel base
base = base.drop('Cabin',axis=1)
base

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C


In [188]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


In [189]:
# Eliminar todos os valores vazios
base = base.dropna()

In [190]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Index: 712 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Name         712 non-null    object 
 4   Sex          712 non-null    object 
 5   Age          712 non-null    float64
 6   SibSp        712 non-null    int64  
 7   Parch        712 non-null    int64  
 8   Ticket       712 non-null    object 
 9   Fare         712 non-null    float64
 10  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 66.8+ KB


In [191]:
type(base.dtypes)

pandas.core.series.Series

In [192]:
base.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Embarked        object
dtype: object

In [193]:
base.dtypes.values

array([dtype('int64'), dtype('int64'), dtype('int64'), dtype('O'),
       dtype('O'), dtype('float64'), dtype('int64'), dtype('int64'),
       dtype('O'), dtype('float64'), dtype('O')], dtype=object)

In [194]:
# Selecionar as colunas com tipo object
base.dtypes[base.dtypes.values == 'object']

Name        object
Sex         object
Ticket      object
Embarked    object
dtype: object

In [195]:
colunas = base.dtypes[base.dtypes.values == 'object'].index
colunas

Index(['Name', 'Sex', 'Ticket', 'Embarked'], dtype='object')

In [196]:
# Dropar colunas com tipo object
base = base.drop(colunas,axis=1)
base

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.2500
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.9250
3,4,1,1,35.0,1,0,53.1000
4,5,0,3,35.0,0,0,8.0500
...,...,...,...,...,...,...,...
885,886,0,3,39.0,0,5,29.1250
886,887,0,2,27.0,0,0,13.0000
887,888,1,1,19.0,0,0,30.0000
889,890,1,1,26.0,0,0,30.0000


In [197]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


# Usando o Sckit-learn
- Usa: Numpy, SciPy e matplotlib
- Aprendizado de máquina
- Análise preditiva

In [198]:
# Definindo X e Y para o treino

X = base.drop('Survived',axis=1) # deletando apenas a coluna Survived pois será nosso y, oque iremos prever
y = base.Survived # valor que quero prever

# Utilizando o KNN

In [199]:
from sklearn.neighbors import KNeighborsClassifier

In [200]:
# Criando novo classificador
neigh = KNeighborsClassifier(n_neighbors=3)

In [201]:
# Fazendo fit com os dados
neigh.fit(X, y)

In [202]:
# Avaliando o modelo
neigh.score(X, y)

0.7907303370786517

# Usando Árvore de decisão

In [203]:
from sklearn import tree

In [204]:
# Criando o classificador
clfArvore = tree.DecisionTreeClassifier(random_state=0)
# random_state = ponto de partida aleatório

In [205]:
# fazendo o fit com os dados
clfArvore = clfArvore.fit(X, y)

In [206]:
# Avaliando o modelo
clfArvore.score(X,y)

1.0

# Usando Regressão Logística

In [207]:
from sklearn.linear_model import LogisticRegression

In [208]:
# Criando o classificador
clfLog = LogisticRegression(random_state=0, max_iter=1000).fit(X, y)  
# randon_state = ponto de partida aleatório

In [209]:
# Avaliando o modelo
clfLog.score(X, y)

0.7064606741573034

# Avaliando modelos de classificação

In [210]:
teste = pd.read_csv('../datasets/titanic_train.csv')

In [211]:
# Fazendo o tratamento
teste = teste.drop('Cabin', axis=1) # Dropando coluna 'Cabin'
teste = teste.dropna() # Dropando valores nulos
teste = teste.drop(colunas, axis=1) # dropando colunas do tipo objeto: ['Name', 'Sex', 'Ticket', 'Embarked'], dtype='object')

In [212]:
# Verificar as informações
teste.info()

<class 'pandas.core.frame.DataFrame'>
Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


In [213]:
# Separando X e y da base
X_teste = teste.drop('Survived', axis=1)
y_teste = teste.Survived

In [214]:
# Fazendo a previsão com o KNN
pred_KNN = neigh.predict(X_teste)

In [215]:
# Fazendo revisão com Árvore de decisão
pred_Arvore = clfArvore.predict(X_teste)

In [216]:
# Fazendo predição com Regressão logística
pred_Log = clfLog.predict(X_teste)


# Matriz de confusão

In [217]:
from sklearn.metrics import confusion_matrix

In [218]:
# Verificando a matriz para o KNN
confusion_matrix(y_teste, pred_KNN)
#      N     P
#      0     1
# N 0  377   47  (377 acertou e 47 errou)(verdadeiro negativo e falso positivo) ( era 0 e previu como 0) (era 0 e previu como 1)
# P 1  35    92  (35 errou e 92 acertou) (falso negativo e verdadeiro positivo) ( era 1 e previu como 0) (era 1 e previu como 1)

array([[377,  47],
       [102, 186]])

In [219]:
# Verificando a matriz para o Árvore de decisão
confusion_matrix(y_teste, pred_Arvore)

array([[424,   0],
       [  0, 288]])

In [None]:
# Verificando a matriz para Regressão Logística
confusion_matrix(y_teste, pred_Log)

array([[355,  69],
       [140, 148]])

# Acurácia
- Quantos valores acertou em relação ao total
- Tanto os positivos quanto os negativos

In [221]:
from sklearn.metrics import accuracy_score

In [222]:
# Acurácia para o KNN
accuracy_score(y_teste, pred_KNN)

0.7907303370786517

In [223]:
# Acurácia para a Árvore de decisão
accuracy_score(y_teste, pred_Arvore)

1.0

In [224]:
# Acurácia para a Regressão Logística
accuracy_score(y_teste, pred_Log)

0.7064606741573034

# Precisão
- Relação: Falso Positivo X Verdadeiro Positivo
- Foco nos valores positivos

In [225]:
from sklearn.metrics import precision_score

In [None]:
# Verificando o erro para o KNN
precision_score(y_teste, pred_KNN)

# array([[377,  47],
#       [102, 186]])

# 186 /186 + 47

np.float64(0.7982832618025751)

In [227]:
186 / (186 + 47)

0.7982832618025751

In [228]:
# Verificando o erro para Árvore
precision_score(y_teste, pred_Arvore)

np.float64(1.0)

In [None]:
# Verificando o erro para Regressão Logística
precision_score(y_teste, pred_Log)

np.float64(0.6820276497695853)

In [None]:
# Verificando o erro para Regressão Logística
# array([[355,  69],
#       [140, 148]])

148/(148+69)

0.6820276497695853

# Recall
- Dos valores positivos quantos consegui encontrar
- Falso negativo e verdadeiro positivo
- Descobrir Fraudes

In [232]:
from sklearn.metrics import recall_score

In [233]:
# Verificando o recall para o KNN
recall_score(y_teste, pred_KNN)

np.float64(0.6458333333333334)

In [234]:
# Verificando o recall para o Árvore
recall_score(y_teste, pred_Arvore)

np.float64(1.0)

In [None]:
# Verificando o recall para o Regressão Logística
recall_score(y_teste, pred_Log) 

np.float64(0.5138888888888888)

In [None]:
# Verificando o recall para o Regressão Logística
# array([[355,  69],
#       [140, 148]])

148/(148+140)

0.5138888888888888