# Aprendizado de Máquina para Classificação

In [1]:
# Importando a biblioteca pandas

import pandas as pd

In [2]:
# Importanto a base dentro da pasta

base = pd.read_csv("titanic_train.csv")

In [3]:
# Vamos visualizar a base

base.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [4]:
# Contanto os valores nulos da coluna "Cabin"

base['Cabin'].isnull().sum()

687

In [5]:
# Podemos verifcar se existe nome "Cabin" e vamos eliminar esta coluna

base = base.drop('Cabin', axis=1)


In [6]:
# Mostrando as informações 

base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


In [7]:
# Vamos eliminar os valores vazios

base = base.dropna()

In [8]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Name         712 non-null    object 
 4   Sex          712 non-null    object 
 5   Age          712 non-null    float64
 6   SibSp        712 non-null    int64  
 7   Parch        712 non-null    int64  
 8   Ticket       712 non-null    object 
 9   Fare         712 non-null    float64
 10  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 66.8+ KB


In [9]:
# Selecionando as colunas com o tipo "object"

colunas = base.dtypes[base.dtypes.values == "object"].index

In [10]:
# Eliminando essas colunas

base = base.drop(colunas, axis=1)

In [11]:
# Mostrar o info()

base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


# SCIKIT-LEARN

In [12]:
# Definir o X e o y para treino

X = base.drop('Survived', axis=1)
y = base.Survived

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html?highlight=kneighborsclassifier#sklearn.neighbors.KNeighborsClassifier

In [13]:
# Importando o KNN

from sklearn.neighbors import KNeighborsClassifier

In [14]:
# Criando o nosso classificador

neigh = KNeighborsClassifier(n_neighbors=3)

In [15]:
# Fazendo o fit com os dados

neigh.fit(X, y)

In [16]:
# Avaliando o modelo
neigh.score(X, y)


0.7907303370786517

# Árvore de decisão


In [17]:
# Importando Árvore de decisão

from sklearn import tree


In [18]:
# Criando nosso classificador tree

clfArvore = tree.DecisionTreeClassifier()

In [19]:
# Fazendo o fit

clfArvore = clfArvore.fit(X, y)

In [20]:
# Avaliando o modelo

clfArvore.score(X, y)

1.0

# Regressão Logística

In [21]:
# Importando a regressão Logística

from sklearn.linear_model import LogisticRegression

In [22]:
# Criando nosso classificador regressão e fit com os dados

clfLog = LogisticRegression(random_state=0, max_iter=1000).fit(X, y)

In [23]:
# Avaliando o modelo

clfLog.score(X, y)

0.7064606741573034

# Avaliando os modelos de classficação

In [24]:
# Importando e visualizando a base de teste

teste = pd.read_csv('titanic_train.csv')

In [25]:
# Fazendo os mesmos tratamentos

teste = teste.drop('Cabin', axis=1)
teste = teste.dropna()
teste = teste.drop(colunas, axis=1)

In [26]:
# Verificando as informações da base

teste.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


In [27]:
# Separando X e y da base

X_teste = teste.drop('Survived', axis=1)
y_teste = teste.Survived

In [28]:
# Fazendo a predição com o KNN

pred_KNN = neigh.predict(X_teste)

In [29]:
# Predict com Árvore de Decisão

pred_Arvore = clfArvore.predict(X_teste)

In [30]:
# Predict com Regressão Logística

pred_log = clfLog.predict(X_teste)

# Matriz de Confusão

In [31]:
# Importando a matriz de confusão

from sklearn.metrics import confusion_matrix

In [32]:
# Verificando a matriz para o KNN

confusion_matrix(y_teste, pred_KNN)

array([[377,  47],
       [102, 186]], dtype=int64)

In [33]:
# Para a Árvore de Decisão

confusion_matrix(y_teste, pred_Arvore)

array([[424,   0],
       [  0, 288]], dtype=int64)

In [34]:
# E para a Regressão Logística

confusion_matrix(y_teste, pred_log)

array([[355,  69],
       [140, 148]], dtype=int64)

# Acurácia

In [35]:
# Importando o accuracy_score

from sklearn.metrics import accuracy_score

In [36]:
# Verificando o erro do KNN

accuracy_score(y_teste, pred_KNN)

0.7907303370786517

In [37]:
# Para a Árvore de Decisão

accuracy_score(y_teste, pred_Arvore)

1.0

In [38]:
# E para a Regressão Logística

accuracy_score(y_teste, pred_log)

0.7064606741573034

# Precisão

In [39]:
# Importando precission_score

from sklearn.metrics import precision_score

In [40]:
# Verificando o erro do KNN

precision_score(y_teste, pred_KNN)

0.7982832618025751

In [41]:
# Para a Árvore de Decisão

precision_score(y_teste, pred_Arvore)

1.0

In [42]:
# E para a Regressão Logística

precision_score(y_teste, pred_log)

0.6820276497695853

# Recall

In [43]:
# Importando recall_score

from sklearn.metrics import recall_score

In [44]:
# Verificando o erro do KNN

recall_score(y_teste, pred_KNN)

0.6458333333333334

In [45]:
# Para a Árvore de Decisão

recall_score(y_teste, pred_Arvore)

1.0

In [46]:
# E para a Regressão Logística

recall_score(y_teste, pred_log)

0.5138888888888888

# Imprimir os resultados

Acurácia

In [47]:
print(accuracy_score(y_teste, pred_KNN))
print(accuracy_score(y_teste, pred_Arvore))
print(accuracy_score(y_teste, pred_log))

0.7907303370786517
1.0
0.7064606741573034


Precisão


In [48]:
print(precision_score(y_teste, pred_KNN))
print(precision_score(y_teste, pred_Arvore))
print(precision_score(y_teste, pred_log))

0.7982832618025751
1.0
0.6820276497695853


Recall

In [49]:
print(recall_score(y_teste, pred_KNN))
print(recall_score(y_teste, pred_Arvore))
print(recall_score(y_teste, pred_log))

0.6458333333333334
1.0
0.5138888888888888
