# ***Machine Learning***
## Modelo de Classificação
## Guia de Referência | Ciências de Dados
#### - Em Modelos de Classificação estamos tentando prever o valor de uma categoria (falso ou verdadeiro, 0 ou 1, azul ou verde, etc)
#### - Podemos usar Algoritmos como Árvore de Classificação, KNN, SVM, ...
#### - Vamos usar novamente a base do Titanic
## Tópicos:
#### - **Tratamento de dados**
#### - **Scikit-Learn**
#### - **Algoritmos de Machine Learning**
#### - **KNN** 
#### - **Decision Tree**
#### - **Regressão Logística**
#### - **Avaliação do Modelo**
#### - **Matriz de Confusão**
#### - **Acurácia**
#### - **Precisão**
#### - **Recall**
#### Jonatha Rodrigues T. Vaz | Ciência de Dados

In [36]:
# Importando o Pandas
import pandas as pd

In [37]:
# Importando a Base de Dados
base = pd.read_csv('titanic_train.csv')

In [38]:
# Verificando as Informações da Base
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


# ***Tratamento de Dados*** 
### Iremos começar o Tratamento Retirando a Coluna "Cabin" que tem muitos valores vazios

In [39]:
# Excluindo a Coluna "Cabin"
base = base.drop('Cabin', axis=1)

In [40]:
# Verificando Novamente as Informações 
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


In [41]:
# Excluindo todos valores vazios 
base = base.dropna()

In [42]:
# Verificando novamente as Informações 
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Name         712 non-null    object 
 4   Sex          712 non-null    object 
 5   Age          712 non-null    float64
 6   SibSp        712 non-null    int64  
 7   Parch        712 non-null    int64  
 8   Ticket       712 non-null    object 
 9   Fare         712 non-null    float64
 10  Embarked     712 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 66.8+ KB


In [43]:
# Selecionando as Colunas com o tipo "Objetct"
base.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Embarked        object
dtype: object

In [44]:
base.dtypes[base.dtypes.values == 'object']

Name        object
Sex         object
Ticket      object
Embarked    object
dtype: object

In [45]:
colunas = base.dtypes[base.dtypes.values == 'object'].index

In [46]:
# Eliminando essas Colunas
base = base.drop(colunas,axis=1)

In [47]:
# Verificando as Informações após o processo de Limpeza de Dados
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


# ***O Scikit-Learn***
### - Ferramenta Simples e Eficiente para Análise Preditiva de Dados
### - Acessível a todos e reutilizável em varios contextos
### - Constrúido em NumPy, SciPy e Matplotlib

In [48]:
# Definindo o X e Y para Treino do Modelo
X = base.drop('Survived', axis=1)
y = base.Survived 

## ***KNN***
#### - O KNN é um Algoritmo de Machine Learning muito usado em processos e criações de ML e Treino de Modelos
#### - Utilizando o KNN para Criação do Classificador e Treino do Modelo

In [49]:
# Importando o KNN
from sklearn.neighbors import KNeighborsClassifier

In [50]:
# Criando o Nosso Classificador
neigh = KNeighborsClassifier(n_neighbors=3)

In [51]:
# Treinando os Dados de X e Y
neigh.fit(X,y)

In [52]:
# Avaliando o Modelo
neigh.score(X, y)

0.7907303370786517

# ***Decision Tree - Árvore de Decisão***
### - A Árvore de Decisão também é um Algoritmo e um método de Machine Learning muito usado em processos e criações de ML Treino de Modelos e Clafissificador
### - Utilizando o Decision Tree para Criação do Classificador e Treino do Modelo

In [53]:
# Importando a árvore de decisão
from sklearn import tree

In [54]:
# Criando o Classificador
clf_arvore = tree.DecisionTreeClassifier()

In [55]:
# Treinando o Modelo de Árvore de Decisão 
clf_arvore = clf_arvore.fit(X, y)

In [56]:
# Avaliando o Modelo
clf_arvore.score(X, y)

1.0

# ***Regressão Logística***
#### - A regressão logística é uma técnica de análise de dados que usa matemática para encontrar as relações entre dois fatores de dados
#### - Em seguida, essa relação é usada para prever o valor de um desses fatores com base no outro. A previsão geralmente tem um número finito de resultados, como sim ou não

In [57]:
# Importando a Regressão Logística
from sklearn.linear_model import LogisticRegression

In [58]:
# Criando o Classificador e Treinando os Dados
clf_logistic = LogisticRegression(random_state=0, max_iter=1000).fit(X, y)

In [59]:
# Avaliando o Modelo
clf_logistic.score(X, y)

0.7064606741573034

# ***Avaliando o Modelo de Classificação***

In [60]:
# Importando e Visualizando a Base de Teste
teste = pd.read_csv('titanic_train.csv')

In [61]:
# Fazendo os Tratamentos de Dados
teste = teste.drop('Cabin', axis=1)
teste = teste.dropna()
teste = teste.drop(colunas, axis=1)

In [62]:
# Verificando as Informações da Base
teste.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  712 non-null    int64  
 1   Survived     712 non-null    int64  
 2   Pclass       712 non-null    int64  
 3   Age          712 non-null    float64
 4   SibSp        712 non-null    int64  
 5   Parch        712 non-null    int64  
 6   Fare         712 non-null    float64
dtypes: float64(2), int64(5)
memory usage: 44.5 KB


In [63]:
# Separando X e y da Base
X_teste = teste.drop('Survived', axis=1)
y_teste = teste.Survived

In [64]:
# Fazendo a Predição com KNN
pred_knn = neigh.predict(X_teste)

In [65]:
# Fazendo a Predição com a Árvore de Decisão 
pred_arvore = clf_arvore.predict(X_teste)

In [66]:
# PFazendo a Predição com a Regressão Logística
pred_logistic = clf_logistic.predict(X_teste)

# ***Matriz de Confusão*** 
### O que são Matrizes de Confusão?
#### - Matriz de Confusão é um tabela que mostra as frequências de classificação para cada classe do modelo. 

In [67]:
# Importando a Matriz de Confusão 
from sklearn.metrics import confusion_matrix

In [68]:
# Verificando a Matriz para o KNN
confusion_matrix(y_teste,pred_knn)

array([[377,  47],
       [102, 186]], dtype=int64)

In [69]:
# Verificando a Matriz para a Árvore de Decisão
confusion_matrix(y_teste, pred_arvore)

array([[424,   0],
       [  0, 288]], dtype=int64)

In [70]:
# Verificando a Matriz para a Regressão Logística
confusion_matrix(y_teste,pred_logistic)

array([[355,  69],
       [140, 148]], dtype=int64)

# ***Acurácia***
### - Acurácia é uma métrica de avaliação muito popular para descobrir a performance de um modelo de machine learning em uma tarefa de classificação
### - Pense nela como **“taxa de acerto”** do modelo

### - Ela é calculada dividindo o número de previsões corretas pelo número total de previsões. Por exemplo, imagine que você treinou um modelo de machine learning para prever se uma pessoa tem uma doença ou não, com base em alguns sintomas. Se o modelo faz 100 previsões e acerta 85 delas, sua acurácia é de 85%. Ela é muito popular porque é uma métrica fácil de entender e usar.

In [71]:
# Importando a Métrica de Acurácia
from sklearn.metrics import accuracy_score

In [72]:
# Verificando a Taxa de Erro para o KNN
accuracy_score(y_teste,pred_knn)

0.7907303370786517

In [73]:
# Verificando a Taxa de Erro para a Árvore de Decisão
accuracy_score(y_teste,pred_arvore)

1.0

In [74]:
# Verificando a Taxa de Erro para a Regressão Logística
accuracy_score(y_teste,pred_logistic)

0.7064606741573034

# ***Precisão***
### - Precisão é a tolerância do erro de medição para determinado medidor. Precisão é o grau de variação gerado por diferentes medições. Dessa forma, quanto mais preciso for um processo, menor será a variação entre os valores obtidos


In [75]:
# Importando a precision_score ou Pontuação da Precisão
from sklearn.metrics import precision_score

In [76]:
# Verificando a Taxa de Erro para o KNN
precision_score(y_teste, pred_knn)

0.7982832618025751

In [77]:
# Verificando a Taxa de Erro para a Árvore de Decisão
precision_score(y_teste, pred_arvore)

1.0

In [78]:
# Verificando a Taxa de Erro para a Regressão Logística 
precision_score(y_teste,pred_logistic)

0.6820276497695853

# ***Recall***
### -  O Recall mede a quantidade de instâncias positivas corretamente identificadas pelo modelo em relação ao total de instâncias positivas na base de dados

In [79]:
# Importando o Recall
from sklearn.metrics import recall_score

In [80]:
# Verificando a Taxa de Erro para o KNN
recall_score(y_teste, pred_knn)

0.6458333333333334

In [81]:
# Verificando a Taxa de Erro para a Árvore de Decisão
recall_score(y_teste, pred_arvore)

1.0

In [82]:
# Verificando a Taxa de Erro para a Regressão Logística
recall_score(y_teste, pred_logistic)

0.5138888888888888