#**Notebook 05**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
No notebook 05 vamos avançar um pouco mais sobre os conceitos de regressão logística.
- **Questão:** Os alunos da Universidade Federal do Ceará recebem diversos spam's durante o semestre. Isso dificulta a comnicação de professores e alunos. Sabendo disso, o professor Iális decidiu desenvolver um classificador binário utilizando o algoritmo de regresão logística. Para isso, um dataset com amostras de spam e suas classes são disponibilizadas.



##Instalação de bibliotecas

In [None]:
!pip install plotly --upgrade

##Importações de bibliotecas

In [29]:
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import confusion_matrix
from sklearn.metrics import max_error
from sklearn import preprocessing

##Leitura de dados

In [None]:
atributos = ['classe', 'mensagem']
df_sms = pd.read_csv('SMSSpamCollection', delimiter='\t', header=None, names=atributos)
df_sms

##Funções extras

##Análise de dados

In [None]:
sms = df_sms['mensagem'].values
classe = df_sms['classe'].values
print(sms)

In [None]:
print(classe)

##Convertendo os textos para representações numéricas

In [11]:
tfidf = TfidfVectorizer(token_pattern=u'[a-zA-Z]{3,}')
tfidf.fit(sms)
sms_vector = tfidf.transform(sms)

In [None]:
for key in sorted(tfidf.vocabulary_.keys())[:100]:
    print("{}: {}".format(key, tfidf.vocabulary_[key]))

In [None]:
print('SMS original: {}'.format(sms[0]))

In [None]:
print('SMS tfidf value: {}'.format(sms_vector[0]))

In [None]:
print('SMS vector: {}'.format(tfidf.inverse_transform(sms_vector[0])))

In [16]:
le = preprocessing.LabelEncoder()
le.fit(classe)
classe_encoder = le.transform(classe)

In [None]:
print(classe_encoder)

In [None]:
print(le.classes_)

##Algoritmo de Machine Learning

###Divisão de dados de treino e teste

In [19]:
X_train, X_test, y_train, y_test = train_test_split(sms_vector, classe_encoder, test_size = 0.3, random_state = 0)

In [None]:
print('Shape dos dados de treino: {}'.format(X_train.shape))
print('Shape das classes de treino: {}'.format(y_train.shape, '\n'))
print('Shape dos dados de teste: {}'.format(X_test.shape))
print('Shape das classes de teste: {}'.format(y_test.shape))

###Algoritmo de Regressão Logística

In [25]:
#Crie um algortimo de Regressão Logística
regressor_log = LogisticRegression()

###Treinamento do modelo

In [None]:
#Treine o modelo com a função fit
regressor_log.fit(X_train, y_train)

In [None]:
regressor_log.score(X_test, y_test)

In [None]:
#Realize previsões com a função predict
previsoes = regressor_log.predict(X_test)
previsoes

In [None]:
scores_dt = cross_val_score(regressor_log, X_test, y_test, scoring='accuracy', cv=5)
print(scores_dt.mean())

##Visualização dos resultados

In [None]:
matrix = confusion_matrix(y_test, previsoes)
print(matrix)

In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix=matrix, display_labels=le.classes_)
disp.plot();

##Atividades de casa
- Analise o desempenho de outros algoritmos para o mesmo problema.

##Referências
- [Regressão Logística com SKLearn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
- [Regressão Logística](https://www.sakurai.dev.br/regressao-logistica/)
- [Matriz de confusão](https://www.ibm.com/docs/pt-br/db2/10.5?topic=visualizer-confusion-matrix-view)