# Projeto Python IA: Inteligência Artificial

### Case: Mensagens de texto Spam ou não Spam.

No projeto foi explorado modelos de previsibilidade de dados, através de bibliotecas como Pandas e SkLearn, pode se gerar variados níveis de assertividade entre dois tipos de treinamentos de IA: KNN e Árvores de decisão.


In [6]:
import pandas as pd

tabela = pd.read_csv("data.csv", sep=',', header=None, names=['spam?', 'message']) # importa a base de dados
tabela.head()
display(tabela)

Unnamed: 0,spam?,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [2]:
# verificar se temos valores vazios ou valores reconhecidos em formato errado
print(tabela.info())
print(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5571 entries, 0 to 5570
Data columns (total 2 columns):
 #   Column                                                                                                           Non-Null Count  Dtype 
---  ------                                                                                                           --------------  ----- 
 0   ham                                                                                                              5571 non-null   object
 1   Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...  5571 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB
None
Index(['ham', 'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'], dtype='object')


In [10]:
from sklearn.preprocessing import LabelEncoder
# criando um codificador que transforma os valores de texto em valores numéricos nesse caso 0 e 1, já que só temos duas categorias, falso ou verdadeiro,
codificador = LabelEncoder()

# só não aplicamos na coluna de mensagens, pois ela é do tipo texto e não numérica
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "message":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

# verificando se realmente todas as colunas foram modificadas
print(tabela.info())
display(tabela) #checando as modificações

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   spam?    5572 non-null   int32 
 1   message  5572 non-null   object
dtypes: int32(1), object(1)
memory usage: 65.4+ KB
None


Unnamed: 0,spam?,message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,1,This is the 2nd time we have tried 2 contact u...
5568,0,Will ü b going to esplanade fr home?
5569,0,"Pity, * was in mood for that. So...any other s..."
5570,0,The guy did some bitching but I acted like i'd...


In [45]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(tabela["message"])
y = tabela["spam?"]

from sklearn.model_selection import train_test_split

# separamos os dados em treino e teste. Treino vamos dar para os modelos aprenderem e teste vamos usar para ver se o modelo aprendeu corretamente
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.2, random_state=4)





In [47]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

modelo_arvore = RandomForestClassifier() # modelo arvore de decisao
modelo_knn = KNeighborsClassifier() # modelo do KNN (nearest neighbors - vizinhos mais proximos)

# treinando os modelos
modelo_arvore.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [50]:
# se o nosso modelo chutasse tudo "Standard", qual seria a acurácia do modelo?
contagem_scores = tabela["spam?"].value_counts()
print(contagem_scores / sum(contagem_scores))


spam?
0    0.865937
1    0.134063
Name: count, dtype: float64


In [53]:
from sklearn.metrics import accuracy_score

# calculamos as previsoes
previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

# calculamos a acuracia comparando as previsoes com os valores reais
print(accuracy_score(y_teste, previsao_arvore))
print(accuracy_score(y_teste, previsao_knn))



0.9739910313901345
0.8932735426008969


In [72]:
# quais as caracteristicas mais importantes para o modelo de arvore de decisao?
colunas = list(x_teste)
importancia = pd.DataFrame(data=modelo_arvore.feature_importances_)
importancia = importancia * 100
print(importancia)



             0
0     0.045554
1     0.304752
2     0.000000
3     0.000030
4     0.000000
...        ...
8704  0.011477
8705  0.000000
8706  0.001480
8707  0.000000
8708  0.000000

[8709 rows x 1 columns]
