Utilizando os arquivos: "imdb_labelled.txt", "amazon_cells_labelled.txt", "yelp_labelled.txt", "Youtube01-Psy.csv", "Youtube04-Eminem" e "Youtube05-Shakira" criar uma solução baseada em inteligencia artificial para realizar análise de sentimentos, classificando os comentários como Positivo, Negativo e Neutro


Apresentar a taxa de acerto do modelo, Verdadeiro Positivo, Verdadeiro Negativo, Falso Positivo e Falso Negativo.


In [None]:
#libs
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

from google.colab import files

In [None]:
#Faz o upload do arquivo
data = files.upload()

MessageError: ignored

In [None]:
#Transforma em dataframe pandas
df = pd.read_csv('Youtube01-Psy.csv')
df.head()

FileNotFoundError: ignored

###**Qual a quantidade de comentários?**

In [None]:
df.shape[0]

###**Quais os sentimentos encontrados?**

In [None]:
np.unique(df.CLASS)

###**Existem dados faltantes?**

In [None]:
df.isnull().values.any()

In [None]:
#Balanceamento de dados
df.CLASS.value_counts()

#**Pre-Processamento de Dados**

In [None]:
#Faz copia do DataFrame
df1 = df.copy()
df1.head()

In [None]:
#Transforma todo o texto em minúsculo
df1['TEXT'] = [i.lower() for i in df['CONTENT']]
df1.head()

In [None]:
#Excluir colunas que não vamos precisar
df1.drop(['COMMENT_ID','AUTHOR', 'DATE', 'CONTENT'], axis='columns', inplace=True)
df1.head()

In [None]:
#Mistura os dados
df1 = shuffle(df1)
df1.head()

##**Processamento de dados**

In [None]:
# Separa os dados em atributo e target
X = df1['TEXT']
y = df1['CLASS']

In [None]:
# Separa os dados em treino e teste na proporção de 80:20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [None]:
# Instância classe de vetorização
vectorizer = CountVectorizer(analyzer = "word")

# Transforma os dados de treinamento em atributos vetorizados
X_train_freq = vectorizer.fit_transform(X_train)

# Transforma os dados de treino em atributos vetorizados
X_teste_freq = vectorizer.transform(X_test)

##**Aplicação em Modelo de IA**

In [None]:
# Instância o algoritmo
model = MultinomialNB()

# Treina o modelo
model.fit(X_train_freq, y_train)

# Prediz o modelo
results = model.predict(X_teste_freq)

# Relatorio do modelo
print(classification_report(y_test, results))

# Acurácia do modelo
print('Acurácia:', accuracy_score(y_test, results))

# Apresenta a matriz de confusão
fig, ax = plt.subplots(figsize=(7, 5))
sns.heatmap(confusion_matrix(y_test, results), annot=True, fmt="d");
ax.set_title("Matriz de Confusão - Naive Bayes", fontsize=20)
ax.set_ylabel('Classe Verdadeira', fontsize=15)
ax.set_xlabel('Classe Predita', fontsize=15)

In [None]:
# Instância o algoritmo
model = LinearSVC()

# Treina o modelo
model.fit(X_train_freq, y_train)

# Prediz o modelo
results = model.predict(X_teste_freq)

# Relatorio do modelo
print(classification_report(y_test, results))

# Acurácia do modelo
print('Acurácia:', accuracy_score(y_test, results))

# Apresenta a matriz de confusão
fig, ax = plt.subplots(figsize=(7, 5))
sns.heatmap(confusion_matrix(y_test, results), annot=True, fmt="d");
ax.set_title("Matriz de Confusão - SVM", fontsize=20)
ax.set_ylabel('Classe Verdadeira', fontsize=15)
ax.set_xlabel('Classe Predita', fontsize=15)

In [None]:
# Instância o algoritmo
model = RandomForestClassifier()

# Treina o modelo
model.fit(X_train_freq, y_train)

# Prediz o modelo
results = model.predict(X_teste_freq)

# Relatorio do modelo
print(classification_report(y_test, results))

# Acurácia do modelo
print('Acurácia:', accuracy_score(y_test, results))

# Apresenta a matriz de confusão
fig, ax = plt.subplots(figsize=(7, 5))
sns.heatmap(confusion_matrix(y_test, results), annot=True, fmt="d");
ax.set_title("Matriz de Confusão - RF", fontsize=20)
ax.set_ylabel('Classe Verdadeira', fontsize=15)
ax.set_xlabel('Classe Predita', fontsize=15)

In [None]:
# Instância o algoritmo
modelo = LogisticRegression(random_state=0)

# Treina o modelo
modelo.fit(X_train_freq, y_train)

# Prediz o modelo
results = modelo.predict(X_teste_freq)

# Relatorio do modelo
print(classification_report(y_test, results))

# Acurácia do modelo
print('Acurácia:', accuracy_score(y_test, results))

# Apresenta a matriz de confusão
fig, ax = plt.subplots(figsize=(7, 5))
sns.heatmap(confusion_matrix(y_test, results), annot=True, fmt="d");
ax.set_title("Matriz de Confusão - LR", fontsize=20)
ax.set_ylabel('Classe Verdadeira', fontsize=15)
ax.set_xlabel('Classe Predita', fontsize=15)

##**Apresentação/Avaliação dos resultados**

O modelo utilizando a regressão logistica apresentou as melhores métricas

# **Manipulação de txt**

In [None]:
#Faz o upload do arquivo
data = files.upload()

In [None]:
#Abri o arquivo de dados
f = open('amazon_cells_labelled.txt', 'r')

In [None]:
#Manipula o texto para retirar o comentário e rótulo
TEXT = []
CLASS = []
for i,line in enumerate(f):
  txt = line
  TEXT.append(txt[:-3])
  CLASS.append(txt[-2])

In [None]:
#Cria dataframe pandas
df3 = pd.DataFrame(TEXT, columns=['TEXT'])
df3.head()

In [None]:
#Cria o campo CLASS
df3['CLASS'] = CLASS
df3.head()