In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from sklearn.metrics import accuracy_score
from nltk.stem import WordNetLemmatizer
import nltk


## SIN PREPROCESAMIENTO

In [2]:
# Cargar el dataset desde un archivo .tsv
data = pd.read_csv('train.tsv', sep='\t')

# Rellenar valores faltantes con un string vacío
data['Phrase'] = data['Phrase'].fillna('')

# Exploratory Data Analysis (EDA)
print(data['Sentiment'].value_counts())
print(data.head())


# Aplicar preprocesamiento al dataset
data['Processed_Review'] = data['Phrase']

# Separar datos en características y etiquetas
X = data['Processed_Review']
y = data['Sentiment']

# Codificación de etiquetas
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el pipeline para el modelo de Naive Bayes
model = Pipeline([
    ('vectorizer', CountVectorizer()),
    ('classifier', MultinomialNB())
])

# Entrenar el modelo
model.fit(X_train, y_train)

# Diccionario para mapear las etiquetas numéricas a texto
label_map = {
    0: 'negative',
    1: 'somewhat negative',
    2: 'neutral',
    3: 'somewhat positive',
    4: 'positive'
}

# Evaluar el modelo en el conjunto de prueba (X_test)
y_pred = model.predict(X_test)

# Mantén las predicciones y etiquetas verdaderas en formato numérico para classification_report
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy del modelo en el conjunto de prueba: {accuracy:.4f}")


Sentiment
2    79582
3    32927
1    27273
4     9206
0     7072
Name: count, dtype: int64
   PhraseId  SentenceId                                             Phrase  \
0         1           1  A series of escapades demonstrating the adage ...   
1         2           1  A series of escapades demonstrating the adage ...   
2         3           1                                           A series   
3         4           1                                                  A   
4         5           1                                             series   

   Sentiment  
0          1  
1          2  
2          2  
3          2  
4          2  
[[  416   712   249    35     4]
 [  382  2444  2391   286    24]
 [  122  1430 12232  1709   146]
 [   17   283  2541  3359   507]
 [    2    27   272   977   645]]
              precision    recall  f1-score   support

           0       0.44      0.29      0.35      1416
           1       0.50      0.44      0.47      5527
           2       0.

##CON PREPROCESAMIENTO

In [3]:

# Descargar recursos necesarios para nltk
nltk.download('stopwords')
nltk.download('wordnet')

# Cargar el dataset desde un archivo .tsv
data = pd.read_csv('train.tsv', sep='\t')

# Rellenar valores faltantes con un string vacío
data['Phrase'] = data['Phrase'].fillna('')

# Exploratory Data Analysis (EDA)
print(data['Sentiment'].value_counts())
print(data.head())

# Definir funciones de preprocesamiento
def preprocess_text(text, remove_stopwords=True, use_stemming=False, use_lemmatization=False):
    # Convertir a minúsculas
    text = text.lower()

    # Tokenización
    words = text.split()

    # Eliminar stopwords
    if remove_stopwords:
        stop_words = set(stopwords.words('english'))
        words = [word for word in words if word not in stop_words]

    # Stemming
    if use_stemming:
        stemmer = PorterStemmer()
        words = [stemmer.stem(word) for word in words]

    # Lemmatization
    if use_lemmatization:
        lemmatizer = WordNetLemmatizer()
        words = [lemmatizer.lemmatize(word) for word in words]

    return ' '.join(words)

# Aplicar preprocesamiento al dataset
data['Processed_Review'] = data['Phrase'].apply(lambda x: preprocess_text(x, remove_stopwords=True, use_stemming=True, use_lemmatization=True))

# Separar datos en características y etiquetas
X = data['Processed_Review']
y = data['Sentiment']

# Codificación de etiquetas
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el pipeline para el modelo de Naive Bayes
model = Pipeline([
    ('vectorizer', CountVectorizer(binary=False)),
    ('classifier', MultinomialNB())
])

# Entrenar el modelo
model.fit(X_train, y_train)

# Diccionario para mapear las etiquetas numéricas a texto
label_map = {
    0: 'negative',
    1: 'somewhat negative',
    2: 'neutral',
    3: 'somewhat positive',
    4: 'positive'
}

# Evaluar el modelo en el conjunto de prueba (X_test)
y_pred = model.predict(X_test)

# Mantén las predicciones y etiquetas verdaderas en formato numérico para classification_report
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy del modelo en el conjunto de prueba: {accuracy:.4f}")


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Sentiment
2    79582
3    32927
1    27273
4     9206
0     7072
Name: count, dtype: int64
   PhraseId  SentenceId                                             Phrase  \
0         1           1  A series of escapades demonstrating the adage ...   
1         2           1  A series of escapades demonstrating the adage ...   
2         3           1                                           A series   
3         4           1                                                  A   
4         5           1                                             series   

   Sentiment  
0          1  
1          2  
2          2  
3          2  
4          2  
[[  383   694   304    32     3]
 [  327  2188  2676   314    22]
 [   88  1159 12715  1558   119]
 [   14   212  2876  3196   409]
 [    0    22   335  1043   523]]
              precision    recall  f1-score   support

           0       0.47      0.27      0.34      1416
           1       0.51      0.40      0.45      5527
           2       0.

##CONJUNTO DE TEST

In [5]:
# Cargar el dataset desde un archivo .tsv
test_data = pd.read_csv('test.tsv', sep='\t')

# Rellenar valores faltantes con un string vacío
test_data['Phrase'] = test_data['Phrase'].fillna('')

# Aplicar preprocesamiento al dataset
test_data['Processed_Review'] = test_data['Phrase'].apply(lambda x: preprocess_text(x, remove_stopwords=True, use_stemming=True, use_lemmatization=True))

# Generar predicciones en el dataset de prueba externo (test_data)
X_test_final = test_data['Processed_Review']
test_predictions = model.predict(X_test_final)

# Calcular el accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy del modelo en el conjunto de prueba: {accuracy:.4f}")

# Convertir predicciones numéricas a etiquetas de texto
test_predictions_text = [label_map[pred] for pred in test_predictions]

# Agregar las predicciones al dataframe de prueba externo
test_data['Predicted_Sentiment'] = test_predictions_text
print(test_data[['Phrase', 'Predicted_Sentiment']].head(10))

Accuracy del modelo en el conjunto de prueba: 0.6089
                                              Phrase Predicted_Sentiment
0  An intermittently pleasing but mostly routine ...   somewhat positive
1  An intermittently pleasing but mostly routine ...   somewhat positive
2                                                 An             neutral
3  intermittently pleasing but mostly routine effort   somewhat positive
4         intermittently pleasing but mostly routine   somewhat positive
5                        intermittently pleasing but   somewhat positive
6                            intermittently pleasing   somewhat positive
7                                     intermittently   somewhat positive
8                                           pleasing   somewhat positive
9                                                but             neutral


Estas técnicas de preprocesamiento, en conjunto, tienden a:

Reducir la dimensionalidad: Al eliminar palabras irrelevantes (como stop words) y normalizar el texto (a través de case folding, stemming, y lemmatization), el modelo se entrena con un conjunto de datos más conciso y manejable.
Mejorar la precisión: Al enfocarse en las palabras más significativas y su frecuencia de aparición, el modelo puede aprender patrones más claros y diferenciados, lo que suele resultar en una mejora de la precisión.
Aumentar la eficiencia: Reducir el ruido y la dimensionalidad no solo mejora la precisión sino que también hace que el entrenamiento y la predicción sean más rápidos y menos costosos en términos de recursos computacionales.