In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('df_total.csv', encoding= 'UTF-8')

In [None]:
#separamos los datos en variables de entrada y etiquetas:

x = df['news']
y = df['Type']

In [None]:
print(df['Type'].value_counts())

In [None]:
#esta librería permite dividir la base de datos en dos conjuntos:
#uno de entrenamiento y otro de prueba

from sklearn.model_selection import train_test_split

In [None]:
#Creamos x e y de entrenamiento y prueba
#El tamaño de los datos test va a ser el 20% de los datos, 
#y lo entrenamos con el 80

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [None]:
x_train

In [None]:
x_test

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
#Vectorizamos los datos: 

vectorizer = CountVectorizer()
x_train_vectorizado = vectorizer.fit_transform(x_train)
x_test_vectorizado = vectorizer.transform(x_test)

In [None]:
x_train_vectorizado

"""
<973x26595 sparse matrix of type '<class 'numpy.int64'>'
	with 233024 stored elements in Compressed Sparse Row format>
"""

#Mantuvo las 973 filas (cantidad de noticias), 
#pero ahora el vector tiene 26595 columnas
#porque había esa cant de palabras diferentes

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

In [None]:
#Ahora vamos a meter los datos de entrenamiento en el modelo multinomial

model = MultinomialNB()

#ajustamos el modelo con 
#los x de entrenamiento vectorizados 
#(que contienen las noticias)
#y con el y de entrenamiento, 
#que contienen las categorías que les corresponden
model.fit(x_train_vectorizado, y_train)

#Probamos el modelo:

#Creamos un conjunto de datos y (categorías) predecidas para el conjunto de
#datos x de prueba vectorizados que habíamos reservado
y_pred = model.predict(x_test_vectorizado)

#Con metrics comparamos y_pred con y_test
# y_pred es lo que produjo nuestro modelo
# y_test es el conjunto de datos reales que habíamos guardado, y que corresponden
# a x_test_vectorizado

print(metrics.accuracy_score(y_test, y_pred))

In [None]:
# DIFERENCIA CON STEMMING

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
stemmer = SnowballStemmer('spanish')

In [None]:
def tokenize_and_stem(text):
    tokens = word_tokenize(text.lower())
    stems = [stemmer.stem(token) for token in tokens if token.isalpha()]
    return ' '.join(stems)

In [None]:
df["news_stemmer"] = df["news"].apply(tokenize_and_stem)

In [None]:
#Ahora hacemos básicamente lo mismo de arriba pero con
#el dato stemmeado para reducir el nro de dimensiones

x = df["news_stemmer"]
y = df["Type"]

x_train_2, x_test_2, y_train_2, y_test_2 = train_test_split(x, y, test_size=0.2)

vectorizer = CountVectorizer() #--> sirve para vectorizar los datos

x_train_2_vectorizado = vectorizer.fit_transform(x_train_2)
x_test_2_vectorizado = vectorizer.transform(x_test_2)

#definimos el modelo
modelo = MultinomialNB()

#ajustamos el modelo con los datos:
modelo.fit(x_train_2_vectorizado, y_train_2)

#medimos el rendimiento del modelo:
y_pred_2 = modelo.predict(x_test_2_vectorizado)

print(metrics.accuracy_score(y_test_2, y_pred_2))

In [None]:
# LEMATIZACION

In [None]:
import spacy

nlp = spacy.load('es_core_news_sm')

In [None]:
def lemmatize_text(text):
    doc = nlp(text.lower())
    lemmas = [token.lemma_ for token in doc if token.is_alpha]
    return ' '.join(lemmas)

In [None]:
df['news_lemma'] = df['news'].apply(lemmatize_text)

In [None]:
#Ahora hacemos básicamente lo mismo de arriba pero con
#el dato lematizado para reducir el nro de dimensiones

x = df["news_lemma"]
y = df["Type"]

x_train_3, x_test_3, y_train_3, y_test_3 = train_test_split(x, y, test_size=0.2)

vectorizer = CountVectorizer() #--> sirve para vectorizar los datos

x_train_3_vectorizado = vectorizer.fit_transform(x_train_3)
x_test_3_vectorizado = vectorizer.transform(x_test_3)

#definimos el modelo
modelo = MultinomialNB()

#ajustamos el modelo con los datos:
modelo.fit(x_train_3_vectorizado, y_train_3)

#medimos el rendimiento del modelo:
y_pred_3 = modelo.predict(x_test_3_vectorizado)

print(metrics.accuracy_score(y_test_3, y_pred_3))