# Presentacion

El objetivo de este trabajo es desarrollar un clasificador de texto capaz de categorizar las diferentes noticias que se ingresen.

# Instalamos e importamos las librerias que se van a utilizar

In [3]:
pip install nltk



In [4]:
import pandas as pd
datos = pd.read_excel('/content/drive/MyDrive/PLn/Palacios Lorenzo PLN.xlsx')
from nltk.tokenize import regexp_tokenize
import nltk
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer
import re
from collections import Counter
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
nltk.download('punkt')
nltk.download('stopwords')
datos

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,0,politica,deporte,salud,celulares,Autos
0,1,El presidente Javier Milei celebró hoy el triu...,Aquellas lágrimas y el gesto compungido de Lio...,El periodista estuvo internado en terapia inte...,"iPhone 16: más botones, más tamaño de pantalla...",La velocidad siempre ha fascinado al ser human...
1,2,Las internas en la Unión Cívica Radical (UCR) ...,Después de la decepción que significó quedar a...,El periodista de TN Franco Mercuriali salió de...,Una imagen que permite ver los nuevos botones ...,Los modelos de autos de marcas chinas que pron...
2,3,"Tras 12 años de litigio, la líder de la Coalic...",Aquellas lágrimas y el gesto compungido de Lio...,El ex presidente uruguayo está “estable” al re...,"Qualcomm, MediaTek y Samsung han estado compit...","Los 25 coches más caros y lujosos del mundo, a..."
3,4,El economista Juan Carlos de Pablo destacó que...,El partido que Boca y Talleres comenzaron el s...,Los especialistas analizaron el efecto de dife...,"El nuevo iPhone 16 es una realidad, se lanzará...",Luego del histórico debut en el Circuito de Mo...
4,5,CARACAS.- La relación diplomática entre España...,El concepto del “legado” en el olimpismo siemp...,"En Argentina, más de 5 millones de personas pa...",Se lanza al mercado el nuevo smartphone de Mot...,El piloto monegasco de Ferrari Charles Leclerc...
5,6,En una sesión cargada de tensión en la Cámara ...,"Tres semanas atrás, en Buenos Aires, donde par...",Son herramientas fundamentales para el diagnós...,Razr 50 Ultra: el nuevo plegable de Motorola l...,"Durante el segundo trimestre del año, se paten..."
6,7,La manifestación que abroqueló desde temprano ...,"Tres semanas atrás, en Buenos Aires, donde par...","En tres años, los pacientes de edad más avanza...","La nueva versión de Android, el sistema operat...",Según el reciente informe de la Asociación de ...
7,8,En medio de los disturbios en las inmediacione...,Colapinto… Colapinto… ¿Quién es este tal Franc...,El gerente del hospital le contestó a la cónsu...,Motorola Edge 50 y Edge 50 Neo: la gama media ...,El desempeño del mercado automotor durante el ...
8,9,"El piquetero Ramón “Tito” López, heredero del ...",Después de la decepción que significó quedar a...,Son cuatro centros de salud que se crearon en ...,Xiaomi tiene un nuevo sistema operativo. Bueno...,El mercado automotor global sigue siendo dinám...
9,10,Aunque el presidente Javier Milei celebre a cu...,"Pasó otra doble jornada, y la lucha continúa e...",La Organización Mundial de la Salud realiza pe...,Solo pocos dispositivos móviles que se venden ...,El auto más vendido del año ya tiene precio pa...


# Preparacion del DataFrame

El propósito de este código es reunir todos los datos de noticias de diferentes categorías en un solo DataFrame (en el cual a cada noticia se agrupa respecto a su categoria) para facilitar su análisis y procesamiento posterior

In [5]:
noticias_pol = {
    'noticia' : datos['politica'],
    'tipo': 'Politica'
}
noticias_dep = {
    'noticia' : datos['deporte'],
    'tipo' : 'Deportes'
}

noticias_salud = {
    'noticia' : datos['salud'],
    'tipo': 'Medicina'
}
noticias_celulares = {
    'noticia' : datos['celulares'],
    'tipo' : 'Celulares'
}

noticias_autos = {
    'noticia' : datos['Autos'],
    'tipo' : 'Automotor'
}

noticias_pol = pd.DataFrame(noticias_pol)
noticias_dep = pd.DataFrame(noticias_dep)
noticias_salud = pd.DataFrame(noticias_salud)
noticias_celulares = pd.DataFrame(noticias_celulares)
noticias_autos = pd.DataFrame(noticias_autos)
df = pd.concat([noticias_dep, noticias_pol,noticias_salud, noticias_celulares,noticias_autos], ignore_index=True)
df

Unnamed: 0,noticia,tipo
0,Aquellas lágrimas y el gesto compungido de Lio...,Deportes
1,Después de la decepción que significó quedar a...,Deportes
2,Aquellas lágrimas y el gesto compungido de Lio...,Deportes
3,El partido que Boca y Talleres comenzaron el s...,Deportes
4,El concepto del “legado” en el olimpismo siemp...,Deportes
...,...,...
95,Toyota baja los precios de sus modelos debido ...,Automotor
96,La Toyota Hilux sigue expandiendo su gama con ...,Automotor
97,Cuando en el proceso de compra de un vehículo ...,Automotor
98,Seguramente te has encontrado críticas y memes...,Automotor


# Tokenizar

El código proporciona dos funciones para tokenizar textos en un DataFrame. La función tokenizar_expreg(texto) toma un texto, lo convierte a minúsculas y lo divide en tokens utilizando una expresión regular que extrae secuencias de caracteres alfanuméricos. La segunda función, tokenizar(df, columna_texto), aplica esta tokenización a una columna específica del DataFrame. Toma como entrada el DataFrame y el nombre de la columna que contiene los textos a tokenizar, y agrega una nueva columna llamada 'tokenizado_expreg' con los textos tokenizados. Finalmente, la línea df_tokenizado = tokenizar(df, 'noticia') ejecuta el proceso de tokenización sobre la columna 'noticia' del DataFrame df, creando un nuevo DataFrame df_tokenizado que incluye la columna adicional con los tokens resultantes.

In [6]:
def tokenizar_expreg(texto):
    return regexp_tokenize(texto.lower(), pattern=r'\w+')

def tokenizar(df, columna_texto):
    df['tokenizado_expreg'] = df[columna_texto].apply(tokenizar_expreg)
    return df

df_tokenizado = tokenizar(df, 'noticia')
df_tokenizado

Unnamed: 0,noticia,tipo,tokenizado_expreg
0,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,..."
1,Después de la decepción que significó quedar a...,Deportes,"[después, de, la, decepción, que, significó, q..."
2,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,..."
3,El partido que Boca y Talleres comenzaron el s...,Deportes,"[el, partido, que, boca, y, talleres, comenzar..."
4,El concepto del “legado” en el olimpismo siemp...,Deportes,"[el, concepto, del, legado, en, el, olimpismo,..."
...,...,...,...
95,Toyota baja los precios de sus modelos debido ...,Automotor,"[toyota, baja, los, precios, de, sus, modelos,..."
96,La Toyota Hilux sigue expandiendo su gama con ...,Automotor,"[la, toyota, hilux, sigue, expandiendo, su, ga..."
97,Cuando en el proceso de compra de un vehículo ...,Automotor,"[cuando, en, el, proceso, de, compra, de, un, ..."
98,Seguramente te has encontrado críticas y memes...,Automotor,"[seguramente, te, has, encontrado, críticas, y..."


# Counter y stopwords

En este codigo primero se realiza la eliminación de Stopwords, son palabras comunes (como "y", "de", "el") que no aportan información significativa para la clasificación de noticias. Esto ayuda a enfocar el análisis en las palabras que realmente contribuyen a la diferenciación entre categorías. Luego, se realiza la
identificación de palabras mas frecuentes, en el cual crea una columna en el DataFrame que contiene las 20 palabras más frecuentes de cada categoría de noticias, facilitando la clasificación de las noticias al resaltar los términos más representativos de cada categoría.

In [7]:
stop_words = set(stopwords.words('spanish'))
stop_words.update(['ser', 'si', 'cada'])

def limpiar_texto(texto):
    if isinstance(texto, list):
        texto = ' '.join(texto)
    if not isinstance(texto, str):
        return ''

    palabras = texto.lower().split()
    palabras_filtradas = [palabra for palabra in palabras if not palabra.isdigit() and palabra not in stop_words]

    return ' '.join(palabras_filtradas)

def aplicar_limpieza(df):
    df['noticia_limpia'] = df['tokenizado_expreg'].apply(limpiar_texto)
    return df

df_limpio = aplicar_limpieza(df_tokenizado)
df_limpio

Unnamed: 0,noticia,tipo,tokenizado_expreg,noticia_limpia
0,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...
1,Después de la decepción que significó quedar a...,Deportes,"[después, de, la, decepción, que, significó, q...",después decepción significó quedar margen us o...
2,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...
3,El partido que Boca y Talleres comenzaron el s...,Deportes,"[el, partido, que, boca, y, talleres, comenzar...",partido boca talleres comenzaron sábado mendoz...
4,El concepto del “legado” en el olimpismo siemp...,Deportes,"[el, concepto, del, legado, en, el, olimpismo,...",concepto legado olimpismo siempre relacionó co...
...,...,...,...,...
95,Toyota baja los precios de sus modelos debido ...,Automotor,"[toyota, baja, los, precios, de, sus, modelos,...",toyota baja precios modelos debido reducción i...
96,La Toyota Hilux sigue expandiendo su gama con ...,Automotor,"[la, toyota, hilux, sigue, expandiendo, su, ga...",toyota hilux sigue expandiendo gama opciones s...
97,Cuando en el proceso de compra de un vehículo ...,Automotor,"[cuando, en, el, proceso, de, compra, de, un, ...",proceso compra vehículo pone necesidad modelo ...
98,Seguramente te has encontrado críticas y memes...,Automotor,"[seguramente, te, has, encontrado, críticas, y...",seguramente encontrado críticas memes autos te...


In [8]:
def conteo(texto_limpio):
    palabras = texto_limpio.split()
    return Counter(palabras).most_common(20)

def aplicar_conteo(df):
    df['conteo_palabras'] = df['noticia_limpia'].apply(conteo)
    return df

df_procesado = aplicar_conteo(df_limpio)
df_procesado

Unnamed: 0,noticia,tipo,tokenizado_expreg,noticia_limpia,conteo_palabras
0,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...,"[(messi, 15), (miami, 12), (inter, 10), (lesió..."
1,Después de la decepción que significó quedar a...,Deportes,"[después, de, la, decepción, que, significó, q...",después decepción significó quedar margen us o...,"[(equipo, 9), (manchester, 7), (punto, 6), (gr..."
2,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...,"[(messi, 15), (miami, 11), (inter, 9), (lesión..."
3,El partido que Boca y Talleres comenzaron el s...,Deportes,"[el, partido, que, boca, y, talleres, comenzar...",partido boca talleres comenzaron sábado mendoz...,"[(merlos, 13), (árbitro, 8), (talleres, 7), (f..."
4,El concepto del “legado” en el olimpismo siemp...,Deportes,"[el, concepto, del, legado, en, el, olimpismo,...",concepto legado olimpismo siempre relacionó co...,"[(torre, 18), (eiffel, 17), (olímpicos, 16), (..."
...,...,...,...,...,...
95,Toyota baja los precios de sus modelos debido ...,Automotor,"[toyota, baja, los, precios, de, sus, modelos,...",toyota baja precios modelos debido reducción i...,"[(pesos, 11), (toyota, 4), (disminuyó, 4), (pr..."
96,La Toyota Hilux sigue expandiendo su gama con ...,Automotor,"[la, toyota, hilux, sigue, expandiendo, su, ga...",toyota hilux sigue expandiendo gama opciones s...,"[(hilux, 10), (toyota, 9), (stout, 8), (nueva,..."
97,Cuando en el proceso de compra de un vehículo ...,Automotor,"[cuando, en, el, proceso, de, compra, de, un, ...",proceso compra vehículo pone necesidad modelo ...,"[(asientos, 10), (filas, 9), (camioneta, 6), (..."
98,Seguramente te has encontrado críticas y memes...,Automotor,"[seguramente, te, has, encontrado, críticas, y...",seguramente encontrado críticas memes autos te...,"[(tesla, 7), (cybertruck, 5), (unidos, 4), (pe..."


In [9]:
def convertir_conteo_a_texto(df):
    def procesar_lista(lista):
        if isinstance(lista, list) and all(isinstance(i, tuple) and isinstance(i[0], str) for i in lista):
            return ' '.join([palabra for palabra, _ in lista])
        return ''

    df['conteo_palabras'] = df['conteo_palabras'].apply(procesar_lista)

    return df

df_procesado = convertir_conteo_a_texto(df_procesado)

df_procesado

Unnamed: 0,noticia,tipo,tokenizado_expreg,noticia_limpia,conteo_palabras
0,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...,messi miami inter lesión ustari dos avilés get...
1,Después de la decepción que significó quedar a...,Deportes,"[después, de, la, decepción, que, significó, q...",después decepción significó quedar margen us o...,equipo manchester punto grupo frente dobles al...
2,Aquellas lágrimas y el gesto compungido de Lio...,Deportes,"[aquellas, lágrimas, y, el, gesto, compungido,...",aquellas lágrimas gesto compungido lionel mess...,messi miami inter lesión dos ustari avilés get...
3,El partido que Boca y Talleres comenzaron el s...,Deportes,"[el, partido, que, boca, y, talleres, comenzar...",partido boca talleres comenzaron sábado mendoz...,merlos árbitro talleres fassi presidente parti...
4,El concepto del “legado” en el olimpismo siemp...,Deportes,"[el, concepto, del, legado, en, el, olimpismo,...",concepto legado olimpismo siempre relacionó co...,torre eiffel olímpicos juegos parís anillos mo...
...,...,...,...,...,...
95,Toyota baja los precios de sus modelos debido ...,Automotor,"[toyota, baja, los, precios, de, sus, modelos,...",toyota baja precios modelos debido reducción i...,pesos toyota disminuyó precios modelos ciento ...
96,La Toyota Hilux sigue expandiendo su gama con ...,Automotor,"[la, toyota, hilux, sigue, expandiendo, su, ga...",toyota hilux sigue expandiendo gama opciones s...,hilux toyota stout nueva versión trabajo misma...
97,Cuando en el proceso de compra de un vehículo ...,Automotor,"[cuando, en, el, proceso, de, compra, de, un, ...",proceso compra vehículo pone necesidad modelo ...,asientos filas camioneta camionetas espacio dí...
98,Seguramente te has encontrado críticas y memes...,Automotor,"[seguramente, te, has, encontrado, críticas, y...",seguramente encontrado críticas memes autos te...,tesla cybertruck unidos pesos méxico vendido m...


## Eliminacion de columnas

Se eliminaron las columnas 'noticia' y 'tokenizado_expreg' ya que contenían datos que se consideraron redundantes para el análisis posterior. La columna 'noticia' incluía el texto original, mientras que 'tokenizado_expreg' contenía el texto tokenizado utilizando expresiones regulares. En su lugar, se extrajo la información más importante mediante el uso de un contador de frecuencia de palabras, que permitió identificar las 20 palabras más frecuentes, y se eliminaron las stopwords, es decir, las palabras que no aportaban valor informativo significativo. Esta estrategia ayudó a centrar el análisis en términos relevantes y eliminar el ruido en los datos. Sin embargo, se decidió conservar la columna 'noticia_limpia' para no perder palabras que, aunque menos frecuentes, podrían aportar valor al análisis de clasificación. De este modo, se asegura que se preserven aspectos importantes del contenido que podrían ser cruciales para una clasificación precisa de las noticias.

In [10]:
df_procesado = df_procesado.drop(['noticia',	'tokenizado_expreg'], axis=1)

Estado final del DataFrame

In [11]:
df_procesado

Unnamed: 0,tipo,noticia_limpia,conteo_palabras
0,Deportes,aquellas lágrimas gesto compungido lionel mess...,messi miami inter lesión ustari dos avilés get...
1,Deportes,después decepción significó quedar margen us o...,equipo manchester punto grupo frente dobles al...
2,Deportes,aquellas lágrimas gesto compungido lionel mess...,messi miami inter lesión dos ustari avilés get...
3,Deportes,partido boca talleres comenzaron sábado mendoz...,merlos árbitro talleres fassi presidente parti...
4,Deportes,concepto legado olimpismo siempre relacionó co...,torre eiffel olímpicos juegos parís anillos mo...
...,...,...,...
95,Automotor,toyota baja precios modelos debido reducción i...,pesos toyota disminuyó precios modelos ciento ...
96,Automotor,toyota hilux sigue expandiendo gama opciones s...,hilux toyota stout nueva versión trabajo misma...
97,Automotor,proceso compra vehículo pone necesidad modelo ...,asientos filas camioneta camionetas espacio dí...
98,Automotor,seguramente encontrado críticas memes autos te...,tesla cybertruck unidos pesos méxico vendido m...


# TF-IDF

Este código se encarga de preparar y utilizar un modelo de clasificación de noticias basado en TF-IDF. Primero, se descargan las stopwords en español para eliminar palabras comunes que no aportan valor a la clasificación. La función calcular_tfidf_por_tipo agrupa las noticias en el DataFrame por tipo, combinando todas las noticias de cada categoría en un solo texto, y luego calcula la matriz TF-IDF para estos textos, utilizando las stopwords para filtrar palabras irrelevantes. La función predecir_tipo_noticia toma una noticia nueva, la transforma en un vector TF-IDF, y calcula la similitud entre este vector y la matriz TF-IDF de los tipos de noticia previamente agrupados. Finalmente, determina el tipo de noticia más similar a la nueva noticia y lo devuelve como resultado.

In [12]:
def calcular_tfidf_por_tipo(df):
    df_agrupado = df.groupby('tipo').apply(lambda x: ' '.join(x['conteo_palabras']) + ' ' + ' '.join(x['noticia_limpia'])).reset_index(name='texto_combinado')

    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matriz = tfidf_vectorizer.fit_transform(df_agrupado['texto_combinado'])

    return df_agrupado, tfidf_vectorizer, tfidf_matriz

def predecir_tipo_noticia(noticia, tfidf_vectorizer, df_agrupado, tfidf_matriz):
    try:
        tfidf_noticia = tfidf_vectorizer.transform([noticia])
        similitudes = cosine_similarity(tfidf_noticia, tfidf_matriz)
        indice_tipo = np.argmax(similitudes)
        tipo_predicho = df_agrupado.iloc[indice_tipo]['tipo']
        return tipo_predicho
    except Exception as e:
        print(f"Error en predecir_tipo_noticia: {e}")
        return None

def leer_archivo_y_predecir(path_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz):
    try:
        with open(path_archivo, 'r', encoding='utf-8') as file:
            contenido_noticia = file.read()

        if not contenido_noticia.strip():
            raise ValueError("El archivo está vacío o solo contiene espacios en blanco.")

        tipo_predicho = predecir_tipo_noticia(contenido_noticia, tfidf_vectorizer, df_agrupado, tfidf_matriz)

        return tipo_predicho
    except Exception as e:
        print(f"Error en leer_archivo_y_predecir: {e}")
        return None

# Testear

Se crea este codigo con el objetivo de poder cargarle noticias de tipo txt asi el clasificador puede clasificar que tipo de categoria es la noticia

In [13]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo = '/content/drive/MyDrive/PLn/box10pln.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Politica


In [15]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo = '/content/drive/MyDrive/PLn/politica2.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Politica


In [16]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo = '/content/drive/MyDrive/PLn/pln autos.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Automotor


In [17]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo = '/content/drive/MyDrive/PLn/autos2.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Automotor


In [18]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/celu2.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Celulares


In [19]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/pln celulares.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Celulares


In [20]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/salud2.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Medicina


In [21]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/pln salud.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Medicina


In [22]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/deportes2.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Deportes


In [23]:
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)
ruta_archivo =  '/content/drive/MyDrive/PLn/deportes pln.txt'
tipo_predicho = leer_archivo_y_predecir(ruta_archivo, df_agrupado, tfidf_vectorizer, tfidf_matriz)
print(f"El tipo de noticia predicho es: {tipo_predicho}")

El tipo de noticia predicho es: Deportes


In [26]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import plotly.express as px

def calcular_tfidf_por_tipo(df):
    # Agrupar el DataFrame por tipo y concatenar las noticias por tipo
    df_agrupado = df.groupby('tipo')['conteo_palabras'].apply(lambda x: ' '.join(x)).reset_index()

    # Crear el vectorizador TF-IDF
    tfidf_vectorizer = TfidfVectorizer()

    # Ajustar el vectorizador a las noticias agrupadas y transformar
    tfidf_matriz = tfidf_vectorizer.fit_transform(df_agrupado['conteo_palabras'])

    return df_agrupado, tfidf_vectorizer, tfidf_matriz

def predecir_tipo_noticia(noticia, tfidf_vectorizer, df_agrupado, tfidf_matriz):
    # Transformar la noticia usando el vectorizador TF-IDF
    tfidf_noticia = tfidf_vectorizer.transform([noticia])

    # Calcular la similitud del coseno entre la noticia y los tipos de noticias
    similitudes = cosine_similarity(tfidf_noticia, tfidf_matriz)

    # Determinar el índice del tipo con la mayor similitud
    indice_tipo = np.argmax(similitudes)

    # Obtener el tipo correspondiente al índice
    tipo_predicho = df_agrupado.iloc[indice_tipo]['tipo']

    return tipo_predicho

def evaluar_precision(df, tfidf_vectorizer, df_agrupado, tfidf_matriz):
    # Predecir el tipo para cada noticia en el DataFrame
    predicciones = []
    verdaderos = df['tipo'].values

    for noticia in df['conteo_palabras']:
        tipo_predicho = predecir_tipo_noticia(noticia, tfidf_vectorizer, df_agrupado, tfidf_matriz)
        predicciones.append(tipo_predicho)

    # Calcular la precisión
    accuracy = accuracy_score(verdaderos, predicciones)

    return accuracy * 100

def graficar_precision(df):
    # Contar las predicciones correctas e incorrectas por categoría
    df['es_correcta'] = df['tipo'] == df['prediccion']

    # Contar las predicciones correctas e incorrectas
    conteo_resultados = df.groupby(['tipo', 'es_correcta']).size().reset_index(name='conteo')

    # Graficar
    fig = px.bar(conteo_resultados,
                 x='tipo',
                 y='conteo',
                 color='es_correcta',
                 title='Predicciones Acertadas y Erradas por Categoría',
                 labels={'conteo': 'Número de Noticias', 'tipo': 'Tipo de Noticia', 'es_correcta': 'Predicción Correcta'},
                 color_discrete_map={True: 'green', False: 'red'},
                 text='conteo')

    fig.update_traces(texttemplate='%{text}', textposition='outside')
    fig.update_layout(uniformtext_minsize=12, uniformtext_mode='hide')
    fig.show()

# Supongamos que df_procesado es el DataFrame procesado
df_agrupado, tfidf_vectorizer, tfidf_matriz = calcular_tfidf_por_tipo(df_procesado)

# Añadir las predicciones y calcular precisión
df_procesado['prediccion'] = df_procesado['conteo_palabras'].apply(lambda x: predecir_tipo_noticia(x, tfidf_vectorizer, df_agrupado, tfidf_matriz))
accuracy = evaluar_precision(df_procesado, tfidf_vectorizer, df_agrupado, tfidf_matriz)

print(f'Precisión del clasificador: {accuracy:.2f}%')

# Graficar precisión
graficar_precision(df_procesado)

Precisión del clasificador: 99.00%


# Conclusion

El clasificador demostró una notable eficacia al identificar correctamente 10 de cada 10 noticias nuevas, lo que refleja el buen manejo de métodos de procesamiento de lenguaje natural (PLN). Este resultado es el reflejo de cómo la correcta implementación de técnicas de tokenización, limpieza y análisis de texto contribuyó significativamente a la calidad del modelo. Al optimizar el tratamiento de datos y enfocar el análisis en términos relevantes, el clasificador ha alcanzado un rendimiento optimo.