# Procesamieto de texto Naive Bayes

In [1]:
import pandas as pd 
from sklearn.feature_extraction.text import CountVectorizer
from collections import defaultdict, Counter
import re


In [3]:
data = {
    'text': [
        'El partido de fútbol fue emocionante',
        'La nueva actualización del software es increíble',
        'El equipo ganó el campeonato',
        'El nuevo teléfono tiene una cámara impresionante',
        'El jugador anotó un gol espectacular',
        'La inteligencia artificial está avanzando rápidamente'
    ],
    'category': [
        'Deportes', 'Tecnología', 'Deportes', 'Tecnología', 'Deportes', 'Tecnología'
    ]
}

# Convertir a DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,text,category
0,El partido de fútbol fue emocionante,Deportes
1,La nueva actualización del software es increíble,Tecnología
2,El equipo ganó el campeonato,Deportes
3,El nuevo teléfono tiene una cámara impresionante,Tecnología
4,El jugador anotó un gol espectacular,Deportes
5,La inteligencia artificial está avanzando rápi...,Tecnología


In [4]:
# Probabilidades de cada clase

categories = df.groupby('category').size() / len(df)
categories

category
Deportes      0.5
Tecnología    0.5
dtype: float64

In [5]:
p_deportes = categories['Deportes']
p_tecnologia = categories['Tecnología']

In [6]:
vectorizer = CountVectorizer()

# Ajustar y transformar el texto
X = vectorizer.fit_transform(df['text'])

# Obtener el vocabulario
vocabulario = vectorizer.get_feature_names_out()

print("Vocabulario:")
print(vocabulario)
print(len(vocabulario))

vocabulario_size = len(vocabulario)

Vocabulario:
['actualización' 'anotó' 'artificial' 'avanzando' 'campeonato' 'cámara'
 'de' 'del' 'el' 'emocionante' 'equipo' 'es' 'espectacular' 'está' 'fue'
 'fútbol' 'ganó' 'gol' 'impresionante' 'increíble' 'inteligencia'
 'jugador' 'la' 'nueva' 'nuevo' 'partido' 'rápidamente' 'software'
 'teléfono' 'tiene' 'un' 'una']
32


In [7]:
def tokenizar(texto):
    texto = re.sub(r'[^\w\s]', '', texto.lower())  # Eliminar puntuación y convertir a minúsculas
    return texto.split()

In [8]:
tokenizar(df.iloc[0]['text'])

['el', 'partido', 'de', 'fútbol', 'fue', 'emocionante']

In [9]:
palabras_por_categoria = defaultdict(Counter)
palabras_por_categoria

defaultdict(collections.Counter, {})

In [10]:
# Diccionario para almacenar contadores por categoría
palabras_por_categoria = defaultdict(Counter)

for _, row in df.iterrows():
    categoria = row['category']
    palabras = tokenizar(row['text'])
    palabras_por_categoria[categoria].update(palabras)
palabras_por_categoria

defaultdict(collections.Counter,
            {'Deportes': Counter({'el': 4,
                      'partido': 1,
                      'de': 1,
                      'fútbol': 1,
                      'fue': 1,
                      'emocionante': 1,
                      'equipo': 1,
                      'ganó': 1,
                      'campeonato': 1,
                      'jugador': 1,
                      'anotó': 1,
                      'un': 1,
                      'gol': 1,
                      'espectacular': 1}),
             'Tecnología': Counter({'la': 2,
                      'nueva': 1,
                      'actualización': 1,
                      'del': 1,
                      'software': 1,
                      'es': 1,
                      'increíble': 1,
                      'el': 1,
                      'nuevo': 1,
                      'teléfono': 1,
                      'tiene': 1,
                      'una': 1,
                      'cámara': 1,
     

In [11]:
for categoria, contador in palabras_por_categoria.items():
    print(f"Categoría: {categoria}")
    print(contador)

Categoría: Deportes
Counter({'el': 4, 'partido': 1, 'de': 1, 'fútbol': 1, 'fue': 1, 'emocionante': 1, 'equipo': 1, 'ganó': 1, 'campeonato': 1, 'jugador': 1, 'anotó': 1, 'un': 1, 'gol': 1, 'espectacular': 1})
Categoría: Tecnología
Counter({'la': 2, 'nueva': 1, 'actualización': 1, 'del': 1, 'software': 1, 'es': 1, 'increíble': 1, 'el': 1, 'nuevo': 1, 'teléfono': 1, 'tiene': 1, 'una': 1, 'cámara': 1, 'impresionante': 1, 'inteligencia': 1, 'artificial': 1, 'está': 1, 'avanzando': 1, 'rápidamente': 1})


In [12]:
total_palabras_por_categoria = {
    categoria: sum(contador.values()) for categoria, contador in palabras_por_categoria.items()
}

print("\nTotal de palabras por categoría:")
print(total_palabras_por_categoria)


Total de palabras por categoría:
{'Deportes': 17, 'Tecnología': 20}


In [13]:
# Diccionario para almacenar proporciones
proporciones_por_categoria = defaultdict(dict)

for categoria, contador in palabras_por_categoria.items():
    total_palabras = total_palabras_por_categoria[categoria]
    for palabra in vocabulario:
        frecuencia = contador.get(palabra, 0)
        proporciones_por_categoria[categoria][palabra] = (frecuencia + 1) / (total_palabras + vocabulario_size)
        
# Mostrar las proporciones
for categoria, proporciones in proporciones_por_categoria.items():
    print(f"\nProporciones en la categoría '{categoria}':")
    for palabra, proporcion in proporciones.items():
        print(f"{palabra}: {proporcion:.4f}")


Proporciones en la categoría 'Deportes':
actualización: 0.0204
anotó: 0.0408
artificial: 0.0204
avanzando: 0.0204
campeonato: 0.0408
cámara: 0.0204
de: 0.0408
del: 0.0204
el: 0.1020
emocionante: 0.0408
equipo: 0.0408
es: 0.0204
espectacular: 0.0408
está: 0.0204
fue: 0.0408
fútbol: 0.0408
ganó: 0.0408
gol: 0.0408
impresionante: 0.0204
increíble: 0.0204
inteligencia: 0.0204
jugador: 0.0408
la: 0.0204
nueva: 0.0204
nuevo: 0.0204
partido: 0.0408
rápidamente: 0.0204
software: 0.0204
teléfono: 0.0204
tiene: 0.0204
un: 0.0408
una: 0.0204

Proporciones en la categoría 'Tecnología':
actualización: 0.0385
anotó: 0.0192
artificial: 0.0385
avanzando: 0.0385
campeonato: 0.0192
cámara: 0.0385
de: 0.0192
del: 0.0385
el: 0.0385
emocionante: 0.0192
equipo: 0.0192
es: 0.0385
espectacular: 0.0192
está: 0.0385
fue: 0.0192
fútbol: 0.0192
ganó: 0.0192
gol: 0.0192
impresionante: 0.0385
increíble: 0.0385
inteligencia: 0.0385
jugador: 0.0192
la: 0.0577
nueva: 0.0385
nuevo: 0.0385
partido: 0.0192
rápidamente: 

In [22]:
# nuevo_test = 'El equipo de fútbol ganó'
nuevo_test = 'la inteligencia artificial es increíble'

# Tokenizar el texto

texto_tokenizado = tokenizar(nuevo_test)
texto_tokenizado

['la', 'inteligencia', 'artificial', 'es', 'increíble']

In [23]:
#Evaluar clase Deportes

producto = 1
for token in texto_tokenizado: 
    if token in proporciones_por_categoria['Deportes']:
        producto *= proporciones_por_categoria['Deportes'][token]


probabilidad_deportes = producto*p_deportes

print('probabilidad de que sea deportes:', probabilidad_deportes)

probabilidad de que sea deportes: 1.7700665873207169e-09


In [24]:
#Evaluar clase Tecnología

producto = 1
for token in texto_tokenizado: 
    if token in proporciones_por_categoria['Tecnología']:
        producto *= proporciones_por_categoria['Tecnología'][token]

probabilidad_tecnologia = producto*p_tecnologia
print('la probabilidad de que sea tecnología:', probabilidad_tecnologia)

la probabilidad de que sea tecnología: 6.312400179911822e-08


In [18]:
if probabilidad_deportes > probabilidad_tecnologia:
    print(f"El texto '{nuevo_test}' habla sobre deportes")
else: 
    print(f"El texto '{nuevo_test}'' habla sobre tencología")

El texto 'El equipo de fútbol ganó' habla sobre deportes


# Ejercicio 


Realizar preprocesamiento (Eliminar palabras de parada, caracteres especiales, tildes y lematizar). Realizar un clasificador con la informacion de arriba y evaluar  en el conjunto de datos de prueba (El conjunto de datos debe pasar por el procesamiento para luego evaluar el modelo). Adicionalmente revisar cual es la exactitud del modelo (respuesta_correctas/totales)

In [81]:
data = {
    'text': [
        'La receta de pasta es fácil de preparar',
        'El vuelo a París fue muy cómodo',
        'Necesitamos más ingredientes para la salsa',
        'Las maletas están listas para el viaje',
        'El chef recomienda marinar la carne por una hora',
        'El hotel tiene una vista increíble al mar',
        'La tarta de manzana es mi postre favorito',
        'El tren saldrá a las 8 de la mañana',
        'El restaurante ofrece platos tradicionales',
        'El pasaporte está en la mesa'
    ],
    'category': [
        'Cocina', 'Viajes', 'Cocina', 'Viajes', 'Cocina', 
        'Viajes', 'Cocina', 'Viajes', 'Cocina', 'Viajes'
    ]
}

# Convertir a DataFrame
df = pd.DataFrame(data)

df

Unnamed: 0,text,category
0,La receta de pasta es fácil de preparar,Cocina
1,El vuelo a París fue muy cómodo,Viajes
2,Necesitamos más ingredientes para la salsa,Cocina
3,Las maletas están listas para el viaje,Viajes
4,El chef recomienda marinar la carne por una hora,Cocina
5,El hotel tiene una vista increíble al mar,Viajes
6,La tarta de manzana es mi postre favorito,Cocina
7,El tren saldrá a las 8 de la mañana,Viajes
8,El restaurante ofrece platos tradicionales,Cocina
9,El pasaporte está en la mesa,Viajes


In [93]:
test_data = {
    'text':[
    'El chef recomienda preparar la salsa con más ingredientes.',
    'La mesa está lista para el postre de manzana.',
    'Necesitamos una receta fácil para la carne.',
    'El restaurante tiene platos tradicionales de pasta.',
    'La tarta de manzana es muy fácil de preparar.', 
    'El vuelo a París fue increíble.',
    'Las maletas están listas en el hotel.',
    'El tren saldrá por la mañana para el viaje.',
    'El hotel ofrece una vista increíble del mar.',
    'Necesitamos el pasaporte en la mesa para el vuelo.'],
'category': [
        'Cocina', 'Cocina', 'Cocina', 'Cocina', 'Cocina', 
        'Viajes', 'Viajes', 'Viajes', 'Viajes', 'Viajes'
    ]
}

df = pd.DataFrame(test_data)

df

Unnamed: 0,text,category
0,El chef recomienda preparar la salsa con más i...,Cocina
1,La mesa está lista para el postre de manzana.,Cocina
2,Necesitamos una receta fácil para la carne.,Cocina
3,El restaurante tiene platos tradicionales de p...,Cocina
4,La tarta de manzana es muy fácil de preparar.,Cocina
5,El vuelo a París fue increíble.,Viajes
6,Las maletas están listas en el hotel.,Viajes
7,El tren saldrá por la mañana para el viaje.,Viajes
8,El hotel ofrece una vista increíble del mar.,Viajes
9,Necesitamos el pasaporte en la mesa para el vu...,Viajes
