# **CLASIFICACIÓN DE TEXTO**
# **PROCESAMIENTO DE LENGUAJE NATURAL**
# **Sebastián Carrero Cardona**

El objetivo de este ejercicio es realizar una clasificación de texto en función de categorías predefinidas. La idea es que el algoritmo pueda asignar cada oración a la categoría que mejor le corresponda utilizando un modelo de espacio vectorial. Este modelo medirá la similitud entre cada oración calculando la distancia coseno entre los vectores de palabras en cada oración.

## **Categoría 1: Deportes**

In [1]:
c1_dep = 'El fútbol es un deporte de equipo jugado entre dos conjuntos de once jugadores cada uno, mientras los árbitros se ocupan de que las normas se cumplan correctamente.'
c2_dep = 'Como un deporte formal, la natación tiene competencias locales, nacionales e internacionales.'

## **Categoría 2: Trabajos**

In [2]:
c3_trab = 'Los científicos de datos son una nueva estirpe de expertos en datos analíticos que poseen habilidades técnicas para resolver problemas complejos – y la curiosidad de explorar qué problemas necesitan resolverse.'
c4_trab = 'Los machine learning engineers (ingenieros de aprendizaje automático) trabajan con algoritmos, datos e inteligencia artificial (IA).'

## **Categoría 3: Animales**

In [3]:
c5_anim = 'El perro es un animal mamífero y cuadrúpedo que fue domesticado hace unos 10.000 años y que, actualmente, convive con el hombre como una mascota. Su nombre científico es Canis lupus familiaris.'
c6_anim = 'El gato es un animal doméstico que convive con el ser humano desde hace cerca de 9500 años. Pese a que pueden encontrarse en los hogares como mascotas, los gatos son depredadores y pueden cazar distintas clases de presas.'

## **Importación de librerías**

In [4]:
import nltk
import numpy as np
import matplotlib.pyplot as plt 
import unicodedata
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk import FreqDist
from nltk.stem import SnowballStemmer
import unicodedata
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
nltk.download("stopwords")
nltk.download('punkt')

c:\Users\Sebastián Carrero\AppData\Local\Programs\Python\Python310\lib\site-packages\numpy\.libs\libopenblas.FB5AE2TYXYH2IJRDKGDGQ3XBKLKTF43H.gfortran-win_amd64.dll
c:\Users\Sebastián Carrero\AppData\Local\Programs\Python\Python310\lib\site-packages\numpy\.libs\libopenblas64__v0.3.23-246-g3d31191b-gcc_10_3_0.dll
[nltk_data] Downloading package stopwords to C:\Users\Sebastián
[nltk_data]     Carrero\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to C:\Users\Sebastián
[nltk_data]     Carrero\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## **Preprocesamiento de texto:**

In [5]:
# Función para realizar el preprocesamiento
def preprocess(text):
    # Normalización: Quitar guiones, convertir a minúsculas, quitar acentos
    text = text.replace('-', ' ').lower()
    text = ''.join((c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn'))
    
    # Tokenización y eliminación de stopwords, puntos y comas
    tokens = nltk.word_tokenize(text)
    tokens = [word for word in tokens if word.isalnum() and word not in stopwords.words('spanish')]
    
    return ' '.join(tokens)


In [6]:
# Separación en Entrenamiento y Test
train_texts = [c1_dep, c3_trab, c5_anim]
test_texts = [c2_dep, c4_trab, c6_anim]

In [7]:
#Aplicamos función de preprocesamiento
preprocessed_train_texts = [preprocess(text) for text in train_texts]
preprocessed_test_texts = [preprocess(text) for text in test_texts]

## **Creación del modelo de espacio vectorial (VSM)**

In [8]:
# Creación del modelo TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix_train = vectorizer.fit_transform(preprocessed_train_texts)
tfidf_matrix_test = vectorizer.transform(preprocessed_test_texts)

# Calcular la similitud coseno entre documentos de prueba y entrenamiento
cosine_similarities = cosine_similarity(tfidf_matrix_test, tfidf_matrix_train)

## **Tabla comparativa y conclusiones**

In [9]:
# Crear una tabla comparativa
df = pd.DataFrame(cosine_similarities, columns=["c1_dep", "c3_trab", "c5_anim"])
df.index = ["c2_dep", "c4_trab", "c6_anim"]

# Mostrar la tabla comparativa
df

Unnamed: 0,c1_dep,c3_trab,c5_anim
c2_dep,0.258199,0.0,0.0
c4_trab,0.0,0.426401,0.0
c6_anim,0.0,0.0,0.5


Podemos observar que todos los textos de prueba tuvieron mayor similitud con la categoría correcta:

- Texto **c2_dep** se clasifico correctamente como categoría **deporte** con una coincidencia del 25% mientras que en las demás no obtuvo coincidencia.

- Texto **c4_trab** se clasifico correctamente como categoría **trabajo** con una coincidencia del 42% mientras que en las demás no obtuvo coincidencia.

- Texto **c6_anim** se clasifico correctamente como categoría **animal** con una coincidencia del 50%% mientras que en las demás no obtuvo coincidencia.