# TP3 - Baf Of Words - Term Frequency & Inverse Document Frequency

## EJEMPLO 1:

### 1.- IMPORTAMOS LAS LIBRERIAS Y DEFINIMOS EL TEXTO A ANALIZAR

In [None]:
# INSTALAMOS LA LIBRERIA
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd
import numpy as np

In [None]:
# CARGAMOS LA LIBRERIA PARA PODER INVOCARLA
documentos = [
    "El perro ladró fuerte cuando pasó la ambulancia.",
    "María compró frutas frescas en el mercado central.",
    "Los niños jugaban felices bajo el sol de verano.",
    "A veces la lluvia trae recuerdos de viejos tiempos."
]

In [None]:
print(type(documentos))

In [None]:
print(documentos)

In [None]:
documentos

In [None]:
print("Nuestro CORPUS de ejemplo:")
for i, doc in enumerate(documentos):
    print(f"Oración {i+1}: {doc}")

### 2.- PROCESAMOS EL TEXTO A ANALIZAR

In [None]:
# GENERAMOS EL "BAG OF WORDS"
# INSTANCIAMOS UNA VARIABLE DE TIPO "CountVectorizer"
# CountVectorizer: Convierte un conjunto de textos en vectores numéricos, donde cada columna representa una palabra del vocabulario y cada fila 
# representa un texto. Es lo que se llama una bolsa de palabras (bag of words): solo cuenta cuántas veces aparece cada palabra en el texto 
# (sin importar el orden).
count_vect = CountVectorizer()

In [None]:
# BOW ES NUESTRA BAG OF WORDS // DICCIONARIO DE PALABRAS
bow = count_vect.fit_transform(documentos)

In [None]:
print(type(bow))

In [None]:
count_vect.vocabulary_

In [None]:
# MOSTRAMOS CUANTAS VECES APARECE CADA PALABRA EN EL TEXTO
print(bow[0].toarray())
print(bow[1].toarray())
print(bow[2].toarray())
print(bow[3].toarray())

In [None]:
vocabulario = count_vect.get_feature_names_out()

In [None]:
# GENERAMOS UN DATAFRAME CON LAS PALABRAS DE NUESTRO VOCABULARIO (COLUMNAS) Y LAS FILAS NUESTRAS ORACIONES
df_bow = pd.DataFrame(bow.toarray(), columns=vocabulario)

In [None]:
# MOSTRAMOS NUESTRA MATRIZ DE "FEATURE EXTRACTION"
print(df_bow)

### 3.- RESUMEN DE LA TÉCNICA "FEATURE EXTRACTION" (EXTRACCIÓN DE CARACTERÍSTICAS)

In [None]:
# RESUMEN DE LA TECNICA

# PROS
# - SIMPLE
# - FACIL
# - EXPLICABLE

# CONTRAS
# - PALABRAS COMPUESTAS (N-GRAMS)
# - POLISEMIA (DOS PALABRAS QUE SIGNIFICAN DISTINTAS COSAS EN DETERMINADO CONTEXTO)
# - CORRELACION DE PALABRAS
# - ORDEN
# - ESCASEZ (UNA PALABRA ES IMPORTANTE PERO APARECE MUY POCAS VECES)

In [None]:
# DEFINIMOS UN TEXTO A PROCESAR 
texto_ejemplo = 'La inteligencia artificial es un campo de la ciencia relacionado con la creación de computadoras y máquinas que pueden razonar, aprender y actuar de una manera que normalmente requeriría inteligencia humana o que involucra datos cuya escala excede lo que los humanos pueden analizar.'

In [None]:
import spacy
from spacy import displacy

In [None]:
!python -m spacy download es_core_news_lg

In [None]:
# PIPELINE DE SPACY
# CARGAMOS EL MODELO
import es_core_news_lg
nlp = es_core_news_lg.load()

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto_ejemplo)

In [None]:
# CONFIRMAMOS QUE "doc" ES UN OBJETO SPACY
print(type(doc))

In [None]:
# VISUALIZAMOS EL CONTENIDO
print(doc)

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# VERIFICAMOS QUE OBTUVIMOS UNA LISTA CON LOS TOKENS DEL TEXTO EN CUESTION
print(type(tokens))

In [None]:
# PROCESO DE LEMATIZACIÓN
# RECORREMOS LA LISTA ANTERIOR DE TOKENS PARA OBTENER LA LEMATIZACIÓN (FORMA BASE DE CADA TOKEN)
for token in doc:
    # SI EL VALOR QUE ESTAMOS ANALIZANDO NO ES PUNTUACION Y NO ES ESPACIO GENERAMOS EL LEMMA DE CADA PALABRA
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

In [None]:
# PROCESO DE ETIQUETADO GRAMATICAL
# token.text: El texto del token
# token.pos_: la categoría gramatical general (ej: NOUN, VERB, ADJ...).
# spacy.explain(token.pos_): Una descripción en texto de esa categoría.
# token.tag_: La etiqueta gramatical más específica (usualmente basada en corpus de entrenamiento).
for token in doc:
    if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

In [None]:
# PROCESO DE ANALISIS DE DEPENDENCIA SINTÁCTICA
# token.text: El texto del token (palabra actual)
# token.dep_: El tipo de dependencia gramatical (su función sintáctica en la oración: sujeto, objeto, raíz, etc.)
# spacy.explain(token.dep_): Una breve explicación textual de esa dependencia
# token.head.text: El término principal del que depende ese token (la "cabeza sintáctica")
for token in doc:
     if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE 
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
# PROCESO DE VISUALIZACION DEL OBEJTO PROCESADO POR SPACY
# displacy.render: función que dibuja una visualización del objeto doc (procesado por spaCy).
# style='dep': indica que quieres ver el árbol de dependencias gramaticales (no entidades nombradas).
# jupyter=True: le dice a spaCy que lo dibuje directamente dentro del notebook de Jupyter.
# options={'distance': 120}: cambia la distancia horizontal entre palabras en el gráfico (para que sea más legible si la oración es larga).
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

In [None]:
# VISUALIZACION DE ENTIDADES
# Las entidades nombradas son cosas como: personas, lugares, organizaciones, fechas, cantidades, etc.
# ent.text: el texto de la entidad (ej. "España")
# ent.label_: la etiqueta de tipo de entidad (ej. LOC)
# spacy.explain(ent.label_): una descripción en texto del tipo (ej. "Geopolitical entity")
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
# VISUALIZACION DE ENTIDADES
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})

In [None]:
# DEFINIMOS UN TEXTO A PROCESAR 
texto_ejemplo = '¿Quién liderará la tecnología del futuro: Estados Unidos o China? La especulación está en su punto máximo. La compañía de inteligencia artificial más famosa del mundo, OpenAI, es estadounidense. Los modelos producidos por DeepSeek, un competidor chino, son casi igual de buenos y más baratos.'

In [None]:
# PROCESAMOS EL TEXTO CON SPACY
# nlp: Es el objeto del modelo (es_core_news_lg)
# texto_ejemplo: Es un string de texto.
# doc: Es el resultado del análisis. Un objeto tipo Doc de spaCy, que contiene tokens, etiquetas gramaticales, entidades nombradas, dependencias sintácticas, etc.
doc = nlp(texto_ejemplo)

In [None]:
# CONFIRMAMOS QUE "doc" ES UN OBJETO SPACY
print(type(doc))

In [None]:
# VISUALIZAMOS EL CONTENIDO
print(doc)

In [None]:
# PROCESO DE TOKENIZACION
# RECORREMOS CON UN CICLO FOR EL TEXTO A PROCESAR CREANDO LA TOKENIZACIÓN DEL TEXTO EN CUESTION
tokens = [token.text for token in doc]
print(tokens)

In [None]:
# VERIFICAMOS QUE OBTUVIMOS UNA LISTA CON LOS TOKENS DEL TEXTO EN CUESTION
print(type(tokens))

In [None]:
# PROCESO DE LEMATIZACIÓN
# RECORREMOS LA LISTA ANTERIOR DE TOKENS PARA OBTENER LA LEMATIZACIÓN (FORMA BASE DE CADA TOKEN)
for token in doc:
    # SI EL VALOR QUE ESTAMOS ANALIZANDO NO ES PUNTUACION Y NO ES ESPACIO GENERAMOS EL LEMMA DE CADA PALABRA
    if not token.is_punct and not token.is_space:
        print(f"'{token.text}' -> '{token.lemma_}'")

In [None]:
# PROCESO DE ETIQUETADO GRAMATICAL
# token.text: El texto del token
# token.pos_: la categoría gramatical general (ej: NOUN, VERB, ADJ...).
# spacy.explain(token.pos_): Una descripción en texto de esa categoría.
# token.tag_: La etiqueta gramatical más específica (usualmente basada en corpus de entrenamiento).
for token in doc:
    if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE
        print(f"'{token.text}' -> {token.pos_} ({spacy.explain(token.pos_)}) -> {token.tag_}")

In [None]:
# PROCESO DE ANALISIS DE DEPENDENCIA SINTÁCTICA
# token.text: El texto del token (palabra actual)
# token.dep_: El tipo de dependencia gramatical (su función sintáctica en la oración: sujeto, objeto, raíz, etc.)
# spacy.explain(token.dep_): Una breve explicación textual de esa dependencia
# token.head.text: El término principal del que depende ese token (la "cabeza sintáctica")
for token in doc:
     if not token.is_space: # IGNORAMOS LOS ESPACIOS QUE PUDIERAN PRESENTARSE 
        print(f"'{token.text}' -> {token.dep_} ({spacy.explain(token.dep_)}) -> '{token.head.text}'")

In [None]:
# PROCESO DE VISUALIZACION DEL OBEJTO PROCESADO POR SPACY
# displacy.render: función que dibuja una visualización del objeto doc (procesado por spaCy).
# style='dep': indica que quieres ver el árbol de dependencias gramaticales (no entidades nombradas).
# jupyter=True: le dice a spaCy que lo dibuje directamente dentro del notebook de Jupyter.
# options={'distance': 120}: cambia la distancia horizontal entre palabras en el gráfico (para que sea más legible si la oración es larga).
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

In [None]:
# VISUALIZACION DE ENTIDADES
# Las entidades nombradas son cosas como: personas, lugares, organizaciones, fechas, cantidades, etc.
# ent.text: el texto de la entidad (ej. "España")
# ent.label_: la etiqueta de tipo de entidad (ej. LOC)
# spacy.explain(ent.label_): una descripción en texto del tipo (ej. "Geopolitical entity")
if doc.ents:
    print("Entidades encontradas:")
    print("Texto de la Entidad -> Etiqueta (Tipo)")
    for ent in doc.ents:
        print(f"'{ent.text}' -> {ent.label_} ({spacy.explain(ent.label_)})")
else:
    print("No se encontraron entidades nombradas en este texto.")

In [None]:
# VISUALIZACION DE ENTIDADES
displacy.render(doc,style='ent',jupyter=True,options={'distance':200})