# Comparacion entre nltk y spacy

### Importaciones

In [1]:
import ast
import sys
import os
sys.path.append(os.path.abspath(".."))
from src.data import carga_pos_nltk,carga_pos_spacy
from src.pos_tagging import comparar_nltk_spacy_csv

### Carga de datos

In [2]:
# Cargar los dos CSV
df_nltk  = carga_pos_nltk()
df_spacy = carga_pos_spacy()

#Leer como lista no como str
df_nltk['pos_tags']       = df_nltk['pos_tags'].apply(ast.literal_eval)
df_spacy['pos_tags_spacy'] = df_spacy['pos_tags_spacy'].apply(ast.literal_eval)

### Comparacion

In [3]:
 comparar_nltk_spacy_csv(df_nltk, df_spacy, indice=0)

COMPARACIÓN: NLTK vs spaCy
Canción : craftsmanship
Artista : buck-65
Género  : Hip-Hop

Token                NLTK (Penn)     spaCy Universal    spaCy Fine      Lemma
-------------------------------------------------------------------------------------
Most                 JJS             ADJ                JJS             Most
folks                NNS             NOUN               NNS             folk
spend                VBP             VERB               VBP             spend
their                PRP$            PRON               PRP$            their
days                 NNS             NOUN               NNS             day
daydreaming          VBG             VERB               VBG             daydream
of                   IN              ADP                IN              of
finding              VBG             NOUN               NN              finding *
clues                NNS             VERB               VBZ             clue *
My                   NNP             PRON    

Para este caso se le va hacer un ajuste temporal ya que Spacy divide contracciones en 2 tokens, lo cual se desalinean los datos

### Extraccion de tags

In [4]:
# NLTK → tuplas (token, tag)
nltk_tags  = [tag for row in df_nltk['pos_tags']
                   for _, tag in row]

# spaCy → tuplas (token, universal_pos, fine_tag, lemma)
spacy_upos = [upos for row in df_spacy['pos_tags_spacy']
                    for _, upos, _, _ in row]
spacy_fine = [fine for row in df_spacy['pos_tags_spacy']
                    for _, _, fine, _ in row]

### Metricas comparativas

In [5]:
print("\n=== MÉTRICAS COMPARATIVAS ===")
print(f"Tags únicos NLTK  (Penn Treebank): {len(set(nltk_tags))}") #Identificadores
print(f"Tags únicos spaCy (Universal POS): {len(set(spacy_upos))}")
print(f"Total tokens NLTK : {len(nltk_tags):,}")
print(f"Total tokens spaCy: {len(spacy_upos):,}")


=== MÉTRICAS COMPARATIVAS ===
Tags únicos NLTK  (Penn Treebank): 35
Tags únicos spaCy (Universal POS): 17
Total tokens NLTK : 1,939,001
Total tokens spaCy: 2,006,990


#### ── Comparaciones de uso segun la IA ──────────────────────────────

*Para análisis de letras musicales se recomienda spaCy (Universal POS) porque:*

✓ Sus 17 categorías son más interpretables para comparar géneros

✓ Separa VERB de AUX, útil para medir densidad verbal real

✓ Identifica PROPN (nombres propios), relevante en rap/hip-hop

✓ Incluye lemmatización, útil para calcular vocabulario único

✓ INTJ captura exclamaciones típicas de letras (oh, yeah, whoa)

*NLTK (Penn Treebank) es útil cuando se necesita:*

✗ Distinguir VBD vs VBZ vs VBG (tiempos verbales específicos)

✗ Análisis sintáctico muy fino

✗ Compatibilidad con recursos lingüísticos académicos


### Rendimiento y Velocidad

 NLTK con su tagger por defecto  procesó el corpus completo en aproximadamente 1 minuto. spaCy, corriendo el pipeline completo, tardó aproximadamente 5 minutos, es decir, 5 veces más.

Ese tiempo extra no es gratuito pero tampoco es en vano. spaCy en un solo pipeline está haciendo tokenización, POS tagging, dependency parsing, lematización y reconocimiento de entidades nombradas (NER). NLTK en el mismo tiempo solo hace tokenización y POS tagging, nada más. Si quisiéramos obtener lo mismo que spaCy con NLTK, tendríamos que encadenar varios módulos por separado, y el tiempo total probablemente superaría al de spaCy.

## Justificacion Final

##### Las letras musicales no son texto formal. Son textos con estructuras no convencionales, mucho vocabulario coloquial, repeticiones, onomatopeyas y
##### expresiones propias de cada género. Con regularidad las canciones utilizan exclamaciones o dichos populares, que no sea se pueda capturar esto podría
##### generar un efecto negativo y una mál análisis de palabras. Dado el análisis previo y a la información otórgado por la IA, se puede aprobar el uso de Spacy
##### antes que NLTK, ya que a pesar de sus tiempos de ejecución y velocidad. Se obtienen mejores resultados para el caso de extracción de información en
##### música, ádemas otorga más información en pasos más simples
