# Taller de la Ley de Zipf  

### Integrantes del grupo:
- Nombre 1  
- Nombre 2  
- Cristian Cardozo - cristiancardozo@javeriana.edu.co

📅 **Fecha de entrega:** [11/08/2025]


## Introducción

La Ley de Zipf establece que en una lengua natural, la frecuencia de las palabras es inversamente proporcional a su rango en una lista ordenada por frecuencia. Es decir, la segunda palabra más frecuente aparece aproximadamente la mitad de veces que la más frecuente, la tercera palabra aparece un tercio de veces, y así sucesivamente.

En este taller se aplicará esta ley al análisis de letras de canciones de distintos géneros musicales, combinando técnicas de análisis léxico, fonológico y textométrico. Se emplearán librerías de Python como `nltk`, `fonemas`, `textstat`, `matplotlib` y `pandas` para realizar estos análisis.

El propósito es comprender cómo se estructura el lenguaje en las canciones y qué patrones lingüísticos pueden encontrarse a través de estas herramientas computacionales.


In [None]:
#pip install nltk
#pip install transformers

In [None]:
#Librerias

#basicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
from itertools import accumulate

#nltk
import nltk
from nltk.text import Text
from nltk import FreqDist
from nltk import word_tokenize
from nltk.tokenize import TweetTokenizer

#Bert
from transformers import AutoTokenizer

In [None]:
#get nltk resources
nltk.download('punkt_tab')

# 1. Selección de canciones y carga de letras

Se seleccionó una **canción por año en Colombia**, priorizando la más popular o más representativa del periodo. Si la letra no estaba disponible o la información era insuficiente para tomar una decisión, ese año fue omitido.

Toda la información se consolidó en un archivo Excel, con columnas para **año**, **título**, **artista**, **género** y **letra**. Además, esta selección se complementa con contenido de otras dos fuentes reconocidas (las listas de *El Tiempo* y *Radio Nacional de Colombia*) y con la inspiración del video musical que compartimos.

Las fuentes adicionales son:
Las fuentes adicionales son:
- La lista **Las 50 mejores canciones de Colombia** del diario *El Tiempo*: 

[https://www.eltiempo.com/don-juan/cultura/las-50-mejores-canciones-de-colombia+articulo+12683827](https://www.eltiempo.com/don-juan/cultura/las-50-mejores-canciones-de-colombia+articulo+12683827)  
- La recopilación **Radio Nacional de Colombia: 80 años en 80 canciones**: 

[https://www.radionacional.co/cultura/radio-nacional-de-colombia-80-anos-en-80-canciones](https://www.radionacional.co/cultura/radio-nacional-de-colombia-80-anos-en-80-canciones)  
- El video de **FULANITOVIAJERO – Periodista Musical**: 

[https://www.youtube.com/watch?v=mUyhGhySNek&list=RDmUyhGhySNek&start_radio=1](https://www.youtube.com/watch?v=mUyhGhySNek&list=RDmUyhGhySNek&start_radio=1)


### Canciones seleccionadas (año – género – título – artista)

- 1945 – Porro – *Se va el caimán* – José María Peñaranda  
- 1946 – Bambuco – *Soy Colombiano* – Rafael Godoy (Garzón y Collazos)  
- 1947 – Rumba criolla – *La loca Margarita* – Hermanas Garavito  
- 1948 – Cumbia – *Navidad Negra* – Los Trovadores de Barú  
- 1949 – Foxtrot tropical – *Pachito E’ché* – Alex Tovar (Lucho Bermúdez y su Orq.)  
- 1950 – Joropo – *Ay si, si* – Luis Ariel Rey  
- 1951 – Bambuco – *Los cisnes* – Garzón y Collazos  
- 1952 – Vallenato – *Alicia la campesina* – Los Vallenatos del Magdalena  
- 1953 – Porro – *El año viejo* – Crescencio Salcedo  
- 1954 – Porro – *La múcura* – Lucho Bermúdez y Matilde Díaz  
- 1955 – Merecumbé – *Cosita linda* – Pacho Galán  
- 1956 – Vallenato – *Lirio rojo* – Calixto Ochoa  
- 1957 – Rumba criolla – *Por vivir en Bogotá* – Hermanas Garavito  
- 1959 – Cumbia – *El pescador* – José Barros (Los Trovadores de Barú)  
- 1960 – Cumbia – *La piragua* – José Barros (Los Black Stars)  
- 1961 – Cumbia – *La pollera colorá* – Wilson Choperena (Orq. de P. Salcedo)  
- 1962 – Porro – *La paloma guarumera* – Los Corraleros de Majagual  
- 1963 – Vallenato – *La casa en el aire* – Rafael Escalona (Bovea y sus Vallenatos)  
- 1964 – Currulao – *A la mina no voy* – Leonor González Mina  
- 1965 – Bambuco – *Pueblito viejo* – Garzón y Collazos  
- 1966 – Nueva ola – *Llorando estoy* – Vicky (Esperanza Acevedo)  
- 1967 – Cumbia – *La piragua* – Gabriel Romero & Los Black Stars  
- 1968 – Vallenato – *Pedazo de acordeón* – Alejo Durán  
- 1969 – Currulao – *Mi Buenaventura* – Peregoyo y su Combo Vacaná  
- 1970 – Balada romántica – *Llévame contigo* – Claudia de Colombia  
- 1971 – Cumbia – *Los sabanales* – Los Corraleros de Majagual (Calixto Ochoa)  
- 1972 – Balada pop – *Alguien cantó una canción* – Billy Pontoni  
- 1973 – Salsa – *La sirena* – Nelson y Sus Estrellas  
- 1974 – Salsa – *Las caleñas son como las flores* – The Latin Brothers (Joe Arroyo)  
- 1975 – Salsa – *El preso* – Fruko y Sus Tesos  
- 1976 – Vallenato – *La creciente* – Binomio de Oro de América  
- 1977 – Balada – *Llamarada* – Isadora (Fernanda Bustos)  
- 1978 – Bolero – *María de los guardias* – Helenita Vargas  
- 1979 – Cumbia tropical – *Cariñito* – Rodolfo Aicardi  
- 1980 – Carranga – *La cucharita* – Jorge Velosa y Los Carrangueros  
- 1981 – Joropo – *Ay mi llanura* – Arnulfo Briceño  
- 1982 – Vallenato – *Todo es para ti* – Diomedes Díaz  
- 1983 – Cumbia – *Golpe con golpe* – Pastor López  
- 1984 – Salsa – *Cali pachanguero* – Grupo Niche  
- 1985 – Balada pop – *¿Dónde estará mi primavera?* – Raúl Santi  
- 1986 – Salsa – *Rebelión* – Joe Arroyo y La Verdad  
- 1987 – Balada pop – *Como un picaflor* – Raúl Santi  
- 1988 – Rock en español – *La calle* – Compañía Ilimitada  
- 1989 – Balada – *La causa nacional* – Sociedad Anónima  
- 1990 – Salsa – *Una aventura* – Grupo Niche  
- 1991 – Cumbia – *Colombia tierra querida* – Lucho Bermúdez & Matilde Díaz  
- 1993 – Vallenato fusión – *La gota fría* – Carlos Vives  
- 1994 – Vallenato – *El santo cachón* – Los Embajadores Vallenatos  
- 1995 – Pop latino – *Estoy aquí* – Shakira  
- 1996 – Jazz-folk – *Los caminos de la vida* – Los Diablitos (Omar Geles)  
- 1997 – Tropipop – *La tierra del olvido* – Carlos Vives  
- 1998 – Rock – *Florecita rockera* – Aterciopelados  
- 1999 – Pop-rock – *Me voy* – Andrés Cepeda  
- 2000 – Rock – *Fíjate bien* – Juanes  
- 2001 – Pop rock – *Suerte (Whenever, Wherever)* – Shakira  
- 2002 – Rock – *A Dios le pido* – Juanes  
- 2004 – Salsa – *La pantera mambo* – La 33  
- 2005 – Pop rock – *La camisa negra* – Juanes  
- 2007 – Hip-hop – *Somos pacífico* – ChocQuibTown  
- 2008 – Electro-cumbia – *Fuego* – Bomba Estéreo  
- 2009 – Electro-folk – *Mi Kolombia* – Systema Solar  
- 2010 – Pop – *Waka Waka* – Shakira (ft. Freshlyground)  
- 2011 – Hip-hop – *Chocolate* – Profetas  
- 2012 – Swing – *Suín Romanticón* – Monsieur Periné  
- 2013 – Pop-vallenato – *Volví a nacer* – Carlos Vives  
- 2014 – Reguetón – *6 AM* – J Balvin (ft. Farruko)  
- 2015 – Reguetón – *Ginza* – J Balvin  
- 2016 – Vallenato-pop – *La bicicleta* – Carlos Vives & Shakira  
- 2017 – Reguetón – *Mi gente* – J Balvin & Willy William  
- 2018 – Reguetón – *Mi cama* – Karol G  
- 2019 – Reguetón-pop – *Tusa* – Karol G (ft. Nicki Minaj)  
- 2020 – Reguetón-pop – *Hawái* – Maluma  
- 2021 – Reguetón – *Bichota* – Karol G  
- 2022 – Reguetón – *Provenza* – Karol G  
- 2023 – Reguetón-pop – *TQG (Te Quedó Grande)* – Karol G & Shakira  
- 2024 – Reguetón-pop – *LUNA* – ATL Jacob & Feid  
- 2025 – Pop – *Enamorarte Mil Veces* – Fonseca & Manuel Medrano  

In [None]:
data_lyrics = pd.read_excel('../data/input/Canciones_Colombianas_1945_2023.xlsx')
data_lyrics.head(3)

In [None]:
plt.figure(figsize=(10, 9))
plt.title('Distribución de géneros musicales en las canciones colombianas')
plt.xlabel('Número de canciones')
plt.ylabel('Género musical')
sns.set_style("whitegrid")
sns.set_palette("Dark2")
data_lyrics.sort_values(by=['genero']).groupby(['genero']).size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

# 2. Análisis léxico y validación de la Ley de Zipf

Esta sección realiza la tokenización del texto de cada canción, el cálculo de la frecuencia de aparición de cada palabra y la visualización de la distribución de frecuencias.

El objetivo es verificar si las canciones siguen el comportamiento propuesto por la Ley de Zipf.

Se observará si la frecuencia de una palabra está inversamente relacionada con su posición en el ranking de palabras más usadas.

## 2.1. Se evaluaron diferentes opciones de tokenización:

- Spanish & NLTK
- Tweet
- BERT (base)
- RoBERTa entrenado en corpus en español

Adelantándonos a la conclusión, se optó por el tokenizador en español de NLTK, ya que no realiza transformaciones sobre los tokens y, además, facilita su interpretación, lo que resulta ventajoso para el análisis posterior.

In [None]:
#get example text
example_text = data_lyrics['letra'][45]
print(f"Texto de ejemplo: {example_text[:200]}...")

# Tokenización spanish
tokens = word_tokenize(language="spanish", text=example_text)
text = Text(tokens)
print("Tokenización nltk & spanish")
for i in range(0, min(len(text), 100), 10):
    print(text[i:i+10])

In [None]:
print(f"Texto de ejemplo: {example_text[:200]}...")

# Tokenización tweet
tokenTweet = TweetTokenizer()
tokens_tweet = tokenTweet.tokenize(text=example_text)
text_tweet = Text(tokens_tweet)

print("Tokenización tweet")
for i in range(0, min(len(text_tweet), 100), 10):
    print(text_tweet[i:i+10])

In [None]:
print(f"Texto de ejemplo: {example_text[:200]}...")

# Tokenización tweet
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
tokens_bert = tokenizer.tokenize(example_text)
text_bert = Text(tokens_bert)

print("Tokenización BERT")
for i in range(0, min(len(text_bert), 100), 10):
    print(text_bert[i:i+10])

In [None]:
print(f"Texto de ejemplo: {example_text[:200]}...")

tokenizer_bert_spanish = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-uncased")
tokens_bert_spanish = tokenizer_bert_spanish.tokenize(example_text)
text_bert_spanish = Text(tokens_bert_spanish)

print("Tokenización BERT SPANISH")
for i in range(0, min(len(text_bert_spanish), 100), 10):
    print(text_bert_spanish[i:i+10])

## 2.2 Ley de zifp

In [None]:
def concatenate_column(df, column_name, separator=' | '):
    concatenated_string = df[column_name].astype(str).str.cat(sep=separator)
    return concatenated_string

In [None]:
tokens_letra = Text(word_tokenize(language="spanish", text=concatenate_column(data_lyrics, 'letra')))

In [None]:
fdist1 = FreqDist(tokens_letra)
fdist1.tabulate(50)

In [None]:
fig = plt.figure(figsize = (24, 7))
fdist1.plot(100,percents=True, title = 'Frecuencia de las 100 palabras más comunes en las letras de canciones colombianas (1945-2025)')

In [None]:
fig = plt.figure(figsize = (24, 7))
fdist1.plot(100, cumulative=True, percents=True, title = 'Frecuencia acumulada de las 100 palabras más comunes en las letras de canciones colombianas (1945-2025)')

In [None]:
# Funcion
fd = {k: v for k, v in sorted(fdist1.items(), key=lambda item: item[1], reverse=True)}

ranks = []
freqs = []

for rank, word in enumerate(fd):
    ranks.append(rank + 1)
    freqs.append(fd[word])

# Gráfico Ley de Zipf
plt.loglog(ranks, freqs)
plt.xlabel('Rank')
plt.ylabel('Freq')
plt.title('Log - Log rank - freq chart')
plt.show()

El comportamiento de la curva en escala log-log confirma la ley de zifp que unas pocas palabras concentran gran parte de las apariciones, mientras que la mayoría son muy poco frecuentes.

# 3. Análisis fonológico y fonético

En esta parte, se va ha transcribir fonéticamente las palabras de las canciones seleccionadas. El análisis fonológico permite observar los patrones sonoros del lenguaje en las canciones