<a href="https://colab.research.google.com/github/gmauricio-toledo/NLP-MCD/blob/main/04-Leyes_de_conteo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Leyes de frecuencia</h1>

Las leyes de frecuencias son principios matemáticos y estadísticos que describen patrones predecibles en la distribución de frecuencias de elementos dentro de un conjunto de datos aparentemente caótico. Dos de las más representativas son la **Ley de Benford** y la **Ley de Zipf**.

Ambas revelan un orden subyacente en sistemas naturales y sociales, y se han convertido en herramientas poderosas para detectar anomalías. La Ley de Benford se utiliza principalmente para identificar posibles fraudes en datos financieros, electorales o científicos, mientras que la Ley de Zipf es fundamental en lingüística y ciencias de la información.

# Ley de Zipf

Esta ley postula que en muchos rankings naturales (como la frecuencia de palabras en un idioma, el tamaño de las ciudades o el tráfico de sitios web), la frecuencia de un elemento es inversamente proporcional a su rango en la lista. Es decir, el elemento más frecuente (rango 1) aparecerá aproximadamente el doble de veces que el del rango 2, el triple que el del rango 3, y así sucesivamente. Se usa para entender fenómenos de popularidad y escalabilidad, siendo crucial en campos como el el análisis de big data y la sociología.

In [None]:
!gdown 18kGdlhOiQNS61wUK7uPbdquKL3XJrgzf
!gdown 14nqDnZ3oDXqRtIcrpB6IP1f_NZP_Gb08

In [None]:
import pandas as pd

# df = pd.read_csv('IMDB.csv')
# df.rename(columns={'review': 'text'}, inplace=True)

df = pd.read_csv('YoutubeCommentsDataSet.csv', index_col=0)
df.dropna()
df.rename(columns={'Comment': 'text'}, inplace=True)

df

In [None]:
import re

def remove_html_tags(text):
    if isinstance(text, str):  # Solo procesar si es string
        clean = re.compile('<.*?>')
        return re.sub(clean, '', text)
    else:  # Para NaN, None
        return ""

df['text'] = df['text'].apply(remove_html_tags)
df

In [None]:
from string import punctuation
from nltk import word_tokenize
import nltk
nltk.download('punkt_tab')

def tokenize(text):
    return [t for t in word_tokenize(text.lower()) if t not in punctuation]

df['text'] = df['text'].apply(tokenize)
df

In [None]:
all_tokens = []

for doc in df['text']:
    all_tokens.extend(doc)

len(all_tokens)

In [None]:
import numpy as np
from collections import Counter
import matplotlib.pyplot as plt


# Contar frecuencias
word_counts = Counter(all_tokens)
most_common = word_counts.most_common()

# Separar palabras y frecuencias
words = [item[0] for item in most_common]
frequencies = [item[1] for item in most_common]
ranks = range(1, len(frequencies) + 1)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

top_n = 20
top_words = words[:top_n]
top_freqs = frequencies[:top_n]
ax1.bar(range(top_n), top_freqs)
ax1.set_title(f'Top {top_n} palabras más frecuentes')
ax1.set_xlabel('Palabra')
ax1.set_ylabel('Frecuencia')
ax1.set_xticks(range(top_n))
ax1.set_xticklabels(top_words, rotation=45, ha='right')

ax2.loglog(ranks, frequencies, 'b-', linewidth=1)
ax2.set_title('Ley de Zipf - Escala logarítmica')
ax2.set_xlabel('Rango (log)')
ax2.set_ylabel('Frecuencia (log)')
ax2.grid(True, which="both", ls="-")

plt.tight_layout()
plt.show()

# Ley de Benford

También conocida como la "Ley del Primer Dígito", establece que en muchos conjuntos de datos numéricos de la vida real (como facturas, precios de acciones, población de ciudades o constantes físicas), el dígito 1 aparece como primer dígito significativo con mucha más frecuencia que el resto (aproximadamente el 30% de las veces), seguido por el 2, y así sucesivamente, hasta el 9, que aparece menos del 5% de las veces. Su utilidad principal radica en la detección de fraudes y anomalías, ya que los datos inventados por humanos suelen distribuir los dígitos de forma más uniforme.

In [None]:
!gdown 1RH-yxb-zir8C_8fDltIcztt1Dyo5xZNyfRS2FoE96kc

In [None]:
prices_df = pd.read_excel('Actividad precios.xlsx')
prices_df

In [None]:
import numpy as np

prices = prices_df.iloc[:,1:].values
prices.shape

In [None]:
prices = prices.reshape(-1,)

leading_digits = []

for x in prices:
    number = str(x)
    leading_digits.append(int(number[0]))

leading_digits = np.array(leading_digits)

In [None]:
import matplotlib.pyplot as plt
from collections import Counter
import numpy as np

# Contar frecuencias
digit_counts = Counter(leading_digits)
sorted_countings = digit_counts.most_common()

# Extraer dígitos y conteos en el orden deseado
digits = [d for d, _ in sorted_countings]
counts = [count for _, count in sorted_countings]

# Crear el gráfico con posiciones numéricas
plt.figure(figsize=(10, 5))
x_positions = range(len(digits))
plt.bar(x_positions, counts)

# Etiquetas en el orden correcto
plt.xticks(x_positions, digits)
plt.xlabel('Dígito')
plt.ylabel('Frecuencia')
plt.title('Distribución del primer dígito (ordenado por frecuencia)')
plt.show()