Participacion 1.
### Participación (2 puntos)

Una de dos:
- Aplicar la técnica de _stem_ o lematización para analizar la frecuencia de palabras de esta obra
- Implementar una manera de obtener la frecuencia de $n$-gramas de cualquier obra antes de que se acabe la clase.
- Subir la solución propuesta al repositorio

¿Que es la tecnica de lematizacion?
- Permite reducir las palabras a sus raíces o formas base, lo que facilita el análisis de frecuencia al agrupar terminos similares.

Que son los n-gramas? 
- Son secuencias de caracteres o elementos consecutivos que se extraen de un texto o discurso
- Pueden ser: Letras Sílabas Palabras Signos de puntuación Espacios en blanco Fonemas Pares de bases

In [None]:
!pip install gutenbergpy

In [None]:
# Librerias e imports
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from collections import Counter
from gutenbergpy.textget import get_text_by_id, strip_headers
import pandas as pd

# Stopwords
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Descargar el libro de Orgullo y Perjuicio id = 1342
def obtener_libro(id=1342):
    raw_book = get_text_by_id(id)  # Texto con encabezados
    clean_book = strip_headers(raw_book)  # Texto limpio sin encabezados
    return clean_book.decode('utf-8'), raw_book.decode('utf-8')  # Decodificar bytes a string para utilizar las librerias


In [None]:
# Descargar el libro
clean_book, raw_book = obtener_libro()

In [None]:
# Procesar el texto - Tokenizar el texto
tokens = word_tokenize(clean_book.lower())  # Convertir a minúsculas

In [None]:
# Filtrar palabras vacías y caracteres no alfabéticos
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.isalpha() and word not in stop_words]

In [None]:
# Logica de negocio
# Steming
stemmer = PorterStemmer()
stems = [stemmer.stem(word) for word in filtered_tokens]

# Lemmatización
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(word) for word in filtered_tokens]

# Frecuencia de palabras
frecuencia_palabras_lenmas = Counter(lemmas)  # Usa stems o lemmas según prefieras
frecuencia_palabras_stem = Counter(stems) 

In [None]:
# Calcular la frecuencia de n-gramas utilizando las palabras tokenizadas
# Como segundo parametro es sobre si queremos bigrama, trigramas, etc. El usado en clase fue el n = 2 (bigramas)
def obtener_ngramas(tokens, n):
    ngrams = zip(*[tokens[i:] for i in range(n)])  # Genera n-gramas
    ngram_freq = Counter(ngrams)
    return ngram_freq

In [None]:
bigramas = obtener_ngramas(filtered_tokens, 2)
print("10 Bigramas mas comunes:")
print(bigramas.most_common(10))

In [None]:
# Palabras mas comunes
print("Palabras mas comunes con lenmas:")
print(frecuencia_palabras_lenmas.most_common(10))

In [None]:
# Palabras mas comunes con lenmas
print("Palabras mas comunes con stems:")
print(frecuencia_palabras_stem.most_common(10))

La lematizacion no está alterando mucho las palabras porque ya están en una forma bastante estándar (como "elizabeth" y "darcy"), 
El stemmer esta modificando más algunas palabras, como "darcy" que se convierte en "darci".

In [None]:
# Obtener las frecuencias de las palabras más comunes
top_lenmas = [count for word, count in frecuencia_palabras_lenmas.most_common(10)]
top_stems = [count for word, count in frecuencia_palabras_stem.most_common(10)]
words_lenmas = [word for word, count in frecuencia_palabras_lenmas.most_common(10)]
words_stems = [word for word, count in frecuencia_palabras_stem.most_common(10)]

In [None]:
df_lenmas = pd.DataFrame({'token': words_lenmas, 'conteo': top_lenmas})

# Gráfica Lematizadas
plt.figure(figsize=(10, 6))
plt.bar(df_lenmas['token'], df_lenmas['conteo'], color='black')
plt.xlabel('Palabras')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de Palabras Lematizadas')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

df_stems = pd.DataFrame({'token': words_stems, 'conteo': top_stems})

# Grafica de barras Steam
plt.figure(figsize=(10, 6))
plt.bar(df_stems['token'], df_stems['conteo'], color='orange')
plt.xlabel('Palabras')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de Palabras con Stems')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

# Barra apiladas
df_lenmas = pd.DataFrame({'token': words_lenmas, 'conteo': top_lenmas})
df_stems = pd.DataFrame({'token': words_stems, 'conteo': top_stems})

# Unir los dos dataframe en uno solo
df_combined = pd.DataFrame({
    'token': words_lenmas + words_stems,
    'conteo': top_lenmas + top_stems,
    'tipo': ['Lematizadas'] * len(top_lenmas) + ['Stems'] * len(top_stems)
})

df_pivot = df_combined.pivot_table(index='token', columns='tipo', values='conteo', aggfunc='sum', fill_value=0)

df_pivot.plot(kind='bar', stacked=True, figsize=(10, 6))

# Configuración del gráfico
plt.xlabel('Palabras')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de Palabras: Lematizadas vs Stems (Apilado)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()


In [None]:
import matplotlib.pyplot as plt
from collections import Counter

# Extraer los 10 bigramas mas comunes, convertirlo a data frame
top_bigrams = bigramas.most_common(10)
df_bigrams = pd.DataFrame(top_bigrams, columns=['bigram', 'frecuencia'])

plt.figure(figsize=(12, 6))

# Plot de los bigramas más comunes
plt.bar([' '.join(bigram) for bigram in df_bigrams['bigram']], df_bigrams['frecuencia'], color='violet')
plt.xlabel('Bigramas')
plt.ylabel('Frecuencia')
plt.title('10 Bigramas Más Comunes')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()