# Recuperacion de la informacion
### Nombre: Dilan Andrade
### Tema: Modelización de Tópicos
### Fecha: 14-01-2025

## Carga y Exploración Inicial de Datos

1. **Carga del CSV**: Utiliza `pandas` para cargar un archivo CSV que contiene los datos del podcast.
2. **Inspección Inicial**: Muestra las primeras filas del archivo con `data.head()`, lo que ayuda a verificar que los datos se han cargado correctamente.


In [None]:

import pandas as pd
# Cargar el archivo CSV
file_path = '/content/podcastdata_dataset.csv'  # Cambia la ruta si es necesario
data = pd.read_csv(file_path)

# Inspeccionar las primeras filas del archivo
print(data.head())

   id            guest                    title  \
0   1      Max Tegmark                 Life 3.0   
1   2    Christof Koch            Consciousness   
2   3    Steven Pinker  AI in the Age of Reason   
3   4    Yoshua Bengio            Deep Learning   
4   5  Vladimir Vapnik     Statistical Learning   

                                                text  
0  As part of MIT course 6S099, Artificial Genera...  
1  As part of MIT course 6S099 on artificial gene...  
2  You've studied the human mind, cognition, lang...  
3  What difference between biological neural netw...  
4  The following is a conversation with Vladimir ...  


In [None]:
# Contar palabras en la columna 'text'
# Agregar una nueva columna llamada 'word_count' con el conteo de palabras
data['word_count'] = data['text'].apply(lambda x: len(str(x).split()))

# Mostrar los episodios con su conteo de palabras
for index, row in data.iterrows():
    print(f"Episodio {row['id']}: {row['word_count']} palabras")

Episodio 1: 13424 palabras
Episodio 2: 10217 palabras
Episodio 3: 5989 palabras
Episodio 4: 5993 palabras
Episodio 5: 6374 palabras
Episodio 6: 11219 palabras
Episodio 7: 17372 palabras
Episodio 8: 5473 palabras
Episodio 9: 12453 palabras
Episodio 10: 7374 palabras
Episodio 11: 10667 palabras
Episodio 12: 10608 palabras
Episodio 13: 9799 palabras
Episodio 14: 10702 palabras
Episodio 14: 10702 palabras
Episodio 15: 10277 palabras
Episodio 16: 13059 palabras
Episodio 17: 16251 palabras
Episodio 18: 5118 palabras
Episodio 19: 11669 palabras
Episodio 20: 17893 palabras
Episodio 21: 13054 palabras
Episodio 22: 11890 palabras
Episodio 23: 11960 palabras
Episodio 24: 9726 palabras
Episodio 25: 24567 palabras
Episodio 26: 6008 palabras
Episodio 27: 11906 palabras
Episodio 28: 6834 palabras
Episodio 29: 18645 palabras
Episodio 30: 8975 palabras
Episodio 31: 21348 palabras
Episodio 32: 8787 palabras
Episodio 33: 10864 palabras
Episodio 34: 8132 palabras
Episodio 35: 16772 palabras
Episodio 36: 1

## Conteo de Palabras

1. **Contar Palabras**: Calcula el número de palabras en cada episodio utilizando el método `apply()`, que aplica una función lambda para dividir el texto en palabras y contar su longitud.
2. **Mostrar Resultados**: Itera sobre el DataFrame y muestra el número de palabras en cada episodio.


In [None]:
# Contar palabras en la columna 'text'
# Agregar una nueva columna llamada 'word_count' con el conteo de palabras
conteo = data[data['id'] == 1]['text'].apply(lambda x: len(str(x).split())).values[0]


# Mostrar los episodios con su conteo de palabras
print(f"Episodio 1 tiene {conteo} palabras")

Episodio 1 tiene 13424 palabras


## Conteo de Oraciones

1. **Contar Oraciones**: Utiliza expresiones regulares con `re.split()` para dividir el texto en oraciones, separando por los delimitadores de puntuación comunes (`.`, `!`, `?`). Luego, calcula el número de oraciones.
2. **Mostrar Resultados**: Itera sobre el DataFrame y muestra el número de oraciones en cada episodio.


In [None]:
import re
# Contar oraciones en la columna 'text'
data['sentence_count'] = data['text'].apply(lambda x: len(re.split(r'[.!?]+', str(x).strip())) - 1)

# Mostrar los episodios con su conteo de oraciones
for index, row in data.iterrows():
    print(f"Episodio {row['id']}: {row['sentence_count']} oraciones")

Episodio 1: 744 oraciones
Episodio 2: 606 oraciones
Episodio 3: 335 oraciones
Episodio 4: 359 oraciones
Episodio 5: 563 oraciones
Episodio 6: 514 oraciones
Episodio 7: 1395 oraciones
Episodio 8: 324 oraciones
Episodio 9: 706 oraciones
Episodio 10: 434 oraciones
Episodio 11: 496 oraciones
Episodio 12: 692 oraciones
Episodio 13: 669 oraciones
Episodio 14: 549 oraciones
Episodio 14: 549 oraciones
Episodio 15: 688 oraciones
Episodio 16: 795 oraciones
Episodio 17: 871 oraciones
Episodio 18: 278 oraciones
Episodio 19: 564 oraciones
Episodio 20: 1062 oraciones
Episodio 21: 876 oraciones
Episodio 22: 779 oraciones
Episodio 23: 634 oraciones
Episodio 24: 625 oraciones
Episodio 25: 1770 oraciones
Episodio 26: 383 oraciones
Episodio 27: 601 oraciones
Episodio 28: 362 oraciones
Episodio 29: 1275 oraciones
Episodio 30: 426 oraciones
Episodio 31: 1920 oraciones
Episodio 32: 515 oraciones
Episodio 33: 603 oraciones
Episodio 34: 723 oraciones
Episodio 35: 1022 oraciones
Episodio 36: 831 oraciones
Epis

## Creación de una Tabla de Oraciones

1. **Creación de la Tabla de Oraciones**: Divide el texto de cada episodio en oraciones y crea un DataFrame con tres columnas: `ep_id` (ID del episodio), `st_id` (ID de la oración dentro del episodio), y `text` (la oración en sí).
2. **Concatenación de Datos**: Utiliza `pd.concat()` para concatenar las oraciones de cada episodio al DataFrame final `sentences_df`.


In [None]:
import pandas as pd
import re

# Crear un DataFrame vacío para almacenar los resultados
sentences_df = pd.DataFrame(columns=['ep_id', 'st_id', 'text'])

# Iterar sobre cada fila del DataFrame original
for index, row in data.iterrows():
    # Obtener el ID del episodio
    ep_id = row['id']

    # Dividir el texto en oraciones utilizando el delimitador de oraciones
    sentences = [s.strip() for s in re.split(r'[.!?]+', str(row['text']).strip()) if s.strip()]

    # Crear un DataFrame temporal para las oraciones del episodio
    temp_df = pd.DataFrame({
        'ep_id': ep_id,
        'st_id': range(1, len(sentences) + 1),
        'text': sentences
    })

    # Concatenar con el DataFrame final
    sentences_df = pd.concat([sentences_df, temp_df], ignore_index=True)

# Mostrar los primeros registros de la tabla creada
print(sentences_df)

       ep_id st_id                                               text
0          1     1  As part of MIT course 6S099, Artificial Genera...
1          1     2                      He is a professor here at MIT
2          1     3  He's a physicist, spent a large part of his ca...
3          1     4  But he's also studied and delved into the bene...
4          1     5  Amongst many other things, he is the cofounder...
...      ...   ...                                                ...
447428   325  2093                                 Is it in the cells
447429   325  2094  There are many, many layers to this as always ...
447430   325  2095                     So there are chemical networks
447431   325  2096    So for example, gene regulatory networks, right
447432   325  2097   Which, or basically any kind of chemical pathway

[447433 rows x 3 columns]


In [None]:
!pip install sentence-transformers



## Cálculo de Embeddings para las Oraciones

1. **Instalación de `sentence-transformers`**: Utiliza `pip` para instalar el paquete necesario para generar embeddings de oraciones.
2. **Carga del Modelo Preentrenado**: Se carga el modelo `all-MiniLM-L6-v2` de `sentence-transformers`, que es adecuado para generar embeddings de texto de tamaño pequeño y rápido.
3. **Generación de Embeddings**: Divide el texto en oraciones y calcula los embeddings en lotes (por eficiencia). Los embeddings generados se agregan como una nueva columna en `sentences_df`.
4. **Mostrar Resultados**: Muestra las primeras filas del DataFrame con los embeddings generados.







In [None]:
from sentence_transformers import SentenceTransformer
import pandas as pd
import re
from tqdm import tqdm

# Cargar el modelo preentrenado para embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')

# Crear una lista para almacenar los datos temporalmente
data_list = []

# Iterar sobre cada fila del DataFrame original con tqdm para mostrar el progreso
for index, row in tqdm(data.iterrows(), total=len(data), desc="Procesando oraciones"):
    # Obtener el ID del episodio
    ep_id = row['id']

    # Dividir el texto en oraciones
    sentences = [s.strip() for s in re.split(r'[.!?]+', str(row['text']).strip()) if s.strip()]

    # Agregar las oraciones con IDs a la lista
    data_list.extend([{'ep_id': ep_id, 'st_id': idx + 1, 'text': sentence}
                      for idx, sentence in enumerate(sentences)])

# Crear un DataFrame final a partir de la lista
sentences_df = pd.DataFrame(data_list)

# Calcular los embeddings por lotes con tqdm para mostrar el progreso
batch_size = 64  # Ajusta el tamaño del lote según la memoria disponible
embeddings = []

for i in tqdm(range(0, len(sentences_df), batch_size), desc="Calculando embeddings"):
    batch = sentences_df['text'][i:i+batch_size].tolist()
    embeddings.extend(model.encode(batch))

# Agregar los embeddings al DataFrame
sentences_df['embedding'] = embeddings

# Mostrar las primeras filas con embeddings
print(sentences_df.head())


Procesando oraciones: 100%|██████████| 319/319 [00:02<00:00, 111.57it/s]
Calculando embeddings: 100%|██████████| 6992/6992 [03:54<00:00, 29.77it/s]


   ep_id  st_id                                               text  \
0      1      1  As part of MIT course 6S099, Artificial Genera...   
1      1      2                      He is a professor here at MIT   
2      1      3  He's a physicist, spent a large part of his ca...   
3      1      4  But he's also studied and delved into the bene...   
4      1      5  Amongst many other things, he is the cofounder...   

                                           embedding  
0  [-0.09496674, -0.09888684, 0.022210749, -0.051...  
1  [-0.07171491, -0.01610179, 0.026951278, -0.035...  
2  [0.011199181, -0.0019410783, 0.0041966145, 0.0...  
3  [0.031063225, 0.0071431664, 0.0050430056, -0.0...  
4  [-0.05261418, -0.0066042743, -0.039290454, -0....  


### Clusterización de Oraciones y Capítulos

1. **Clusterización de Oraciones:**
   - **Método:** `KMeans` con un máximo de 10 clusters dinámicos por capítulo.
   - **Resultado:** Cada oración recibe un identificador de cluster (`cluster`).

2. **Vector Representativo del Capítulo:**
   - **Método:** Media de los embeddings de las oraciones.
   - **Resultado:** Cada capítulo tiene un vector que resume su contenido.

3. **Clusterización de Capítulos:**
   - **Método:** `MiniBatchKMeans` para agrupar capítulos en 20 clusters (configurable).
   - **Resultado:** Cada capítulo recibe un identificador de cluster (`episode_cluster`).

4. **Evaluación:**
   - **Métrica:** `Silhouette Score` para medir la calidad de los clusters.

5. **Resultados Finales:**
   - **Archivo:** `clustered_sentences.csv` con:
     - `cluster`: Cluster de cada oración.
     - `episode_cluster`: Cluster asignado al capítulo.


In [13]:
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.metrics import silhouette_score
import numpy as np
from tqdm import tqdm

# Paso 1: Clusterización de oraciones por capítulo
clusters_by_episode = {}

for ep_id in tqdm(sentences_df['ep_id'].unique(), desc="Clusterizando oraciones por capítulo"):
    # Filtrar las oraciones del capítulo actual
    chapter_data = sentences_df[sentences_df['ep_id'] == ep_id]
    embeddings = np.vstack(chapter_data['embedding'].to_numpy())  # Convertir embeddings a matriz numpy

    # Calcular un número de clusters dinámico (máximo 10 o menos si hay pocas oraciones)
    max_clusters = min(10, len(embeddings))  # Ajusta según tus datos
    if max_clusters > 1:
        kmeans = KMeans(n_clusters=max_clusters, random_state=42, n_init=10)
        labels = kmeans.fit_predict(embeddings)
    else:
        labels = np.zeros(len(embeddings))  # Todo un solo cluster si hay pocas oraciones

    # Guardar resultados en el DataFrame
    sentences_df.loc[chapter_data.index, 'cluster'] = labels
    clusters_by_episode[ep_id] = labels

# Paso 2: Vector representativo de cada capítulo
episode_vectors = sentences_df.groupby('ep_id')['embedding'].apply(
    lambda x: np.mean(np.vstack(x), axis=0)
).to_numpy()

# Paso 3: Clusterización de capítulos
n_episode_clusters = 20  # Ajusta el número de clusters según los datos
episode_kmeans = MiniBatchKMeans(n_clusters=n_episode_clusters, random_state=42, batch_size=100)
episode_labels = episode_kmeans.fit_predict(np.vstack(episode_vectors))

# Asignar etiquetas de clusters a capítulos
episode_cluster_mapping = dict(zip(sentences_df['ep_id'].unique(), episode_labels))
sentences_df['episode_cluster'] = sentences_df['ep_id'].map(episode_cluster_mapping)

# Paso 4: Resultados
for ep_id, cluster_id in episode_cluster_mapping.items():
    print(f"Capítulo {ep_id} pertenece al cluster {cluster_id}")


Clusterizando oraciones por capítulo: 100%|██████████| 318/318 [02:58<00:00,  1.79it/s]


Capítulo 1 pertenece al cluster 1
Capítulo 2 pertenece al cluster 1
Capítulo 3 pertenece al cluster 16
Capítulo 4 pertenece al cluster 15
Capítulo 5 pertenece al cluster 15
Capítulo 6 pertenece al cluster 12
Capítulo 7 pertenece al cluster 12
Capítulo 8 pertenece al cluster 12
Capítulo 9 pertenece al cluster 16
Capítulo 10 pertenece al cluster 15
Capítulo 11 pertenece al cluster 15
Capítulo 12 pertenece al cluster 16
Capítulo 13 pertenece al cluster 15
Capítulo 14 pertenece al cluster 7
Capítulo 15 pertenece al cluster 14
Capítulo 16 pertenece al cluster 8
Capítulo 17 pertenece al cluster 16
Capítulo 18 pertenece al cluster 9
Capítulo 19 pertenece al cluster 15
Capítulo 20 pertenece al cluster 16
Capítulo 21 pertenece al cluster 12
Capítulo 22 pertenece al cluster 12
Capítulo 23 pertenece al cluster 12
Capítulo 24 pertenece al cluster 8
Capítulo 25 pertenece al cluster 1
Capítulo 26 pertenece al cluster 1
Capítulo 27 pertenece al cluster 17
Capítulo 28 pertenece al cluster 9
Capítulo 2