<h1>Scraping de Podcasts: Extracción de Datos del Podcast 'Compuestos'</h1>
<h2>📌 Introducción</h2>
<p>Este notebook tiene como objetivo extraer información detallada del podcast "Compuesto" de Andrés Garza
desde Spotify utilizando la API de Spotify y la librería Spotipy.

<h3>🎯 Objetivo</h3>
<ul>
    <li> Obtener los datos del podcast desde Spotify..</li>
    <li> Extraer información clave de cada episodio (título, descripción, fecha, duración, invitados y empresas mencionadas).</li>
    <li>Guardar los resultados en un archivo CSV para su posterior análisis.</li>
</ul>
<h2>🎙️ Sobre el Podcast</h2>
<ul>
    <li><b>Nombre:</b> Compuestos</li>
    <li><b>Autor:</b> Andrés Garza</li>
    <li><b>Descripción:</b> COMPUESTOS Podcast es contenido diseñado para inspirar, enseñar y comunicar ideas e historias de distintas personalidades que superaron sus retos para lograr su estado actual.</li>
    <li><b>Link:</b> https://open.spotify.com/show/3kLgH97biRRk4BheBzysbn</li>
</ul>

In [None]:
# Install the Spotipy library, a lightweight Python library for the Spotify Web API.
# It allows access to Spotify data such as playlists, albums, artists, and tracks.

# Instala la biblioteca Spotipy, una biblioteca ligera de Python para la API web de Spotify.
# Permite acceder a datos de Spotify como listas de reproducción, álbumes, artistas y canciones.
!pip install spotipy

Collecting spotipy
  Downloading spotipy-2.25.1-py3-none-any.whl.metadata (5.1 kB)
Collecting redis>=3.5.3 (from spotipy)
  Downloading redis-5.2.1-py3-none-any.whl.metadata (9.1 kB)
Downloading spotipy-2.25.1-py3-none-any.whl (31 kB)
Downloading redis-5.2.1-py3-none-any.whl (261 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m261.5/261.5 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: redis, spotipy
Successfully installed redis-5.2.1 spotipy-2.25.1


In [None]:

# Import necessary libraries for Spotify scraping.
# Importa las bibliotecas necesarias para el scraping de un podcast en Spotify.
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials

# Import libraries for data manipulation and analysis.
# Importa bibliotecas para manipulación y análisis de datos.
import pandas as pd
import numpy as np

# Import Plotly for data visualization.
# Importa Plotly para la visualización de datos.
import plotly.express as px



In [None]:
# Define your Spotify API credentials (client_id and client_secret).
# Define tus credenciales de la API de Spotify (client_id y client_secret).
client_id = "Add client_id"
client_secret = "Add client_secret"

# Authentication without user login using client credentials.
# Autenticación sin iniciar sesión con usuario usando las credenciales de cliente.
client_credentials_manager = SpotifyClientCredentials(client_id=client_id, client_secret=client_secret)

# Create a Spotipy client to interact with the Spotify Web API.
# Crear un cliente Spotipy para interactuar con la API web de Spotify.
sp = spotipy.Spotify(client_credentials_manager=client_credentials_manager)


In [None]:
# Define the name of the podcast.
# Definir el nombre del podcast.
nombre_podcast = "Compuestos"

In [None]:
# Function to retrieve podcast episodes by podcast name.
# Función para obtener los episodios del podcast por nombre.
def obtener_episodios_podcast(nombre_podcast):
    # Search for the podcast using the Spotify API.
    # Buscar el podcast usando la API de Spotify.
    resultados = sp.search(q=nombre_podcast, type='show', limit=1)

    # Check if the podcast is found in the search results.
    # Verificar si el podcast fue encontrado en los resultados de búsqueda.
    if resultados['shows']['items']:
        # Extract the podcast ID and name.
        # Extraer el ID y nombre del podcast.
        id_podcast = resultados['shows']['items'][0]['id']
        nombre_podcast = resultados['shows']['items'][0]['name']
        print(f"Podcast encontrado: {nombre_podcast} (ID: {id_podcast})")

        # Retrieve the episodes for the podcast, with a limit of 50 episodes.
        # Obtener los episodios del podcast, con un límite de 50 episodios.
        episodios = sp.show_episodes(id_podcast, limit=50)  # Limit of 50 episodes

        # Return the list of episodes.
        # Devolver la lista de episodios.
        return episodios['items']
    else:
        # If no podcast is found, print a message and return an empty list.
        # Si no se encuentra el podcast, imprimir un mensaje y devolver una lista vacía.
        print("Podcast no encontrado.")
        return []

# Get the episodes of the specified podcast.
# Obtener los episodios del podcast especificado.
episodios = obtener_episodios_podcast(nombre_podcast)


Podcast encontrado: COMPUESTOS (ID: 3kLgH97biRRk4BheBzysbn)


In [None]:
# Function to extract relevant data from the podcast episodes.
# Función para extraer datos relevantes de los episodios del podcast.
def extraer_datos_episodios(episodios):
    # Initialize an empty list to store the episode data.
    # Inicializar una lista vacía para almacenar los datos de los episodios.
    datos = []

    # Loop through each episode in the provided list of episodes.
    # Recorrer cada episodio en la lista de episodios proporcionada.
    for episodio in episodios:
        # Create a dictionary with relevant episode details.
        # Crear un diccionario con los detalles relevantes del episodio.
        info_episodio = {
            "Titulo": episodio['name'],  # Episode title.  # Título del episodio.
            "Descripcion": episodio['description'],  # Episode description.  # Descripción del episodio.
            "Fecha_lanzamiento": episodio['release_date'],  # Episode release date.  # Fecha de lanzamiento del episodio.
            "Duracion_ms": episodio['duration_ms']  # Episode duration in milliseconds.  # Duración del episodio en milisegundos.
        }
        # Append the episode information to the list.
        # Añadir la información del episodio a la lista.
        datos.append(info_episodio)

    # Convert the list of episode data into a DataFrame.
    # Convertir la lista de datos de episodios en un DataFrame.
    return pd.DataFrame(datos)

# Extract episode data and reverse the order of the DataFrame rows.
# Extraer los datos de los episodios y revertir el orden de las filas del DataFrame.
podcast_df = extraer_datos_episodios(episodios).iloc[::-1].reset_index(drop=True)

# Display the DataFrame.
# Mostrar el DataFrame.
podcast_df


Unnamed: 0,Título,Descripcion,Fecha_lanzamiento,Duracion_ms
0,Andrés Garza X Benshorts | 16 Años Creando Con...,"De no tener una vocación clara, a convertirse ...",2023-08-03,5094271
1,Andrés Garza X Daniel Corral | La Gloria Olímp...,De empezar desde los 3 años a practicar la gim...,2023-08-03,4660437
2,Andrés Garza X Ricky Limón | ¿Cómo Gana Dinero...,De tener el sueño de ser YouTuber a convertirs...,2023-10-24,5990183
3,Andrés Garza X Ronny | Boxeo & La Velada del A...,"De estar desolado, a convertirse en una de las...",2023-10-24,6058488
4,Andrés Garza X Chef En Proceso | Monetizando T...,"De tener una meta clara, a dejar todo para lle...",2023-10-25,8455368
5,Andrés Garza X Nayo Escobar | Nunca Es Tarde P...,"De fracasar numerosas veces, a dejar todo atrá...",2023-11-08,5651640
6,¿Qué Es Compuestos?,"Un problema sencillo, es aquel que requiere de...",2023-11-09,45487
7,¿Cómo Ganar 1 Millón De Dólares En Internet? |...,"De tener una idea específica, a educarse en el...",2023-11-23,4658351
8,Cómo Crear +5 Empresas A Través De Tu Marca Pe...,De ser diagnosticada con Trastornos de la Cond...,2023-12-05,3175968
9,¿Cómo Hipnotizarte Para El Éxito? | Andrés Gar...,De no querer centrar su vida en la hipnosis ni...,2024-04-22,4082280


In [None]:
# Instalar spaCy y descargar el modelo en español
!pip install spacy pandas
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m25.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
import pandas as pd

# Cargar el modelo de español
nlp = spacy.load("es_core_news_md")
print("Modelo cargado correctamente")

Modelo cargado correctamente


In [None]:
def extraer_entidades(texto):
    # Manejar valores nulos o vacíos
    if pd.isna(texto) or texto == "":
        return [], []

    # Convertir a string y limitar longitud para evitar problemas
    texto = str(texto)[:5000]

    # Procesar el texto con spaCy
    doc = nlp(texto)

    # Extraer personas y organizaciones
    personas = [ent.text for ent in doc.ents if ent.label_ == "PER"]
    organizaciones = [ent.text for ent in doc.ents if ent.label_ == "ORG"]

    return personas, organizaciones

In [None]:
import time

def procesar_dataframe(df, columna_texto='Descripcion'):
    # Crear columnas nuevas para almacenar resultados
    df['invitados'] = ""
    df['empresas'] = ""

    total = len(df)
    inicio = time.time()

    for idx, row in df.iterrows():
        # Mostrar progreso cada 10 filas
        if idx % 10 == 0:
            tiempo_transcurrido = time.time() - inicio
            tiempo_estimado = (tiempo_transcurrido / (idx+1)) * (total - idx - 1) if idx > 0 else 0
            print(f"Procesando {idx+1}/{total} ({((idx+1)/total*100):.1f}%) - Tiempo estimado restante: {tiempo_estimado/60:.1f} min")

        try:
            # Extraer entidades
            personas, organizaciones = extraer_entidades(row[columna_texto])

            # Guardar resultados en el dataframe
            df.at[idx, 'invitados'] = ', '.join(set(personas)) if personas else ""
            df.at[idx, 'empresas'] = ', '.join(set(organizaciones)) if organizaciones else ""
        except Exception as e:
            print(f"Error en fila {idx}: {e}")

    print("Procesamiento completado")
    return df

In [None]:
# Asumiendo que tu dataframe se llama podcast_df
# Reemplaza esto con tu código para cargar el dataframe si es necesario
# podcast_df = pd.read_csv('tu_archivo.csv')

# Procesar el dataframe
podcast_df = procesar_dataframe(podcast_df)

# Mostrar las primeras filas para verificar resultados
podcast_df[['Título', 'invitados', 'empresas']]

Procesando 1/22 (4.5%) - Tiempo estimado restante: 0.0 min
Procesando 11/22 (50.0%) - Tiempo estimado restante: 0.0 min
Procesando 21/22 (95.5%) - Tiempo estimado restante: 0.0 min
Procesamiento completado


Unnamed: 0,Título,invitados,empresas
0,Andrés Garza X Benshorts | 16 Años Creando Con...,"Héctor de la Hoya, Héctor de La Hoya","Ser Humano, COMPUESTOS Podcast"
1,Andrés Garza X Daniel Corral | La Gloria Olímp...,Daniel Corral,COMPUESTOS Podcast
2,Andrés Garza X Ricky Limón | ¿Cómo Gana Dinero...,Ricardo Marcelo Limón,"Empezando, COMPUESTOS Podcast"
3,Andrés Garza X Ronny | Boxeo & La Velada del A...,"Rivers, Ronaldo López, Arigameplays, Ronny",COMPUESTOS Podcast
4,Andrés Garza X Chef En Proceso | Monetizando T...,Isaías Espinoza,"Chef, Proceso, COMPUESTOS Podcast"
5,Andrés Garza X Nayo Escobar | Nunca Es Tarde P...,"Nayo Escobar, Leonardo Escobar",COMPUESTOS Podcast
6,¿Qué Es Compuestos?,Andrés Garza,
7,¿Cómo Ganar 1 Millón De Dólares En Internet? |...,"Luque Academy, Empresario, Álvaro Luque",COMPUESTOS Podcast
8,Cómo Crear +5 Empresas A Través De Tu Marca Pe...,"Brenvita, Brenda Verónica","Empezando, COMPUESTOS Podcast"
9,¿Cómo Hipnotizarte Para El Éxito? | Andrés Gar...,"El Caballero de la Hipnosis, John Milton, Taurus","América Taurus, COMPUESTOS Podcast"


In [None]:
import spacy
import pandas as pd
import re
import time

# Cargar el modelo de español
nlp = spacy.load("es_core_news_md")
print("Modelo cargado correctamente")

def extraer_entidades(texto, excluir_creadores=["Andrés Garza", "Andrés", "Garza"]):
    """
    Extrae personas y organizaciones del texto, con mejoras para los formatos específicos.

    Args:
        texto: El texto a analizar
        excluir_creadores: Lista de nombres a excluir (creadores del podcast)

    Returns:
        Tupla de dos listas: (personas, organizaciones)
    """
    if pd.isna(texto) or texto == "":
        return [], []

    texto = str(texto)[:10000]  # Permitir textos más largos

    # Lista para recolectar invitados encontrados
    invitados = []

    # 1. Buscar patrones específicos de "Redes del Invitado"
    match_redes = re.search(r"Redes del [Ii]nvitado:.*?(?=Redes de|Escucha|Sobre|$)", texto, re.DOTALL)
    if match_redes:
        sección_redes = match_redes.group(0)
        # Extraer el nombre antes de "Redes del Invitado"
        # Buscamos hasta 200 caracteres antes de "Redes del Invitado"
        texto_previo = texto[max(0, texto.find("Redes del Invitado")-200):texto.find("Redes del Invitado")]

        # Intentar encontrar el nombre completo al inicio del texto
        match_nombre = re.search(r"^([A-Za-zÁ-Úá-úÑñ\s]+)(?=\ses\s)", texto)
        if match_nombre:
            nombre = match_nombre.group(1).strip()
            if len(nombre.split()) >= 2:  # Al menos nombre y apellido
                invitados.append(nombre)

    # 2. Buscar "mejor conocido como"
    alias_matches = re.findall(r"([A-Za-zÁ-Úá-úÑñ\s]+),?\s+mejor conocido como\s+([A-Za-zÁ-Úá-úÑñ\s]+)", texto)
    for nombre, alias in alias_matches:
        nombre = nombre.strip()
        alias = alias.strip()
        if len(nombre) > 3 and nombre not in invitados:
            invitados.append(nombre)
        if len(alias) > 3 and alias not in invitados:
            invitados.append(alias)

    # 3. Buscar "Hoy está con nosotros"
    con_nosotros = re.search(r"[Hh]oy está con nosotros\s+([A-Za-zÁ-Úá-úÑñ\s]+)(?=[,\.])", texto)
    if con_nosotros:
        nombre = con_nosotros.group(1).strip()
        if len(nombre) > 3 and nombre not in invitados:
            invitados.append(nombre)

    # 4. Si no encontramos invitados con patrones específicos, usar NER
    if not invitados:
        doc = nlp(texto)
        for ent in doc.ents:
            if ent.label_ == "PER" and len(ent.text) > 3:
                # Verificar que no sea parte de una URL o redes sociales
                if not any(red in ent.text for red in ["Facebook", "Instagram", "TikTok", "YouTube"]):
                    # Verificar que no sea un creador excluido
                    if not any(creador.lower() in ent.text.lower() for creador in excluir_creadores):
                        invitados.append(ent.text)

    # Eliminar duplicados preservando el orden
    invitados_limpios = list(dict.fromkeys(invitados))

    # Limpiar nombres de invitados
    invitados_limpios = [re.sub(r'Hoy está con nosotros\s+', '', inv).strip() for inv in invitados_limpios]

    # Ahora buscar empresas u organizaciones genuinas
    empresas = []

    # 1. Buscar patrones específicos de empresas
    patrones_empresas = [
        r"CEO de\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])",
        r"fundador de\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])",
        r"trabaja[r]? (?:en|para)\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])"
    ]

    for patron in patrones_empresas:
        matches = re.findall(patron, texto)
        empresas.extend([m.strip() for m in matches if len(m.strip()) > 3])

    # 2. Usar NER para organizaciones
    doc = nlp(texto)
    for ent in doc.ents:
        if ent.label_ == "ORG" and len(ent.text) > 3:
            # Lista de falsos positivos comunes para excluir
            falsos_positivos = [
                "Invitado", "Actualmente", "Redes", "Facebook", "Instagram",
                "TikTok", "YouTube", "Twitter", "LinkedIn", "Apple Podcasts",
                "Spotify", "Amazon Music", "Deezer", "Sobre", "Escucha",
                "Marcas De Tiempo", "#", "Licenciatura", "Maestría", "Doctorado"
            ]

            # Verificar que no sea un falso positivo
            if not any(fp.lower() in ent.text.lower() for fp in falsos_positivos):
                # Verificar que no sea un nombre de método o enfoque
                if "Terapia" not in ent.text and "Psicoterapia" not in ent.text:
                    empresas.append(ent.text)

    # Filtrar "COMPUESTOS Podcast" de las empresas (es el nombre del podcast)
    empresas = [e for e in empresas if "COMPUESTOS" not in e and "Podcast" not in e and "Ser Humano" not in e]

    # Eliminar duplicados preservando el orden
    empresas_limpias = list(dict.fromkeys(empresas))

    # Eliminar empresas que sean solo siglas cortas sin contexto (como AMIB)
    empresas_limpias = [e for e in empresas_limpias if len(e) > 4 or not e.isupper()]

    # Eliminar elementos de la lista de invitados que incluyan "Instagram", etc.
    invitados_finales = [inv for inv in invitados_limpios
                         if not any(red in inv for red in ["Instagram", "Facebook", "TikTok", "YouTube"])]

    return invitados_finales, empresas_limpias

def procesar_dataframe(df, columna_texto='Descripcion'):
    """
    Procesa todo el dataframe para extraer entidades.
    """
    # Crear columnas nuevas para almacenar resultados
    df['invitados'] = ""
    df['empresas'] = ""

    total = len(df)
    inicio = time.time()

    for idx, row in df.iterrows():
        # Mostrar progreso cada 5 filas
        if idx % 5 == 0:
            tiempo_transcurrido = time.time() - inicio
            tiempo_estimado = (tiempo_transcurrido / (idx+1)) * (total - idx - 1) if idx > 0 else 0
            print(f"Procesando {idx+1}/{total} ({((idx+1)/total*100):.1f}%) - Tiempo estimado restante: {tiempo_estimado/60:.1f} min")

        try:
            # Extraer entidades
            personas, organizaciones = extraer_entidades(row[columna_texto])

            # Guardar resultados en el dataframe
            df.at[idx, 'invitados'] = ', '.join(personas) if personas else ""
            df.at[idx, 'empresas'] = ', '.join(organizaciones) if organizaciones else ""
        except Exception as e:
            print(f"Error en fila {idx}: {e}")

    print("Procesamiento completado")
    return df


Modelo cargado correctamente


In [None]:
import spacy
import pandas as pd
import re
import time

# Cargar el modelo de lenguaje en español / Load the Spanish language model
nlp = spacy.load("es_core_news_md")
print("Modelo cargado correctamente / Model loaded successfully")

def extraer_entidades(texto, excluir_creadores=["Andrés Garza", "Andrés", "Garza"]):
    """
    Extrae nombres de personas y organizaciones de un texto utilizando expresiones regulares y procesamiento de lenguaje natural.
    Extracts names of people and organizations from a text using regular expressions and natural language processing.

    Args:
        texto (str): El texto a analizar / The text to analyze.
        excluir_creadores (list): Lista de nombres a excluir (ej. creadores del podcast) / List of names to exclude (e.g., podcast creators).

    Returns:
        tuple: Dos listas, una con los nombres de personas y otra con organizaciones. /
               Two lists, one with people's names and the other with organizations.
    """
    if pd.isna(texto) or texto == "":
        return [], []

    texto = str(texto)[:10000]  # Limitar la longitud del texto / Limit text length
    invitados = []  # Lista para almacenar nombres de invitados / List to store guest names

    # 1. Buscar patrones específicos de "Redes del Invitado" / Search for specific "Guest Networks" patterns
    match_redes = re.search(r"Redes del [Ii]nvitado:.*?(?=Redes de|Escucha|Sobre|$)", texto, re.DOTALL)
    if match_redes:
        sección_redes = match_redes.group(0)
        texto_previo = texto[max(0, texto.find("Redes del Invitado")-200):texto.find("Redes del Invitado")]

        match_nombre = re.search(r"^([A-Za-zÁ-Úá-úÑñ\s]+)(?=\ses\s)", texto)
        if match_nombre:
            nombre = match_nombre.group(1).strip()
            if len(nombre.split()) >= 2:
                invitados.append(nombre)

    # 2. Buscar nombres con "mejor conocido como" / Search for "better known as"
    alias_matches = re.findall(r"([A-Za-zÁ-Úá-úÑñ\s]+),?\s+mejor conocido como\s+([A-Za-zÁ-Úá-úÑñ\s]+)", texto)
    for nombre, alias in alias_matches:
        if len(nombre) > 3 and nombre not in invitados:
            invitados.append(nombre)
        if len(alias) > 3 and alias not in invitados:
            invitados.append(alias)

    # 3. Buscar "Hoy está con nosotros" / Search for "Today we have with us"
    con_nosotros = re.search(r"[Hh]oy está con nosotros\s+([A-Za-zÁ-Úá-úÑñ\s]+)(?=[,\.])", texto)
    if con_nosotros:
        nombre = con_nosotros.group(1).strip()
        if len(nombre) > 3 and nombre not in invitados:
            invitados.append(nombre)

    # 4. Si no se encontraron invitados, usar NER / If no guests were found, use NER
    if not invitados:
        doc = nlp(texto)
        for ent in doc.ents:
            if ent.label_ == "PER" and len(ent.text) > 3:
                if not any(red in ent.text for red in ["Facebook", "Instagram", "TikTok", "YouTube"]):
                    if not any(creador.lower() in ent.text.lower() for creador in excluir_creadores):
                        invitados.append(ent.text)

    invitados_limpios = list(dict.fromkeys(invitados))  # Eliminar duplicados / Remove duplicates

    # Buscar nombres de empresas u organizaciones / Search for company or organization names
    empresas = []
    patrones_empresas = [
        r"CEO de\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])",
        r"fundador de\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])",
        r"trabaja[r]? (?:en|para)\s+([A-Za-zÁ-Úá-úÑñ\s]+?)(?=[,\.])"
    ]

    for patron in patrones_empresas:
        matches = re.findall(patron, texto)
        empresas.extend([m.strip() for m in matches if len(m.strip()) > 3])

    # Usar NER para detectar organizaciones / Use NER to detect organizations
    doc = nlp(texto)
    for ent in doc.ents:
        if ent.label_ == "ORG" and len(ent.text) > 3:
            if ent.text.lower() not in ["facebook", "instagram", "tiktok", "youtube"]:
                empresas.append(ent.text)

    empresas_limpias = list(dict.fromkeys(empresas))  # Eliminar duplicados / Remove duplicates
    return invitados_limpios, empresas_limpias

def procesar_dataframe(df, columna_texto='Descripcion'):
    """
    Procesa un DataFrame para extraer entidades en cada fila.
    Processes a DataFrame to extract entities from each row.

    Args:
        df (pd.DataFrame): DataFrame con una columna de texto / DataFrame with a text column.
        columna_texto (str): Nombre de la columna con el texto a analizar / Column name containing text to analyze.

    Returns:
        pd.DataFrame: DataFrame con dos nuevas columnas ('invitados' y 'empresas').
                     DataFrame with two new columns ('guests' and 'companies').
    """
    df['invitados'] = ""
    df['empresas'] = ""

    total = len(df)
    inicio = time.time()

    for idx, row in df.iterrows():
        if idx % 5 == 0:
            tiempo_transcurrido = time.time() - inicio
            tiempo_estimado = (tiempo_transcurrido / (idx+1)) * (total - idx - 1) if idx > 0 else 0
            print(f"Procesando {idx+1}/{total} ({((idx+1)/total*100):.1f}%) - Tiempo estimado restante: {tiempo_estimado/60:.1f} min")

        try:
            personas, organizaciones = extraer_entidades(row[columna_texto])
            df.at[idx, 'invitados'] = ', '.join(personas) if personas else ""
            df.at[idx, 'empresas'] = ', '.join(organizaciones) if organizaciones else ""
        except Exception as e:
            print(f"Error en fila {idx}: {e}")

    print("Procesamiento completado / Processing completed")
    return df


Modelo cargado correctamente / Model loaded successfully


In [None]:
def eliminar_duplicados_invitados(invitados_str):
    """
    Elimina duplicados de una cadena de invitados separados por comas.
    Removes duplicates from a string of guests separated by commas.

    Args:
        invitados_str (str): Cadena de texto con invitados separados por comas.
                             Text string with guests separated by commas.

    Returns:
        str: Cadena de texto sin duplicados.
             Text string without duplicates.
    """
    if pd.isna(invitados_str) or invitados_str == "":
        return ""

    # Dividir la cadena en una lista de nombres
    # Split the string into a list of names
    invitados_lista = [inv.strip() for inv in invitados_str.split(',')]

    # Eliminar duplicados preservando el orden
    # Remove duplicates while preserving order
    invitados_limpios = list(dict.fromkeys(invitados_lista))

    # Unir nuevamente en una cadena
    # Join back into a single string
    return ', '.join(invitados_limpios)

# Aplicar la función a la columna 'invitados' del DataFrame
# Apply the function to the 'invitados' column in the DataFrame
podcast_df['invitados'] = podcast_df['invitados'].apply(eliminar_duplicados_invitados)

# Mostrar el DataFrame resultante
# Display the resulting DataFrame
print(podcast_df[['invitados']])


                                   invitados
0               Héctor de La Hoya, Benshorts
1                              Daniel Corral
2         Ricardo Marcelo Limón, Ricky Limón
3                       Ronaldo López, Ronny
4           Isaías Espinoza, Chef en Proceso
5             Leonardo Escobar, Nayo Escobar
6                                           
7                               Álvaro Luque
8                            Brenda Verónica
9   John Milton, El Caballero de la Hipnosis
10                  la Psicóloga Paola Lavín
11                        Mauricio Fernández
12                              David Tippol
13                             Jaime Higuera
14                David Tesch, La Ducha Fría
15                                 Alex Ruiz
16                              Adrián Sáenz
17                El Doctor Carlos Jaramillo
18                             Salvador Alva
19                El Doctor Carlos Jaramillo
20                  Daniel Morales Psicólogo
21        

In [None]:
podcast_df

Unnamed: 0,Título,Descripcion,Fecha_lanzamiento,Duracion_ms,invitados,empresas
0,Andrés Garza X Benshorts | 16 Años Creando Con...,"De no tener una vocación clara, a convertirse ...",2023-08-03,5094271,"Héctor de La Hoya, Benshorts",
1,Andrés Garza X Daniel Corral | La Gloria Olímp...,De empezar desde los 3 años a practicar la gim...,2023-08-03,4660437,Daniel Corral,
2,Andrés Garza X Ricky Limón | ¿Cómo Gana Dinero...,De tener el sueño de ser YouTuber a convertirs...,2023-10-24,5990183,"Ricardo Marcelo Limón, Ricky Limón",Empezando
3,Andrés Garza X Ronny | Boxeo & La Velada del A...,"De estar desolado, a convertirse en una de las...",2023-10-24,6058488,"Ronaldo López, Ronny",
4,Andrés Garza X Chef En Proceso | Monetizando T...,"De tener una meta clara, a dejar todo para lle...",2023-10-25,8455368,"Isaías Espinoza, Chef en Proceso","Chef, Proceso"
5,Andrés Garza X Nayo Escobar | Nunca Es Tarde P...,"De fracasar numerosas veces, a dejar todo atrá...",2023-11-08,5651640,"Leonardo Escobar, Nayo Escobar",
6,¿Qué Es Compuestos?,"Un problema sencillo, es aquel que requiere de...",2023-11-09,45487,,
7,¿Cómo Ganar 1 Millón De Dólares En Internet? |...,"De tener una idea específica, a educarse en el...",2023-11-23,4658351,Álvaro Luque,
8,Cómo Crear +5 Empresas A Través De Tu Marca Pe...,De ser diagnosticada con Trastornos de la Cond...,2023-12-05,3175968,Brenda Verónica,Empezando
9,¿Cómo Hipnotizarte Para El Éxito? | Andrés Gar...,De no querer centrar su vida en la hipnosis ni...,2024-04-22,4082280,"John Milton, El Caballero de la Hipnosis",América Taurus


In [None]:
# Guardar resultados en CSV
# Save results to CSV
podcast_df.to_csv("datos_podcast.csv", index=False)

# Mostrar mensaje de confirmación
# Display confirmation message
print("Datos guardados en datos_podcast.csv")
print("Data saved in datos_podcast.csv")


Datos guardados en datos_podcast.csv
Data saved in datos_podcast.csv


In [None]:
from google.colab import files
# Descargar el archivo "datos_podcast.csv"
# Download the file "datos_podcast.csv"
files.download("datos_podcast.csv")



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
import pandas as pd
df=pd.DataFrame(pd.read_csv("datos_podcast.csv"))
df.head()

Unnamed: 0,Título,Descripcion,Fecha_lanzamiento,Duracion_ms,invitados,empresas
0,Andrés Garza X Benshorts | 16 Años Creando Con...,"De no tener una vocación clara, a convertirse ...",2023-08-03,5094271,"Héctor de La Hoya, Benshorts",
1,Andrés Garza X Daniel Corral | La Gloria Olímp...,De empezar desde los 3 años a practicar la gim...,2023-08-03,4660437,Daniel Corral,
2,Andrés Garza X Ricky Limón | ¿Cómo Gana Dinero...,De tener el sueño de ser YouTuber a convertirs...,2023-10-24,5990183,"Ricardo Marcelo Limón, Ricky Limón",Empezando
3,Andrés Garza X Ronny | Boxeo & La Velada del A...,"De estar desolado, a convertirse en una de las...",2023-10-24,6058488,"Ronaldo López, Ronny",
4,Andrés Garza X Chef En Proceso | Monetizando T...,"De tener una meta clara, a dejar todo para lle...",2023-10-25,8455368,"Isaías Espinoza, Chef en Proceso","Chef, Proceso"


<h2>Conclusiones</h2>

<p>En base a los objetivos planteados, se realizaron las siguientes observaciones:</p>

<ol>
  <li><b>Identificación de invitados y empresas mencionadas:</b>  El análisis del texto de las descripciones de los podcasts permitió identificar con éxito a los invitados y empresas mencionadas en cada episodio. La combinación de expresiones regulares y el modelo de Procesamiento del Lenguaje Natural (PLN) en español  (spaCy) resultó efectiva para extraer esta información, mejorando la precisión y reduciendo falsos positivos. Se lograron resultados considerablemente más precisos utilizando patrones específicos del texto además del modelo NER. La implementación de una función para eliminar duplicados garantiza la calidad de la información obtenida.  Se logró una extracción de entidades más precisa al refinar el proceso con la inclusión de reglas basadas en expresiones regulares para identificar patrones específicos del contexto de los podcasts. </li>
  <li><b>Precisión en la extracción de entidades:</b> Se implementaron varias mejoras al algoritmo para aumentar la precisión. Las expresiones regulares permiten extraer información crucial presente en formatos específicos en las descripciones, como el nombre del invitado ubicado antes de la sección "Redes del Invitado" o la mención a invitados a través de la frase "Hoy está con nosotros". La aplicación de estas reglas incrementó la precisión de la detección de invitados en los episodios. Además, se implementaron mecanismos para evitar falsos positivos comunes y mejorar la calidad del procesamiento de las descripciones. La exclusión de nombres de creadores, la verificación de falsos positivos como "Invitado" o "Redes", y la eliminación de empresas que eran solo siglas, contribuyen a una información más limpia y precisa.</li>
  <li><b>Eficiencia en el procesamiento:</b>  El código está diseñado para optimizar el procesamiento del dataframe, demostrando un progreso en tiempo real, lo cual es crucial para conjuntos de datos extensos. El tiempo estimado para completar el proceso se proporciona al usuario, brindando una idea del tiempo total. Esto facilita el seguimiento del proceso y ayuda a tener una mejor gestión del tiempo de ejecución.</li>

</ol>

<p><b>Limitaciones:</b></p>
<ul>
    <li>El éxito del modelo depende de la calidad y consistencia del texto en las descripciones de los podcasts.</li>
    <li>El modelo PLN utilizado puede no ser 100% preciso y puede haber errores en la identificación de invitados o empresas.</li>
</ul>

<p><b>Trabajo futuro:</b></p>
<ul>
    <li>Evaluar otros modelos de PLN o incorporar técnicas más avanzadas para mejorar la precisión.</li>
    <li>Explorar diferentes métodos para la extracción de información, como el uso de modelos de aprendizaje profundo.</li>
    <li>Desarrollar una interfaz gráfica para facilitar el uso y visualización de los resultados.</li>
    <li>Ampliar la funcionalidad para incluir otros tipos de entidades (temas, conceptos, etc).</li>
</ul>

<h2>Conclusions</h2>

<p>Based on the set objectives, the following observations were made:</p>

<ol>
  <li><b>Identification of mentioned guests and companies:</b> The analysis of the podcast descriptions text successfully identified the guests and companies mentioned in each episode. The combination of regular expressions and the Spanish Natural Language Processing (NLP) model (spaCy) proved effective for extracting this information, improving accuracy and reducing false positives. More precise results were achieved using specific text patterns in addition to the NER model. The implementation of a function to remove duplicates ensures the quality of the extracted information. Entity extraction was refined by adding regular expression-based rules to identify specific patterns in the podcast context.</li>
  <li><b>Accuracy in entity extraction:</b> Several improvements were made to the algorithm to enhance accuracy. Regular expressions allow extraction of crucial information in specific formats present in the descriptions, such as the guest's name located before the "Redes del Invitado" section or mentions of guests through the phrase "Hoy está con nosotros". The application of these rules increased the precision of guest detection in the episodes. Additionally, mechanisms were implemented to avoid common false positives and improve the quality of the description processing. The exclusion of creator names, verification of false positives like "Invitado" or "Redes", and the removal of companies that were just acronyms contribute to cleaner and more accurate information.</li>
  <li><b>Efficiency in processing:</b> The code is designed to optimize the processing of the dataframe, demonstrating real-time progress, which is crucial for large datasets. The estimated time to complete the process is provided to the user, offering an idea of the total time. This facilitates process tracking and helps better manage execution time.</li>
</ol>

<p><b>Limitations:</b></p>
<ul>
    <li>The success of the model depends on the quality and consistency of the text in the podcast descriptions.</li>
    <li>The NLP model used may not be 100% accurate, and there may be errors in identifying guests or companies.</li>
</ul>

<p><b>Future Work:</b></p>
<ul>
    <li>Evaluate other NLP models or incorporate more advanced techniques to improve accuracy.</li>
    <li>Explore different methods for information extraction, such as the use of deep learning models.</li>
    <li>Develop a graphical interface to facilitate the use and visualization of results.</li>
    <li>Expand functionality to include other types of entities (topics, concepts, etc.).</li>
</ul>
