## TV Shows API

Utilizaremos la TV Shows API como fuente de datos real para obtener la información de los shows.
El objetivo es transformar esta información dispersa en un **pd.DataFrame** estructurado y listo para el análisis, 
realizando las siguientes etapas:

### Extracción de Datos:
Define una función que extraiga los datos de todos los shows y retorne dicha información en una lista, 
donde cada elemento de la lista es un diccionario con la información de cada serie.
Usa como fuente de datos el API  (_**https://www.episodate.com/api/show-details?q={show_id}**_)

- **notebook de extraccion nos dividimos el trabajo de la siguiente forma:**
  -            indice_1 indice_2
  - Belen   =   1,       18986+1
  - Carlos  =   18986,   37971+1
  - Eduardo =   37972,   56937+1
  - Horacio =   56938,   75923+1
  - Julio   =   75924,   94926+1



In [1]:
# 1. Importar librerías
import requests, pandas as pd, numpy as np, time
import os

from datetime import datetime

print("Todo listo")

Todo listo


In [None]:
# Primero extaemos la info
def detalles_serie(show_id):
    url = f"https://www.episodate.com/api/show-details?q={show_id}"
    try:
        r = requests.get(url, timeout=10)
        time.sleep(0.1)
        return r.json().get('tvShow', {})
    except:
        return {}

shows_info = []
todos_episodios = []
max_number = 94926 #en teoria podriamos sacar toda esta info, tiempo estimado 24 horas
realistic_number =  56937 #en la practica vamos a sacar esta info
for i in range(37972, realistic_number +1):
    if i % 20 == 0:
        print(f"{i} episodios")
    
    info = detalles_serie(i)
    if not info: 
        continue
    
    shows_info.append({
        'id': info.get('id'),
        'name': info.get('name'),
        'status': info.get('status'),
        'start_date': info.get('start_date'),
        'end_date': info.get('end_date'),
        'network': info.get('network'),
        'country': info.get('country'),
        'runtime': info.get('runtime'),
        'rating': info.get('rating'),
        'rating_count': info.get('rating_count'),
        'genres': ', '.join(info.get('genres', [])),
        'total_episodes': len(info.get('episodes', []))
    })
    
    for ep in info.get('episodes', []):
        ep['show_id'] = info['id']
    todos_episodios.extend(info.get('episodes', []))

37980 episodios


In [None]:
# 5. Guardar CSV 1: Info de series
df_shows = pd.DataFrame(shows_info)
df_shows.to_csv("01_shows_master.csv", index=False)
print("Guardado 01_shows_master.csv")

In [None]:
# 6. Guardar CSV 2: Todos los episodios
df_eps = pd.DataFrame(todos_episodios)
df_eps.to_csv("02_episodios_raw.csv", index=False)
print("Guardado 02_episodios_raw.csv")

In [None]:
# Rutas de los archivos CSV
file1_path = '01_shows_master_belen.csv'
file2_path = '01_shows_master_carlos.csv'
file3_path = '01_shows_master_eduardo.csv'
file4_path = '01_shows_master_horacio.csv'
file5_path = '01_shows_master_julio.csv'


completo_path = 'csv_shows_master_extraccion.csv'

# Cargar los archivos en DataFrames
try:
    df1 = pd.read_csv(file1_path)
    df2 = pd.read_csv(file2_path)
    df3 = pd.read_csv(file3_path)
    df4 = pd.read_csv(file4_path)
    df5 = pd.read_csv(file5_path)



    # Concatenar los DataFrames (unir por filas)
    df_concatenado = pd.concat([df1, df2, df3, df4, df5], ignore_index=True)

    # Guardar el DataFrame resultante en un nuevo CSV
    df_concatenado.to_csv(completo_path, index=False)

    print(f"Archivos unidos y guardados en: {completo_path}")

except FileNotFoundError:
    print(" Error: Asegúrate de que los archivos CSV existan en la ruta especificada.")
except Exception as e:
    print(f"Ocurrió un error: {e}")



In [None]:
# Rutas de los archivos CSV
file1_path = '02_episodios_raw_belen.csv'
file2_path = '02_episodios_raw_carlos.csv'
file3_path = '02_episodios_raw_edu.csv'
file4_path = '02_episodios_raw_horacio.csv'
file5_path = '02_episodios_raw_julio.csv'


completo_path = 'csv_episodios_raw__extraccion.csv'

# Cargar los archivos en DataFrames
try:
    df1 = pd.read_csv(file1_path)
    df2 = pd.read_csv(file2_path)
    df3 = pd.read_csv(file3_path)
    df4 = pd.read_csv(file4_path)
    df5 = pd.read_csv(file5_path)



    # Concatenar los DataFrames (unir por filas)
    df_concatenado = pd.concat([df1, df2, df3, df4, df5], ignore_index=True)

    # Guardar el DataFrame resultante en un nuevo CSV
    df_concatenado.to_csv(completo_path, index=False)

    print(f"Archivos unidos y guardados en: {completo_path}")

except FileNotFoundError:
    print(" Error: Asegúrate de que los archivos CSV existan en la ruta especificada.")
except Exception as e:
    print(f"Ocurrió un error: {e}")
