# Scraping de Películas desde TheMovieDB API

## Pasos
1. **Inicializar**: Crear una lista vacía (`series_data`) para almacenar datos y configurar la paginación inicial.
2. **Conexión a la API**: Realizar solicitudes a la API de TheMovieDB para obtener series y determinar el número total de páginas.
3. **Detalles adicionales**: Usar el ID de cada serie para realizar solicitudes adicionales y extraer datos como título, duración, puntuación, idioma, fechas, países, directores, reparto, palabras clave y reseñas.
4. **Almacenar datos**: Validar y guardar la información obtenida en `series_data`.
5. **Crear DataFrame**: Convertir la lista en un DataFrame de pandas.
6. **Exportar a CSV**: Guardar los resultados estructurados en `api_movies_tdbm.csv`.

#### Librerías

In [46]:
import pandas as pd  
import requests
import time

#### Conexión a la API

In [47]:
# Configuración
api_key = "6ccd9671a197b60f25c915ce20925f9b"
token = "eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiI2Y2NkOTY3MWExOTdiNjBmMjVjOTE1Y2UyMDkyNWY5YiIsIm5iZiI6MTczNzU1MDcyMC42NTkwMDAyLCJzdWIiOiI2NzkwZWI4MDU1MGU2ZmMzY2RkZmZlZjEiLCJzY29wZXMiOlsiYXBpX3JlYWQiXSwidmVyc2lvbiI6MX0.LMCMh8RNLdnqsj4QFm51wE6-7rEF8BGLzRqgvxqf1Ow"
base_url = "https://api.themoviedb.org/3"

# URLs de los endpoints

discover_url = "https://api.themoviedb.org/3/discover/tv"
details_url = "https://api.themoviedb.org/3/tv/{tv_id}"
credits_url = "https://api.themoviedb.org/3/tv/{tv_id}/credits"
keywords_url = "https://api.themoviedb.org/3/tv/{tv_id}/keywords"
reviews_url = "https://api.themoviedb.org/3/tv/{tv_id}/reviews"

# Parámetros para la solicitud inicial
params = {
    "api_key": api_key,
    "language": "es-ES",
    "with_watch_providers": 8,  # ID de Netflix
    "watch_region": "ES"       # Región (España en este caso)
}


#### Lógica del scraping

In [None]:
# Lista para almacenar datos
series_data = []

# Scraping de todas las páginas
page = 1
total_pages = None

while True:
    response = requests.get(discover_url, params={**params, "page": page})
    
    if response.status_code == 200:
        data = response.json()
        
        if total_pages is None:
            total_pages = data["total_pages"]
        
        # Recorrer los resultados y obtener detalles adicionales para cada serie
        for serie in data["results"]:
            tv_id = serie["id"]  # ID de la serie
            
            # Detalles adicionales
            details_response = requests.get(details_url.format(tv_id=tv_id), params={"api_key": api_key, "language": "es-ES"})
            credits_response = requests.get(credits_url.format(tv_id=tv_id), params={"api_key": api_key})
            keywords_response = requests.get(keywords_url.format(tv_id=tv_id), params={"api_key": api_key})
            reviews_response = requests.get(reviews_url.format(tv_id=tv_id), params={"api_key": api_key, "language": "es-ES"})

            if details_response.status_code == 200:
                details = details_response.json()
                credits = credits_response.json() if credits_response.status_code == 200 else {}
                keywords = keywords_response.json() if keywords_response.status_code == 200 else {}
                reviews = reviews_response.json() if reviews_response.status_code == 200 else {}

                # Validaciones para evitar errores
                titulo = details.get("name", "")
                duracion = details.get("episode_run_time", [None])[0] if details.get("episode_run_time") else None
                puntuacion = details.get("vote_average", 0)
                idioma_original = details.get("original_language", "")
                first_air_date = details.get("first_air_date", "N/A")
                last_air_date = details.get("last_air_date", "N/A")
                production_countries = [country["name"] for country in details.get("production_countries", [])]
                directores = [member["name"] for member in credits.get("crew", []) if member.get("job") == "Director"]
                reparto = [actor["name"] for actor in credits.get("cast", [])[:5]] if credits.get("cast") else []  # Top 5 actores
                palabras_clave = [kw["name"] for kw in keywords.get("results", [])]

                # Extraer reseñas (máximo 3 para mantener el tamaño razonable)
                reseñas = []
                if "results" in reviews:
                    for review in reviews["results"][:3]:
                        autor = review.get("author", "Desconocido")
                        contenido = review.get("content", "").replace("\n", " ")
                        reseñas.append(f"{autor}: {contenido}")

                # Almacenar en la lista
                series_data.append({
                    "Título": titulo,
                    "Duración (min)": duracion,
                    "Puntuación": puntuacion,
                    "Idioma Original": idioma_original,
                    "Fecha de Estreno": first_air_date,
                    "Última Fecha de Emisión": last_air_date,
                    "País(es) de Producción": ", ".join(production_countries),
                    "Directores": ", ".join(directores),
                    "Reparto": ", ".join(reparto),
                    "Palabras clave": ", ".join(palabras_clave),
                    "Reseñas": " | ".join(reseñas),
                })
        
        # Detener si llegamos a la última página
        if page >= total_pages:
            break
        
        # Pasar a la siguiente página
        page += 1
    
    else:
        print(f"Error en la solicitud inicial (página {page}): {response.status_code}")
        break
    
    # Esperar para no exceder los límites de la API
    time.sleep(1)  # Espera de 1 segundo entre solicitudes

# Convertir a DataFrame de pandas
df_series = pd.DataFrame(series_data)

# Mostrar el DataFrame
print(df_series)

# Guardar en CSV
df_series.to_csv("api_movies_tdbm.csv", index=False, encoding="utf-8")