# Proyecto Colaborativo

> El proyecto consiste en el desarrollo de un proceso ETL básico con el objetivo de realizar un análisis estadístico de datos.

## ETL - Extract, Transform, Load

Un proceso (o pipeline) ETL es una secuencia de operaciones de **descarga, transformación y carga de datos**. La estructura de un ETL, por lo tanto, se desarrolla de manera secuencial.
- Primero realizamos una **extracción automatizada** de información desde alguna fuente de datos, típicamente una **base de datos o API**.
- Una vez los datos están todos extraídos, **se procesan** para facilitar las tareas para las cuales se van a utilizar estos datos. Por ejemplo, podemos transformar nuestros datos de una estructura de dos tablas relacionadas entre sí, en una estructura de una única tabla combinada. Durante esta etapa también se realiza la **limpieza de datos**, que consiste en ajustar la información a un formato fácilmente procesable (ej. convertir strings de fechas a objetos `datetime`, convertir valores como `--` o `?` en `np.nan` para facilitar análisis de valores perdidos, etc.).
- Cuando los datos ya están transformados y listos para el caso de uso, se almacenan conservando este nuevo formato, con el objetivo de no repetir todo el proceso de extracción y transformación de nuevo cada vez que se quieran utilizar. El almacenamiento típicamente se realiza en una **base de datos**, o estructuras de almacenamiento más permisivas como **data lakes** y **sistemas de ficheros**. Esto último dependerá de la naturaleza de la información y de las restricciones técnicas y económicas del proyecto.

Existen dos formas comunes de diseñar e implementar un proceso ETL:
- La primera, y la más fácil, es una en la que extraemos todos los datos, luego procesamos todo, y luego almacenamos todo.
- La segunda, un poco más difícil, pero a la vez robusta a grandes volúmenes de datos, consiste en procesar y almacenar la información sobre la marcha, mientras se está extrayendo.

## Fases del proyecto

En este proyeco se espera la implementación completa de una pipeline ETL destinada a facilitar un análisis de datos de cara a un cliente final. Estas son las fases del proyecto:

- **ETL**: Realizamos el proceso descrito anteriormente, mediante la técnica de implementación que prefieran. La fuente de datos debe ser una o varias API(s) pública(s) a elección del equipo y validada según el criterio del docente. Los datos se almacenarán en el sistema de ficheros del ordenador.
- **Análisis de Datos**: Con los datos transformados y almacenados, se tiene que realizar un estudio y análisis de la información que contienen. El estudio tiene que tener un foco claro y unas preguntas objetivo que se desean responder. El estudio tiene que comprender la exploración de la información y la presentación de visualizaciones y medidas estadísticas que ayuden a responder a las preguntas objetivo.
- **Entrega**: La entrega del proyecto se realizará a través del correo electrónico. Un representante del equipo enviará un email adjuntando el enlace al repositorio público de GitHub (u otro servicio cloud de Git, Como GitLab, BitBucket o Codeberg). En el repositorio tienen que estar presentes todos los notebooks utilizados para el trabajo, bien estructurados e idealmente enumerados en orden de ejecución para todo aquel que quiera probar el código. Es importante el uso correcto de `.gitignore` para evitar saturar el repositorio con ficheros y carpetas que no aporten valor al trabajo, así como para escribir en un fichero ignorado información sensible como credenciales de las APIs.

In [3]:
import numpy as np
import pandas as pd
import requests  
import matplotlib.pyplot as plt
import seaborn as sns
import time
import csv
import ast



In [4]:
# Configuración de la API

API_TOKEN = "eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiI1OWJiYmNhMjNmZWM1NWVjNGVjOWM4MjE4NTQ0OGE2ZSIsIm5iZiI6MTc2MzM5NTUwOS4xNDYsInN1YiI6IjY5MWI0N2I1NDExNmRkZmJjODZkOTRkMCIsInNjb3BlcyI6WyJhcGlfcmVhZCJdLCJ2ZXJzaW9uIjoxfQ.XSCz2YmRVhqR8zsEdmf1RKV7NWpMKagXrEfWOgHeILs"  # pon aquí tu token, pero no lo subas a Git

url = "https://api.themoviedb.org/3/movie/popular"

todas_las_peliculas = []

for page in range(1, 100):
    params = {
        "language": "es-ES",
        "page": page
    }
    headers = {
        "accept": "application/json",
        "Authorization": f"Bearer {API_TOKEN}"
    }
    response = requests.get(url, headers=headers, params=params)
    data = response.json()
    
    if "results" not in data:
        print("Error en la página", page, data)
        break

    todas_las_peliculas.extend(data["results"])

print(f"Películas obtenidas: {len(todas_las_peliculas)}")

def obtener_detalles_por_id(movie_id):
    
    url_detalle = f"https://api.themoviedb.org/3/movie/{movie_id}"

    headers = {
        "accept": "application/json",
        "Authorization": f"Bearer {API_TOKEN}"
    }

    params = {
        "language": "es-ES"
    }

    r = requests.get(url_detalle, headers=headers, params=params)

    
    if r.status_code != 200:
        print(f"Error con ID {movie_id}: {r.status_code}")
        return None

    return r.json()


detalles_completos = []

for pelicula in todas_las_peliculas:
    movie_id = pelicula["id"]

    detalles = obtener_detalles_por_id(movie_id)

    if detalles:
        detalles_completos.append(detalles)

    time.sleep(0.5)  

print(f"Detalles completos obtenidos: {len(detalles_completos)}")


# Crear DataFrames
df_populares = pd.DataFrame(todas_las_peliculas)
df_detalles = pd.DataFrame(detalles_completos)


# Seleccionar columnas
columnas_extra = ["id", "budget","origin_country", "revenue", "runtime", "status"]
df_detalles_reducido = df_detalles[columnas_extra]

df1 = df_populares.merge(df_detalles_reducido, on="id", how="left")

Películas obtenidas: 1980
Detalles completos obtenidos: 1980


Unnamed: 0,adult,backdrop_path,genre_ids,id,original_language,original_title,overview,popularity,poster_path,release_date,title,video,vote_average,vote_count,budget,origin_country,revenue,runtime,status
0,False,/hpXBJxLD2SEf8l2CspmSeiHrBKX.jpg,"[18, 27, 14]",1062722,en,Frankenstein,"Un científico brillante y obsesivo, Victor Fra...",485.1768,/hTj8x0ElKldJyAjTYvaqxkQNxxN.jpg,2025-10-17,Frankenstein,False,7.793,1557,120000000,[US],144496,149,Released
1,False,/pK4O03qymrXMnmaROspiy4Aycqc.jpg,"[28, 53, 80]",1054867,en,One Battle After Another,"Un ex revolucionario, tras años apartado de la...",415.1173,/sRiK0GwWAQ1qukvAgN3I9t5dGVq.jpg,2025-09-23,Una batalla tras otra,False,7.518,1481,130000000,[US],200300000,162,Released
2,False,/5lQ4euO30sDin5nCifvi0vURFNd.jpg,"[28, 35, 10751]",1248226,en,Playdate,"Brian acaba de ser despedido de su trabajo, y ...",309.1327,/sWhglhFoGA0T7n5U6Yi0t8LBGjA.jpg,2025-11-05,Juegos de niños,False,6.301,214,0,[US],0,95,Released
3,False,/7FDVhmCur4LMOfnXMteiSCtsdOb.jpg,"[28, 12, 14]",1116465,zh,传说,Un arqueólogo nota que la textura de las reliq...,356.6402,/jvrSYRtgHTu3oqJN1X7LWZoekB6.jpg,2024-07-05,El descubridor de leyendas,False,6.600,79,0,[CN],11242056,129,Released
4,False,/4BtL2vvEufDXDP4u6xQjjQ1Y2aT.jpg,"[28, 80, 53]",1419406,zh,捕风追影,Unos astutos y traicioneros ladrones desafian ...,487.4401,/uBRMTcpUd55pstCVTEn49uRuevX.jpg,2025-08-16,The Shadow's Edge,False,6.400,66,0,"[HK, CN]",702538,142,Released
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025,False,/3yoyioAdnZNrhDv2eQwflfqm7b7.jpg,"[28, 80, 18, 53]",507,en,Killing Zoe,Zed (Eric Stoltz) es un ladrón de cajas fuerte...,8.7200,/k3UEKMVnkljOlsO5sLmz87YGlaG.jpg,1993-10-01,Killing Zoe,False,6.196,358,1500000,[US],418961,100,Released
2026,False,,"[28, 53]",1141700,en,Extraction 3,Tercera entrega de la saga Tyler Rake.,8.5107,/ic6Y5i9WeYQuRv3oqPqHbDqnfam.jpg,,Tyler Rake 3,False,0.000,0,0,[US],0,0,Rumored
2027,False,/vNKlrvHiw32yrjnUoaTMGnH6soN.jpg,"[27, 53]",211067,en,The Sacrament,Unos cineastas se verán atrapados en una cerem...,7.7332,/thdioQOYqqusDUfT6trgwMIoNaQ.jpg,2014-05-01,The Sacrament,False,5.976,477,4000000,[US],9221,99,Released
2028,False,/z0ClI2d5MuuNtiVW9Vv38BpzFBo.jpg,"[35, 18, 10749]",269660,tl,Diary ng Panget,Un chica pobre y poco atractiva consigue un em...,8.4176,/jAUyFz0aYbfc1RSDO3qYuUhwxg0.jpg,2014-04-02,Diary ng Panget,False,7.900,53,0,[PH],0,110,Released


In [5]:

# Renombrar columnas al español
df1 = df1.rename(columns={
    'original_title': 'Titulo_original',
    'release_date': 'Lanzamiento',
    'vote_average': 'Votacion_media',
    'vote_count': 'Cantidad_votos',
    'popularity': 'Popularidad',
    'original_language': 'Idioma_original',
    'title': 'Titulo',
    'genre_ids': 'Genero',
    'id': 'ID',
    'budget': 'Presupuesto',
    'origin_country': 'Pais_origen',
    'revenue': 'Taquilla_recaudada',
    'runtime': 'Duracion',
    'status': 'Estado'
    
    
})

# Eliminar columnas innecesarias
df1 = df1.drop(columns=["poster_path", "backdrop_path","overview", "adult", "video"])


# Reemplazar valores 0 por NaN en columnas específicas y mantener el tipo de dato original (columna Duracion y Presupuesto)
df1["Presupuesto"] = df1["Presupuesto"].where(df1["Presupuesto"] != 0, np.nan)
df1["Duracion"] = df1["Duracion"].where(df1["Duracion"] != 0, np.nan)


# Reorganizar columnas
df1 = df1[[
    'ID',
    'Titulo',
    'Titulo_original',
    'Idioma_original',
    'Pais_origen',
    'Lanzamiento',
    'Presupuesto',
    'Taquilla_recaudada',    
    'Genero',
    'Duracion',
    'Votacion_media',
    'Cantidad_votos',
    'Popularidad',
    'Estado'
]]

# Mapear idiomas
idiomas = {
    "en": "Inglés",
    "es": "Español",
    "fr": "Francés",
    "it": "Italiano",
    "de": "Alemán",
    "ja": "Japonés",
    "ko": "Coreano",
    "hi": "Hindi",
    "zh": "Chino",
    "th": "Tailandés",
    "xx": "Sin especificar",
    "da": "Danés",
    "ru": "Ruso",
    "pt": "Portugués",
    "sv": "Sueco",
    "nl": "Neerlandés",
    "no": "Noruego",
    "fi": "Finlandés",
    "pl": "Polaco",
    "tr": "Turco",
    "ar": "Árabe",
    "he": "Hebreo",
    "cs": "Checo",
    "ta": "Tamil",
    "ro": "Rumano",
    "hu": "Húngaro",
    "el": "Griego",
    "te": "Telugú",

}
df1['Idioma_original'] = df1['Idioma_original'].map(idiomas).fillna(df1['Idioma_original'])

# Mapear géneros
generos_dict = {
    28: "Acción",
    12: "Aventura",
    16: "Animación",
    35: "Comedia",
    80: "Crimen",
    99: "Documental",
    18: "Drama",
    10751: "Familia",
    14: "Fantasía",
    36: "Historia",
    27: "Terror",
    10402: "Música",
    9648: "Misterio",
    10749: "Romance",
    878: "Ciencia ficción",
    10770: "Película de TV",
    53: "Suspenso",
    10752: "Bélica",
    37: "Western"
}

df1['Genero'] = df1['Genero'].apply(lambda ids: [generos_dict.get(i, "Desconocido") for i in ids])

df1


Unnamed: 0,ID,Titulo,Titulo_original,Idioma_original,Pais_origen,Lanzamiento,Presupuesto,Taquilla_recaudada,Genero,Duracion,Votacion_media,Cantidad_votos,Popularidad,Estado
0,1062722,Frankenstein,Frankenstein,Inglés,[US],2025-10-17,120000000.0,144496,"[Drama, Terror, Fantasía]",149.0,7.793,1557,485.1768,Released
1,1054867,Una batalla tras otra,One Battle After Another,Inglés,[US],2025-09-23,130000000.0,200300000,"[Acción, Suspenso, Crimen]",162.0,7.518,1481,415.1173,Released
2,1248226,Juegos de niños,Playdate,Inglés,[US],2025-11-05,,0,"[Acción, Comedia, Familia]",95.0,6.301,214,309.1327,Released
3,1116465,El descubridor de leyendas,传说,Chino,[CN],2024-07-05,,11242056,"[Acción, Aventura, Fantasía]",129.0,6.600,79,356.6402,Released
4,1419406,The Shadow's Edge,捕风追影,Chino,"[HK, CN]",2025-08-16,,702538,"[Acción, Crimen, Suspenso]",142.0,6.400,66,487.4401,Released
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025,507,Killing Zoe,Killing Zoe,Inglés,[US],1993-10-01,1500000.0,418961,"[Acción, Crimen, Drama, Suspenso]",100.0,6.196,358,8.7200,Released
2026,1141700,Tyler Rake 3,Extraction 3,Inglés,[US],,,0,"[Acción, Suspenso]",,0.000,0,8.5107,Rumored
2027,211067,The Sacrament,The Sacrament,Inglés,[US],2014-05-01,4000000.0,9221,"[Terror, Suspenso]",99.0,5.976,477,7.7332,Released
2028,269660,Diary ng Panget,Diary ng Panget,tl,[PH],2014-04-02,,0,"[Comedia, Drama, Romance]",110.0,7.900,53,8.4176,Released


In [9]:
# Ordenacion y asignacion de valores de peliculas (fecha de lanzamiento)

df1["Lanzamiento"] = pd.to_datetime(df1["Lanzamiento"], errors="coerce")
df1.sort_values(by="Lanzamiento", ascending=False)

# Redondeo de columna Votacion_media
df1["Votacion_media"] = (
    pd.to_numeric(df1["Votacion_media"], errors="coerce")
      .round(1)
      .astype("float32")
)

# Redondeo de columna Cantidad_votos, Presupuesto, Taquilla_recaudada, ID y Duracion

df1["Cantidad_votos"] = (
    pd.to_numeric(df1["Cantidad_votos"], errors="coerce")
      .round(2)
      .astype("int16")
)

df1["Presupuesto"] = (
    pd.to_numeric(df1["Presupuesto"], errors="coerce")
      .round(2)
      .astype("float32")
)

df1["Taquilla_recaudada"] = (
    pd.to_numeric(df1["Taquilla_recaudada"], errors="coerce")
      .round(2)
)

# Convertimos Taquilla_recaudada a float y reemplazamos 0 por NaN, ademas de dar formato legible a los numeros grandes.

df1["Taquilla_recaudada"] = df1["Taquilla_recaudada"].astype(float)

df1["Taquilla_recaudada"] = df1["Taquilla_recaudada"].replace(0, np.nan)

pd.set_option('display.float_format', '{:,.2f}'.format)

df1["ID"] = (
    pd.to_numeric(df1["ID"], errors="coerce")
      .round(2)
      .astype("int16")
)

df1["Duracion"] = (
    pd.to_numeric(df1["Duracion"], errors="coerce")
      .round(2)
      .astype("float32")
)

In [7]:
df1

Unnamed: 0,ID,Titulo,Titulo_original,Idioma_original,Pais_origen,Lanzamiento,Presupuesto,Taquilla_recaudada,Genero,Duracion,Votacion_media,Cantidad_votos,Popularidad,Estado
0,14146,Frankenstein,Frankenstein,Inglés,[US],2025-10-17,120000000.00,144496.00,"[Drama, Terror, Fantasía]",149.00,7.80,1557,485.18,Released
1,6291,Una batalla tras otra,One Battle After Another,Inglés,[US],2025-09-23,130000000.00,200300000.00,"[Acción, Suspenso, Crimen]",162.00,7.50,1481,415.12,Released
2,3042,Juegos de niños,Playdate,Inglés,[US],2025-11-05,,,"[Acción, Comedia, Familia]",95.00,6.30,214,309.13,Released
3,2353,El descubridor de leyendas,传说,Chino,[CN],2024-07-05,,11242056.00,"[Acción, Aventura, Fantasía]",129.00,6.60,79,356.64,Released
4,-22386,The Shadow's Edge,捕风追影,Chino,"[HK, CN]",2025-08-16,,702538.00,"[Acción, Crimen, Suspenso]",142.00,6.40,66,487.44,Released
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025,507,Killing Zoe,Killing Zoe,Inglés,[US],1993-10-01,1500000.00,418961.00,"[Acción, Crimen, Drama, Suspenso]",100.00,6.20,358,8.72,Released
2026,27588,Tyler Rake 3,Extraction 3,Inglés,[US],NaT,,,"[Acción, Suspenso]",,0.00,0,8.51,Rumored
2027,14459,The Sacrament,The Sacrament,Inglés,[US],2014-05-01,4000000.00,9221.00,"[Terror, Suspenso]",99.00,6.00,477,7.73,Released
2028,7516,Diary ng Panget,Diary ng Panget,tl,[PH],2014-04-02,,,"[Comedia, Drama, Romance]",110.00,7.90,53,8.42,Released


In [8]:
# Guardar el DataFrame en un archivo CSV

df1.to_csv('peliculas_original_v6.csv', index=True, encoding='utf-8')
df1.to_csv('peliculas_backup_v6.csv', index=True, encoding='utf-8')