In [2]:
import pandas as pd
import numpy as np

# --- 0. Simulación del archivo movies.csv ---
# Se crea un DataFrame de ejemplo que contiene las características necesarias para el ejercicio.
data = {
    'Title': ['Inception', 'The Hangover', 'The Dark Knight', 'Superbad', 'Interstellar'],
    'Genre': ['Action|Sci-Fi|Thriller', 'Comedy', 'Action|Crime|Drama', 'Comedy', 'Adventure|Drama|Sci-Fi'],
    'Release Date': ['2010-07-16', '2009-06-05', '2008-07-18', '2007-08-17', '2014-11-07'],
    'Rating': [8.8, 7.7, 9.0, np.nan, 8.6] # Incluye un valor nulo para la limpieza
}
df_ejemplo = pd.DataFrame(data)
df_ejemplo.to_csv('movies.csv', index=False)
print("--- Archivo 'movies.csv' de ejemplo creado. ---")


# --- Inicio de la Resolución del Ejercicio ---

# a. Carga y exploración inicial
print("\n--- a. Carga y exploración inicial ---")
df = pd.read_csv('movies.csv')

print("\nPrimeras 5 filas del DataFrame:")
display(df.head())

print("\nInformación general del DataFrame (tipos de datos y nulos):")
df.info()


# b. Limpieza de datos
print("\n--- b. Limpieza de datos ---")
# Imputar valores nulos en 'Rating' con la media de la columna.
mean_rating = df['Rating'].mean()
df.fillna({'Rating': mean_rating}, inplace=True)
print(f"\n1. Valores nulos en 'Rating' imputados con la media ({mean_rating:.2f}).")

# Convertir la columna 'Release Date' a formato datetime.
df['Release Date'] = pd.to_datetime(df['Release Date'])
print("2. Columna 'Release Date' convertida a tipo datetime.")
print("\nTipos de datos después de la limpieza:")
print(df.dtypes)


# c. Transformación y reestructuración de datos (Data Wrangling)
print("\n--- c. Transformación y reestructuración ---")
# Dividir la columna 'Genre' en una lista de géneros.
df['Genre'] = df['Genre'].str.split('|')

# Reestructurar el DataFrame para que cada género tenga su propia fila.
df_exploded = df.explode('Genre')
print("\nDataFrame reestructurado con la función explode():")
display(df_exploded.head())


# d. Filtrado y agregación
print("\n--- d. Filtrado y agregación ---")
# Filtrar para incluir solo películas estrenadas después de 2009
df_filtrado = df_exploded[df_exploded['Release Date'].dt.year > 2009].copy()
print("\n1. Películas filtradas (estrenadas después de 2009):")
display(df_filtrado)

# Agrupar por género y calcular el rating promedio
rating_por_genero = df_filtrado.groupby('Genre')['Rating'].mean().sort_values(ascending=False).round(2)
print("\n2. Rating promedio por género (para películas post-2009):")
display(rating_por_genero)


# e. Exportación de datos transformados
print("\n--- e. Exportación de datos ---")
# Se exportan los resultados del análisis (rating por género).
rating_por_genero.to_csv('ratings_por_genero.csv')
print("\nResultados del análisis guardados en 'ratings_por_genero.csv'.")

--- Archivo 'movies.csv' de ejemplo creado. ---

--- a. Carga y exploración inicial ---

Primeras 5 filas del DataFrame:


Unnamed: 0,Title,Genre,Release Date,Rating
0,Inception,Action|Sci-Fi|Thriller,2010-07-16,8.8
1,The Hangover,Comedy,2009-06-05,7.7
2,The Dark Knight,Action|Crime|Drama,2008-07-18,9.0
3,Superbad,Comedy,2007-08-17,
4,Interstellar,Adventure|Drama|Sci-Fi,2014-11-07,8.6



Información general del DataFrame (tipos de datos y nulos):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Title         5 non-null      object 
 1   Genre         5 non-null      object 
 2   Release Date  5 non-null      object 
 3   Rating        4 non-null      float64
dtypes: float64(1), object(3)
memory usage: 292.0+ bytes

--- b. Limpieza de datos ---

1. Valores nulos en 'Rating' imputados con la media (8.53).
2. Columna 'Release Date' convertida a tipo datetime.

Tipos de datos después de la limpieza:
Title                   object
Genre                   object
Release Date    datetime64[ns]
Rating                 float64
dtype: object

--- c. Transformación y reestructuración ---

DataFrame reestructurado con la función explode():


Unnamed: 0,Title,Genre,Release Date,Rating
0,Inception,Action,2010-07-16,8.8
0,Inception,Sci-Fi,2010-07-16,8.8
0,Inception,Thriller,2010-07-16,8.8
1,The Hangover,Comedy,2009-06-05,7.7
2,The Dark Knight,Action,2008-07-18,9.0



--- d. Filtrado y agregación ---

1. Películas filtradas (estrenadas después de 2009):


Unnamed: 0,Title,Genre,Release Date,Rating
0,Inception,Action,2010-07-16,8.8
0,Inception,Sci-Fi,2010-07-16,8.8
0,Inception,Thriller,2010-07-16,8.8
4,Interstellar,Adventure,2014-11-07,8.6
4,Interstellar,Drama,2014-11-07,8.6
4,Interstellar,Sci-Fi,2014-11-07,8.6



2. Rating promedio por género (para películas post-2009):


Genre
Action       8.8
Thriller     8.8
Sci-Fi       8.7
Adventure    8.6
Drama        8.6
Name: Rating, dtype: float64


--- e. Exportación de datos ---

Resultados del análisis guardados en 'ratings_por_genero.csv'.
