In [None]:
print("Hello World")

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de gráficos
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

# Lee el archivo 'tmdb_movies.csv' que está en el mismo directorio
try:
    df = pd.read_csv('tmdb_movies.csv')
    print("Archivo 'tmdb_movies.csv' cargado exitosamente.")
    print(df.head())
except FileNotFoundError:
    print("No se encontró el archivo 'tmdb_movies.csv'. Verifique su ubicación.")


# Película más exitosa (mayor 'revenue') del 2021

In [None]:
# Filtramos por el año 2021
# Nota: En tu dataset el nombre de la columna es 'release_year' y usamos 'revenue' como proxy de "más vista"
# o también podemos usar 'vote_count' si prefieres popularidad por votos.
# Aquí uso 'revenue' (ingresos).

movies_2021 = df[df['release_year'] == 2021]

# Verificamos si hay películas del 2021
if not movies_2021.empty:
    # Obtenemos la top 1 usando nlargest sobre la columna 'revenue'
    pelicula_mas_vista_2021 = movies_2021.nlargest(1, 'revenue')
    print("Película con mayores ingresos (más vista/exitosa) del 2021:")
    print(pelicula_mas_vista_2021[['title', 'release_year', 'revenue', 'vote_average', 'vote_count']])
else:
    print("No se encontraron películas del año 2021 en este dataset.")

# Análisis Gráfico de Datos

In [None]:
# 1. Distribución de Presupuesto vs Ingresos (Scatter Plot)
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='budget', y='revenue', alpha=0.6)
plt.title('Relación entre Presupuesto y Ingresos')
plt.xlabel('Presupuesto (Budget)')
plt.ylabel('Ingresos (Revenue)')
plt.show()

In [None]:
# 2. Cantidad de películas por año (Line Plot)
plt.figure(figsize=(12, 6))
movies_per_year = df['release_year'].value_counts().sort_index()
sns.lineplot(x=movies_per_year.index, y=movies_per_year.values)
plt.title('Cantidad de Películas lanzadas por Año')
plt.xlabel('Año')
plt.ylabel('Cantidad de Películas')
plt.grid(True)
plt.show()

In [None]:
# 3. Top 10 Películas con mayores ingresos (Bar Chart)
top_revenue = df.nlargest(10, 'revenue')
plt.figure(figsize=(12, 6))
sns.barplot(data=top_revenue, y='title', x='revenue', palette='viridis', hue='title', legend=False)
plt.title('Top 10 Películas con Mayores Ingresos')
plt.xlabel('Ingresos')
plt.ylabel('Película')
plt.show()

In [None]:
# 4. Distribución de puntuaciones (Histogram/KDE)
plt.figure(figsize=(10, 6))
sns.histplot(data=df, x='vote_average', bins=20, kde=True)
plt.title('Distribución de Puntuaciones de Votos')
plt.xlabel('Puntuación Promedio (Vote Average)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# 5. Gráfico de Cantidad de Películas por Género (Gráfico de Barras)
# Importamos librerías nuevamente en esta celda por si se ejecuta de forma aislada
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Recargamos el dataset por seguridad dentro de esta misma celda
try:
    df = pd.read_csv('tmdb_movies.csv')
except FileNotFoundError:
    print("Archivo tmdb_movies.csv no encontrado, asegúrese de que esté en el directorio.")

# Separamos los géneros porque una película puede tener varios (e.g. "Action, Drama")
# Creamos una fila por cada género
df_exploded = df.assign(genre=df['genre'].str.split(', ')).explode('genre')

plt.figure(figsize=(14, 8))
# Usamos un countplot (gráfico de barras) para ver cuántas películas hay por género
sns.countplot(data=df_exploded, x='genre', palette='viridis', hue='genre', legend=False)
plt.title('Cantidad de Películas por Género (Gráfico de Barras)')
plt.xlabel('Género')
plt.ylabel('Cantidad de Películas')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()