## Análisis Exploratorio de Datos (EDA) - Películas

#### 1. Importación de librerías y carga de datos


In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import numpy as np

# Cargar el dataset
df = pd.read_csv('movies_top_10_percent.csv')

ModuleNotFoundError: No module named 'matplotlib'

2. Visión general de los datos

In [None]:
print(df.info())
print(df.describe())

#### 3. Análisis de variables numéricas
##### 3.1 Distribución de presupuestos

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df['budget'], kde=True)
plt.title('Distribución de Presupuestos')
plt.xlabel('Presupuesto')
plt.ylabel('Frecuencia')
plt.show()

##### 3.2 Relación entre presupuesto y recaudación

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(df['budget'], df['revenue'])
plt.title('Presupuesto vs Recaudación')
plt.xlabel('Presupuesto')
plt.ylabel('Recaudación')
plt.show()

#### 4. Análisis de variables categóricas
##### 4.1 Géneros más comunes

In [None]:
genres = df['genres'].str.split(',', expand=True).stack().value_counts()
plt.figure(figsize=(12, 6))
genres[:10].plot(kind='bar')
plt.title('Top 10 Géneros más Comunes')
plt.xlabel('Género')
plt.ylabel('Frecuencia')
plt.show()

#### 5. Análisis temporal
##### 5.1 Tendencia de películas por año

In [None]:
df['release_year'] = pd.to_datetime(df['release_date']).dt.year
plt.figure(figsize=(12, 6))
df['release_year'].value_counts().sort_index().plot()
plt.title('Número de Películas por Año')
plt.xlabel('Año')
plt.ylabel('Número de Películas')
plt.show()

##### 6. Nube de palabras de títulos

In [None]:
text = ' '.join(df['title'])
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nube de Palabras de Títulos de Películas')
plt.show()

#### 7. Análisis de outliers
##### 7.1 Boxplot de presupuestos

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(y=df['budget'])
plt.title('Boxplot de Presupuestos')
plt.ylabel('Presupuesto')
plt.show()

#### 8. Correlaciones

In [None]:
correlation_matrix = df[['budget', 'revenue', 'popularity', 'vote_average', 'vote_count']].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

#### 9. Conclusiones
