In [None]:
Para realizar un análisis exploratorio de los datos (Exploratory Data Analysis - EDA), vamos a analizar las variables clave del dataset, buscar patrones, identificar posibles outliers y explorar la frecuencia de palabras en los títulos de películas. Este proceso incluye visualizaciones y cálculos estadísticos que permiten descubrir insights valiosos.
Pasos para el EDA:

    Descripción general de las variables:
        Identificar las columnas y los tipos de datos.
        Resumen estadístico de las variables numéricas.

    Distribución de variables numéricas:
        Crear histogramas y boxplots para analizar la distribución de variables como revenue, budget, y popularity.
        Identificar posibles outliers o anomalías.

    Análisis de correlaciones:
        Calcular la correlación entre variables numéricas para ver si existen relaciones fuertes entre ellas.

    Distribución temporal:
        Análisis de la distribución de películas a lo largo del tiempo, usando release_year.

    Frecuencia de palabras en los títulos:
        Crear una nube de palabras para analizar las palabras más frecuentes en los títulos de las películas.

    Visualización de outliers:
        Boxplots para detectar outliers en variables clave como revenue, budget, y popularity.

Código para ejecutar el EDA:
1. Descripción general del dataset

python

# Descripción general del dataset
print(combined_df.info())
print(combined_df.describe())

2. Distribución de las variables numéricas

python

import matplotlib.pyplot as plt
import seaborn as sns

# Histograma de variables numéricas
combined_df[['revenue', 'budget', 'popularity']].hist(bins=30, figsize=(10, 7))
plt.show()

# Boxplots para detectar outliers
plt.figure(figsize=(10, 6))
sns.boxplot(data=combined_df[['revenue', 'budget', 'popularity']])
plt.show()

3. Análisis de correlaciones

python

# Mapa de calor para la correlación entre variables numéricas
plt.figure(figsize=(8, 6))
sns.heatmap(combined_df[['revenue', 'budget', 'popularity', 'vote_average', 'vote_count']].corr(), annot=True, cmap='coolwarm')
plt.show()

4. Distribución temporal (por años)

python

# Conteo de películas por año
plt.figure(figsize=(12, 6))
combined_df['release_year'].value_counts().sort_index().plot(kind='bar')
plt.title('Número de películas lanzadas por año')
plt.show()

5. Frecuencia de palabras en los títulos (nube de palabras)

Para crear la nube de palabras, necesitamos la librería wordcloud. Si no la tienes instalada, primero instálala:

bash

pip install wordcloud

python

from wordcloud import WordCloud

# Unir todos los títulos en una sola cadena de texto
titles = ' '.join(combined_df['title'].dropna().values)

# Crear la nube de palabras
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(titles)

# Mostrar la nube de palabras
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

6. Visualización de outliers en variables clave

python

# Boxplot para las variables `revenue`, `budget`, y `popularity`
plt.figure(figsize=(14, 7))
sns.boxplot(data=combined_df[['revenue', 'budget', 'popularity']])
plt.title('Detección de outliers en revenue, budget y popularity')
plt.show()

Resultados esperados:

    Resumen estadístico: Un análisis de las estadísticas descriptivas (como media, mediana, y desviación estándar) te dará una idea de la dispersión de los datos y los valores atípicos.

    Visualización de la distribución: Los histogramas y boxplots ayudarán a visualizar cómo están distribuidos los datos y si existen outliers o valores extremos.

    Correlación entre variables: El mapa de calor mostrará si hay relaciones fuertes entre las variables clave, como la correlación entre el presupuesto (budget) y los ingresos (revenue).

    Distribución por año: El gráfico de barras mostrará cuántas películas se estrenaron en cada año, lo que puede ser útil para entender tendencias temporales.

    Nube de palabras: La nube de palabras revelará qué términos son más comunes en los títulos de las películas, lo que podría ser útil para alimentar un sistema de recomendación basado en contenido textual.