# Análisis exploratorio de una base de datos de películas

Usa la base de datos `./data/imdb.csv`


### 1. Importar `pandas`, `matplotlib` y `numpy`

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


### 2. Leer la base de datos del archivo csv a pandas

In [None]:
df = pd.read_csv('./data/imdb.csv')


### 3. Mostrar las  primeras y últimas filas del dataframe. Hacerlo con el valor default y pasando como argumento el número entero de filas que se deseen inspeccionar.

In [None]:
df.head()
df.tail()
df.head(10)
df.tail(10)


### 4. Continúa inspeccionando el archivo viendo todas las columnas del dataframe

In [None]:
df.columns


### 5. Imprime los primeros valores de la variable `Rank`

In [None]:
df['Rank'].head()


### 6. Demuestra que es mejor tener nombres de columnas sin espacios (notación corchetes y notación punto-variable).

In [None]:
df['Metascore']  # con corchetes
df.Metascore     # con punto (solo si no tiene espacios)


### 7. Renombra las columnas que tengan espacios

In [None]:
df.columns = df.columns.str.replace(' ', '_')


### 8. Utiliza tus nuevas columnas sin espacios :)

In [None]:
df.Metascore.head()


### 9. Visualiza la info de todo tu dataframe

In [None]:
df.info()


### 10. Inspecciona si hay columnas que tengan valores `NA`

In [None]:
df.isna().any()


### 11. Imprime el número total de valores NA que haya en cada columna. Hazlo primero para la columna `Metascore` y después utiliza un ciclo for para hacerlo para todas las columnas

In [None]:
df['Metascore'].isna().sum()

for col in df.columns:
    print(f"{col}: {df[col].isna().sum()} NA")


### 12. Usa la magia de `dropna()`

In [None]:
df_clean = df.dropna()


### 13. Vuelve a ver la info del dataset

In [None]:
df_clean.info()


### 14. Genera estadísticos descriptivos con el método `describe()`

In [None]:
df_clean.describe()


### 15. Crea un histograma de la variable Metascore. Utiliza 10 cubetas

In [None]:
plt.hist(df_clean.Metascore, bins=10)
plt.title('Histograma de Metascore')
plt.show()


### 16. Crea un histograma de la variable Rating. Utiliza 10 cubetas

In [None]:
plt.hist(df_clean.Rating, bins=10)
plt.title('Histograma de Rating')
plt.show()


### 17. Vuelve a describir el dataframe y observa la media de la variable `Ratings`

In [None]:
df_clean.describe()['Rating']


### 18. Calcula este promedio con Numpy y después con un método de Pandas

In [None]:
np.mean(df_clean.Rating)
df_clean.Rating.mean()


### 19. Obten los valores únicos de la variable Rating y después ordénalos de menor a mayor

In [None]:
sorted(df_clean.Rating.unique())


### 20. Observa los ratings que te interesen y ahora filtra el dataframe con ese rating para ver cuáles son las películas con dicho rating

In [None]:
df_clean[df_clean.Rating == 8.5]


### 21. Obten los valores únicos de la variable Rating y la frecuencia total de cada uno de estos valores. Posteriormente crea un nuevo dataframe con essos valores

In [None]:
rating_counts = df_clean.Rating.value_counts().reset_index()
rating_counts.columns = ['Rating', 'Frecuencia']


### 22. Ordena el nuevo dataframe por la variable `rating`

In [None]:
rating_counts.sort_values(by='Rating')


### 23. Crea una gráfica de barras con este nuevo dataframe ordenado

In [None]:
# Gráfica de barras del dataframe ordenado
rating_counts.sort_values(by='Rating').plot(
    x='Rating', 
    y='Frecuencia', 
    kind='bar', 
    figsize=(10,6),
    color='skyblue'
)

plt.title('Frecuencia de Ratings en IMDB')
plt.xlabel('Rating')
plt.ylabel('Número de películas')
plt.show()


### 24. Crea la matriz de correlación del dataframe de películas

In [None]:
# Matriz de correlación
corr_matrix = df_clean.corr()

# Mostrar la matriz
print(corr_matrix)

# Visualizar con mapa de calor
import seaborn as sns

plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de correlación del dataset IMDB')
plt.show()
