# Análisis exploratorio de una base de datos de películas

Usa la base de datos `./data/imdb.csv`


### 1. Importar `pandas`, `matplotlib` y `numpy`

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 2. Leer la base de datos del archivo csv a pandas

In [5]:
df = pd.read_csv('data/imdb.csv')

### 3. Mostrar las  primeras y últimas filas del dataframe. Hacerlo con el valor default y pasando como argumento el número entero de filas que se deseen inspeccionar.

In [None]:
# Con valores default
print("Primeras filas (default):")
print(df.head())

print("\n" + "="*50 + "\n")

print("Últimas filas (default):")
print(df.tail())

print("\n" + "="*50 + "\n")

# Pasando argumentos
print("Primeras 3 filas:")
print(df.head(3))

print("\n" + "="*50 + "\n")

print("Últimas 3 filas:")
print(df.tail(3))

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


### 4. Continúa inspeccionando el archivo viendo todas las columnas del dataframe

In [None]:
df.info()

### 5. Imprime los primeros valores de la variable `Rank`

In [None]:
print(df['Rank'].head())

### 6. Demuestra que es mejor tener nombres de columnas sin espacios (notación corchetes y notación punto-variable).

In [None]:
# Con espacios - notación corchetes funciona
print(df['Runtime (Minutes)'].head())

# Con espacios - notación punto-variable NO funciona
try:
    print(df.Runtime (Minutes).head())
except:
    print("Error: La notación punto no funciona con nombres que contienen espacios")

### 7. Renombra las columnas que tengan espacios

In [None]:
# Renombrar columnas con espacios
df.rename(columns={'Runtime (Minutes)': 'Runtime_Minutes',
                   'IMDB_Rating': 'IMDB_Rating'}, inplace=True)

# Verificar los cambios
print(df.columns)

### 8. Utiliza tus nuevas columnas sin espacios :)

In [None]:
# Ahora podemos usar la notación punto-variable sin problemas
print(df.Runtime_Minutes.head())

### 9. Visualiza la info de todo tu dataframe

In [None]:
df.info()

### 10. Inspecciona si hay columnas que tengan valores `NA`

In [None]:
df.isnull()

### 11. Imprime el número total de valores NA que haya en cada columna. Hazlo primero para la columna `Metascore` y después utiliza un ciclo for para hacerlo para todas las columnas

In [None]:
# Para la columna Metascore
print(f"NA en Metascore: {df['Metascore'].isna().sum()}")

# Para todas las columnas usando un for
print("\nTotal de NA por columna:")
for col in df.columns:
    print(f"{col}: {df[col].isna().sum()}")

### 12. Usa la magia de `dropna()`

In [None]:
df = df.dropna()
print("Dataframe después de eliminar NA")
print(f"Nueva forma: {df.shape}")

### 13. Vuelve a ver la info del dataset

In [None]:
df.info()

### 14. Genera estadísticos descriptivos con el método `describe()`

In [None]:
df.describe()

### 15. Crea un histograma de la variable Metascore. Utiliza 10 cubetas

In [None]:
df['Metascore'].hist(bins=10)
plt.xlabel('Metascore')
plt.ylabel('Frecuencia')
plt.title('Distribución de Metascore')
plt.show()

### 16. Crea un histograma de la variable Rating. Utiliza 10 cubetas

In [None]:
df['IMDB_Rating'].hist(bins=10)
plt.xlabel('IMDB Rating')
plt.ylabel('Frecuencia')
plt.title('Distribución de IMDB Rating')
plt.show()

### 17. Vuelve a describir el dataframe y observa la media de la variable `Ratings`

In [None]:
df.describe()

### 18. Calcula este promedio con Numpy y después con un método de Pandas

In [None]:
# Con Numpy
promedio_numpy = np.mean(df['IMDB_Rating'])
print(f"Promedio con Numpy: {promedio_numpy}")

# Con Pandas
promedio_pandas = df['IMDB_Rating'].mean()
print(f"Promedio con Pandas: {promedio_pandas}")

### 19. Obten los valores únicos de la variable Rating y después ordénalos de menor a mayor

In [None]:
# Valores únicos
valores_unicos = df['Certificate'].unique()
print(f"Valores únicos: {valores_unicos}")

# Ordenados de menor a mayor
valores_ordenados = np.sort(valores_unicos)
print(f"Valores ordenados: {valores_ordenados}")

### 20. Observa los ratings que te interesen y ahora filtra el dataframe con ese rating para ver cuáles son las películas con dicho rating

In [None]:
# Filtrar por un rating de interés (por ejemplo 'PG-13')
filtrado = df[df['Certificate'] == 'PG-13']
print(f"Películas con rating PG-13:")
print(filtrado[['Name', 'Certificate']].head())

### 21. Obten los valores únicos de la variable Rating y la frecuencia total de cada uno de estos valores. Posteriormente crea un nuevo dataframe con essos valores

In [None]:
# Obtener valores únicos y sus frecuencias
rating_counts = df['Certificate'].value_counts()
print(rating_counts)

# Crear un nuevo dataframe
df_ratings = pd.DataFrame({
    'Certificate': rating_counts.index,
    'Frecuencia': rating_counts.values
})
print("\nDataframe de ratings:")
print(df_ratings)

### 22. Ordena el nuevo dataframe por la variable `rating`

In [None]:
df_ratings_sorted = df_ratings.sort_values('Certificate')
print(df_ratings_sorted)

### 23. Crea una gráfica de barras con este nuevo dataframe ordenado

In [None]:
plt.figure(figsize=(10, 6))
plt.bar(df_ratings_sorted['Certificate'], df_ratings_sorted['Frecuencia'])
plt.xlabel('Certificate')
plt.ylabel('Frecuencia')
plt.title('Distribución de Ratings de Películas')
plt.xticks(rotation=45)
plt.show()

### 24. Crea la matriz de correlación del dataframe de películas

In [None]:
correlation_matrix = df.corr(numeric_only=True)
print(correlation_matrix)

### 25. Grafica la matriz de correlación utilizando `matshow()`

In [None]:
plt.figure(figsize=(10, 8))
plt.matshow(correlation_matrix)
plt.colorbar()
plt.title('Matriz de Correlación')
plt.xlabel('Columnas')
plt.ylabel('Columnas')
plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation=45)
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)
plt.tight_layout()
plt.show()