# Problemas de Estadística Descriptiva

## Ejercicio 1 – ¿Qué tan largos son los títulos de las películas?

En este ejercicio vas a aplicar técnicas de estadística descriptiva sobre un conjunto de datos real: una base con 1000 películas populares del sitio IMDb.

A partir del título de cada película, vas a:
- Calcular la longitud del título (en caracteres).
- Obtener métricas estadísticas clave: media, mediana, moda, rango, varianza, desviación estándar, asimetría y curtosis.
- Identificar los títulos más largos y más cortos.
- Visualizar la distribución de estas longitudes con un histograma y una curva de densidad.


In [None]:
# Importar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import skew, kurtosis, mode



: 

In [None]:

# Cargar dataset de IMDb
url = "../assets/imdb_1000.csv"
df = pd.read_csv(url)
df

In [None]:
# Crea una nueva columna llamada 'title_length' con la longitud (número de caracteres) de cada título
df['title_length'] = df['title'].apply(len)
df['title_length']


In [None]:
# Calcula media, mediana y moda de la columna 'title_length'
mean_length = df['title_length'].mean()
median_length = df['title_length'].median()
mode_length = mode(df['title_length'])[0]
print(f"Media de la longitud del título: {mean_length}")
print(f"Mediana de la longitud del título: {median_length}")
print(f"Moda de la longitud del título: {mode_length}")

In [None]:
# Calcula el rango, la varianza y la desviación estándar de 'title_length'
range_length = df['title_length'].max() - df['title_length'].min()
variance_length = df['title_length'].var()
std_dev_length = df['title_length'].std()
print(f"Rango de la longitud del título: {range_length}")
print(f"Varianza de la longitud del título: {variance_length}")
print(f"Desviación estándar de la longitud del título: {std_dev_length}")

In [None]:
# Calcula asimetría y curtosis de la columna 'title_length'
skewness_length = skew(df['title_length'])
kurtosis_length = kurtosis(df['title_length'])
print(f"Asimetría de la longitud del título: {skewness_length}")
print(f"Curtosis de la longitud del título: {kurtosis_length}")

In [None]:
# Imprime el título más corto y el título más largo según su longitud
shortest_title = df.loc[df['title_length'].idxmin()]['title']
longest_title = df.loc[df['title_length'].idxmax()]['title']
print(f"Título más corto: {shortest_title} (Longitud: {df['title_length'].min()})")
print(f"Título más largo: {longest_title} (Longitud: {df['title_length'].max()})")


In [None]:

# grafica los titulos con un historigrama y una curvatura de densidad
plt.figure(figsize=(12, 6))
plt.hist(df['title_length'], bins=30, density=True, color='skyblue', edgecolor='black', alpha=0.6)
plt.title('Distribución de la Longitud de los Títulos con Curva de Densidad')
plt.xlabel('Longitud del Título (número de caracteres)')
plt.ylabel('Densidad')
# agregar una curva de densidad sin seasborn

plt.axvline(mean_length, color='red', linestyle='dashed', linewidth=1, label='Media')
plt.axvline(median_length, color='green', linestyle='dashed', linewidth=1, label='Mediana')
plt.axvline(mode_length, color='orange', linestyle='dashed', linewidth=1, label='Moda')
plt.legend()
plt.grid(axis='y', alpha=0.75)
plt.show()

---

## Ejercicio 2 – Cálculo manual de desviación estándar

En este ejercicio vas a calcular manualmente la desviación estándar, seleccionando cinco títulos reales del dataset de películas que cargaste antes.


In [None]:
# Crea una lista con 5 valores reales de df['title_length'], por ejemplo: [10, 13, 14, 18, 22]
sample_lengths = df['title_length'].sample(5, random_state=42).tolist()
sample_lengths

: 

In [None]:
# Calcula la media de los 5 valores
sample_mean = np.mean(sample_lengths)
sample_mean

In [None]:
# Calcula las diferencias al cuadrado con respecto a la media
squared_diffs = [(x - sample_mean) ** 2 for x in sample_lengths]
squared_diffs

In [None]:
# Calcula la varianza (promedio de las diferencias al cuadrado) y su raíz cuadrada para obtener la desviación
sample_variance = np.mean(squared_diffs)
sample_std_dev = np.sqrt(sample_variance)
sample_variance, sample_std_dev