# Problemas de Estadística Descriptiva

## Ejercicio 1 – ¿Qué tan largos son los títulos de las películas?

En este ejercicio vas a aplicar técnicas de estadística descriptiva sobre un conjunto de datos real: una base con 1000 películas populares del sitio IMDb.

A partir del título de cada película, vas a:
- Calcular la longitud del título (en caracteres).
- Obtener métricas estadísticas clave: media, mediana, moda, rango, varianza, desviación estándar, asimetría y curtosis.
- Identificar los títulos más largos y más cortos.
- Visualizar la distribución de estas longitudes con un histograma y una curva de densidad.


In [None]:
# Importar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import skew, kurtosis, mode

# Cargar dataset de IMDb
url = "../assets/imdb_1000.csv"
df = pd.read_csv(url)
df

In [None]:
# Crea una nueva columna llamada 'title_length' con la longitud (número de caracteres) de cada título
df["title_length"] = df["title"].apply(len)
df["title_length"].head()

In [None]:
# Calcula media, mediana y moda de la columna 'title_length'
media = np.mean(df["title_length"])
mediana = np.median(df["title_length"])
moda = mode(df["title_length"], keepdims=True).mode[0]

print(f"Media: {media}")
print(f"Mediana: {mediana}")
print(f"Moda: {moda}")

In [None]:
# Calcula el rango, la varianza y la desviación estándar de 'title_length'
rango = np.max(df["title_length"]) - np.min(df["title_length"])
varianza = np.var(df["title_length"], ddof=1)
desviacion = np.std(df["title_length"], ddof=1)

print(f"Rango: {rango}")
print(f"Varianza: {varianza}")
print(f"Desviación estándar: {desviacion}")

In [None]:
# Calcula asimetría y curtosis de la columna 'title_length'
asimetria = skew(df["title_length"])
curtosis_val = kurtosis(df["title_length"])

print(f"Asimetría: {asimetria}")
print(f"Curtosis: {curtosis_val}")

In [None]:
# Imprime el título más corto y el título más largo según su longitud
titulo_mas_corto = df.loc[df["title_length"].idxmin(), "title"]
titulo_mas_largo = df.loc[df["title_length"].idxmax(), "title"]

print(f"Título más corto: {titulo_mas_corto}")
print(f"Título más largo: {titulo_mas_largo}")

In [None]:
# grafica tus resultados
plt.figure(figsize=(10, 6))
plt.hist(df["title_length"], bins=20, edgecolor='black', alpha=0.7)
plt.title("Distribución de la longitud de los títulos")
plt.xlabel("Cantidad de caracteres")
plt.ylabel("Frecuencia")
plt.grid(True)
plt.show()

---

## Ejercicio 2 – Cálculo manual de desviación estándar

En este ejercicio vas a calcular manualmente la desviación estándar, seleccionando cinco títulos reales del dataset de películas que cargaste antes.


In [None]:
# Crea una lista con 5 valores reales de df['title_length'], por ejemplo: [10, 13, 14, 18, 22]
data = [18, 13, 11, 9, 26]

In [None]:
# Calcula la media de los 5 valores
media_data = sum(data) / len(data)
print(f"Media: {media_data}")

In [None]:
# Calcula las diferencias al cuadrado con respecto a la media
suma_diferencias = sum((x - media_data)**2 for x in data)
print(f"Suma de diferencias al cuadrado: {suma_diferencias}")

In [None]:
# Calcula la varianza (promedio de las diferencias al cuadrado) y su raíz cuadrada para obtener la desviación
varianza_manual = suma_diferencias / len(data)
desviacion_manual = varianza_manual ** 0.5

print(f"Varianza: {varianza_manual}")
print(f"Desviación estándar: {desviacion_manual}")