### Distribuciones de Datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm

#### Distribucion Normal

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución normal
# media = 70, desviación estándar = 10
datos_normal = np.random.normal(loc=70, scale=10, size=100)

print("Dataset con Distribución Normal")
print("=" * 50)
print(f"Datos: {datos_normal.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_normal.mean():.2f}")
print(f"Mediana: {np.median(datos_normal):.2f}")
print(f"Desviación estándar: {datos_normal.std():.2f}")
print(f"Mínimo: {datos_normal.min():.2f}")
print(f"Máximo: {datos_normal.max():.2f}")

# Calcular moda (usando bins del histograma)
counts, bins = np.histogram(datos_normal, bins=8)
moda_aproximada = (bins[np.argmax(counts)] + bins[np.argmax(counts) + 1]) / 2

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_normal, bins=8, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(datos_normal.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_normal.mean():.2f}')
plt.axvline(np.median(datos_normal), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_normal):.2f}')
plt.axvline(moda_aproximada, color='orange', linestyle='--', linewidth=2, 
            label=f'Moda (aprox): {moda_aproximada:.2f}')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Normal - Forma de Campana Simétrica')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución normal perfecta, media ≈ mediana ≈ moda")
print(f"En este caso: {datos_normal.mean():.2f} ≈ {np.median(datos_normal):.2f} ≈ {moda_aproximada:.2f}")

In [None]:
# Convertir a dataframe para análisis adicional
df_normal = pd.DataFrame(datos_normal, columns=['Valores'])
df_normal.head()

In [None]:
# Usar la columna 'Valores' del DataFrame
datos = df_normal['Valores']

# Calcular media y desviación estándar
mu = datos.mean()
sigma = datos.std()

# Rango de valores para graficar
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000)
y = norm.pdf(x, mu, sigma)

# Crear la figura
plt.style.use('default') 
plt.figure(figsize=(10, 6))
plt.plot(x, y, label='Distribución ajustada', color='black', linewidth=2)

# Zonas de 1, 2 y 3 desviaciones estándar con colores intensos

colors = ['red', 'orange', 'blue']
zones = [(mu - sigma, mu + sigma), (mu - 2*sigma, mu + 2*sigma), (mu - 3*sigma, mu + 3*sigma)]
labels = ['±1σ ≈ 68%', '±2σ ≈ 95%', '±3σ ≈ 99.7%']

for i, (start, end) in enumerate(zones):
    x_fill = np.linspace(start, end, 1000)
    y_fill = norm.pdf(x_fill, mu, sigma)
    plt.fill_between(x_fill, y_fill, color=colors[i], alpha=0.6, label=labels[i])

# Líneas verticales en ±1σ, ±2σ, ±3σ
for k in [-3, -2, -1, 1, 2, 3]:
    plt.axvline(mu + k*sigma, color='gray', linestyle='--', linewidth=1)

# Personalización
plt.title(f'Distribución Normal Ajustada (μ = {mu:.2f}, σ = {sigma:.2f})')
plt.xlabel('Valor')
plt.ylabel('Densidad de probabilidad')
plt.legend(loc='upper left')
plt.grid(True, linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()

#### Datos sesgados hacia la izquierda

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución sesgada a la izquierda (negativa)
# Usamos beta con a > b, lo que genera valores altos (cerca de 1)
datos_sesgados_izquierda = np.random.beta(a=7, b=2, size=100) * 80 + 20

print("Dataset con Distribución Sesgada a la Izquierda")
print("=" * 50)
print(f"Datos: {datos_sesgados_izquierda.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_sesgados_izquierda.mean():.2f}")
print(f"Mediana: {np.median(datos_sesgados_izquierda):.2f}")
print(f"Desviación estándar: {datos_sesgados_izquierda.std():.2f}")
print(f"Mínimo: {datos_sesgados_izquierda.min():.2f}")
print(f"Máximo: {datos_sesgados_izquierda.max():.2f}")
print(f"Asimetría (skewness): {stats.skew(datos_sesgados_izquierda):.2f} (negativo = sesgo izquierdo)")

# Calcular moda (usando bins del histograma)
counts, bins = np.histogram(datos_sesgados_izquierda, bins=15)
moda_aproximada = (bins[np.argmax(counts)] + bins[np.argmax(counts) + 1]) / 2

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_sesgados_izquierda, bins=15, edgecolor='black', alpha=0.7, color='lightcoral')
plt.axvline(datos_sesgados_izquierda.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_sesgados_izquierda.mean():.2f}')
plt.axvline(np.median(datos_sesgados_izquierda), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_sesgados_izquierda):.2f}')
plt.axvline(moda_aproximada, color='orange', linestyle='--', linewidth=2, 
            label=f'Moda (aprox): {moda_aproximada:.2f}')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Sesgada a la Izquierda - Cola hacia la izquierda')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución sesgada a la izquierda: Media < Mediana < Moda")
print(f"En este caso: {datos_sesgados_izquierda.mean():.2f} < {np.median(datos_sesgados_izquierda):.2f} < {moda_aproximada:.2f}")
print(f"\nLa mayoría de valores están en la parte alta (derecha)")
print(f"La cola se extiende hacia los valores más bajos (izquierda)")

#### Datos sesgados hacia la derecha

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución sesgada a la derecha (positiva)
# Usamos una distribución beta con parámetros que generan sesgo derecho
datos_sesgados_derecha = np.random.beta(a=2, b=7, size=100) * 80 + 20

print("Dataset con Distribución Sesgada a la Derecha")
print("=" * 50)
print(f"Datos: {datos_sesgados_derecha.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_sesgados_derecha.mean():.2f}")
print(f"Mediana: {np.median(datos_sesgados_derecha):.2f}")
print(f"Desviación estándar: {datos_sesgados_derecha.std():.2f}")
print(f"Mínimo: {datos_sesgados_derecha.min():.2f}")
print(f"Máximo: {datos_sesgados_derecha.max():.2f}")
print(f"Asimetría (skewness): {stats.skew(datos_sesgados_derecha):.2f} (positivo = sesgo derecho)")

# Calcular moda (usando bins del histograma)
counts, bins = np.histogram(datos_sesgados_derecha, bins=15)
moda_aproximada = (bins[np.argmax(counts)] + bins[np.argmax(counts) + 1]) / 2

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_sesgados_derecha, bins=15, edgecolor='black', alpha=0.7, color='lightgreen')
plt.axvline(datos_sesgados_derecha.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_sesgados_derecha.mean():.2f}')
plt.axvline(np.median(datos_sesgados_derecha), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_sesgados_derecha):.2f}')
plt.axvline(moda_aproximada, color='orange', linestyle='--', linewidth=2, 
            label=f'Moda (aprox): {moda_aproximada:.2f}')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Sesgada a la Derecha - Cola hacia la derecha')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución sesgada a la derecha: Moda < Mediana < Media")
print(f"En este caso: {moda_aproximada:.2f} < {np.median(datos_sesgados_derecha):.2f} < {datos_sesgados_derecha.mean():.2f}")
print(f"\nLa cola se extiende hacia los valores más altos (derecha)")

#### Distribución Uniforme

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución uniforme
# Todos los valores tienen aproximadamente la misma probabilidad
datos_uniformes = np.random.uniform(low=75, high=100, size=100)

print("Dataset con Distribución Uniforme")
print("=" * 50)
print(f"Datos: {datos_uniformes.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_uniformes.mean():.2f}")
print(f"Mediana: {np.median(datos_uniformes):.2f}")
print(f"Desviación estándar: {datos_uniformes.std():.2f}")
print(f"Mínimo: {datos_uniformes.min():.2f}")
print(f"Máximo: {datos_uniformes.max():.2f}")
print(f"Asimetría (skewness): {stats.skew(datos_uniformes):.2f} (cercano a 0 = simétrico)")

# Calcular moda (usando bins del histograma)
counts, bins = np.histogram(datos_uniformes, bins=10)
moda_aproximada = (bins[np.argmax(counts)] + bins[np.argmax(counts) + 1]) / 2

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_uniformes, bins=10, edgecolor='black', alpha=0.7, color='plum')
plt.axvline(datos_uniformes.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_uniformes.mean():.2f}')
plt.axvline(np.median(datos_uniformes), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_uniformes):.2f}')
plt.axvline(moda_aproximada, color='orange', linestyle='--', linewidth=2, 
            label=f'Moda (aprox): {moda_aproximada:.2f}')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Uniforme - Frecuencias similares en todos los rangos')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución uniforme: Media ≈ Mediana ≈ centro del rango")
print(f"En este caso: {datos_uniformes.mean():.2f} ≈ {np.median(datos_uniformes):.2f}")
print(f"Rango teórico central: {(50+100)/2} = 75")
print(f"\nTodas las barras tienen alturas similares (frecuencias parecidas)")

### Distribución bimodal

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución bimodal
# Combinamos dos distribuciones normales con diferentes medias
grupo1 = np.random.normal(loc=50, scale=8, size=50)  # Primer pico alrededor de 50
grupo2 = np.random.normal(loc=80, scale=8, size=50)  # Segundo pico alrededor de 80
datos_bimodales = np.concatenate([grupo1, grupo2])

# Mezclar los datos
np.random.shuffle(datos_bimodales)

print("Dataset con Distribución Bimodal")
print("=" * 50)
print(f"Datos: {datos_bimodales.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_bimodales.mean():.2f}")
print(f"Mediana: {np.median(datos_bimodales):.2f}")
print(f"Desviación estándar: {datos_bimodales.std():.2f}")
print(f"Mínimo: {datos_bimodales.min():.2f}")
print(f"Máximo: {datos_bimodales.max():.2f}")

# Calcular las dos modas (los dos picos)
counts, bins = np.histogram(datos_bimodales, bins=15)
# Encontrar los índices de los picos locales
picos_indices = []
for i in range(1, len(counts)-1):
    if counts[i] > counts[i-1] and counts[i] > counts[i+1]:
        picos_indices.append(i)

# Obtener las dos modas más altas
picos_ordenados = sorted(picos_indices, key=lambda x: counts[x], reverse=True)
if len(picos_ordenados) >= 2:
    moda1 = (bins[picos_ordenados[0]] + bins[picos_ordenados[0] + 1]) / 2
    moda2 = (bins[picos_ordenados[1]] + bins[picos_ordenados[1] + 1]) / 2
else:
    moda1 = (bins[np.argmax(counts)] + bins[np.argmax(counts) + 1]) / 2
    moda2 = moda1

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_bimodales, bins=15, edgecolor='black', alpha=0.7, color='mediumpurple')
plt.axvline(datos_bimodales.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_bimodales.mean():.2f}')
plt.axvline(np.median(datos_bimodales), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_bimodales):.2f}')
plt.axvline(moda1, color='orange', linestyle='--', linewidth=2, 
            label=f'Moda 1: {moda1:.2f}')
plt.axvline(moda2, color='darkorange', linestyle='--', linewidth=2, 
            label=f'Moda 2: {moda2:.2f}')
plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Bimodal - Dos picos de frecuencia')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución bimodal: Hay DOS picos (modas) claramente diferenciados")
print(f"Moda 1: {moda1:.2f}")
print(f"Moda 2: {moda2:.2f}")
print(f"Media: {datos_bimodales.mean():.2f} (típicamente entre las dos modas)")
print(f"Mediana: {np.median(datos_bimodales):.2f}")
print(f"\nEsto indica que hay dos grupos o subpoblaciones distintas en los datos")

### Distribución multimodal

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar datos con distribución multimodal (4 picos)
# Combinamos cuatro distribuciones normales con diferentes medias
grupo1 = np.random.normal(loc=30, scale=5, size=25)  # Primer pico alrededor de 30
grupo2 = np.random.normal(loc=50, scale=5, size=25)  # Segundo pico alrededor de 50
grupo3 = np.random.normal(loc=70, scale=5, size=25)  # Tercer pico alrededor de 70
grupo4 = np.random.normal(loc=90, scale=5, size=25)  # Cuarto pico alrededor de 90
datos_multimodales = np.concatenate([grupo1, grupo2, grupo3, grupo4])

# Mezclar los datos
np.random.shuffle(datos_multimodales)

print("Dataset con Distribución Multimodal")
print("=" * 50)
print(f"Datos: {datos_multimodales.round(2)}")
print(f"\nEstadísticas descriptivas:")
print(f"Media: {datos_multimodales.mean():.2f}")
print(f"Mediana: {np.median(datos_multimodales):.2f}")
print(f"Desviación estándar: {datos_multimodales.std():.2f}")
print(f"Mínimo: {datos_multimodales.min():.2f}")
print(f"Máximo: {datos_multimodales.max():.2f}")

# Calcular múltiples modas (los picos)
counts, bins = np.histogram(datos_multimodales, bins=20)
# Encontrar los índices de los picos locales
picos_indices = []
for i in range(1, len(counts)-1):
    if counts[i] > counts[i-1] and counts[i] > counts[i+1]:
        picos_indices.append(i)

# Obtener las modas más prominentes
picos_ordenados = sorted(picos_indices, key=lambda x: counts[x], reverse=True)
modas = []
for idx in picos_ordenados[:4]:  # Tomar hasta 4 modas principales
    moda = (bins[idx] + bins[idx + 1]) / 2
    modas.append(moda)

# Visualización
plt.figure(figsize=(12, 6))
plt.hist(datos_multimodales, bins=20, edgecolor='black', alpha=0.7, color='teal')
plt.axvline(datos_multimodales.mean(), color='red', linestyle='--', linewidth=2, 
            label=f'Media: {datos_multimodales.mean():.2f}')
plt.axvline(np.median(datos_multimodales), color='green', linestyle='--', linewidth=2, 
            label=f'Mediana: {np.median(datos_multimodales):.2f}')

# Graficar las modas encontradas
colores_modas = ['orange', 'darkorange', 'gold', 'goldenrod']
for i, moda in enumerate(modas):
    plt.axvline(moda, color=colores_modas[i % len(colores_modas)], 
                linestyle='--', linewidth=2, label=f'Moda {i+1}: {moda:.2f}')

plt.xlabel('Valores')
plt.ylabel('Frecuencia')
plt.title('Distribución Multimodal - Múltiples picos de frecuencia')
plt.legend(loc='upper right', fontsize=9)
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nEn una distribución multimodal: Hay MÚLTIPLES picos (más de 2 modas)")
for i, moda in enumerate(modas, 1):
    print(f"Moda {i}: {moda:.2f}")
print(f"Media: {datos_multimodales.mean():.2f}")
print(f"Mediana: {np.median(datos_multimodales):.2f}")
print(f"\nEsto indica que hay múltiples grupos o subpoblaciones en los datos")