---
# Guía Análisis Univariado

En esta guía repasaremos los elementos fundamentales del análisis univariado.


---

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('Estudiantes.csv')

In [3]:
df.head()

Unnamed: 0,Genero,Etnia,Nivel educativo de los padres,Examen de preparacion,Matematicas,Lectura,Escritura
0,Femenino,Grupo B,"Licenciatura, Ingenieria",No realizado,72,72,74
1,Femenino,Grupo C,"Educacion Superior, no titulado",Completado,69,90,88
2,Femenino,Grupo B,Maestria,No realizado,90,95,93
3,Masculino,Grupo A,Preparatoria,No realizado,47,57,44
4,Masculino,Grupo C,"Educacion Superior, no titulado",No realizado,76,78,75


### 1. Análisis de tipos de variables

En un análisis estadístico encontramos dos tipos de variables:
- Variables Cualitativas
    - Discretas
    - Continuas
- Variables Cuantitativas
    - Nominales
    - Ordinales

Clasifique las variables del set de datos:

In [None]:
# Clasificación de variables:

# Género: Cualitativa Nominal (categorías sin orden: Femenino, Masculino)
print("Género: Cualitativa Nominal")

# Etnia: Cualitativa Nominal (categorías sin orden: Grupo A, B, C, D, E)
print("Etnia: Cualitativa Nominal")

# Nivel Educativo padres: Cualitativa Ordinal (categorías con orden jerárquico)
print("Nivel Educativo padres: Cualitativa Ordinal")

# Examen de preparación: Cualitativa Nominal (categorías sin orden: Completado, No realizado)
print("Examen de preparación: Cualitativa Nominal")

# Matemáticas: Cuantitativa Continua (valores numéricos con decimales posibles)
print("Matemáticas: Cuantitativa Continua")

# Lectura: Cuantitativa Continua (valores numéricos con decimales posibles)
print("Lectura: Cuantitativa Continua")

# Escritura: Cuantitativa Continua (valores numéricos con decimales posibles)
print("Escritura: Cuantitativa Continua")

# Verificar los tipos de datos en el DataFrame
print("\n=== VERIFICACIÓN DE TIPOS DE DATOS ===")
print(df.dtypes)
print("\n=== VALORES ÚNICOS POR VARIABLE ===")
for col in df.columns:
    print(f"{col}: {df[col].nunique()} valores únicos")
    if df[col].dtype == 'object':
        print(f"  Valores: {df[col].unique()}")
    print()

### 2. Análisis de Frecuencias Cualitativas

Una tabla de frecuencias constituye un método útil y eficiente para tabular los datos cualitativos y cuantitativos, y permite ordenar, clasificar y explicar detalladamente la información recolectada. La tabla de frecuencias está formada por los valores de una variable cuantitativa y sus frecuencias correspondientes. Construya una tabla de frecuencias que permita analizar las variables **Género** y **Etnia**:
- Clase
- Frecuencia Absoluta
- Frecuencia Relativa
- Frecuencia Acumulada
- Frecuencia Relativa Acumulada

Utilice las librerías de Python que más le acomoden para este propósito.

In [None]:
# Análisis de Frecuencias Cualitativas - GÉNERO
import numpy as np

print("=== TABLA DE FRECUENCIAS - GÉNERO ===")

# Calcular frecuencias para Género
genero_freq = df['Genero'].value_counts().sort_index()
genero_rel = df['Genero'].value_counts().sort_index() / len(df)
genero_cum = genero_freq.cumsum()
genero_rel_cum = genero_rel.cumsum()

# Crear tabla de frecuencias
tabla_genero = pd.DataFrame({
    'Clase': genero_freq.index,
    'Frecuencia Absoluta': genero_freq.values,
    'Frecuencia Relativa': genero_rel.values.round(4),
    'Frecuencia Acumulada': genero_cum.values,
    'Frecuencia Relativa Acumulada': genero_rel_cum.values.round(4)
})

print(tabla_genero.to_string(index=False))
print(f"\nTotal de estudiantes: {len(df)}")
print(f"Distribución por género:")
for categoria in genero_freq.index:
    porcentaje = (genero_freq[categoria] / len(df)) * 100
    print(f"  {categoria}: {genero_freq[categoria]} estudiantes ({porcentaje:.1f}%)")

In [None]:
# Análisis de Frecuencias Cualitativas - ETNIA

import matplotlib.pyplot as plt

print("\n=== TABLA DE FRECUENCIAS - ETNIA ===")

# Calcular frecuencias para Etnia
etnia_freq = df['Etnia'].value_counts().sort_index()
etnia_rel = etnia_freq / len(df)
etnia_cum = etnia_freq.cumsum()
etnia_rel_cum = etnia_rel.cumsum()

# Crear tabla de frecuencias
tabla_etnia = pd.DataFrame({
    'Clase': etnia_freq.index,
    'Frecuencia Absoluta': etnia_freq.values,
    'Frecuencia Relativa': etnia_rel.values.round(4),
    'Frecuencia Acumulada': etnia_cum.values,
    'Frecuencia Relativa Acumulada': etnia_rel_cum.values.round(4)
})

print(tabla_etnia.to_string(index=False))
print(f"\nDistribución por etnia:")
for categoria in etnia_freq.index:
    porcentaje = (etnia_freq[categoria] / len(df)) * 100
    print(f"  {categoria}: {etnia_freq[categoria]} estudiantes ({porcentaje:.1f}%)")

# Visualización de las frecuencias
fig, axes = plt.subplots(1, 2, figsize=(12, 5))
fig.suptitle('Frecuencias de Etnia', fontsize=16, fontweight='bold')

# Gráfico de barras - Etnia
axes[0].bar(etnia_freq.index, etnia_freq.values, color='lightcoral', alpha=0.8)
axes[0].set_title('Frecuencia Absoluta - Etnia')
axes[0].set_xlabel('Etnia')
axes[0].set_ylabel('Frecuencia')
axes[0].grid(True, alpha=0.3)

# Gráfico de torta - Etnia
axes[1].pie(etnia_freq.values, labels=etnia_freq.index, autopct='%1.1f%%', startangle=90)
axes[1].set_title('Distribución por Etnia')

plt.tight_layout()
plt.show()

### 3. Análisis de Frecuencias Cuantitativas

Ahora realizaremos un análisis de frecuencias cuantitativas para la variable **Matemáticas**. Construya una tabla con:
- Intervalo
- Frecuencia absoluta
- Frecuencia relativa
- Frecuencia acumulada
- Frecuencia relativa acumulada

Sin embargo, para determinar la cantidad de intervalos a considerar, existen algunas reglas que sugieren dicha cantidad:
- Regla de Sturges
- Regla de Freedman-Diaconis
- Regla de Velleman

**Regla de Sturges**

La regla de Sturges es una fórmula utilizada para determinar el número óptimo de intervalos en un histograma para un conjunto de datos dado. La fórmula es:

$k = 1 + log_{2}(n)$

En donde,
- *k* es el número de intervalos
- *n* es el tamaño del conjunto de datos

Esta fórmula se basa en la idea de que un mayor número de intervalos puede proporcionar una mejor representación de la distribución de los datos, pero demasiados intervalos pueden resultar en una pérdida de generalidad y dificultad para interpretar el histograma. La regla de Sturges busca un equilibrio entre la precisión y la simplicidad del histograma. Si el resultado es decimal, realice un redondeo

In [None]:
# Calcular la cantidad de intervalos de acuerdo a la regla de Sturges
import math

print("=== REGLA DE STURGES ===")

# Obtener el tamaño de la muestra (n)
n = len(df)
print(f"Tamaño de la muestra (n): {n}")

# Aplicar la fórmula de Sturges: k = 1 + log2(n)
k_sturges = 1 + math.log2(n)
print(f"Cálculo exacto: k = 1 + log₂({n}) = 1 + {math.log2(n):.4f} = {k_sturges:.4f}")

# Redondear al entero más cercano
k_sturges_redondeado = round(k_sturges)
print(f"Número de intervalos redondeado: {k_sturges_redondeado}")

# Información adicional sobre la variable Matemáticas
print(f"\n=== INFORMACIÓN DE LA VARIABLE MATEMÁTICAS ===")
print(f"Valor mínimo: {df['Matematicas'].min()}")
print(f"Valor máximo: {df['Matematicas'].max()}")
print(f"Rango: {df['Matematicas'].max() - df['Matematicas'].min()}")
print(f"Ancho de intervalo sugerido: {(df['Matematicas'].max() - df['Matematicas'].min()) / k_sturges_redondeado:.2f}")

# Guardar el resultado para uso posterior
intervalos_sturges = k_sturges_redondeado
print(f"\n✓ Utilizaremos {intervalos_sturges} intervalos según la Regla de Sturges")

**Regla de Freedman-Diaconis**

La regla de Freedman-Diaconis es más robusta ya que toma en cuenta la distribución de los datos y su variabilidad. Se calcula utilizando el rango intercuartil (IQR) de los datos y su tamaño:

$h = 2\cdot IQR\cdot n^{-1/3}$

En donde,
- h es el ancho del intervalo
- IRQ es el rango intercuartil
- n es el tamaño del conjunto de datos

El número de intervalos se calcula dividiendo el rango de los datos por el ancho del intervalo h.

In [None]:
# Calcular la cantidad de intervalos de acuerdo a la regla de Freedman-Diaconis

print("=== REGLA DE FREEDMAN-DIACONIS ===")

# Obtener estadísticas de la variable Matemáticas
matematicas = df['Matematicas']
n = len(matematicas)

# Calcular cuartiles
Q1 = matematicas.quantile(0.25)
Q3 = matematicas.quantile(0.75)
IQR = Q3 - Q1

print(f"Tamaño de la muestra (n): {n}")
print(f"Primer cuartil (Q1): {Q1:.2f}")
print(f"Tercer cuartil (Q3): {Q3:.2f}")
print(f"Rango intercuartil (IQR): {IQR:.2f}")

# Aplicar la fórmula de Freedman-Diaconis: h = 2 * IQR * n^(-1/3)
h = 2 * IQR * (n ** (-1/3))
print(f"\nCálculo del ancho de intervalo:")
print(f"h = 2 × IQR × n^(-1/3)")
print(f"h = 2 × {IQR:.2f} × {n}^(-1/3)")
print(f"h = 2 × {IQR:.2f} × {n**(-1/3):.4f}")
print(f"h = {h:.4f}")

# Calcular el número de intervalos dividiendo el rango por h
rango = matematicas.max() - matematicas.min()
k_freedman = rango / h
k_freedman_redondeado = round(k_freedman)

print(f"\nCálculo del número de intervalos:")
print(f"k = rango / h")
print(f"k = {rango:.2f} / {h:.4f}")
print(f"k = {k_freedman:.4f}")
print(f"Número de intervalos redondeado: {k_freedman_redondeado}")

# Comparación con Sturges
print(f"\n=== COMPARACIÓN DE MÉTODOS ===")
print(f"Regla de Sturges: {intervalos_sturges} intervalos")
print(f"Regla de Freedman-Diaconis: {k_freedman_redondeado} intervalos")

# Guardar el resultado para uso posterior
intervalos_freedman = k_freedman_redondeado

# Decidir cuál método usar (generalmente se prefiere Freedman-Diaconis para datos robustos)
intervalos_elegidos = intervalos_freedman
print(f"\n✓ Utilizaremos {intervalos_elegidos} intervalos (Freedman-Diaconis) para el análisis")

Ahora que ya conocemos la cantidad de intervalos, construya una tabla de frecuencias para la variale **Matematicas** con la siguiente información:
- Intervalo
- Frecuencia absoluta
- Frecuencia relativa
- Frecuencia acumulada
- Frecuencia relativa acumulada

In [None]:
# Construir tabla de frecuencias para la variable Matemáticas

print("=== TABLA DE FRECUENCIAS CUANTITATIVAS - MATEMÁTICAS ===")

# Usar el número de intervalos calculado anteriormente
k = intervalos_elegidos
matematicas = df['Matematicas']

# Calcular estadísticas básicas
minimo = matematicas.min()
maximo = matematicas.max()
rango = maximo - minimo
ancho_intervalo = rango / k

print(f"Número de intervalos seleccionado: {k}")
print(f"Valor mínimo: {minimo}")
print(f"Valor máximo: {maximo}")
print(f"Rango: {rango:.2f}")
print(f"Ancho de intervalo: {ancho_intervalo:.2f}")

# Crear los intervalos usando pd.cut
intervalos = pd.cut(matematicas, bins=k, precision=1)

# Calcular frecuencias
frecuencias_abs = intervalos.value_counts().sort_index()
frecuencias_rel = frecuencias_abs / len(matematicas)
frecuencias_cum = frecuencias_abs.cumsum()
frecuencias_rel_cum = frecuencias_rel.cumsum()

# Crear la tabla de frecuencias
tabla_matematicas = pd.DataFrame({
    'Intervalo': frecuencias_abs.index.astype(str),
    'Frecuencia Absoluta': frecuencias_abs.values,
    'Frecuencia Relativa': frecuencias_rel.values.round(4),
    'Frecuencia Acumulada': frecuencias_cum.values,
    'Frecuencia Relativa Acumulada': frecuencias_rel_cum.values.round(4)
})

print(f"\n=== TABLA DE FRECUENCIAS ===")
print(tabla_matematicas.to_string(index=False))

# Estadísticas adicionales
print(f"\n=== ESTADÍSTICAS ADICIONALES ===")
print(f"Total de estudiantes: {len(matematicas)}")
print(f"Promedio: {matematicas.mean():.2f}")
print(f"Mediana: {matematicas.median():.2f}")
print(f"Desviación estándar: {matematicas.std():.2f}")

# Mostrar intervalos con mayor frecuencia
intervalo_max_freq = frecuencias_abs.idxmax()
freq_max = frecuencias_abs.max()
print(f"\nIntervalo con mayor frecuencia: {intervalo_max_freq}")
print(f"Frecuencia máxima: {freq_max} estudiantes ({(freq_max/len(matematicas)*100):.1f}%)")

# Visualización básica de la distribución
plt.figure(figsize=(10, 6))
plt.hist(matematicas, bins=k, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('Distribución de Calificaciones en Matemáticas')
plt.xlabel('Calificación en Matemáticas')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)
plt.axvline(matematicas.mean(), color='red', linestyle='--', label=f'Media: {matematicas.mean():.1f}')
plt.axvline(matematicas.median(), color='green', linestyle='--', label=f'Mediana: {matematicas.median():.1f}')
plt.legend()
plt.tight_layout()
plt.show()

# Guardar la tabla para uso posterior
tabla_freq_matematicas = tabla_matematicas
print(f"\n✓ Tabla de frecuencias construida con {k} intervalos")

### 4. Histograma de Frecuencia
Es una gráfica bidimensional en cuyo eje X se encuentran las clases y en el eje de las Y se encuentra la frecuencia relativa. El histograma de frecuencias es una representación visual de los datos en donde se evidencian fundamentalmente tres características: forma, acumulación o tendencia posicional, y dispersión o variabilidad.

En base a la tabla de frecuencias anterior, construya un histograma para representar la frecuencia absoluta y un histograma de frecuencia acumulada. Para la cantidad de intervalos, recuerde utilizar el valor obtenido anteriormente con las reglas expuestas.


In [None]:
# Histograma de frecuencia absoluta

print("=== HISTOGRAMA DE FRECUENCIA ABSOLUTA ===")

# Configurar el gráfico
plt.figure(figsize=(12, 8))

# Preparar datos
matematicas = df['Matematicas']
k = intervalos_elegidos

# Crear el histograma usando los mismos parámetros que en la tabla
n, bins, patches = plt.hist(matematicas, bins=k, alpha=0.8, color='lightblue',
                            edgecolor='black', linewidth=1.2)

# Personalizar el gráfico
plt.title('Histograma de Frecuencia Absoluta - Matemáticas',
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Calificación en Matemáticas', fontsize=12, fontweight='bold')
plt.ylabel('Frecuencia Absoluta', fontsize=12, fontweight='bold')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()

# Añadir valores sobre las barras
for i in range(len(n)):
    plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i] + 0.5,
             str(int(n[i])), ha='center', va='bottom', fontweight='bold')

# Estadísticas importantes
media = matematicas.mean()
mediana = matematicas.median()
moda_intervalo = tabla_freq_matematicas.loc[tabla_freq_matematicas['Frecuencia Absoluta'].idxmax(), 'Intervalo']

# Líneas de referencia
plt.axvline(media, color='red', linestyle='--', linewidth=2, label=f'Media: {media:.1f}')
plt.axvline(mediana, color='green', linestyle='--', linewidth=2, label=f'Mediana: {mediana:.1f}')
plt.legend(fontsize=10)

# Mostrar información estadística
print(f"Número de intervalos utilizados: {k}")
print(f"Media: {media:.2f}")
print(f"Mediana: {mediana:.2f}")
print(f"Desviación estándar: {matematicas.std():.2f}")
print(f"Intervalo modal: {moda_intervalo}")
print(f"Frecuencia máxima: {int(max(n))} estudiantes")

plt.show()

In [None]:
# Histograma de frecuencia acumulada

print("\n=== HISTOGRAMA DE FRECUENCIA ACUMULADA ===")

# Obtener datos de la tabla de frecuencias
intervalos_nombres = tabla_freq_matematicas['Intervalo']
frec_acumulada = tabla_freq_matematicas['Frecuencia Acumulada']

# Calcular puntos medios de los intervalos para la ojiva
puntos_medios = []
for intervalo in intervalos_nombres:
    limites = intervalo.replace('(', '').replace(']', '').split(', ')
    punto_medio = (float(limites[0]) + float(limites[1])) / 2
    puntos_medios.append(punto_medio)

# Crear figura con dos subplots para comparación
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Histogramas de Frecuencia - Matemáticas', fontsize=16, fontweight='bold')

# Subplot 1: Histograma de frecuencia acumulada como barras
ax1 = axes[0]
posiciones = range(len(intervalos_nombres))
barras = ax1.bar(posiciones, frec_acumulada, alpha=0.8, color='lightgreen',
                 edgecolor='black', linewidth=1.2)

ax1.set_title('Frecuencia Acumulada (Barras)', fontweight='bold')
ax1.set_xlabel('Intervalos', fontweight='bold')
ax1.set_ylabel('Frecuencia Acumulada', fontweight='bold')
ax1.set_xticks(posiciones)
ax1.set_xticklabels([intervalo.replace('(', '').replace(']', '').replace(', ', '-')
                     for intervalo in intervalos_nombres], rotation=45, ha='right')
ax1.grid(True, alpha=0.3, axis='y')

# Añadir valores sobre las barras
for i, barra in enumerate(barras):
    altura = barra.get_height()
    ax1.text(barra.get_x() + barra.get_width()/2., altura + 1,
             f'{int(altura)}', ha='center', va='bottom', fontweight='bold')

# Subplot 2: Polígono de frecuencia acumulada (Ojiva)
ax2 = axes[1]
ax2.plot(puntos_medios, frec_acumulada, marker='o', linewidth=2,
         markersize=6, color='darkgreen', markerfacecolor='lightgreen', label='Frecuencia Acumulada')
ax2.fill_between(puntos_medios, frec_acumulada, alpha=0.3, color='lightgreen')

ax2.set_title('Ojiva (Polígono de Frecuencia Acumulada)', fontweight='bold')
ax2.set_xlabel('Calificación en Matemáticas', fontweight='bold')
ax2.set_ylabel('Frecuencia Acumulada', fontweight='bold')
ax2.grid(True, alpha=0.3)

# Añadir valores en los puntos de la ojiva
for x, y in zip(puntos_medios, frec_acumulada):
    ax2.annotate(f'{int(y)}', (x, y), textcoords="offset points",
                 xytext=(0,10), ha='center', fontsize=9)

# Añadir líneas de referencia en la ojiva
ax2.axhline(len(df['Matematicas'])/2, color='red', linestyle='--',
            label=f'50% de datos ({len(df["Matematicas"])//2} estudiantes)')
ax2.axhline(len(df['Matematicas'])*0.75, color='orange', linestyle='--',
            label=f'75% de datos ({int(len(df["Matematicas"])*0.75)} estudiantes)')
ax2.legend()

plt.tight_layout()
plt.show()

print(f"Total de estudiantes: {len(df['Matematicas'])}")
print("\n=== INTERPRETACIÓN DE FRECUENCIAS ACUMULADAS ===")
for intervalo, frec_cum, frec_rel_cum in zip(intervalos_nombres, frec_acumulada, tabla_freq_matematicas['Frecuencia Relativa Acumulada']):
    porcentaje = frec_rel_cum * 100
    print(f"Hasta el intervalo {intervalo}: {int(frec_cum)} estudiantes ({porcentaje:.1f}%)")

### 5. Diagrama de Barras

Un diagrama de barras se utiliza para variables discretas con características cualitativas. Es una gráfica bidimensional en cuyo eje de las X se encuentran las clases o categorías, y en el eje Y se encuentra la frecuencia relativa. Construya un diagrama de barras en donde:
- En el eje X se represente la Etnia
- En el eje Y se represente el promedio de la nota de Matemáticas

In [None]:
# Diagrama de barras - Etnia vs Promedio de Matemáticas

print("=== DIAGRAMA DE BARRAS: ETNIA VS PROMEDIO MATEMÁTICAS ===")

# Calcular el promedio de matemáticas por etnia
promedio_mat_etnia = df.groupby('Etnia')['Matematicas'].mean().sort_index()

print("Promedio de Matemáticas por Etnia:")
for etnia, promedio in promedio_mat_etnia.items():
    print(f"  {etnia}: {promedio:.2f}")

# Crear el diagrama de barras
plt.figure(figsize=(12, 8))

# Crear las barras con diferentes colores
colores = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7']
barras = plt.bar(promedio_mat_etnia.index, promedio_mat_etnia.values, 
                 color=colores[:len(promedio_mat_etnia)], alpha=0.8, 
                 edgecolor='black', linewidth=1.2)

# Personalizar el gráfico
plt.title('Promedio de Calificaciones en Matemáticas por Etnia', 
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Etnia', fontsize=14, fontweight='bold')
plt.ylabel('Promedio de Matemáticas', fontsize=14, fontweight='bold')
plt.grid(True, axis='y', alpha=0.3)

# Añadir valores sobre las barras
for barra, valor in zip(barras, promedio_mat_etnia.values):
    plt.text(barra.get_x() + barra.get_width()/2., barra.get_height() + 0.5,
             f'{valor:.1f}', ha='center', va='bottom', 
             fontsize=12, fontweight='bold')

# Añadir línea del promedio general
promedio_general = df['Matematicas'].mean()
plt.axhline(promedio_general, color='red', linestyle='--', linewidth=2,
            label=f'Promedio General: {promedio_general:.1f}')

# Configurar límites del eje Y para mejor visualización
y_min = min(promedio_mat_etnia.values) - 5
y_max = max(promedio_mat_etnia.values) + 5
plt.ylim(y_min, y_max)

plt.legend(fontsize=12)
plt.tight_layout()
plt.show()

# Análisis estadístico adicional
print(f"\n=== ANÁLISIS ESTADÍSTICO ===")
print(f"Promedio general de Matemáticas: {promedio_general:.2f}")
print(f"Etnia con mejor rendimiento: {promedio_mat_etnia.idxmax()} ({promedio_mat_etnia.max():.2f})")
print(f"Etnia con menor rendimiento: {promedio_mat_etnia.idxmin()} ({promedio_mat_etnia.min():.2f})")
print(f"Diferencia entre máximo y mínimo: {promedio_mat_etnia.max() - promedio_mat_etnia.min():.2f} puntos")

# Contar estudiantes por etnia para contexto
conteo_etnia = df['Etnia'].value_counts().sort_index()
print(f"\nNúmero de estudiantes por etnia:")
for etnia, cantidad in conteo_etnia.items():
    print(f"  {etnia}: {cantidad} estudiantes")

# Crear un segundo gráfico comparativo con frecuencias
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
fig.suptitle('Análisis Comparativo por Etnia', fontsize=16, fontweight='bold')

# Gráfico 1: Promedio de Matemáticas
ax1.bar(promedio_mat_etnia.index, promedio_mat_etnia.values,
        color=colores[:len(promedio_mat_etnia)], alpha=0.8, edgecolor='black')
ax1.set_title('Promedio de Matemáticas', fontweight='bold')
ax1.set_xlabel('Etnia', fontweight='bold')
ax1.set_ylabel('Promedio', fontweight='bold')
ax1.grid(True, axis='y', alpha=0.3)
ax1.axhline(promedio_general, color='red', linestyle='--', alpha=0.7)

# Añadir valores sobre las barras del primer gráfico
for i, valor in enumerate(promedio_mat_etnia.values):
    ax1.text(i, valor + 0.3, f'{valor:.1f}', ha='center', va='bottom', fontweight='bold')

# Gráfico 2: Número de estudiantes
ax2.bar(conteo_etnia.index, conteo_etnia.values,
        color=colores[:len(conteo_etnia)], alpha=0.8, edgecolor='black')
ax2.set_title('Número de Estudiantes', fontweight='bold')
ax2.set_xlabel('Etnia', fontweight='bold')
ax2.set_ylabel('Cantidad de Estudiantes', fontweight='bold')
ax2.grid(True, axis='y', alpha=0.3)

# Añadir valores sobre las barras del segundo gráfico
for i, valor in enumerate(conteo_etnia.values):
    ax2.text(i, valor + 2, str(valor), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()


### 6. Diagrama de Torta

Este tipo de diagrama se utiliza cuando se quiere tener una noción de la contribución de cada clase a la variable total. Haga un gráfico de torta en donde se represente la frecuencia absoluta de cada intervalo de la tabla de frecuencias de la variable **Matemáticas**.

In [None]:
# Gráfico de torta - Frecuencias de la variable Matemáticas

print("=== DIAGRAMA DE TORTA: FRECUENCIAS DE MATEMÁTICAS ===")

# Obtener datos de la tabla de frecuencias de Matemáticas
intervalos_nombres = tabla_freq_matematicas['Intervalo']
frecuencias = tabla_freq_matematicas['Frecuencia Absoluta']

print("Distribución de estudiantes por intervalos de Matemáticas:")
for intervalo, freq in zip(intervalos_nombres, frecuencias):
    porcentaje = (freq / sum(frecuencias)) * 100
    print(f"  {intervalo}: {freq} estudiantes ({porcentaje:.1f}%)")

# Crear figura con dos subplots para comparación
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))
fig.suptitle('Diagramas de Torta - Variable Matemáticas', fontsize=16, fontweight='bold')

# Primer gráfico: Torta básica con etiquetas completas
colores = plt.cm.Set3(range(len(intervalos_nombres)))
etiquetas_simples = [intervalo.replace('(', '').replace(']', '').replace(', ', '-') 
                     for intervalo in intervalos_nombres]

wedges1, texts1, autotexts1 = ax1.pie(frecuencias, labels=etiquetas_simples, 
                                       colors=colores, autopct='%1.1f%%',
                                       startangle=90, textprops={'fontsize': 9})
ax1.set_title('Distribución por Intervalos\n(Frecuencia Absoluta)', fontweight='bold', pad=20)

# Mejorar la legibilidad de los porcentajes
for autotext in autotexts1:
    autotext.set_color('white')
    autotext.set_fontweight('bold')
    autotext.set_fontsize(10)

# Segundo gráfico: Torta con leyenda externa para mejor legibilidad
wedges2, texts2, autotexts2 = ax2.pie(frecuencias, colors=colores, autopct='%1.1f%%',
                                       startangle=90, textprops={'fontsize': 10})
ax2.set_title('Distribución con Leyenda Externa\n(Frecuencia Absoluta)', fontweight='bold', pad=20)

# Crear leyenda externa con información detallada
leyenda_etiquetas = []
for i, (intervalo, freq) in enumerate(zip(intervalos_nombres, frecuencias)):
    porcentaje = (freq / sum(frecuencias)) * 100
    etiqueta_limpia = intervalo.replace('(', '').replace(']', '')
    leyenda_etiquetas.append(f'{etiqueta_limpia}: {freq} est. ({porcentaje:.1f}%)')

ax2.legend(wedges2, leyenda_etiquetas, title="Intervalos de Matemáticas",
           loc="center left", bbox_to_anchor=(1, 0, 0.5, 1), fontsize=9)

# Mejorar la legibilidad de los porcentajes en el segundo gráfico
for autotext in autotexts2:
    autotext.set_color('white')
    autotext.set_fontweight('bold')
    autotext.set_fontsize(11)

plt.tight_layout()
plt.show()

# Análisis adicional de la distribución
print(f"\n=== ANÁLISIS DE LA DISTRIBUCIÓN ===")
print(f"Total de estudiantes: {sum(frecuencias)}")

# Encontrar el intervalo con mayor y menor frecuencia
max_freq_idx = frecuencias.argmax()
min_freq_idx = frecuencias.argmin()

print(f"Intervalo más frecuente: {intervalos_nombres.iloc[max_freq_idx]} ({frecuencias.iloc[max_freq_idx]} estudiantes)")
print(f"Intervalo menos frecuente: {intervalos_nombres.iloc[min_freq_idx]} ({frecuencias.iloc[min_freq_idx]} estudiantes)")

# Calcular acumulados para análisis de percentiles
print(f"\nAnálisis de concentración:")
freq_acumulada = 0
for i, (intervalo, freq) in enumerate(zip(intervalos_nombres, frecuencias)):
    freq_acumulada += freq
    porcentaje_acum = (freq_acumulada / sum(frecuencias)) * 100
    print(f"  Hasta {intervalo}: {porcentaje_acum:.1f}% de estudiantes")

# Gráfico adicional: Torta 3D para visualización alternativa
fig = plt.figure(figsize=(10, 8))
ax3 = fig.add_subplot(111, projection='3d' if hasattr(plt.axes.Axes3D, '__init__') else None)

# Si no está disponible 3D, crear gráfico 2D alternativo
plt.figure(figsize=(12, 8))
plt.pie(frecuencias, labels=etiquetas_simples, colors=colores, autopct='%1.1f%%',
        startangle=90, explode=[0.05 if i == max_freq_idx else 0 for i in range(len(frecuencias))])
plt.title('Distribución de Matemáticas\n(Intervalo más frecuente resaltado)', 
          fontsize=14, fontweight='bold', pad=20)

# Añadir información estadística como texto
estadisticas_texto = f"""
Estadísticas de la distribución:
• Total de estudiantes: {sum(frecuencias)}
• Número de intervalos: {len(frecuencias)}
• Intervalo modal: {intervalos_nombres.iloc[max_freq_idx]}
• Frecuencia modal: {frecuencias.iloc[max_freq_idx]} estudiantes
"""

plt.figtext(0.02, 0.02, estadisticas_texto, fontsize=10, 
            bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgray", alpha=0.8))

plt.tight_layout()
plt.show()

print(f"\n✓ Diagramas de torta creados mostrando la distribución de {sum(frecuencias)} estudiantes en {len(frecuencias)} intervalos")


### 7. Diagrama de Cajas

Un diagrama de cajas, también conocido como diagrama de caja y bigotes o boxplot en inglés, es una herramienta gráfica utilizada para representar la distribución de un conjunto de datos y resumir diversas medidas estadísticas. El diagrama de cajas muestra la distribución de los datos a través de cinco resúmenes estadísticos principales:

- La mediana, que es la línea central dentro de la caja.
- El primer cuartil (Q1) y el tercer cuartil (Q3), que forman los extremos inferiores y superiores de la caja respectivamente.
- Los bigotes (whiskers), que se extienden desde la caja hacia arriba y hacia abajo, mostrando la dispersión de los datos fuera de los cuartiles.
- Los valores atípicos, que se representan como puntos individuales más allá de los bigotes.

El diagrama de cajas proporciona una visualización rápida y efectiva de la distribución de los datos, incluyendo información sobre la simetría, la dispersión, la presencia de valores atípicos y la ubicación de la mediana. Esto lo hace útil para comparar varias distribuciones de datos o identificar patrones en un conjunto de datos único.

Construya un diagrama de cajas para representar la distribución de valores de las variables:
- Matemáticas
- Lectura
- Escritura


In [None]:
# Diagrama de Cajas Matemáticas

print("=== DIAGRAMA DE CAJAS - MATEMÁTICAS ===")

# Preparar datos
matematicas = df['Matematicas']

# Calcular estadísticas
kurtosis = matematicas.kurtosis()
skewness = matematicas.skew()
Q1 = matematicas.quantile(0.25)
Q2 = matematicas.median()
Q3 = matematicas.quantile(0.75)
IQR = Q3 - Q1
minimo = matematicas.min()
maximo = matematicas.max()

# Interpretación de la asimetría
if abs(skewness) < 0.5:
    interpretacion_asimetria = "aproximadamente simétrica"
elif skewness > 0:
    interpretacion_asimetria = "sesgada hacia la derecha (cola derecha más larga)"
else:
    interpretacion_asimetria = "sesgada hacia la izquierda (cola izquierda más larga)"

print(f"• Curtosis: {kurtosis:.3f}")
print(f"• Asimetría (skewness): {skewness:.3f} - Distribución {interpretacion_asimetria}")

# Calcular límites para valores atípicos (outliers)
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print(f"\n=== INTERPRETACIÓN DE LA DISTRIBUCIÓN ===")

# Identificar valores atípicos
outliers = matematicas[(matematicas < limite_inferior) | (matematicas > limite_superior)]

print(f"Estadísticas del Diagrama de Cajas - Matemáticas:")
print(f"• Mínimo: {minimo:.2f}")
print(f"• Q1 (25%): {Q1:.2f}")
print(f"• Mediana (Q2, 50%): {Q2:.2f}")
print(f"• Q3 (75%): {Q3:.2f}")
print(f"• Máximo: {maximo:.2f}")
print(f"• Rango Intercuartil (IQR): {IQR:.2f}")
print(f"• Número de valores atípicos: {len(outliers)}")

if len(outliers) > 0:
    outliers_altos = outliers[outliers > limite_superior]
    outliers_bajos = outliers[outliers < limite_inferior]
    print(f"Valores atípicos encontrados: {sorted(outliers.values)}")
    print(f"• Outliers altos (> {limite_superior:.2f}): {len(outliers_altos)}")
    print(f"• Outliers bajos (< {limite_inferior:.2f}): {len(outliers_bajos)}")
    print(f"Límite superior para outliers: {limite_superior:.2f}")
    print(f"Límite inferior para outliers: {limite_inferior:.2f}")
    print(f"\n=== ANÁLISIS DE VALORES ATÍPICOS ===")
else:
    print(f"\n✓ No se encontraron valores atípicos en Matemáticas")

# Crear el diagrama de cajas
import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Análisis de Distribución - Matemáticas', fontsize=16, fontweight='bold')

# Boxplot vertical
box1 = ax1.boxplot(matematicas, patch_artist=True, labels=['Matemáticas'],
                   boxprops=dict(facecolor='lightblue', alpha=0.8),
                   medianprops=dict(color='red', linewidth=2),
                   whiskerprops=dict(color='black', linewidth=1.5),
                   capprops=dict(color='black', linewidth=1.5),
                   flierprops=dict(marker='o', markerfacecolor='red', markersize=6, alpha=0.7))
ax1.set_title('Diagrama de Cajas Vertical', fontweight='bold')
ax1.set_ylabel('Calificación en Matemáticas', fontweight='bold')
ax1.grid(True, alpha=0.3)

# Agregar etiquetas de estadísticas
ax1.text(1.1, Q2, f'Mediana: {Q2:.1f}', ha='left', va='center', fontweight='bold',
         bbox=dict(boxstyle="round,pad=0.3", facecolor="yellow", alpha=0.7))
ax1.text(1.1, Q1, f'Q1: {Q1:.1f}', ha='left', va='center',
         bbox=dict(boxstyle="round,pad=0.2", facecolor="lightgray", alpha=0.7))
ax1.text(1.1, Q3, f'Q3: {Q3:.1f}', ha='left', va='center',
         bbox=dict(boxstyle="round,pad=0.2", facecolor="lightgray", alpha=0.7))

# Boxplot horizontal para comparación
box2 = ax2.boxplot(matematicas, vert=False, patch_artist=True, labels=['Matemáticas'],
                   boxprops=dict(facecolor='lightcoral', alpha=0.8),
                   medianprops=dict(color='darkred', linewidth=2),
                   whiskerprops=dict(color='black', linewidth=1.5),
                   capprops=dict(color='black', linewidth=1.5),
                   flierprops=dict(marker='s', markerfacecolor='red', markersize=6, alpha=0.7))
ax2.set_title('Diagrama de Cajas Horizontal', fontweight='bold')
ax2.set_xlabel('Calificación en Matemáticas', fontweight='bold')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Diagrama de Cajas Lectura

print("\n=== DIAGRAMA DE CAJAS - LECTURA ===")

# Preparar datos
lectura = df['Lectura']

# Calcular estadísticas del boxplot
Q1_lec = lectura.quantile(0.25)
Q2_lec = lectura.median()
Q3_lec = lectura.quantile(0.75)
IQR_lec = Q3_lec - Q1_lec
minimo_lec = lectura.min()
maximo_lec = lectura.max()

# Calcular límites para valores atípicos
limite_inferior_lec = Q1_lec - 1.5 * IQR_lec
limite_superior_lec = Q3_lec + 1.5 * IQR_lec

# Identificar valores atípicos
outliers_lec = lectura[(lectura < limite_inferior_lec) | (lectura > limite_superior_lec)]

print(f"Estadísticas del Diagrama de Cajas - Lectura:")
print(f"• Mínimo: {minimo_lec:.2f}")
print(f"• Q1 (25%): {Q1_lec:.2f}")
print(f"• Mediana (Q2, 50%): {Q2_lec:.2f}")
print(f"• Q3 (75%): {Q3_lec:.2f}")
print(f"• Máximo: {maximo_lec:.2f}")
print(f"• Rango Intercuartil (IQR): {IQR_lec:.2f}")
print(f"• Número de valores atípicos: {len(outliers_lec)}")

# Crear el diagrama de cajas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Análisis de Distribución - Lectura', fontsize=16, fontweight='bold')

# Boxplot vertical
box1 = ax1.boxplot(lectura, patch_artist=True, labels=['Lectura'],
                   boxprops=dict(facecolor='lightgreen', alpha=0.8),
                   medianprops=dict(color='darkgreen', linewidth=2),
                   whiskerprops=dict(color='black', linewidth=1.5),
                   capprops=dict(color='black', linewidth=1.5),
                   flierprops=dict(marker='D', markerfacecolor='green', markersize=6, alpha=0.7))

ax1.set_title('Diagrama de Cajas Vertical', fontweight='bold')
ax1.set_ylabel('Calificación en Lectura', fontweight='bold')
ax1.grid(True, alpha=0.3)

# Agregar etiquetas de estadísticas
ax1.text(1.1, Q2_lec, f'Mediana: {Q2_lec:.1f}', ha='left', va='center', fontweight='bold',
         bbox=dict(boxstyle="round,pad=0.3", facecolor="lightgreen", alpha=0.8))
ax1.text(1.1, Q1_lec, f'Q1: {Q1_lec:.1f}', ha='left', va='center',
         bbox=dict(boxstyle="round,pad=0.2", facecolor="lightgray", alpha=0.7))
ax1.text(1.1, Q3_lec, f'Q3: {Q3_lec:.1f}', ha='left', va='center',
         bbox=dict(boxstyle="round,pad=0.2", facecolor="lightgray", alpha=0.7))

# Boxplot horizontal
box2 = ax2.boxplot(lectura, vert=False, patch_artist=True, labels=['Lectura'],
                   boxprops=dict(facecolor='palegreen', alpha=0.8),
                   medianprops=dict(color='darkgreen', linewidth=2),
                   whiskerprops=dict(color='black', linewidth=1.5),
                   capprops=dict(color='black', linewidth=1.5),
                   flierprops=dict(marker='^', markerfacecolor='green', markersize=6, alpha=0.7))

ax2.set_title('Diagrama de Cajas Horizontal', fontweight='bold')
ax2.set_xlabel('Calificación en Lectura', fontweight='bold')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Análisis detallado de valores atípicos
if len(outliers_lec) > 0:
    print(f"\n=== ANÁLISIS DE VALORES ATÍPICOS - LECTURA ===")
    print(f"Límite inferior para outliers: {limite_inferior_lec:.2f}")
    print(f"Límite superior para outliers: {limite_superior_lec:.2f}")
    print(f"Valores atípicos encontrados: {sorted(outliers_lec.values)}")
    
    # Clasificar outliers
    outliers_bajos_lec = outliers_lec[outliers_lec < limite_inferior_lec]
    outliers_altos_lec = outliers_lec[outliers_lec > limite_superior_lec]
    
    print(f"• Outliers bajos (< {limite_inferior_lec:.2f}): {len(outliers_bajos_lec)}")
    print(f"• Outliers altos (> {limite_superior_lec:.2f}): {len(outliers_altos_lec)}")
else:
    print(f"\n✓ No se encontraron valores atípicos en Lectura")

# Interpretación de la distribución
print(f"\n=== INTERPRETACIÓN DE LA DISTRIBUCIÓN - LECTURA ===")
skewness_lec = lectura.skew()
kurtosis_lec = lectura.kurtosis()

if abs(skewness_lec) < 0.5:
    interpretacion_asimetria_lec = "aproximadamente simétrica"
elif skewness_lec > 0:
    interpretacion_asimetria_lec = "sesgada hacia la derecha (cola derecha más larga)"
else:
    interpretacion_asimetria_lec = "sesgada hacia la izquierda (cola izquierda más larga)"

print(f"• Asimetría (skewness): {skewness_lec:.3f} - Distribución {interpretacion_asimetria_lec}")
print(f"• Curtosis: {kurtosis_lec:.3f}")
print(f"• El 50% central de los datos está entre {Q1_lec:.1f} y {Q3_lec:.1f} puntos")
print(f"• El rango intercuartil es de {IQR_lec:.1f} puntos")

In [None]:
# Diagrama de caja de Escritura

### 8. Medidas de Tendencia Central

Calcule las medidas de tendencia central para las variables cuantitativas:
- Matemáticas
- Lectura
- Escritura


In [None]:
# medidas de tendencia central



### 9. Medidas de Dispersión

Calcule las medidas de dispersión para las variables cuantitativas:
- Matemáticas
- Lectura
- Escritura

In [11]:
# medidas de dispersión



### 10. Análisis y Conclusiones

A partir de los resultados obtenidos anteriormente para las variables cuantitativas Matemáticas, Lectura y Escritura, haga un análisis descriptivo para explicar cuál ha sido el desempeño que se aprecia en los datos.

In [None]:
# su análisis acá






---