In [None]:
import pandas as pd
from datetime import datetime


df = pd.read_csv("../retiros.csv", parse_dates=["fecha", "estudiante_fecha_ingreso", "fecha_inicio", "fecha_fin"])

# 1. Edad académica promedio (en años) al momento del retiro
df["edad_academica"] = (df["fecha"] - df["estudiante_fecha_ingreso"]).dt.days / 365
kpi1 = df["edad_academica"].mean()

# 2. Mes con mayor cantidad de retiros
kpi2 = df["mes"].value_counts().idxmax()

# 3. Porcentaje de retiros definitivos vs temporales
kpi3 = df["tipo_retiro"].value_counts(normalize=True) * 100

# 5. Distribución de retiros por semestre
kpi5 = df["semestre"].value_counts()

# 6. Carrera con mayor porcentaje de retiros femeninos
fem_por_carrera = df[df["genero"] == "Femenino"]["carrera"].value_counts(normalize=True) * 100
kpi6 = fem_por_carrera.idxmax()

# 7. Relación tipo de retiro vs. motivo
kpi7 = pd.crosstab(df["tipo_retiro"], df["razon_retiro"])


In [None]:
print(f"1. Edad académica promedio al retiro: {kpi1:.2f} años")
print(f"2. Mes con más retiros: {kpi2}")
print("3. % Retiros por tipo:")
print(kpi3)
print("5. Retiros por semestre:")
print(kpi5)
print(f"6. Carrera con mayor % de retiros femeninos: {kpi6}")
print("7. Matriz tipo de retiro vs. motivo:")
print(kpi7)


1. Edad académica promedio al retiro: 2.42 años
2. Mes con más retiros: 4
3. % Retiros por tipo:
tipo_retiro
Temporal      50.45045
Definitivo    49.54955
Name: proportion, dtype: float64
4. Promedio de UVs perdidas: 4.12
5. Retiros por semestre:
semestre
1    712
2    620
Name: count, dtype: int64
6. Carrera con mayor % de retiros femeninos: Matemática
7. Matriz tipo de retiro vs. motivo:
razon_retiro  Cambio de carrera  Problemas económicos  Problemas personales  \
tipo_retiro                                                                   
Definitivo                  197                     0                   325   
Temporal                    133                   340                     0   

razon_retiro  Salud  
tipo_retiro          
Definitivo      138  
Temporal        199  


In [None]:
# kpi 4

# Top 5 materias más retiradas
top_5_mas_retiradas = df["materia_nombre"].value_counts().head(5)

# Top 6 materias menos retiradas
top_5_menos_retiradas = df["materia_nombre"].value_counts().sort_values().head(6)

print("📈 Top 5 Materias Más Retiradas:")
print(top_5_mas_retiradas)

print("\n📉 Top 6 Materias Menos Retiradas:")
print(top_5_menos_retiradas)


📈 Top 5 Materias Más Retiradas:
materia_nombre
Genética          436
Sociología        217
Álgebra Lineal    123
Cálculo I         120
Cálculo II        114
Name: count, dtype: int64

📉 Top 6 Materias Menos Retiradas:
materia_nombre
Física General          29
Electromagnetismo       30
Física Moderna          31
Programación Web        75
Bases de Datos          77
Estructuras de Datos    80
Name: count, dtype: int64
