# Medidas de Tendencia Central y Percentiles

## Objetivo:

Aplicar las medidas de tendencia central (media, mediana y moda) y medidas de posición no central (percentiles) en el análisis de datos, utilizando Python como herramienta de apoyo.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Imagina que trabajas como analista de datos en una consultora de orientación vocacional que asesora a estudiantes de enseñanza media sobre qué carrera elegir. Recibes una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025. Tu misión es analizar los ingresos y empleabilidad de los titulados, y entregar conclusiones claras que ayuden a tomar decisiones.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Identifica la población y muestra del estudio.

In [1]:
import pandas as pd
C = pd.read_excel('Actividad_1_2_3.xlsx')

2. Clasifica las variables presentes en la base de datos.

In [None]:
# Codigo: Es una variable cualitativa nominal ( Aunque sean numeros, actuan como etiquetas )
# (Y no sigue ninguna jerarquia, por lo tanto es nominal, importante recordar eso con identificadores)
# Tipo de institucion: Es una variable cualitativa nominal
# Acreditacion institucion: Es una variable cuantitativa discreta
# Area: Es una variable cualitativa nominal
# Nombre de carrera generica: Es una variable cualitativa nominal
# Duracion real (semestre): Es una variable cuantitativa continua
# Empleabilidad 1er año(&): Es una variable cuantitativa continua
# Ingreso al 4to año (pesos): Es una variable cuantitativa continua

3. ¿Cuál es el ingreso promedio de los titulados? ¿Y la mediana? ¿Qué puedes concluir de la diferencia entre ambos?

In [61]:
promedio = C['Ingreso al 4° año (pesos)'].mean() # Mean: Media = Promedio
mediana=C['Ingreso al 4° año (pesos)'].median() # Median: Mediana

print(f"El promedio aprox de los ingresos al 4to año es de  ${round(promedio)}")
print(f"El 50% de los ingresos al 4to año son menores o iguales a ${mediana}")

El promedio aprox de los ingresos al 4to año es de  $1307481
El 50% de los ingresos al 4to año son menores o iguales a $1150000.0


4. ¿Cuál es la moda de los ingresos? Interprétala.

In [9]:
moda = C['Ingreso al 4° año (pesos)'].mode() # Mode: Moda
print(f"La moda de los ingresos al 4to año es de ${moda[0]}")

La moda de los ingresos al 4to año es de $1050000


5. Calcula los percentiles 25, 50 y 75 del ingreso de los titulados e interprétalos.

In [16]:
percentil_25 = C['Ingreso al 4° año (pesos)'].quantile(0.25)
percentil_50 = C['Ingreso al 4° año (pesos)'].quantile(0.5)
percentil_75 = C['Ingreso al 4° año (pesos)'].quantile(0.75)

print(f"El 25% indica el sueldo maximo de los titulados con menores ingresos: ${percentil_25:.0f}")
print(f"El 50% indica el sueldo maximo de los titulados con ingresos promedio: ${percentil_50:.0f}")
print(f"El 75% indica el sueldo maximo de los titulados con ingresos altos: ${percentil_75:.0f}")


El 25% indica el sueldo maximo de los titulados con menores ingresos: $950000
El 50% indica el sueldo maximo de los titulados con ingresos promedio: $1150000
El 75% indica el sueldo maximo de los titulados con ingresos altos: $1550000


In [None]:
# Esto no tiene nada que ver, pero lo queria guardar como recordatorio, para agrupar datos
# Promedios_tipo = df_SUELDOS.groupby('Tipo de contrato')['Sueldo mensual\n empresa (m$)'].mean()
# P_tipos=round(Promedios_tipo,3)
# P_tipos

# Para identificar rapidamente y correctamente los nombres de las columnas: print(df_1.columns)

6. Utiliza la función *describe()* de Pandas para validar tus resultados.

In [12]:
round(C['Ingreso al 4° año (pesos)'].describe())

count       1163.0
mean     1307481.0
std       506349.0
min       550000.0
25%       950000.0
50%      1150000.0
75%      1550000.0
max      3000000.0
Name: Ingreso al 4° año (pesos), dtype: float64

7. Considera que tres personas desean estudiar Técnico en enfermería, pero cada una valora cosas distintas:
* Sofía busca maximizar su ingreso futuro.
* Diego prioriza encontrar trabajo rápidamente.
* Camila quiere un equilibrio entre ambas.

$\hspace{1cm}$Considerando la media como medida representativa, ¿qué tipo de institución recomendarías a cada uno y por qué?

In [58]:
import pandas as pd
# Crear una tabla restringida donde solo este la carrera de Técnico en Enfermería
tabla_enfermeria = C[C['Nombre carrera genérica']=='Técnico en Enfermería']

# Agrupar datos por instucion, en la tabla restringida de enfermeria
# Esto porque la pregunta dice ¿Que institucion recomendarias a cada uno?
# .agg() sirve para realizar distintos tipos de calculo de forma flexible
tabla = tabla_enfermeria.groupby('Tipo de institución').agg(Ingreso_promedio=('Ingreso al 4° año (pesos)','mean'), Empleabilidad_promedio=('Empleabilidad 1er año (%)','mean'))
# Redondeo
tabla['Ingreso_promedio'] = tabla['Ingreso_promedio'].round(0)
tabla['Empleabilidad_promedio'] = tabla['Empleabilidad_promedio'].round(2)
# Mostrar
print(f"Segun la tabla lo mas conveniente para Sofia es ir a la universidad")
print(f"Segun la tabla lo mas conveniente para Diego es ir a institutos profesionales")
print(f"Segun la tabla lo mas conveniente para Camila es ir a institutos profesionales o la universidad")
print("porue ambos tienen moda en empleabilidad y ingreso promedio, ademas de tener una diferencia muy pequeña")
print("sin duda lo menos recomendable es ir a los dentros de formacion tecnica")
tabla

Segun la tabla lo mas conveniente para Sofia es ir a la universidad
Segun la tabla lo mas conveniente para Diego es ir a institutos profesionales
Segun la tabla lo mas conveniente para Camila es ir a institutos profesionales o la universidad
porue ambos tienen moda en empleabilidad y ingreso promedio, ademas de tener una diferencia muy pequeña
sin duda lo menos recomendable es ir a los dentros de formacion tecnica


Unnamed: 0_level_0,Ingreso_promedio,Empleabilidad_promedio
Tipo de institución,Unnamed: 1_level_1,Unnamed: 2_level_1
Centros de Formación Técnica,740909.0,63.98
Insitutos Profesionales,750000.0,66.85
Universidades,790000.0,65.05


## Actividad 2

Un grupo de estudiantes está evaluando si el nivel de acreditación de una institución podría impactar sus resultados laborales. Para responder esta pregunta, realiza el siguiente análisis:

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Agrupa los datos por años de acreditación y calcula la media y la mediana del ingreso al 4to año de cada grupo.

In [66]:
import pandas as pd
C = pd.read_excel('Actividad_1_2_3.xlsx')

tabla_media = C.groupby('Acreditación institución (años)')['Ingreso al 4° año (pesos)'].mean()
round(tabla_media)

Acreditación institución (años)
0    1024667.0
3    1313043.0
4    1153020.0
5    1192730.0
6    1541260.0
7    1421043.0
Name: Ingreso al 4° año (pesos), dtype: float64

In [67]:
tabla_mediana = C.groupby('Acreditación institución (años)')['Ingreso al 4° año (pesos)'].median()
round(tabla_mediana)

Acreditación institución (años)
0     950000.0
3    1150000.0
4    1050000.0
5    1050000.0
6    1450000.0
7    1250000.0
Name: Ingreso al 4° año (pesos), dtype: float64

2. ¿Existe una relación aparente entre la cantidad de años de acreditación y el ingreso promedio? ¿Qué patrón observas?

In [None]:
print("Se observa que por mas años de acreditacion mayor es el ingreso, aunque se ve que el ingreso mayor es la acreditacion de 6 años")

3. ¿Se observa una tendencia similar al analizar la empleabilidad al primer año?

In [None]:
tabla_media = C.groupby('Acreditación institución (años)')['Empleabilidad 1er año (%)'].mean()
round(tabla_media)

Acreditación institución (años)
0    64.0
3    69.0
4    63.0
5    64.0
6    71.0
7    72.0
Name: Empleabilidad 1er año (%), dtype: float64

In [None]:
tabla_mediana = C.groupby('Acreditación institución (años)')['Empleabilidad 1er año (%)'].median()
print("Se observa una tendencia similar")
tabla_mediana

Acreditación institución (años)
0    69.402985
3    69.047619
4    65.000000
5    65.599385
6    73.988343
7    74.251565
Name: Empleabilidad 1er año (%), dtype: float64

4. Comparando las variables ingreso y empleabilidad, analiza cómo varían la media y la mediana en cada caso. ¿Qué conclusiones generales puedes extraer sobre la representatividad de estas medidas?

In [91]:
tabla_ingreso_media = C['Ingreso al 4° año (pesos)'].mean()
tabla_ingreso_mediana = C['Ingreso al 4° año (pesos)'].median()

print(f"El promedio del Ingreso al 4° año (pesos) es: {round(tabla_ingreso_media)}")
print(f"La mediana del Ingreso al 4° año (pesos) es: {round(tabla_ingreso_mediana)}")

tabla_empleabilidad_media = C['Empleabilidad 1er año (%)'].mean()
tabla_empleabilidad_mediana = C['Empleabilidad 1er año (%)'].median()


print(f"El promedio de la Empleabilidad 1er año (%) es: {round(tabla_empleabilidad_media)}")
print(f"La mediana de la Empleabilidad 1er año (%) es: {round(tabla_empleabilidad_mediana)}")

print("Mi conclusion general es que hay un grupo reducido de personas con salarios excepcionalmente altos que están sumando al promedio.")


El promedio del Ingreso al 4° año (pesos) es: 1307481
La mediana del Ingreso al 4° año (pesos) es: 1150000
El promedio de la Empleabilidad 1er año (%) es: 67
La mediana de la Empleabilidad 1er año (%) es: 69
Mi conclusion general es que hay un grupo reducido de personas con salarios excepcionalmente altos que están sumando al promedio.


5. Teniendo en cuenta tu análisis sobre cómo varían los ingresos y la empleabilidad con los años de acreditación, ¿qué consejo le darías a un estudiante que va a elegir una institución basándose únicamente en el nivel de acreditación? Justifica tu recomendación.

In [None]:
print("Le aconsejaria de escoger entre una institucion con 7 o 6 años de acreditacion, sobretodo una de 6 años")

## Actividad 3

Imagina que trabajas como analista del Ministerio de Educación. Te han solicitado caracterizar los resultados laborales de los titulados por área de formación utilizando una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. ¿Cuál Área se observa con mayor frecuencia entre los titulados?

In [94]:
import pandas as pd
C = pd.read_excel('Actividad_1_2_3.xlsx')

area_mas_frecuente = C['Área'].mode()[0]
print(f"El area mas frecuente entre los titulados es el area de {area_mas_frecuente}")

El area mas frecuente entre los titulados es el area de Tecnología


2. ¿Entre qué sueldos se encuentran los egresados del 10% más alto al 4to año de titulación?

In [None]:
percentil_90 = C['Ingreso al 4° año (pesos)'].quantile(0.9)
sueldo_max = C['Ingreso al 4° año (pesos)'].max()

print(f"Los sueldos de los egresados del 10% mas alto del 4to año de titulacion deben estar entre ${percentil_90} - ${sueldo_max}")

Los sueldos de los egresados del 10% mas alto del 4to año de titulacion deben entre $1950000.0 - $3000000


3. ¿Entre qué sueldos se encuentran los egresados del 17% más bajo al 4to año de titulación?

In [99]:
percentil_17 = C['Ingreso al 4° año (pesos)'].quantile(0.17)
sueldo_min = C['Ingreso al 4° año (pesos)'].min()


print(f"Los sueldos de los egresados del 10% mas alto del 4to año de titulacion deben estar entre ${sueldo_min} - ${percentil_17}")

Los sueldos de los egresados del 10% mas alto del 4to año de titulacion deben estar entre $550000 - $950000.0


4. Agrupa los datos por Área y para cada grupo calcula las siguientes medidas del Ingreso al 4° año:
* Media
* Mediana
* Percentil 25
* Percentil 75

$\hspace{1cm}$Luego, construye un DataFrame que reúna estas cuatro columnas.

In [None]:
# Calcular valores para el DataFrame
media = round(C.groupby('Área')['Ingreso al 4° año (pesos)'].mean())
mediana = C.groupby('Área')['Ingreso al 4° año (pesos)'].median()
percentil_25 = C.groupby('Área')['Ingreso al 4° año (pesos)'].quantile(0.25)
percentil_75 = C.groupby('Área')['Ingreso al 4° año (pesos)'].quantile(0.75)

# Construir Dataframe
tabla = pd.DataFrame({
    "Media": media,
    "Mediana": mediana,
    "Percentil 25": percentil_25,
    "percentil_75": percentil_75
})
tabla

Unnamed: 0_level_0,Media,Mediana,Percentil 25,percentil_75
Área,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Administración y Comercio,1221930.0,1150000.0,950000.0,1450000.0
Agropecuaria,1176471.0,1250000.0,975000.0,1325000.0
Arte y Arquitectura,1079825.0,1050000.0,850000.0,1350000.0
Ciencias Básicas,1575000.0,1400000.0,1125000.0,2025000.0
Ciencias Sociales,1155042.0,1150000.0,1050000.0,1250000.0
Derecho,1561111.0,1550000.0,1400000.0,1800000.0
Educación,963990.0,950000.0,950000.0,1050000.0
Humanidades,870000.0,850000.0,850000.0,850000.0
Salud,1454510.0,1350000.0,950000.0,1750000.0
Tecnología,1552448.0,1450000.0,1050000.0,1925000.0


5. Interpreta las medidas calculadas para el área de Agropecuaria y Tecnología.

In [None]:
print(f"Segun las medidas de Agropecuaria y Tecnologia, se puede hacer una comparacion, el ingreso es claramente mayor en Tecnologia")
# Son muchos datos para interpretar uno por uno con codigo usando .iloc[x] :v

6. Considerando las medidas calculadas, para el análisis del Área de Salud, ¿qué medida considerarías más representativa? Comenta con tus compañeros.

In [None]:
# Consideraria la mediana ya que esta no se ve afectada por los sueldos demasiado altos o demasiado bajos, y da una representacion mas exacta
# o real sobre lo que uno puede obtener como sueldo

7. Compara la media del ingreso al 4to año de titulación, por Área y por Tipo de institución. ¿Qué conclusiones puedes extraer acerca del impacto del tipo de institución en el ingreso según área?

*Sugerencia: Puedes crear una tabla bivariada utilizando la función crosstab() de Pandas*.

In [None]:
tabla = pd.crosstab(C['Área'],C['Tipo de institución'],C['Ingreso al 4° año (pesos)'],aggfunc='mean')
tabla = round(tabla)
print("Que sin importar donde estudies, siempre las areas mejor pagadas seran Ciencias basicas y Tecnologia")
print("Aunque tambien el resto de Areas son bien pagadas si el tipo de institucion es la Universidad")
tabla

Tipo de institución,Centros de Formación Técnica,Insitutos Profesionales,Universidades
Área,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Administración y Comercio,895455.0,1038525.0,1430682.0
Agropecuaria,870000.0,907143.0,1331818.0
Arte y Arquitectura,750000.0,854167.0,1259375.0
Ciencias Básicas,1050000.0,1150000.0,1795455.0
Ciencias Sociales,683333.0,1035714.0,1185294.0
Derecho,850000.0,850000.0,1618000.0
Educación,608333.0,673810.0,1028750.0
Humanidades,,900000.0,850000.0
Salud,728261.0,780435.0,1608612.0
Tecnología,1084375.0,1110241.0,1854678.0


## Actividad 4

La siguiente base de datos posee los registros de todas las calificaciones obtenidas por los alumnos del segundo semestre del 2019, jornada diurna en la asignatura de Álgebra.

Para responder las siguientes preguntas, descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1cD6GAWUzR2G8eHEEnfPHIuzKIZtHcSf7
">aquí</a>**.

1. ¿Cuál es la población en estudio?

In [None]:
# La poblacion del estudio son las calificaciones de los alumnos del segundo semestre del 2019

2. ¿Cuál es la muestra en estudio?

In [2]:
import pandas as pd
df = pd.read_csv('Actividad_4.csv')
tamaño = df.shape[0]
print(f"La muestra del estudio son las {tamaño} calificaciones de los alumnos del segundo semestre del 2019")

La muestra del estudio son las 516 calificaciones de los alumnos del segundo semestre del 2019


3.  Identifique y clasifique las variables involucradas en el estudio.

In [None]:
# ID alumno: es una variable cualitativa nominal (Porque es una etiqueta/identificador)
# EL resto: son variables cuantitivas continuas

4. Calcule e interprete las medidas de tendencia central de las notas del examen.

In [131]:
# media, mediana y moda
media = round(df['Nota Examen'].mean(),1)
mediana = df['Nota Examen'].median()
moda = df['Nota Examen'].mode()[0]
print(f"La media de las notas del examen es: {media}")
print(f"La mediana de las notas del examen es: {mediana}")
print(f"La moda de las notas del examen es: {moda}")

La media de las notas del examen es: 5.1
La mediana de las notas del examen es: 5.2
La moda de las notas del examen es: 5.3


5. ¿Entre qué valores se encuentra el 60% de las notas más bajas en la prueba 1?

In [None]:
percentil_60 = df['Prueba 1'].quantile(0.6)
prueba_min = min(df['Prueba 1'])
print(f"Los valores del 60% de las notas mas bajas se encuentran entre: {prueba_min} - {percentil_60}")

Los valores del 60% de las notas mas bajas se encuentran entre 1.6 - 5.7


6.  La institución de educación creará cursos de reforzamiento para todos los estudiantes cuyas calificaciones en la Prueba 2, estén en el 25% más bajo. ¿Cuál es la nota más alta dentro de este grupo que va a reforzamiento?

In [None]:
percentil_25 = df['Prueba 2'].quantile(0.25)
print(f"La nota mas alta dentro del grupo de reforzamiento es: {percentil_25}")

La nota mas alta dentro del grupo de reforzamiento es 4.4


7. ¿Cuál es la nota más baja entre el 30% de mejores notas del examen?

In [7]:
percentil_70 = df['Nota Examen'].quantile(0.7)
print(f"La nota mas baja entre el 30% de las mejores notas del examen es: {percentil_70}")

La nota mas baja entre el 30% de las mejores notas del examen es: 5.7


8. Si se desea reevaluar al 10% más bajo en el examen, ¿cuál es rango de notas que se debe considerar?

In [None]:
percentil_10 = df['Nota Examen'].quantile(0.1)
examen_max = df['Nota Examen'].max()

print(f"Debe considerar el rango entre: {percentil_10} - {examen_max} de notas")

Debe considerar el rango entre: 3.5 - 7.0 de notas


9. Si la institución va a premiar al 5% de las mejores notas finales, ¿cuál es la nota más baja registrada por ese grupo?

In [9]:
percentil_95 = df['Nota Examen'].quantile(0.95)
print(f"La nota mas baja registrada del grupo del 5% con mejores notas finales es: {percentil_95}")

La nota mas baja registrada del grupo del 5% con mejores notas finales es: 6.6
