# Medidas de Tendencia Central y Percentiles

## Objetivo:

Aplicar las medidas de tendencia central (media, mediana y moda) y medidas de posición no central (percentiles) en el análisis de datos, utilizando Python como herramienta de apoyo.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Imagina que trabajas como analista de datos en una consultora de orientación vocacional que asesora a estudiantes de enseñanza media sobre qué carrera elegir. Recibes una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025. Tu misión es analizar los ingresos y empleabilidad de los titulados, y entregar conclusiones claras que ayuden a tomar decisiones.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Identifica la población y muestra del estudio.

2. Clasifica las variables presentes en la base de datos.

3. ¿Cuál es el ingreso promedio de los titulados? ¿Y la mediana? ¿Qué puedes concluir de la diferencia entre ambos?

4. ¿Cuál es la moda de los ingresos? Interprétala.

5. Calcula los percentiles 25, 50 y 75 del ingreso de los titulados e interprétalos.

6. Utiliza la función *describe()* de Pandas para validar tus resultados.

7. Considera que tres personas desean estudiar Técnico en enfermería, pero cada una valora cosas distintas:
* Sofía busca maximizar su ingreso futuro.
* Diego prioriza encontrar trabajo rápidamente.
* Camila quiere un equilibrio entre ambas.

$\hspace{1cm}$Considerando la media como medida representativa, ¿qué tipo de institución recomendarías a cada uno y por qué?

## Actividad 2

Un grupo de estudiantes está evaluando si el nivel de acreditación de una institución podría impactar sus resultados laborales. Para responder esta pregunta, realiza el siguiente análisis:

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Agrupa los datos por años de acreditación y calcula la media y la mediana del ingreso al 4to año de cada grupo.

2. ¿Existe una relación aparente entre la cantidad de años de acreditación y el ingreso promedio? ¿Qué patrón observas?

3. ¿Se observa una tendencia similar al analizar la empleabilidad al primer año?

4. Comparando las variables ingreso y empleabilidad, analiza cómo varían la media y la mediana en cada caso. ¿Qué conclusiones generales puedes extraer sobre la representatividad de estas medidas?

5. Teniendo en cuenta tu análisis sobre cómo varían los ingresos y la empleabilidad con los años de acreditación, ¿qué consejo le darías a un estudiante que va a elegir una institución basándose únicamente en el nivel de acreditación? Justifica tu recomendación.

## Actividad 3

Imagina que trabajas como analista del Ministerio de Educación. Te han solicitado caracterizar los resultados laborales de los titulados por área de formación utilizando una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. ¿Cuál Área se observa con mayor frecuencia entre los titulados?

In [3]:
import pandas as pd
df_3=pd.read_excel("/content/Actividad_1_2_3.xlsx")
df_3.head(2)
#Calcular la Moda:
calculo_Moda=df_3['Área'].mode()
calculo_Moda[0]

Unnamed: 0,Código,Tipo de institución,Acreditación institución (años),Área,Nombre carrera genérica,Duración Real (semestres),Empleabilidad 1er año (%),Ingreso al 4° año (pesos)
0,456,Centros de Formación Técnica,5,Tecnología,Técnico en Electricidad y Electricidad Industrial,6.537975,76.616915,1150000
1,456,Centros de Formación Técnica,5,Salud,Técnico en Enfermería,6.280899,62.5,750000


El área que se observa con mayor frecuencia entre los titulados es tecnologia

2. ¿Entre qué sueldos se encuentran los egresados del 10% más alto al 4to año de titulación?

In [9]:
#Valor minimo del 10% MAS ALTO
p_90=df_3['Ingreso al 4° año (pesos)'].quantile(0.9)

#Valor maximo del 10% MAS ALTO
maximo=df_3['Ingreso al 4° año (pesos)'].max()

print(f"Percentil 90 {p_90}\n Maximo: {maximo}")

Percentil 90 1950000.0
 Maximo: 3000000


Entre los sueldos $1.950.000 y $3.000.000 al 4to año de titulación

3. ¿Entre qué sueldos se encuentran los egresados del 17% más bajo al 4to año de titulación?

In [12]:
#Calcular ingresos del percentil 17
p_17=df_3['Ingreso al 4° año (pesos)'].quantile(0.17)
minimo=df_3['Ingreso al 4° año (pesos)'].min()

print(f"Percentil 17 {p_17}\n Minimo: {minimo}")

Percentil 17 950000.0
 Minimo: 550000


Entre los sueldos 950.000 y 550.000

4. Agrupa los datos por Área y para cada grupo calcula las siguientes medidas del Ingreso al 4° año:
* Media
* Mediana
* Percentil 25
* Percentil 75

$\hspace{1cm}$Luego, construye un DataFrame que reúna estas cuatro columnas.

In [21]:
#Agrupaciones por area
datos_area=df_3.groupby("Área")["Ingreso al 4° año (pesos)"]

#calculamos las medias solicitadas
media_area=datos_area.mean()
mediana_area=datos_area.median()
p_25_area=datos_area.quantile(0.25)
p_75_area=datos_area.quantile(0.75)

#DataFRame:
tabla_3=pd.DataFrame({
    "Media":media_area,
    "Mediana":mediana_area,
    "Percentil 25":p_25_area,
    "Percentil 75":p_75_area
})

tabla_3_red=round(tabla_3, 0)
display(tabla_3_red)

Unnamed: 0_level_0,Media,Mediana,Percentil 25,Percentil 75
Área,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Administración y Comercio,1221930.0,1150000.0,950000.0,1450000.0
Agropecuaria,1176471.0,1250000.0,975000.0,1325000.0
Arte y Arquitectura,1079825.0,1050000.0,850000.0,1350000.0
Ciencias Básicas,1575000.0,1400000.0,1125000.0,2025000.0
Ciencias Sociales,1155042.0,1150000.0,1050000.0,1250000.0
Derecho,1561111.0,1550000.0,1400000.0,1800000.0
Educación,963990.0,950000.0,950000.0,1050000.0
Humanidades,870000.0,850000.0,850000.0,850000.0
Salud,1454510.0,1350000.0,950000.0,1750000.0
Tecnología,1552448.0,1450000.0,1050000.0,1925000.0


5. Interpreta las medidas calculadas para el área de Agropecuaria y Tecnología.

6. Considerando las medidas calculadas, para el análisis del Área de Salud, ¿qué medida considerarías más representativa? Comenta con tus compañeros.

7. Compara la media del ingreso al 4to año de titulación, por Área y por Tipo de institución. ¿Qué conclusiones puedes extraer acerca del impacto del tipo de institución en el ingreso según área?

*Sugerencia: Puedes crear una tabla bivariada utilizando la función crosstab() de Pandas*.

In [22]:
tabla_4=pd.crosstab(
    df_3["Área"], df_3['Tipo de institución'],df_3['Ingreso al 4° año (pesos)'],aggfunc="mean",margins=True,margins_name="Total"
)
round(tabla_4,0)

Tipo de institución,Centros de Formación Técnica,Insitutos Profesionales,Universidades,Total
Área,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Administración y Comercio,895455.0,1038525.0,1430682.0,1221930.0
Agropecuaria,870000.0,907143.0,1331818.0,1176471.0
Arte y Arquitectura,750000.0,854167.0,1259375.0,1079825.0
Ciencias Básicas,1050000.0,1150000.0,1795455.0,1575000.0
Ciencias Sociales,683333.0,1035714.0,1185294.0,1155042.0
Derecho,850000.0,850000.0,1618000.0,1561111.0
Educación,608333.0,673810.0,1028750.0,963990.0
Humanidades,,900000.0,850000.0,870000.0
Salud,728261.0,780435.0,1608612.0,1454510.0
Tecnología,1084375.0,1110241.0,1854678.0,1552448.0


## Actividad 4

La siguiente base de datos posee los registros de todas las calificaciones obtenidas por los alumnos del segundo semestre del 2019, jornada diurna en la asignatura de Álgebra.

Para responder las siguientes preguntas, descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1cD6GAWUzR2G8eHEEnfPHIuzKIZtHcSf7
">aquí</a>**.

1. ¿Cuál es la población en estudio?

2. ¿Cuál es la muestra en estudio?

3.  Identifique y clasifique las variables involucradas en el estudio.

4. Calcule e interprete las medidas de tendencia central de las notas del examen.

5. ¿Entre qué valores se encuentra el 60% de las notas más bajas en la prueba 1?

6.  La institución de educación creará cursos de reforzamiento para todos los estudiantes cuyas calificaciones en la Prueba 2, estén en el 25% más bajo. ¿Cuál es la nota más alta dentro de este grupo que va a reforzamiento?

7. ¿Cuál es la nota más baja entre el 30% de mejores notas del examen?

8. Si se desea reevaluar al 10% más bajo en el examen, ¿cuál es rango de notas que se debe considerar?

9. Si la institución va a premiar al 5% de las mejores notas finales, ¿cuál es la nota más baja registrada por ese grupo?