# Medidas de Tendencia Central y Percentiles

## Objetivo:

Aplicar las medidas de tendencia central (media, mediana y moda) y medidas de posición no central (percentiles) en el análisis de datos, utilizando Python como herramienta de apoyo.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Imagina que trabajas como analista de datos en una consultora de orientación vocacional que asesora a estudiantes de enseñanza media sobre qué carrera elegir. Recibes una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025. Tu misión es analizar los ingresos y empleabilidad de los titulados, y entregar conclusiones claras que ayuden a tomar decisiones.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Identifica la población y muestra del estudio.

In [None]:
import pandas as pd
C = pd.read_excel('Actividad_1_2_3.xlsx')


2. Clasifica las variables presentes en la base de datos.

3. ¿Cuál es el ingreso promedio de los titulados? ¿Y la mediana? ¿Qué puedes concluir de la diferencia entre ambos?

In [None]:
promedio = C['Ingreso al 4° año (pesos)'].mean()
mediana=C['Ingreso al 4° año (pesos)'].median()

print(f"El promedio aprox de los ingresos al 4to año es de  ${round(promedio)}")
print(f"El 50% de los ingresos al 4to año son menores o iguales a ${mediana}")

print('''
La mediana no alcanza al valor promedio de los ingresos al 4to año,
esto quiere decir que existe datos extremos (altos ingresos) que influyen en el calculo de la media,
lo cual no permite que sea el mejor representante de los datos.
''')

4. ¿Cuál es la moda de los ingresos? Interprétala.

5. Calcula los percentiles 25, 50 y 75 del ingreso de los titulados e interprétalos.

In [None]:
round(C['Ingreso al 4° año (pesos)'].describe())

6. Utiliza la función *describe()* de Pandas para validar tus resultados.

7. Considera que tres personas desean estudiar Técnico en enfermería, pero cada una valora cosas distintas:
* Sofía busca maximizar su ingreso futuro.
* Diego prioriza encontrar trabajo rápidamente.
* Camila quiere un equilibrio entre ambas.

$\hspace{1cm}$Considerando la media como medida representativa, ¿qué tipo de institución recomendarías a cada uno y por qué?

In [None]:
Enf=C[C['']]

## Actividad 2

Un grupo de estudiantes está evaluando si el nivel de acreditación de una institución podría impactar sus resultados laborales. Para responder esta pregunta, realiza el siguiente análisis:

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. Agrupa los datos por años de acreditación y calcula la media y la mediana del ingreso al 4to año de cada grupo.

2. ¿Existe una relación aparente entre la cantidad de años de acreditación y el ingreso promedio? ¿Qué patrón observas?

3. ¿Se observa una tendencia similar al analizar la empleabilidad al primer año?

4. Comparando las variables ingreso y empleabilidad, analiza cómo varían la media y la mediana en cada caso. ¿Qué conclusiones generales puedes extraer sobre la representatividad de estas medidas?

5. Teniendo en cuenta tu análisis sobre cómo varían los ingresos y la empleabilidad con los años de acreditación, ¿qué consejo le darías a un estudiante que va a elegir una institución basándose únicamente en el nivel de acreditación? Justifica tu recomendación.

## Actividad 3

Imagina que trabajas como analista del Ministerio de Educación. Te han solicitado caracterizar los resultados laborales de los titulados por área de formación utilizando una base de datos con información de carreras técnicas y profesionales de distintas instituciones chilenas de los años 2024 y 2025.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1JmPTeHd5mzM4V8A2yLz0Jhwt6MDmmaxf/export?format=xlsx
">aquí</a>**.

1. ¿Cuál Área se observa con mayor frecuencia entre los titulados?

2. ¿Entre qué sueldos se encuentran los egresados del 10% más alto al 4to año de titulación?

3. ¿Entre qué sueldos se encuentran los egresados del 17% más bajo al 4to año de titulación?

4. Agrupa los datos por Área y para cada grupo calcula las siguientes medidas del Ingreso al 4° año:
* Media
* Mediana
* Percentil 25
* Percentil 75

$\hspace{1cm}$Luego, construye un DataFrame que reúna estas cuatro columnas.

5. Interpreta las medidas calculadas para el área de Agropecuaria y Tecnología.

6. Considerando las medidas calculadas, para el análisis del Área de Salud, ¿qué medida considerarías más representativa? Comenta con tus compañeros.

7. Compara la media del ingreso al 4to año de titulación, por Área y por Tipo de institución. ¿Qué conclusiones puedes extraer acerca del impacto del tipo de institución en el ingreso según área?

*Sugerencia: Puedes crear una tabla bivariada utilizando la función crosstab() de Pandas*.

## Actividad 4

La siguiente base de datos posee los registros de todas las calificaciones obtenidas por los alumnos del segundo semestre del 2019, jornada diurna en la asignatura de Álgebra.

Para responder las siguientes preguntas, descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1cD6GAWUzR2G8eHEEnfPHIuzKIZtHcSf7
">aquí</a>**.

1. ¿Cuál es la población en estudio?

2. ¿Cuál es la muestra en estudio?

3.  Identifique y clasifique las variables involucradas en el estudio.

4. Calcule e interprete las medidas de tendencia central de las notas del examen.

5. ¿Entre qué valores se encuentra el 60% de las notas más bajas en la prueba 1?

6.  La institución de educación creará cursos de reforzamiento para todos los estudiantes cuyas calificaciones en la Prueba 2, estén en el 25% más bajo. ¿Cuál es la nota más alta dentro de este grupo que va a reforzamiento?

7. ¿Cuál es la nota más baja entre el 30% de mejores notas del examen?

8. Si se desea reevaluar al 10% más bajo en el examen, ¿cuál es rango de notas que se debe considerar?

9. Si la institución va a premiar al 5% de las mejores notas finales, ¿cuál es la nota más baja registrada por ese grupo?