# Medidas de Dispersión

## Objetivos:

Aplicar medidas de dispersión (rango, desviación estándar y coeficiente de variación) en el análisis de bases de datos, utilizando Python como herramienta de apoyo.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

El gobierno de la ciudad de San Francisco ha publicado los sueldos base de sus funcionarios públicos entre los años 2011 y 2014. Esta base incluye trabajadores con distintos cargos y niveles de responsabilidad.
Como analista de datos, tu tarea es describir y cuantificar la variabilidad de los sueldos base usando medidas estadísticas de dispersión.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1Ry63iApbDJaY_C1HfR5s-kIX5ldWcGW8
">aquí</a>**.

*Observación: Considera que todas las variables asociadas a remuneraciones están expresadas en dólares estadounidenses (USD).*



1. Identifica la población y muestra del estudio.

In [4]:
import pandas as pd

df_1=pd.read_csv("Actividad_1_2_3.csv")



print("la muestra es: ",df_1.shape[0])

la muestra es:  19846


2. Muestra las tres primeras y tres últimas filas de la base de datos.

In [5]:
df_1.head(3)

Unnamed: 0,Id,Nombre del empleado,Título profesional,Pago base,Pago de horas extras,OtroPago,Beneficios,Pago total,Beneficios de pago total,Año
0,210,ROBERT SERRANO,"Jefe De Batallón, (Departamento De Bomberos)",254000.0,3710014,14209449,0.0,20459463,20459463,2011
1,1487,MARYANNE LOWMAN,"Inspector Iii, (Departamento De Policía)",493400.0,2377127,8847688,0.0,16158815,16158815,2011
2,1561,STEPHEN CASSIDY,"Capitán, Supresión De Incendios",318480.0,3114037,9703105,0.0,16001942,16001942,2011


In [6]:
df_1.tail(3)

Unnamed: 0,Id,Nombre del empleado,Título profesional,Pago base,Pago de horas extras,OtroPago,Beneficios,Pago total,Beneficios de pago total,Año
19843,148384,Arturo Durazo,Trabajador De Salud 3,16518.0,0,10235,2.68,26753,27021,2014
19844,148385,Patrick J O'Donnell,Líder De Recreación,25800.0,0,690,2.65,2649,26755,2014
19845,148386,Phoebe E Barkan,Líder De Recreación,26393.0,0,0,2.64,26393,26657,2014


3. Calcula el rango de la variable *Pago base*, ¿este valor representa la realidad de todos los trabajadores?

In [8]:
#Rango
maximo_pago=df_1["Pago base"].max()
minimo_pago=df_1["Pago base"].min()

#Calculo

rango=maximo_pago-minimo_pago
print("El rango es ",rango," dolares, no representa la realidad de todos lo trabajadores")

El rango es  500000.0  dolares, no representa la realidad de todos lo trabajadores


4. Calcula la media, mediana, desviación estándar y coeficiente de variación del sueldo base. ¿La dispersión es alta o baja respecto al promedio? ¿Qué medida (media o mediana) describe mejor el sueldo típico? Justifica tu respuesta.



In [12]:
#calcular media y mediana
media_pago=df_1["Pago base"].mean()
#mediana
mediana_pago=df_1["Pago base"].median()
#desviacion estandar
desviacion=df_1["Pago base"].std()
#coefiicente de variacion: 
cv_pago=desviacion/media_pago *100
print(f'Media {media_pago:.0f}, mediana: {mediana_pago:.0f}, desviacion estandar: {desviacion:.0f}, coeficiente de variacion: {cv_pago:.0f} %')

Media 199159, mediana: 168598, desviacion estandar: 159574, coeficiente de variacion: 80 %


## Actividad 2

Un equipo de análisis de datos quiere comparar la variabilidad de los sueldos base entre distintos años para evaluar si ha habido más o menos estabilidad en las remuneraciones del empleo público.

Trabajarás con la base de datos que ha publicado el gobierno de San Francisco con información de los sueldos base de sus funcionarios públicos entre los años 2011 y 2014. Esta base incluye trabajadores con distintos cargos y niveles de responsabilidad.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1Ry63iApbDJaY_C1HfR5s-kIX5ldWcGW8
">aquí</a>**.

*Observación: Considera que todas las variables asociadas a remuneraciones están expresadas en dólares estadounidenses (USD).*

1. Importa la base de datos y crea una tabla que agrupe los valores de *Pago base*. Luego, calcula la media, la desviación estándar y el coeficiente de variación por año.

In [17]:
df_2=pd.read_csv("Actividad_1_2_3.csv")
#tabla
tabla_1=df_2.groupby('Año')['Pago base'].agg(['mean','std'])
tabla_1["CV %"]= (tabla_1['std']/tabla_1["mean"])*100

round(tabla_1,1)



Unnamed: 0_level_0,mean,std,CV %
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011,206322.7,172827.2,83.8
2012,186146.5,155801.2,83.7
2013,198426.5,154517.5,77.9
2014,209839.5,146277.0,69.7


2. ¿En cuál año se observa mayor dispersión absoluta en los sueldos base? Justifica usando la desviación estándar.

3. ¿Cuál año tiene mayor heterogeneidad? Justifica usando el coeficiente de variación.

4. ¿Qué ventajas tiene el coeficiente de variación frente a la desviación estándar al realizar comparaciones?

5. ¿Qué interpretación puedes hacer al comparar los datos del año 2011 con los del 2014?

## Actividad 3

Un equipo de análisis de datos busca estudiar qué tan parecidos o distintos son los sueldos base entre trabajadores que ejercen el mismo cargo. Para ello, se analizarán los cinco títulos profesionales más frecuentes en la base de datos publicada por el gobierno de San Francisco, la cual contiene información de los sueldos base de funcionarios públicos entre los años 2011 y 2014. Esta base incluye trabajadores con distintos niveles de responsabilidad.

Como analista, tu tarea es calcular y comparar medidas estadísticas de dispersión dentro de cada cargo, para evaluar la variabilidad de las remuneraciones en estos grupos.

**Utiliza la siguiente base de datos para responder las actividades 1, 2 y 3.**

Descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1Ry63iApbDJaY_C1HfR5s-kIX5ldWcGW8
">aquí</a>**.

*Observación: Considera que todas las variables asociadas a remuneraciones están expresadas en dólares estadounidenses (USD).*

1. Crea una tabla de frecuencias absolutas que muestre los cinco cargos  más frecuentes de San Francisco, usando la variable *Título profesional*.

2. ¿Qué observas respecto a los cargos más comunes? ¿Te sorprende alguno?

3. De acuerdo con la tabla realizada en el inciso anterior, crea un DataFrame que contenga solo los cinco cargos con mayor presencia en la ciudad de San Francisco, para esto debes filtrar tu DataFrame original. Luego, muestra las cinco primeras filas y las cinco últimas filas.

$\hspace{1cm}$ *Para filtrar rápidamente puedes almacenar los cargos frecuentes en una variable y luego utilizar la función isin.*

4. Utiliza el DataFrame filtrado del inciso anterior para crear una tabla con el cálculo de la media, mediana, desviación estándar y coeficiente de variación del sueldo base (*Pago base*).

5. ¿Hay cargos donde la media y la mediana son similares? ¿Qué indica esto sobre la distribución de los sueldos?

6. ¿Hay cargos donde la diferencia entre la media y la mediana sea grande? ¿Qué indica esto sobre la distribución de los sueldos?

7. ¿Cuál de los cargos tiene sueldos más homogéneos? Justifica.