## Desafío - Estadística descriptiva y probabilidades (parte I)


**En este desafío validaremos nuestros conocimientos de estadística descriptiva aprendidos en la sesión.**
**Para lograrlo, necesitarás aplicar lo aprendido, analizando un set de datos asociados a los ingresos obtenidos por la población en base de a la información**
**demográfica entregada en el archivo ds_salaries.csv.**
**Lee todo el documento antes de comenzar el desarrollo individual, para asegurarte de tener el máximo de puntaje y enfocar bien los esfuerzos.**

## Descripción

El conjunto de datos contiene un informe salarial fabricado en el que puedes realizar análisis
para tratar de estimar el salario basado en las condiciones dadas. 
Las columnas son las siguientes:

**● work_year:** El año en que se pagó el salario.

**● experience_level:** El nivel de experiencia en el trabajo durante el año, con los
siguientes valores posibles: EN (nivel de entrada / junior), MI (nivel medio /
intermedio), SE (nivel senior / experto), EX (nivel ejecutivo / director).

**● employment_type:** El tipo de empleo para el puesto: PT (tiempo parcial), FT (tiempo
completo), CT (contrato), FL (trabajo freelance).

**● job_title:** El puesto de trabajo desempeñado durante el año.

**● salary:** El monto total del salario bruto pagado.

**● salary_currency:** La moneda en la que se pagó el salario, utilizando un código de
moneda ISO 4217.

**● salary_in_usd:** El salario en USD (tipo de cambio dividido por la tasa promedio de
USD para el año correspondiente a través de fxdata.foorilla.com).

**● employee_residence:** El país de residencia principal del empleado durante el año
laboral, utilizando un código de país ISO 3166.

**● remote_ratio:** La cantidad total de trabajo realizado de forma remota, con los
siguientes valores posibles: 0 (sin trabajo remoto, menos del 20%), 50 (parcialmente
remoto), 100 (totalmente remoto, más del 80%).

**● company_location:** El país de la oficina principal del empleador o sucursal
contratante, utilizando un código de país ISO 3166.

**● company_size:** El número promedio de personas que trabajaron para la empresa
durante el año: S (menos de 50 empleados, pequeña), M (50 a 250 empleados,
mediana), L (más de 250 empleados, grande).


**Se busca realizar un análisis estadístico de estos salarios, considerando:**

- 1. El promedio general de los salarios, desviación estándar, quintiles y rango. 
(hint: escoge la columna adecuada para comparar)

- 2. Una comparación entre los salarios agrupados por 3 diferentes categorías a tu
elección. ¿Para cuál de ellas las medidas de tendencia central son más
representativas? ¿Para cuál son menos representativas? Explica.

- 3. ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

# Primero que nada cargamos el dataset y vemos su info


df = pd.read_csv(r'C:\Users\juano\OneDrive\Escritorio\CursoDA\Desafios y Pruebas\ds_salaries.csv') #Leemos el csv

df.info() #Vemos la info del df
df.head() #Vemos las primeras filas del df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


## EJERCICIO NUMERO 1

**Análisis de salarios**

Para iniciar el desafío, lo primero fue cargar el dataset y revisar su estructura, con el objetivo de comprender la información disponible y confirmar que los datos se encuentran en buen estado.

Posteriormente, se seleccionó la columna 'salary_in_usd', ya que este campo permite comparar los salarios de manera homogénea al estar expresados en una misma moneda (USD), eliminando distorsiones por diferencias de tipo de cambio.

Con esta columna se calcularon los principales indicadores estadísticos descriptivos solicitados:

**● Promedio (media):** refleja el salario promedio de la muestra.

**● Desviación estándar:** mide la dispersión de los salarios respecto al promedio, mostrando qué tan concentrados o dispersos están los valores.

**● Quintiles:** dividen la distribución en cinco tramos equivalentes, lo que facilita identificar cómo se distribuyen los sueldos a lo largo de la muestra.

**● Rango:** representa la diferencia entre el salario mínimo y el máximo, indicando la amplitud total de la distribución.

Estos indicadores permiten obtener una primera visión del comportamiento general de los salarios en el conjunto de datos, así como detectar la presencia de posibles diferencias significativas entre los valores más bajos y los más altos.

In [2]:
# Seleccionamos la columna salary_in_usd para hacer los cálculos y realizamos los cálculos estadísticos solicitados.

salarios_usd = df['salary_in_usd'].dropna() # Seleccionamos la columna que usaremos

mean_salary = salarios_usd.mean() # 1. Promedio general de los salarios

std_salary = salarios_usd.std() # 2. Desviación estándar

quintiles = salarios_usd.quantile([0.2, 0.4, 0.6, 0.8]) # 3. Quintiles (20%, 40%, 60%, 80%)

salary_range = salarios_usd.max() - salarios_usd.min()  # 4. Rango


In [12]:
'''Se calculó el promedio general de los salarios en dólares estadounidenses, lo que nos da una idea del nivel de ingresos que tienen los trabajadores en conjunto. 
Este valor resume en una sola cifra cuánto gana, en promedio, una persona dentro del grupo analizado. 
Sin embargo, hay que considerar que este resultado puede estar afectado por sueldos muy altos o muy bajos, 
que hacen que el promedio no siempre represente de manera fiel a la mayoría.'''

print("\nPromedio de salarios:\n")
print(f"{mean_salary:,.3f} USD")


Promedio de salarios:

137,570.390 USD


In [4]:
'''La desviación estándar de los salarios en USD es de aproximadamente 63.056 USD. 
Este valor es relativamente alto comparado con el promedio de 137.570 USD, lo que nos muestra que los salarios varían bastante entre los trabajadores. 
Algunos están cerca del promedio, mientras que otros reciben ingresos mucho más altos o mucho más bajos. 
Esta diferencia refleja la diversidad de cargos y niveles de experiencia dentro del conjunto de datos.'''

print("\nDesviación estándar de salarios:\n")
print(f"{std_salary:,.3f} USD")


Desviación estándar de salarios:

63,055.625 USD


In [5]:
'''Los quintiles dividen la distribución de salarios en cinco partes iguales y nos ayudan a ver cómo se reparten los ingresos entre los trabajadores. 
Para los salarios en USD, los cortes son aproximadamente: 83.973 USD (20%), 120.000 USD (40%), 149.850 USD (60%) y 185.900 USD (80%). 

Esto significa que:

● El 20% de los trabajadores gana menos de 83.973 USD.

● El 40% de los trabajadores gana menos de 120.000 USD.

● El 60% de los trabajadores gana menos de 149.850 USD.

● El 80% de los trabajadores gana menos de 185.900 USD.

Estos valores muestran cómo se distribuyen los salarios y permiten identificar fácilmente los tramos de ingresos más bajos, medios y altos dentro del conjunto de datos.'''

print("\nQuintiles de salarios:\n")

for q, valor in quintiles.items():
    print(f"{int(q*100)}%: {valor:,.2f} USD")



Quintiles de salarios:

20%: 83,972.80 USD
40%: 120,000.00 USD
60%: 149,850.00 USD
80%: 185,900.00 USD


In [10]:
'''El rango se calculó como la diferencia entre el salario más bajo y el más alto dentro del conjunto de datos, dando un valor de aproximadamente 444.868 USD. 
Este indicador nos muestra la amplitud total de los salarios, indicando qué tan separados están los extremos. 
Un rango tan grande evidencia que existen diferencias significativas entre los sueldos más bajos y los más altos, 
lo que refleja la diversidad de cargos y niveles de experiencia dentro del conjunto de datos.'''

salary_range_int = int(salary_range)
print("\nRango de salarios:\n")
print(f"{salary_range_int:,} USD")


Rango de salarios:

444,868 USD


## Analizando los salarios en USD, se puede observar lo siguiente:

● El promedio de salarios es de alrededor de *137.570 USD*, lo que nos da una idea general de cuánto gana un trabajador “típico” dentro del grupo.

● La desviación estándar es bastante alta *(63.056 USD)*, lo que indica que los salarios varían mucho: algunos están cerca del promedio, mientras que otros ganan mucho más o mucho menos.

● Los quintiles muestran cómo se reparten los salarios:

- *El 20% de los trabajadores gana menos de 83.973 USD*

- *El 40% de los trabajadores gana menos de 120.000 USD*

- *El 60% de los trabajadores gana menos de 149.850 USD*

- *El 80% de los trabajadores gana menos de 185.900 USD*

● Esto nos dice que la mayoría de los salarios se concentra en la parte media, mientras que los valores extremos generan diferencias notables.

● El rango, con un valor de *444.868 USD*, confirma que hay una gran diferencia entre los salarios más bajos y los más altos, mostrando la variedad de cargos y niveles de experiencia dentro del grupo.

En pocas palabras, aunque el promedio nos da una cifra representativa del salario “normal”, la gran dispersión y el amplio rango nos muestran que hay diferencias importantes entre los ingresos. Por eso, para entender mejor la distribución de los salarios, es útil mirar no solo la media, sino también los quintiles y la desviación estándar.

## EJERCICIO NUMERO 2

Realizaremos una comparación de los salarios agrupados según tres categorías: 

- *Nivel de experiencia*
- *Tamaño de empresa* 
- *Tipo de empleo* 

El objetivo es determinar en cuál de ellas las medidas de tendencia central (como el promedio) resultan más representativas y en cuál menos, considerando la variabilidad de los datos mediante el coeficiente de variación (CV). 
Este análisis permite identificar dónde las medidas centrales describen de forma más fiel el comportamiento salarial y dónde, en cambio, pierden representatividad debido a la alta dispersión.

In [None]:
# Función para crear resumen por categoría

def create_summary(df, category):
    summary = df.groupby(category)['salary_in_usd'].agg( 
        Promedio='mean',                                                                                # Promedio
        Desviacion_Estandar='std',                                                                      # Desviación estándar                              
        Minimo='min',                                                                                   # Mínimo                                                    
        Maximo='max',                                                                                   # Máximo                                                                                                                                                                  # Mínimo   
        Q20=lambda x: x.quantile(0.2),                                                                  # Quintiles
        Q40=lambda x: x.quantile(0.4),                      
        Q60=lambda x: x.quantile(0.6),
        Q80=lambda x: x.quantile(0.8),
    )
    
    
    summary['Rango'] = summary['Maximo'] - summary['Minimo']                                            # Rango  
    summary['CV (%)'] = (summary['Desviacion_Estandar'] / summary['Promedio']) * 100                    # Coeficiente de variación (%)
    
    summary_numeric = summary.copy()  # Guardamos una copia para el formateo
    
    # Formateamos como moneda todas las columnas menos el CV
    for col in summary.columns:
        if col != 'CV (%)':
            summary[col] = summary[col].map(lambda x: f"{x:,.2f} USD")
    
    # Formateamos el CV como porcentaje con un decimal
    summary['CV (%)'] = summary_numeric['CV (%)'].map(lambda x: f"{x:.1f}%")
    
    return summary

# Creamos 3 DataFrames resumidos

summary_exp = create_summary(df, 'experience_level').reset_index()
summary_size = create_summary(df, 'company_size').reset_index()
summary_type = create_summary(df, 'employment_type').reset_index()

# Agregamos columna de categoría

summary_exp['Categoria'] = 'Nivel de Experiencia'
summary_size['Categoria'] = 'Tamaño de Empresa'
summary_type['Categoria'] = 'Tipo de Empleo'

# Renombramos la columna del grupo

summary_exp.rename(columns={'experience_level': 'Grupo'}, inplace=True)
summary_size.rename(columns={'company_size': 'Grupo'}, inplace=True)
summary_type.rename(columns={'employment_type': 'Grupo'}, inplace=True)

# Combinamos los 3 DataFrames

combined_summary = pd.concat([summary_exp, summary_size, summary_type], ignore_index=True)

# Creamos MultiIndex: Categoria como primer nivel, Grupo como segundo

combined_summary = combined_summary.set_index(['Categoria', 'Grupo'])

# Mostramos el resultado

combined_summary


Unnamed: 0_level_0,Unnamed: 1_level_0,Promedio,Desviacion_Estandar,Minimo,Maximo,Q20,Q40,Q60,Q80,Rango,CV (%)
Categoria,Grupo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Nivel de Experiencia,EN,"78,546.28 USD","52,225.42 USD","5,409.00 USD","300,000.00 USD","30,000.00 USD","58,000.00 USD","82,716.80 USD","125,000.00 USD","294,591.00 USD",66.5%
Nivel de Experiencia,EX,"194,930.93 USD","70,661.93 USD","15,000.00 USD","416,000.00 USD","133,010.40 USD","175,000.00 USD","205,000.00 USD","244,920.00 USD","401,000.00 USD",36.2%
Nivel de Experiencia,MI,"104,525.94 USD","54,387.69 USD","5,132.00 USD","450,000.00 USD","60,688.80 USD","85,066.00 USD","110,000.00 USD","149,600.00 USD","444,868.00 USD",52.0%
Nivel de Experiencia,SE,"153,051.07 USD","56,896.26 USD","8,000.00 USD","423,834.00 USD","106,900.00 USD","135,000.00 USD","160,000.00 USD","198,200.00 USD","415,834.00 USD",37.2%
Tamaño de Empresa,L,"118,300.98 USD","75,832.39 USD","5,409.00 USD","423,834.00 USD","52,221.00 USD","89,306.00 USD","130,760.00 USD","178,800.00 USD","418,425.00 USD",64.1%
Tamaño de Empresa,M,"143,130.55 USD","58,992.81 USD","5,132.00 USD","450,000.00 USD","95,000.00 USD","128,000.00 USD","150,000.00 USD","189,650.00 USD","444,868.00 USD",41.2%
Tamaño de Empresa,S,"78,226.68 USD","61,955.14 USD","5,679.00 USD","416,000.00 USD","30,000.00 USD","54,926.80 USD","76,833.00 USD","115,133.20 USD","410,321.00 USD",79.2%
Tipo de Empleo,CT,"113,446.90 USD","130,176.75 USD","7,500.00 USD","416,000.00 USD","29,100.00 USD","48,187.60 USD","94,000.00 USD","138,000.00 USD","408,500.00 USD",114.7%
Tipo de Empleo,FL,"51,807.80 USD","29,458.88 USD","12,000.00 USD","100,000.00 USD","28,418.40 USD","48,222.00 USD","50,000.00 USD","68,000.00 USD","88,000.00 USD",56.9%
Tipo de Empleo,FT,"138,314.20 USD","62,452.18 USD","5,132.00 USD","450,000.00 USD","85,000.00 USD","120,000.00 USD","150,000.00 USD","185,900.00 USD","444,868.00 USD",45.2%


## ● Análisis de Representatividad de las Medidas de Tendencia

Para determinar qué tan representativas son las medidas de tendencia central en cada categoría, es fundamental analizar la variabilidad de los datos. Cuando existe alta dispersión, el promedio pierde capacidad representativa, mientras que una baja variabilidad indica que las medidas centrales reflejan mejor el comportamiento típico del conjunto de datos.

● **Metodología de Análisis**

Para evaluar la representatividad, utilizamos el *coeficiente de variación (CV = Desviación Estándar / Promedio × 100)*, que nos permite comparar la variabilidad relativa entre diferentes grupos, independientemente de sus escalas de medición.

● **Resultados (CV) por Categoría:**

● **Nivel de Experiencia (Experience Level)**



- *EN (Nivel de entrada/Junior): CV = 66.5%*

- *MI (Nivel medio/Intermedio): CV = 52.0%*

- *SE (Nivel senior/Experto): CV = 37.2%*

- *EX (Nivel ejecutivo/Director): CV = 36.2%*



● **Tamaño de Empresa (Company Size)**



- *S (Pequeña, <50 empleados): CV = 79.2%*

- *M (Mediana, 50-250 empleados): CV = 41.2%*

- *L (Grande, >250 empleados): CV = 64.1%*



● **Tipo de Empleo (Employment Type)**



- *PT (Tiempo parcial): CV = 96.9%*

- *FT (Tiempo completo): CV = 45.2%*

- *CT (Contrato): CV = 114.7%*

- *FL (Freelance): CV = 56.9%*



## Conclusiones

● **Medidas MÁS Representativas:**

● **EX (Ejecutivo/Director) - CV:** *36.2%*: 

- Los sueldos de los ejecutivos casi no varían, porque en esos puestos suelen tener rangos de pago bien definidos y las responsabilidades son parecidas entre ellos.
- Además del CV bajo, la desviación estándar (70k) es moderada respecto al promedio (195k).
- El rango (401k) es grande, pero los quintiles muestran que la mayoría de los sueldos se concentran entre 133k (Q20) y 245k (Q80).
- El promedio (195k) está bien ubicado dentro de ese rango central (Q40=175k, Q60=205k), lo que confirma que la media refleja bien la tendencia.

● **SE (Senior/Experto) - CV:** *37.2%*: 

- Los sueldos de los profesionales senior son bastante parejos, porque en ese nivel ya existe un mercado más definido y con reglas claras para pagar a personas con mucha experiencia.
- El promedio (153k) está cerca de la zona central (Q40=135k, Q60=160k), lo que respalda que la media representa a los datos típicos.
- La desviación estándar (57k) es bastante menor que el rango total (416k), mostrando que los valores extremos existen pero no dominan.
- La distribución central (Q20=107k a Q80=198k) es estrecha en comparación al rango, indicando estabilidad en la mayoría de salarios.

● **M (Empresa mediana, 50-250 empleados) - CV:** *41.2%*: 

- En las empresas medianas los sueldos son más predecibles, porque suelen tener políticas claras de pago, más ordenadas que en las pequeñas, pero sin ser tan rígidas como en las grandes.
- La desviación estándar (59k) es menor que el promedio (143k), lo que sugiere control en la dispersión.
- El rango total es alto (445k), pero el 60% de los datos está entre 95k (Q20) y 190k (Q80), es decir, bastante cercano al promedio.
- El promedio (143k) cae dentro de esa franja central, lo que le da buena representatividad.

● **Medidas MENOS Representativas:**

● **CT (Contrato) - CV:** *114.7%*: 

- Los trabajos por contrato tienen sueldos muy distintos entre sí, porque dependen mucho de cuánto dura el proyecto, qué tan especializado es, la urgencia y la capacidad de cada persona para negociar.
- La desviación estándar (130k) es incluso mayor que el promedio (113k), lo que confirma altísima dispersión.
- El rango (409k) es enorme y el promedio (113k) está muy alejado de la zona central (Q40=48k, Q60=94k).
- Esto indica que la media está distorsionada por pocos sueldos muy altos y no representa al grupo.

● **PT (Tiempo parcial) - CV:** *96.9%*: 

- Los sueldos de tiempo parcial varían bastante, porque no todos trabajan las mismas horas, ni tienen las mismas responsabilidades, y algunos puestos son más estratégicos mientras que otros son de apoyo.
- El promedio (39k) está muy por encima de la franja central (Q40=18k, Q60=27k).
- La desviación estándar (38k) es casi igual al promedio, y el rango (120k) es grande en relación al nivel salarial.
- Esto muestra que la media sobreestima los ingresos típicos, ya que la mayoría gana menos.

● **S (Empresa pequeña, <50 empleados) - CV:** *79.2%*: 

- En las empresas pequeñas los sueldos pueden ser muy distintos, porque depende de la plata que tengan, el rubro en que estén, en qué etapa de crecimiento van y que normalmente no tienen políticas de pago tan claras.
- El promedio (78k) se aleja bastante de la zona central (Q40=55k, Q60=77k).
- La desviación estándar (62k) es cercana al promedio, lo que refleja alta variabilidad.
- El rango (410k) es enorme, lo que sugiere fuerte influencia de sueldos atípicos.

## Síntesis del análisis:

- Entre las tres categorías, la más representativa es **Nivel de Experiencia**, porque sus valores muestran baja dispersión y el promedio refleja bien el centro de los salarios, sobre todo en niveles **Senior y Ejecutivo**.

- La menos representativa es **Tipo de Empleo**, ya que los promedios están muy afectados por valores extremos, especialmente en **contratos** y **trabajos part-time**.

- Finalmente, el **Tamaño de Empresa** presenta un nivel intermedio, con mayor estabilidad en **empresas medianas**, pero mucha dispersión en **empresas pequeñas y grandes**.”

## EJERCICIO NUMERO 3

En este paso filtramos los datos para quedarnos solo con las empresas ubicadas en Estados Unidos. 
Luego agrupamos los sueldos por cargo, calculamos el promedio para cada uno y ordenamos los resultados de mayor a menor. 

Finalmente, mostramos los 20 puestos mejor pagados en USA.

In [None]:
df_usa = df[df["company_location"] == "US"]         # Filtramos por empresas en USA

salarios_usa = df_usa.groupby("job_title")["salary_in_usd"].mean().sort_values(ascending=False)         # Agrupamos por job_title y calculamos el promedio 

print("\nTop 20 cargos mejor pagados en USA:\n")
for job, salary in salarios_usa.head(20).items():           # Mostramos los 20 cargos mejor pagados
    print(f"{job:40} {salary:,.2f} USD")


Top 20 cargos mejor pagados en USA:

Data Analytics Lead                      405,000.00 USD
Data Science Tech Lead                   375,000.00 USD
Director of Data Science                 294,375.00 USD
Principal Data Scientist                 255,500.00 USD
Cloud Data Architect                     250,000.00 USD
Applied Data Scientist                   238,000.00 USD
Head of Data                             233,183.33 USD
Machine Learning Software Engineer       217,400.00 USD
Data Lead                                212,500.00 USD
Head of Data Science                     202,355.00 USD
Computer Vision Engineer                 202,283.33 USD
AI Developer                             200,000.00 USD
Data Science Manager                     199,379.58 USD
Principal Data Engineer                  192,500.00 USD
Applied Scientist                        190,264.48 USD
Principal Machine Learning Engineer      190,000.00 USD
Data Science Lead                        186,166.67 USD
Machine Le

## Conclusiones:

- Los puestos mejor remunerados en USA, en lo que compete a esta base de datos, se concentran principalmente en áreas de datos, inteligencia artificial y liderazgo técnico.

- Los cargos como *Data Analytics Lead*, *Data Science Tech Lead* y *Director of Data Science* encabezan la lista, superando ampliamente los *$290,000 USD* promedio.

- Esto refleja que el mercado estadounidense valora mucho la especialización técnica avanzada y la capacidad de liderar equipos de datos, ofreciendo sueldos altos para roles estratégicos y de gran responsabilidad. 

- Además, se nota que los puestos de *Machine Learning* y *Cloud/Data Architecture* también están muy bien remunerados, lo que indica la fuerte demanda por habilidades en tecnologías emergentes y soluciones de datos a gran escala.