# Desafío - Estadística descriptiva y probabilidades (parte I)
En este desafío validaremos nuestros conocimientos de estadística descriptiva aprendidos
en la sesión. Para lograrlo, necesitarás aplicar lo aprendido, analizando un set de datos
asociados a los ingresos obtenidos por la población en base de a la información
demográfica entregada en el archivo ds_salaries.csv.
Lee todo el documento antes de comenzar el desarrollo individual, para asegurarte de tener
el máximo de puntaje y enfocar bien los esfuerzos.

In [2]:
import pandas as pd

salarios = pd.read_csv('ds_salaries.csv',delimiter=',')
salarios   

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


In [3]:
salarios.columns


Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

El conjunto de datos contiene un informe salarial fabricado en el que puedes realizar análisis
para tratar de estimar el salario basado en las condiciones dadas. Las columnas son las
siguientes:\
● work_year: El año en que se pagó el salario. \
● experience_level: El nivel de experiencia en el trabajo durante el año, con los
siguientes valores posibles: EN (nivel de entrada / junior), MI (nivel medio /
intermedio), SE (nivel senior / experto), EX (nivel ejecutivo / director).\
● employment_type: El tipo de empleo para el puesto: PT (tiempo parcial), FT (tiempo
completo), CT (contrato), FL (trabajo freelance).\
● job_title: El puesto de trabajo desempeñado durante el año.\
● salary: El monto total del salario bruto pagado.\
● salary_currency: La moneda en la que se pagó el salario, utilizando un código de
moneda ISO 4217.\
● salary_in_usd: El salario en USD (tipo de cambio dividido por la tasa promedio de
USD para el año correspondiente a través de fxdata.foorilla.com).\
● employee_residence: El país de residencia principal del empleado durante el año
laboral, utilizando un código de país ISO 3166.\
● remote_ratio: La cantidad total de trabajo realizado de forma remota, con los
siguientes valores posibles: 0 (sin trabajo remoto, menos del 20%), 50 (parcialmente
remoto), 100 (totalmente remoto, más del 80%).\
● company_location: El país de la oficina principal del empleador o sucursal
contratante, utilizando un código de país ISO 3166.\

# Se busca realizar un análisis estadístico de estos salarios, considerando:
1. El promedio general de los salarios, desviación estándar, quintiles y rango. (hint:
escoge la columna adecuada para comparar)
2. Una comparación entre los salarios agrupados por 3 diferentes categorías a tu
elección. ¿Para cuál de ellas las medidas de tendencia central son más
representativas? ¿Para cuál son menos representativas? Explica.
3. ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?

### 1. El promedio general de los salarios, desviación estándar, quintiles y rango. 
(hint:escoge la columna adecuada para comparar)

In [7]:
# Se utiliza la columna 'salary_in_usd' ya que posee valores de una moneda comun
media = salarios['salary_in_usd'].mean()  # Media
desviacion_estandar = salarios['salary_in_usd'].std()  # Desviación estándar
minimo = salarios['salary_in_usd'].min()  # Valor mínimo
q1=salarios['salary_in_usd'].quantile(0.25)
q2=salarios['salary_in_usd'].quantile(0.5)
q3=salarios['salary_in_usd'].quantile(0.75)
maximo = salarios['salary_in_usd'].max()  # Valor máximo

In [8]:
print('media', media)
print('desviacion_estandar', desviacion_estandar)
print('minimo', minimo)
print('q1', q1)
print('q2', q2)
print('q3', q3)
print('maximo', maximo)
print('rango', (maximo - minimo))

media 137570.38988015978
desviacion_estandar 63055.625278224084
minimo 5132
q1 95000.0
q2 135000.0
q3 175000.0
maximo 450000
rango 444868


### 2. Una comparación entre los salarios agrupados por 3 diferentes categorías a tu elección. 
¿Para cuál de ellas las medidas de tendencia central son más representativas? ¿Para cuál son menos representativas? Explica.

In [10]:
comparacion_por_experiencia = salarios.groupby('experience_level')['salary_in_usd'].agg(['mean','median','std','min','max'])
print(comparacion_por_experiencia)

                           mean    median           std    min     max
experience_level                                                      
EN                 78546.284375   70000.0  52225.424309   5409  300000
EX                194930.929825  196000.0  70661.929661  15000  416000
MI                104525.939130  100000.0  54387.685128   5132  450000
SE                153051.071542  146000.0  56896.263954   8000  423834


In [11]:
comparacion_por_ubicacion = salarios.groupby('company_location')['salary_in_usd'].agg(['mean','median','std','min','max'])
print(comparacion_por_ubicacion)

                           mean    median           std    min     max
company_location                                                      
AE                100000.000000  115000.0  30413.812651  65000  120000
AL                 10000.000000   10000.0           NaN  10000   10000
AM                 50000.000000   50000.0           NaN  50000   50000
AR                 25000.000000   13000.0  21656.407828  12000   50000
AS                 29351.000000   20000.0  17909.036909  18053   50000
...                         ...       ...           ...    ...     ...
TH                 23064.333333   24740.0   7370.766333  15000   29453
TR                 19058.000000   20171.0   7861.477056  10000   28016
UA                 57850.000000   55000.0  38974.649881  13400  108000
US                151822.009539  145000.0  56018.538978   5679  450000
VN                 12000.000000   12000.0           NaN  12000   12000

[72 rows x 5 columns]


In [12]:
comparacion_por_tipoempleo = salarios.groupby('employment_type')['salary_in_usd'].agg(['mean','median','std','min','max'])
print(comparacion_por_tipoempleo)

                          mean    median            std    min     max
employment_type                                                       
CT               113446.900000   75000.0  130176.746842   7500  416000
FL                51807.800000   50000.0   29458.879336  12000  100000
FT               138314.199570  135000.0   62452.177613   5132  450000
PT                39533.705882   21669.0   38312.145181   5409  125404


### Respuesta: 
Comparacion por experiencia es la que tiene mayor representatividad ya que existe una similitud entre la media y la mediana, lo cual demuestra que ambas se encuentran cerca del centro de la muestra. Esto se condice con la idea de que los salarios estan directamente asociados a la experiencia de los empleados y por lo tanto no deberían haber datos tan disimiles. 
En cambio la ubicacion de las empresas y el tipo de empleo no entrega resultados tan homogéneos. En el caso de tipo de empleo, entre FT y FL hay buena representatividad, pero en los otros hay grandes diferencias y debe haber datos que se separan mucho de la media, por lo tanto tiene una representatividad mixta.
En salarios por ubcacionm, Hay diferencias significativas entre media y mediana para varios paises, lo caul revela una cola en los resultados y no muy buena representatividad. Tambien hay muchos paises sin datos. Depende mucho de la cantidad de datos y la homogeneidad de los paises (Ej nivel de desarrollo) 

### 3. ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?


In [15]:
# Filtramos empresas en Estados Unidos
sal_us = salarios[salarios['company_location'] == 'US']

# Creamos tabla pivote para ver las medidas de tendencia central de los empleos
pivot_us = pd.pivot_table(
    sal_us,
    values='salary_in_usd',
    index='job_title',
    aggfunc=['mean', 'median']
)

# Orden descendente
pivot_us = pivot_us.sort_values(('mean','salary_in_usd'), ascending=False)

# Mostrar los 10 cargos mejor pagados
pivot_us.head(10)


Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,salary_in_usd,salary_in_usd
job_title,Unnamed: 1_level_2,Unnamed: 2_level_2
Data Analytics Lead,405000.0,405000.0
Data Science Tech Lead,375000.0,375000.0
Director of Data Science,294375.0,287500.0
Principal Data Scientist,255500.0,227500.0
Cloud Data Architect,250000.0,250000.0
Applied Data Scientist,238000.0,177000.0
Head of Data,233183.333333,220000.0
Machine Learning Software Engineer,217400.0,180000.0
Data Lead,212500.0,212500.0
Head of Data Science,202355.0,195800.0


Los cargos mejor pagados en Estados Unidos son Data Analytics Lead, Data Science Tech Lead y Director of Data Science

In [17]:
# Supongamos que tu DataFrame se llama pivot_us
pivot_us.to_csv("cargos_mejor_pagados_US.csv", index=True)


Se adjunta imagen de Power BI mostrando esta misma informacion
