#    Descripción
El conjunto de datos contiene un informe salarial fabricado en el que puedes realizar análisis
para tratar de estimar el salario basado en las condiciones dadas. Las columnas son las
siguientes:
● work_year: El año en que se pagó el salario.
● experience_level: El nivel de experiencia en el trabajo durante el año, con los
siguientes valores posibles: EN (nivel de entrada / junior), MI (nivel medio /
intermedio), SE (nivel senior / experto), EX (nivel ejecutivo / director).
● employment_type: El tipo de empleo para el puesto: PT (tiempo parcial), FT (tiempo
completo), CT (contrato), FL (trabajo freelance).
● job_title: El puesto de trabajo desempeñado durante el año.
● salary: El monto total del salario bruto pagado.
● salary_currency: La moneda en la que se pagó el salario, utilizando un código de
moneda ISO 4217.
● salary_in_usd: El salario en USD (tipo de cambio dividido por la tasa promedio de
USD para el año correspondiente a través de fxdata.foorilla.com).
● employee_residence: El país de residencia principal del empleado durante el año
laboral, utilizando un código de país ISO 3166.
● remote_ratio: La cantidad total de trabajo realizado de forma remota, con los
siguientes valores posibles: 0 (sin trabajo remoto, menos del 20%), 50 (parcialmente
remoto), 100 (totalmente remoto, más del 80%).
● company_location: El país de la oficina principal del empleador o sucursal
contratante, utilizando un código de país ISO 3166.
● company_size: El número promedio de personas que trabajaron para la empresa
durante el año: S (menos de 50 empleados, pequeña), M (50 a 250 empleados,
mediana), L (más de 250 empleados, grande).




Se busca realizar un análisis estadístico de estos salarios, considerando:
1. El promedio general de los salarios, desviación estándar, quintiles y rango. (hint:
escoge la columna adecuada para comparar)
2. Una comparación entre los salarios agrupados por 3 diferentes categorías a tu
elección. ¿Para cuál de ellas las medidas de tendencia central son más
representativas? ¿Para cuál son menos representativas? Explica.
3. ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?

In [30]:
#para comenzar debemos cargar el archico con pandas
import pandas as pd

salarios_df = pd.read_excel('ds_salaries.xlsx')
print(salarios_df.head())

   work_year experience_level employment_type                 job_title  \
0       2023               SE              FT  Principal Data Scientist   
1       2023               MI              CT               ML Engineer   
2       2023               MI              CT               ML Engineer   
3       2023               SE              FT            Data Scientist   
4       2023               SE              FT            Data Scientist   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0   80000             EUR          85847                 ES           100   
1   30000             USD          30000                 US           100   
2   25500             USD          25500                 US           100   
3  175000             USD         175000                 CA           100   
4  120000             USD         120000                 CA           100   

  company_location company_size  
0               ES            L  
1               US

In [31]:
print(salarios_df.head())

# Luego, intenta calcular las estadísticas descriptivas nuevamente
promedio_salarios = salarios_df['salary_in_usd'].mean()
desviacion_estandar_salarios = salarios_df['salary_in_usd'].std()
quintiles_salarios = salarios_df['salary_in_usd'].quantile([0.25, 0.5, 0.75])
rango_salarios = salarios_df['salary_in_usd'].max() - salarios_df['salary_in_usd'].min()

# Imprimir los resultados
print("Promedio de salarios en USD:", promedio_salarios)
print("Desviación estándar de salarios en USD:", desviacion_estandar_salarios)
print("Quintiles de salarios en USD:")
print(quintiles_salarios)
print("Rango de salarios en USD:", rango_salarios)



   work_year experience_level employment_type                 job_title  \
0       2023               SE              FT  Principal Data Scientist   
1       2023               MI              CT               ML Engineer   
2       2023               MI              CT               ML Engineer   
3       2023               SE              FT            Data Scientist   
4       2023               SE              FT            Data Scientist   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0   80000             EUR          85847                 ES           100   
1   30000             USD          30000                 US           100   
2   25500             USD          25500                 US           100   
3  175000             USD         175000                 CA           100   
4  120000             USD         120000                 CA           100   

  company_location company_size  
0               ES            L  
1               US

In [32]:
# tambien podemos usar el describe
salarios_df['salary_in_usd'].describe()


count      3755.000000
mean     137570.389880
std       63055.625278
min        5132.000000
25%       95000.000000
50%      135000.000000
75%      175000.000000
max      450000.000000
Name: salary_in_usd, dtype: float64

Una comparación entre los salarios agrupados por 3 diferentes categorías a tu elección. 
¿Para cuál de ellas las medidas de tendencia central son más representativas? 
¿Para cuál son menos representativas?

Para comparar los salarios agrupados por diferentes categorías, podemos seleccionar 
tres variables diferentes y calcular las medidas de tendencia central para cada una de ellas.
siempre habra que comparar la experiencia, tipo de emmpleo y el tamaño de empresa
en nuestro archivo usaremos las columnas
"experience_level", "employment_type" y "company_size":

In [33]:
# Calcular el promedio de los salarios agrupados por nivel de experiencia
promedio_salarios_por_nivel = salarios_df.groupby('experience_level')['salary_in_usd'].mean()

# Calcular el promedio de los salarios agrupados por tipo de empleo
promedio_salarios_por_empleo = salarios_df.groupby('employment_type')['salary_in_usd'].mean()

# Calcular el promedio de los salarios agrupados por tamaño de empresa
promedio_salarios_por_tamaño_empresa = salarios_df.groupby('company_size')['salary_in_usd'].mean()

print("Promedio de salarios por nivel de experiencia:")
print(promedio_salarios_por_nivel)
print("\nPromedio de salarios por tipo de empleo:")
print(promedio_salarios_por_empleo)
print("\nPromedio de salarios por tamaño de empresa:")
print(promedio_salarios_por_tamaño_empresa)


Promedio de salarios por nivel de experiencia:
experience_level
EN     78546.284375
EX    194930.929825
MI    104525.939130
SE    153051.071542
Name: salary_in_usd, dtype: float64

Promedio de salarios por tipo de empleo:
employment_type
CT    113446.900000
FL     51807.800000
FT    138314.199570
PT     39533.705882
Name: salary_in_usd, dtype: float64

Promedio de salarios por tamaño de empresa:
company_size
L    118300.982379
M    143130.548367
S     78226.682432
Name: salary_in_usd, dtype: float64


ahora debemos tener en cuenta que la mas representativa es por el tipo de empleo 
la menos representativa es la del tamapo de empresa por la razon que puede ser antigua y no escalar en cambio el tipo de empleo 
varia mucho dependiendo del area

# ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?


In [35]:
# Primero seleccionamos la locacion de la sede, en este caso nos piden US
salarios_usa_df = salarios_df[salarios_df['company_location'] == 'US']

# calculamos el promedio del salario  y agrupamos en conjunto del empleo o cargo
promedio_salarios_por_cargo = salarios_usa_df.groupby('job_title')['salary_in_usd'].mean()

# ordenamos en descendente
mejores_sueldos = promedio_salarios_por_cargo.sort_values(ascending=False)

# mostranmos los solicitado
print("cargos con mejores sueldos en empresas con sede en Estados Unidos:")
print(mejores_sueldos.head(10)) #mostraremos solo los 10


Cargos con mejores sueldos en empresas con sede en Estados Unidos:
job_title
Data Analytics Lead                   405000.000000
Data Science Tech Lead                375000.000000
Director of Data Science              294375.000000
Principal Data Scientist              255500.000000
Cloud Data Architect                  250000.000000
Applied Data Scientist                238000.000000
Head of Data                          233183.333333
Machine Learning Software Engineer    217400.000000
Data Lead                             212500.000000
Head of Data Science                  202355.000000
Name: salary_in_usd, dtype: float64
