## Desafío Estadística descriptiva y probabilidades (parte I) - Maria Laura Oyarce

In [1]:
#Importamos las librerías
import pandas as pd
import numpy as np

In [2]:
#Cargamos los datos y chequeamos las primeras filas para ver la información
data = pd.read_csv("ds_salaries.csv")
data.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


#### El conjunto de datos contiene un informe salarial fabricado en el que puedes realizar análisis para tratar de estimar el salario basado en las condiciones dadas. Se busca realizar un análisis estadístico de estos salarios, considerando:

#### 1. El promedio general de los salarios, desviación estándar, quintiles y rango. (hint: escoge la columna adecuada para comparar)

In [3]:
#Extraemos la información de los salarios en dólares
salarios=data['salary_in_usd']

#Calculamos las medidas de tendencia (general, dispersión e indicadores de posición)
mean=salarios.mean()
std=salarios.std()
quin=salarios.quantile([0.2, 0.4, 0.6, 0.8, 1.0])
range=salarios.max() - salarios.min()

print('Indicadores generales de salarios:')
print('Promedio:',round(mean,2),'USD')
print('Desviación estándar:', round(std,2),'USD')
print('Quintiles:')
print(quin)
print('Rango:', range,'USD')

Indicadores generales de salarios:
Promedio: 137570.39 USD
Desviación estándar: 63055.63 USD
Quintiles:
0.2     83972.8
0.4    120000.0
0.6    149850.0
0.8    185900.0
1.0    450000.0
Name: salary_in_usd, dtype: float64
Rango: 444868 USD


#### 2. Una comparación entre los salarios agrupados por 3 diferentes categorías a tu elección. ¿Para cuál de ellas las medidas de tendencia central son más representativas? ¿Para cuál son menos representativas? Explica.

In [4]:
#Compararemos los salarios por nivel de experiencia, tipo de contrato y tamaño de la empresa
categorias=['experience_level', 'employment_type', 'company_size']

for categoria in categorias:
    print('Análisis por categoría:', categoria)
    comparacion=data.groupby(categoria)['salary_in_usd'].agg(['mean', 'median', 'std', 'count'])
    print(comparacion.sort_values(by='mean', ascending=False))
    print('')

Análisis por categoría: experience_level
                           mean    median           std  count
experience_level                                              
EX                194930.929825  196000.0  70661.929661    114
SE                153051.071542  146000.0  56896.263954   2516
MI                104525.939130  100000.0  54387.685128    805
EN                 78546.284375   70000.0  52225.424309    320

Análisis por categoría: employment_type
                          mean    median            std  count
employment_type                                               
FT               138314.199570  135000.0   62452.177613   3718
CT               113446.900000   75000.0  130176.746842     10
FL                51807.800000   50000.0   29458.879336     10
PT                39533.705882   21669.0   38312.145181     17

Análisis por categoría: company_size
                       mean    median           std  count
company_size                                              
M     

En general, las medidas de tendencia central son más representativas cuando la media y la mediana tienen valores cercanos, la desviación estándar es relativamente baja, lo que indicará menos dispersión en los datos, y por último el tamaño de la muestra es grande, ya que da mayor estabilidad a los cálculos.
Y son menos representativas cuando existe una gran diferencia entre la media y la mediana, ya que puede indicar valores extremos (la media se ve afectado por los valores extremos, pero la mediana no), la desviación estándar es alta, lo que sugiere una gran variabilidad en los datos, y el tamaño de la muestra es muy pequeño, lo que hace que los resultados son más susceptibles a valores atípicos.

En nuestro caso de estudio las medidas de tendencia son más representativas en:

- experience_level en la categoría SE
- employment_type en la categoría FT
- company_size en la categoría M

Y son menos representativas en:

- experience_level en la categoría EX
- employment_type en la categoría CT
- company_size en la categoría S

#### 3. ¿Qué cargos reciben mejores sueldos en las empresas con sede en Estados Unidos?

In [5]:
#Extraemos la info de las empresas solo localizadas en EEUU
usa_data=data[data['company_location'] == 'US']

#Calculamos las medidas agrupadas
cargos_usa=usa_data.groupby('job_title')['salary_in_usd'].agg(['mean', 'median', 'std', 'count'])
cargos_top=cargos_usa.sort_values(by='mean', ascending=False).head(10)

print('Cargos mejor remunerados en empresas de EE. UU.:')
print(cargos_top)

Cargos mejor remunerados en empresas de EE. UU.:
                                             mean    median            std  \
job_title                                                                    
Data Analytics Lead                 405000.000000  405000.0            NaN   
Data Science Tech Lead              375000.000000  375000.0            NaN   
Director of Data Science            294375.000000  287500.0   52912.404028   
Principal Data Scientist            255500.000000  227500.0  113079.617969   
Cloud Data Architect                250000.000000  250000.0            NaN   
Applied Data Scientist              238000.000000  177000.0  123381.522117   
Head of Data                        233183.333333  220000.0   59762.209352   
Machine Learning Software Engineer  217400.000000  180000.0  109196.153778   
Data Lead                           212500.000000  212500.0   17677.669530   
Head of Data Science                202355.000000  195800.0   75360.360104   

              

Nota: Ojo con las conclusiones de esta útlima pregunta, hay muchos valores de salarios que están basado en un solo dato, por lo que pueden no ser representativos &#x1F440;