# Desafío 1: Estadística descriptiva y probabilidades (Parte I)
## Vicente Soto Valladares — Módulo: Análisis Estadístico con Python


## Carga y exploración inicial
El dataset `ds_salaries.csv` contiene registros de salarios en distintas posiciones de ciencia de datos a nivel global. La columna `salary_in_usd` representa el salario anual convertido a dólares.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("ds_salaries.csv")
df.head()


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


## Estadísticas generales de salarios
Se analizó la distribución de salarios utilizando medidas como el promedio, la desviación estándar, el rango y los quintiles. Esto permite comprender la dispersión y tendencia central del salario en el dataset.


In [2]:
salarios = df["salary_in_usd"]

promedio = salarios.mean()
desviacion = salarios.std()
quintiles = salarios.quantile([0.2, 0.4, 0.6, 0.8])
rango = salarios.max() - salarios.min()

print("Promedio:", promedio)
print("Desviación estándar:", desviacion)
print("Quintiles:")
print(quintiles)
print("Rango:", rango)

Promedio: 137570.38988015978
Desviación estándar: 63055.6252782241
Quintiles:
0.2     83972.8
0.4    120000.0
0.6    149850.0
0.8    185900.0
Name: salary_in_usd, dtype: float64
Rango: 444868


## Agrupación por categoría
Se agruparon los salarios por:
- Nivel de experiencia (`experience_level`)
- Tipo de empleo (`employment_type`)
- Tamaño de empresa (`company_size`)

Esto permite observar cómo varía el salario promedio y su dispersión según distintas condiciones laborales.


In [3]:
grupo_experiencia = df.groupby("experience_level")["salary_in_usd"].describe()
grupo_empleo = df.groupby("employment_type")["salary_in_usd"].describe()
grupo_empresa = df.groupby("company_size")["salary_in_usd"].describe()

print("\nEstadísticas por nivel de experiencia:")
print(grupo_experiencia)

print("\nEstadísticas por tipo de empleo:")
print(grupo_empleo)

print("\nEstadísticas por tamaño de empresa:")
print(grupo_empresa)



Estadísticas por nivel de experiencia:
                   count           mean           std      min       25%  \
experience_level                                                           
EN                 320.0   78546.284375  52225.424309   5409.0   40000.0   
EX                 114.0  194930.929825  70661.929661  15000.0  145000.0   
MI                 805.0  104525.939130  54387.685128   5132.0   66837.0   
SE                2516.0  153051.071542  56896.263954   8000.0  115000.0   

                       50%        75%       max  
experience_level                                 
EN                 70000.0  110009.25  300000.0  
EX                196000.0  239000.00  416000.0  
MI                100000.0  135000.00  450000.0  
SE                146000.0  185900.00  423834.0  

Estadísticas por tipo de empleo:
                  count           mean            std      min       25%  \
employment_type                                                            
CT               

## Representatividad del promedio
En general, el promedio es una buena medida de tendencia central cuando la desviación estándar es baja.

- Para empleo **Full-Time (FT)** y empresas grandes (**L**), los salarios son más homogéneos, por lo que el promedio es representativo.
- Para trabajo **freelance (FL)**, la dispersión salarial es muy alta, lo que sugiere que el promedio no representa bien la distribución.


## Top 10 cargos mejor pagados en empresas de EE.UU.
Se filtraron las empresas ubicadas en EE.UU. (`company_location = 'US'`) y se calcularon los salarios promedio por cargo (`job_title`). A partir de esto se construyó un ranking con los 10 cargos con mayores salarios medios.


In [4]:
us_jobs = df[df["company_location"] == "US"]
mejores_cargos = (
    us_jobs.groupby("job_title")["salary_in_usd"]
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

print("Top 10 cargos mejor pagados en empresas de EEUU:")
print(mejores_cargos)


Top 10 cargos mejor pagados en empresas de EEUU:
job_title
Data Analytics Lead                   405000.000000
Data Science Tech Lead                375000.000000
Director of Data Science              294375.000000
Principal Data Scientist              255500.000000
Cloud Data Architect                  250000.000000
Applied Data Scientist                238000.000000
Head of Data                          233183.333333
Machine Learning Software Engineer    217400.000000
Data Lead                             212500.000000
Head of Data Science                  202355.000000
Name: salary_in_usd, dtype: float64
