# CONTEXTO Y DESCRIPCIÓN DEL PROBLEMA

Este dataset proporciona un panorama detallado sobre salarios y condiciones laborales en el campo de la ciencia de datos, incluyendo tipos de empleo, niveles de experiencia, y ajustes salariales por ubicación geográfica y moneda. Destaca la influencia de la experiencia y el trabajo remoto en las compensaciones, y ofrece insights sobre la distribución global de empleos en la industria. Es una herramienta esencial para analizar tendencias salariales y laborales en la ciencia de datos, útil tanto para profesionales del área como para empleadores.

# IMPORTAR LIBRERIA

In [40]:
import pandas as pd

## CARGA DE DATOS

Importamos la libreria Pandas y cargamos la base de datos.

In [7]:
df = pd.read_csv("ds_salaries.csv")
df

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


# ANALISIS ESTADISTICO Y CONTEXTUALIZACION


In [10]:
df.shape

(3755, 11)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB


In [25]:
df.describe().round()

Unnamed: 0,work_year,salary_in_usd
count,3755.0,3755.0
mean,2022.0,137570.0
std,1.0,63056.0
min,2020.0,5132.0
25%,2022.0,95000.0
50%,2022.0,135000.0
75%,2023.0,175000.0
max,2023.0,450000.0


In [14]:

df['experience_level'] = df['experience_level'].replace({'EN': 'Entry level', 'MI': 'Mid-level', 'SE': 'Senior level', 'EX': 'Expert'})


df['employment_type'] = df['employment_type'].replace({'FT': 'Full-Time', 'PT': 'Part-Time', 'CT': 'Contract', 'FL': 'Freelance'})


df['company_size'] = df['company_size'].replace({'S': 'Small company', 'M': 'Medium company', 'L': 'Large company'})

df

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary_in_usd,employee_residence,company_location,company_size
0,2023,Senior level,Full-Time,Principal Data Scientist,85847,ES,ES,Large company
1,2023,Mid-level,Contract,ML Engineer,30000,US,US,Small company
2,2023,Mid-level,Contract,ML Engineer,25500,US,US,Small company
3,2023,Senior level,Full-Time,Data Scientist,175000,CA,CA,Medium company
4,2023,Senior level,Full-Time,Data Scientist,120000,CA,CA,Medium company
...,...,...,...,...,...,...,...,...
3750,2020,Senior level,Full-Time,Data Scientist,412000,US,US,Large company
3751,2021,Mid-level,Full-Time,Principal Data Scientist,151000,US,US,Large company
3752,2020,Entry level,Full-Time,Data Scientist,105000,US,US,Small company
3753,2020,Entry level,Contract,Business Data Analyst,100000,US,US,Large company


# TRATAMIENTO Y LIMPIEZA

En vista de que no hay valores nulos y todos los tipos de datos de las columnas corresponden con su naturaleza y tampoco encontramos nombres en las columnas con espacios, solo vamos a elimnar las columnas que no nos interesan para nuestro analisis.


In [8]:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB


In [17]:
df

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary_in_usd,employee_residence,company_location,company_size
0,2023,Senior level,Full-Time,Principal Data Scientist,85847,ES,ES,Large company
1,2023,Mid-level,Contract,ML Engineer,30000,US,US,Small company
2,2023,Mid-level,Contract,ML Engineer,25500,US,US,Small company
3,2023,Senior level,Full-Time,Data Scientist,175000,CA,CA,Medium company
4,2023,Senior level,Full-Time,Data Scientist,120000,CA,CA,Medium company
...,...,...,...,...,...,...,...,...
3750,2020,Senior level,Full-Time,Data Scientist,412000,US,US,Large company
3751,2021,Mid-level,Full-Time,Principal Data Scientist,151000,US,US,Large company
3752,2020,Entry level,Full-Time,Data Scientist,105000,US,US,Small company
3753,2020,Entry level,Contract,Business Data Analyst,100000,US,US,Large company


# EXTRACCION DE INFORMACION


1.	¿Cómo varía el salario promedio por nivel de experiencia en ciencia de datos?

In [64]:
sal_prom_exp = df.groupby("experience_level")["salary_in_usd"].mean()
sal_prom_exp = sal_prom_exp.sort_values(ascending=False)
sal_prom_exp.round()

experience_level
Expert          194931.0
Senior level    153051.0
Mid-level       104526.0
Entry level      78546.0
Name: salary_in_usd, dtype: float64

2.	¿Cuál es el tipo de empleo más común en la industria de la ciencia de datos?

In [20]:
df["employment_type"].value_counts()

employment_type
Full-Time    3718
Part-Time      17
Contract       10
Freelance      10
Name: count, dtype: int64

3.	¿Existe una diferencia significativa en el salario entre empleados a tiempo completo y empleados contratados?

In [22]:
dif_sal_job = df.groupby("employment_type")["salary_in_usd"].sum()
dif_sal_job = dif_sal_job.sort_values(ascending=False)
dif_sal_job

employment_type
Full-Time    514252194
Contract       1134469
Part-Time       672073
Freelance       518078
Name: salary_in_usd, dtype: int64

4.	¿Qué nivel de experiencia tiende a estar asociado con mayores salarios en la ciencia de datos?

In [67]:
max_sal_job = df.groupby("experience_level")["salary_in_usd"].sum()
max_sal_job = max_sal_job.sort_values(ascending=False)
max_sal_job.head()

experience_level
Senior level    385076496
Mid-level        84143381
Entry level      25134811
Expert           22222126
Name: salary_in_usd, dtype: int64

5.	¿Cuál es la distribución de tamaños de empresa entre los empleadores de ciencia de datos?

In [26]:
df["company_size"].value_counts()

company_size
Medium company    3153
Large company      454
Small company      148
Name: count, dtype: int64

6.	¿Cómo difieren los salarios promedio entre pequeñas, medianas y grandes empresas en ciencia de datos?

In [29]:
dist_comp_sal = df.groupby("company_size")["salary_in_usd"].mean()
dist_comp_sal = dist_comp_sal.sort_values(ascending=False)
dist_comp_sal.round(2)

company_size
Medium company    143130.55
Large company     118300.98
Small company      78226.68
Name: salary_in_usd, dtype: float64

7.	¿Cuál es la ubicación geográfica más común para empleados y empleadores en la ciencia de datos?


In [47]:
ubi_empleado = df["company_location"].value_counts()
ubi_empleado.head()

company_location
US    3040
GB     172
CA      87
ES      77
IN      58
Name: count, dtype: int64

In [48]:
ubi_empleador = df["employee_residence"].value_counts()
ubi_empleador.head()

employee_residence
US    3004
GB     167
CA      85
ES      80
IN      71
Name: count, dtype: int64

8.	¿Existe alguna relación entre el nivel de experiencia y el tipo de empleo ofrecido en la industria de la ciencia de datos?

In [52]:
rel_lvlex_emtyp = df.groupby("experience_level")["employment_type"].value_counts()
rel_lvlex_emtyp = rel_lvlex_emtyp.sort_values(ascending=False)
rel_lvlex_emtyp.head(10)

experience_level  employment_type
Senior level      Full-Time          2511
Mid-level         Full-Time           792
Entry level       Full-Time           302
Expert            Full-Time           113
Entry level       Part-Time            14
Mid-level         Contract              5
                  Freelance             5
                  Part-Time             3
Senior level      Freelance             3
Entry level       Contract              2
Name: count, dtype: int64

9.	¿Cuál es el salario promedio para diferentes tipos de empleo en empresas de diferentes tamaños?

In [60]:
sal_prom_emptyp_sizcomp = df.groupby(["employment_type", "company_size"])["salary_in_usd"].mean()
sal_prom_emptyp_sizcomp.round()

employment_type  company_size  
Contract         Large company     185000.0
                 Medium company     58242.0
                 Small company     132875.0
Freelance        Large company      20000.0
                 Medium company     61511.0
                 Small company      47631.0
Full-Time        Large company     119376.0
                 Medium company    143521.0
                 Small company      79236.0
Part-Time        Large company      32724.0
                 Medium company     47553.0
                 Small company      39661.0
Name: salary_in_usd, dtype: float64

10. ¿Cuál es la distribución de salarios para diferentes títulos de trabajo en la industria de la ciencia de datos?

In [70]:
sal_job = df.groupby("job_title")["salary_in_usd"].sum()
sal_job = sal_job.sort_values(ascending=False)
sal_job.head(5)

job_title
Data Engineer                148497164
Data Scientist               118330603
Data Analyst                  66534331
Machine Learning Engineer     44705620
Data Architect                16333091
Name: salary_in_usd, dtype: int64

# CONCLUSION

Variación por Nivel de Experiencia:

Los salarios en ciencia de datos tienden a aumentar con el nivel de experiencia. Los profesionales con niveles más altos de experiencia, como Expertos y Niveles Senior, tienden a ganar salarios significativamente más altos en comparación con aquellos en niveles de entrada y niveles medios.
Impacto del Tipo de Empleo:

Existe una diferencia significativa en los salarios según el tipo de empleo. Aquellos empleados a tiempo completo suelen tener salarios más altos en comparación con empleados contratados, a tiempo parcial o freelance.

Asociación con el Título del Trabajo:

Algunos títulos de trabajo en ciencia de datos están asociados con salarios más altos que otros. Por ejemplo, roles como Ingeniero de Datos y Científico de Datos tienden a tener salarios más altos en comparación con roles como Analista de Datos o Arquitecto de Datos.

Diferencias entre Tamaños de Empresa:

Los salarios también varían según el tamaño de la empresa. Empleados en empresas más grandes tienden a ganar más en promedio en comparación con aquellos en empresas medianas o pequeñas.

Tendencias Geográficas:

Estados Unidos es el país con la mayor concentración de empresas que contratan profesionales de ciencia de datos, seguido por el Reino Unido, Canadá, España e India. Esto sugiere que estos países ofrecen un mayor número de oportunidades laborales en términos absolutos.

Recomendaciones:

Los profesionales de ciencia de datos pueden considerar buscar oportunidades en empresas más grandes y en roles que requieran niveles más altos de experiencia para maximizar sus ingresos.
Explorar oportunidades en países con una alta concentración de empresas que contratan profesionales de ciencia de datos puede ser beneficioso para aquellos que buscan oportunidades laborales globales y salarios competitivos.


En resumen, los salarios en ciencia de datos están influenciados por una variedad de factores, incluido el nivel de experiencia, el tipo de empleo, el título del trabajo, el tamaño de la empresa y la ubicación geográfica. Entender estas tendencias puede ayudar a los profesionales de ciencia de datos a tomar decisiones informadas sobre su carrera y maximizar su potencial salarial.

# EXPORTACION DE DATOS

In [66]:
df.to_csv('ds_salaries.csv', index=False)