# Data Science Salaries 2023

Este conjunto de datos es útil para entender la distribución de los salarios en el campo de la ciencia de datos y cómo estos pueden variar en función de factores como la ubicación del empleado y del empleador, el nivel de experiencia, el tipo de empleo, entre otros. Nos permite explorar el impacto del trabajo remoto en los salarios de ciencia de datos y empezar a sacar nuestras propias conclusiones.

#### VARIABLES

<table>
  <tr>
    <th>Nombre de la columna</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>El año en que se pagó el salario.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>El nivel de experiencia en el trabajo durante el año.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>El tipo de empleo para el rol.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>El rol desempeñado durante el año.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>El total bruto del salario pagado.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>La moneda del salario pagado como código de moneda ISO 4217.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>El salario en dólares estadounidenses (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>El principal país de residencia del empleado durante el año de trabajo como código de país ISO 3166.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>La cantidad total de trabajo realizado a distancia.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>El país de la oficina principal del empleador o la sucursal contratante.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>El número mediano de personas que trabajaron para la empresa durante el año.</td>
  </tr>
</table>


## Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset

#### Importamos las librerías necesarias:


In [3]:
!pip install datascience



In [4]:
!pip install seaborn




In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import plotly.express as px

In [6]:
!pip install nbformat



#### Cargamos nuestro dataset


In [7]:
df = pd.read_csv("ds_salaries.csv")

In [8]:
df.head(15)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
7,2023,SE,FT,Data Scientist,219000,USD,219000,CA,0,CA,M
8,2023,SE,FT,Data Scientist,141000,USD,141000,CA,0,CA,M
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M


¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?

In [9]:
df.shape

(3755, 11)

¿Qué tipos de datos contiene cada columna? 

In [10]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

### ¿Existen valores faltantes en el conjunto de datos? 

In [11]:
df_isnull = df.isnull()

fig = px.imshow(df_isnull, 
                title="Mapa de Calor de Valores Faltantes",
                labels=dict(x="Rows", y="Index", color="Faltante"),
                x=df.columns,
                template="plotly_dark")

fig.show()

### ¿Cúal es la distribución que presentan las variables de nuestro dataset?

In [12]:
variables_numericas = ['salary_in_usd', 'remote_ratio']

for var in variables_numericas:
    fig = px.histogram(df, x=var, title=f'Histograma de {var}', template="plotly_dark", marginal='box')
    fig.show()

### Crea una gráfica para visualizar nuestras variables numéricas:

In [13]:
for variable in variables_numericas:
    fig = px.histogram(df, x=variable,
                       title=f'Histograma de {variable}',
                       marginal="box",
                       template="plotly_dark", 
                       labels={variable: f"{variable}"}) # Añade un boxplot en la parte superior
    fig.update_layout(bargap=0.2)  # Ajusta el espacio entre barras
    fig.show()

### Crea una gráfica para visualizar nuestras variables categóricas:

In [14]:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [15]:
variables_categoricas = [
    'experience_level', 'employment_type', 'job_title',
    'salary_currency', 'employee_residence', 'remote_ratio',
    'company_location', 'company_size'
]

for variable in variables_categoricas:
    # Contar la frecuencia de cada categoría
    category_counts = df[variable].value_counts().reset_index()
    category_counts.columns = [variable, 'count']
    
    # Crear el gráfico de barras
    fig = px.bar(category_counts, x=variable, y='count',
                 title=f'Distribución de {variable}',
                 labels={'count': 'Frecuencia', variable: 'Categoría'},
                 text='count',
                 template="plotly_dark")  # Muestra el conteo sobre cada barra para mayor claridad
    
    fig.show()


### Identifica los outliers de nuestro dataset de forma gráfica: 

In [16]:
variables_numericas = ['work_year', 'salary', 'salary_in_usd']

for var in variables_numericas:
    fig = px.histogram(df, x=var, title=f'Histograma de {var}', template="plotly_dark", marginal='box')
    fig = px.box(df, y=var, title=f'Histograma de {var}', template="plotly_dark")
    fig.show()

## Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva:

### ¿Cuál es el salario promedio por nivel de experiencia?

In [17]:
salario_medio_por_experiencia = df.groupby('experience_level')['salary_in_usd'].mean().reset_index()

fig = px.bar(salario_medio_por_experiencia, 
             x='experience_level', 
             y='salary_in_usd', 
             title='Salario Medio por Nivel de Experiencia',
             labels={'experience_level': 'Nivel de Experiencia', 'salary_in_usd': 'Salario Medio en USD'},
             text='salary_in_usd',
             color='experience_level',
             template="plotly_dark")

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.show()

### ¿Cómo ha cambiado el salario medio con el paso del tiempo?

In [46]:
sueldo_medio = df.groupby("work_year")["salary_in_usd"].mean().reset_index()
fig = px.area(sueldo_medio, x="work_year", y="salary_in_usd", color="work_year", template="plotly_dark")
fig.show()
print('Podemos deducir a través de esta gráfica que los salarios aumentan con el paso de los años.')

Podemos deducir a través de esta gráfica que los salarios aumentan con el paso de los años.


### ¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?

In [29]:
remoto_roles = df.groupby("job_title")["remote_ratio"].mean().reset_index()
fig = px.bar(remoto_roles, x='remote_ratio', y='job_title', color='remote_ratio', title='Proporción de trabajo remoto por puesto de trabjo', template="plotly_dark")
fig.show()

### ¿Existe una relación entre el tamaño de la empresa y el salario?

In [40]:
tamaño_y_salario = df.groupby("company_size")["salary_in_usd"].mean().reset_index()
fig = px.area(tamaño_y_salario, x='company_size', y='salary_in_usd', title='Relación entre el tamaño de la empresa y el salario', template="plotly_dark")
fig.show()
print('Esto muestra que no hay una relación directa, al ser las empresas medianas las que mejor pagan en el sector')

Esto muestra que no hay una relación directa, al ser las empresas medianas las que mejor pagan en el sector


### ¿Cuál es el país con más trabajadores remotos?

In [63]:
mas_remotos = df.groupby("company_location")["remote_ratio"].mean().reset_index()
fig = px.area(mas_remotos, x='company_location', y='remote_ratio', title='Países con más trabajadores remotos', template="plotly_dark")
fig.show()

### ¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?

In [47]:
remoto_tiempo = df.groupby("work_year")["remote_ratio"].mean().reset_index()
fig = px.line(remoto_tiempo, x='work_year', y='remote_ratio', title='Proporción de trabajo remoto con el paso del tiempo', template="plotly_dark")
fig.show()
print('En este caso podemos observar una tendencia negativa desde el COVID, donde hubo un repunte dee trabajo remoto que ha ido descendiendo paulatínamente')

En este caso podemos observar una tendencia negativa desde el COVID, donde hubo un repunte dee trabajo remoto que ha ido descendiendo paulatínamente


### ¿Cuál es el país con los salarios promedio más altos en USD?

In [59]:
salarios_altos = df.groupby("company_location")["salary_in_usd"].mean().reset_index()
fig = px.bar(salarios_altos, x='company_location', y='salary_in_usd', color='salary_in_usd', title='Países con salarios más altos', template="plotly_dark")
fig.show()

### ¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?

In [55]:
roles_por_categoria = df.groupby(['job_title','experience_level']).size().reset_index()
fig = px.scatter(roles_por_categoria, x='experience_level', y='job_title', color='job_title', title='Distribución de roles de trabajo por experiencia', template="plotly_dark")
fig.show()


### ¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime ect?

In [54]:
salario_tipos_empleo = df.groupby('employment_type')['salary_in_usd'].mean().reset_index()
fig = px.bar(salario_tipos_empleo, x='employment_type', y='salary_in_usd', color='employment_type', title='Variación del salario promedio por tipo de empleo', template="plotly_dark")
fig.show()
print('El salario promedio es equitativo a las horas trabahjadas,siendo el PT(part time) los que cuentan con el salario más bajo y FT(full time) con el más alto')

El salario promedio es equitativo a las horas trabahjadas,siendo el PT(part time) los que cuentan con el salario más bajo y FT(full time) con el más alto


### Crear un top10 con los empleos mas demandados:

In [26]:
top_10_empleos = df.job_title.value_counts()[:10].index.tolist()
fig = px.funnel_area(df[df.job_title.isin(top_10_empleos)], 'job_title', title='Top 10 de empleos más demandados', template="plotly_dark")
fig.show()

###  Crear un top10 con los empleos mas cotizados:

In [27]:
top_10_cotizados = df.groupby('job_title')['salary_in_usd'].mean().reset_index() 
fig = px.scatter(top_10_cotizados[:10], y='salary_in_usd', x='job_title', color='salary_in_usd', size='salary_in_usd', title='Top 10 empleos más cotizados', template="plotly_dark")
fig.show()

###  Crear un top10 con empleos donde podemos trabajar remoto: 

In [53]:
top10_remotos = df.groupby('job_title')['remote_ratio'].mean().reset_index()
fig = px.bar(top10_remotos[:10].sort_values(by='remote_ratio', ascending=False), x='job_title', y='remote_ratio', 
                title='Top 10 de profesiones que más trabajo remoto tienen', color='remote_ratio', template="plotly_dark")
fig.show()