# Data Science Salaries 2023

Este conjunto de datos es útil para entender la distribución de los salarios en el campo de la ciencia de datos y cómo estos pueden variar en función de factores como la ubicación del empleado y del empleador, el nivel de experiencia, el tipo de empleo, entre otros. Nos permite explorar el impacto del trabajo remoto en los salarios de ciencia de datos y empezar a sacar nuestras propias conclusiones.

#### VARIABLES

<table>
  <tr>
    <th>Nombre de la columna</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>El año en que se pagó el salario.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>El nivel de experiencia en el trabajo durante el año.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>El tipo de empleo para el rol.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>El rol desempeñado durante el año.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>El total bruto del salario pagado.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>La moneda del salario pagado como código de moneda ISO 4217.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>El salario en dólares estadounidenses (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>El principal país de residencia del empleado durante el año de trabajo como código de país ISO 3166.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>La cantidad total de trabajo realizado a distancia.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>El país de la oficina principal del empleador o la sucursal contratante.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>El número mediano de personas que trabajaron para la empresa durante el año.</td>
  </tr>
</table>

### Objetivos:

El objetivo principal de este ejercicio es aprender y aplicar técnicas de análisis y visualización de datos utilizando las bibliotecas de Python Matplotlib, Seaborn y Plotly. 

Los pasos adecuados para completarlo son:

1. **Explorar el conjunto de datos**: Comprender la estructura del conjunto de datos, los tipos de variables presentes y cómo estas están distribuidas.
   **Limpiar y preparar el conjunto de datos**: Manipular los datos para que sean más accesibles y útiles para el análisis. Esto puede incluir tratar con valores faltantes, convertir tipos de datos y generar nuevas variables a partir de las existentes.
   
2. **Analizar el conjunto de datos**: Extraer información útil y significativa del conjunto de datos a través de diversas técnicas de análisis de datos. </br>
   **Visualizar los datos**: Crear gráficos y diagramas que ayuden a entender y comunicar los patrones y las relaciones presentes en los datos.

Para responder a las preguntas planteadas se deben usar las siguientes bibliotecas :

- Usar **Matplotlib** para crear gráficos básicos como gráficos de barras, de líneas y de dispersión.
- Usar **Seaborn** para crear gráficos más complejos y atractivos visualmente, aprovechando sus capacidades de integración con pandas.
- Usar **Plotly** para crear gráficos interactivos que permiten una exploración más profunda de los datos.

### Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset

### Importación de librerías

In [311]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import math
from sklearn.preprocessing import LabelEncoder

### Primer vistazo a los datos

In [252]:
df=pd.read_csv(r"E:\COPIA_DAWN\DAWN\CURSOSYLIBROS\Data\Upgrade Hub Data Analytics Bootcamp\Tareas\Module1_9_Plotly\data_practica\ds_salaries.csv")

In [253]:
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


### Observaciones

En el dataset se nos muestra los datos recogidos de los diferentes empleados dentro del sector de Data Science, recogido dentro de la columna 'work_year' entre los años que van de 2020 a 2023. Dentro de los datos se especificará su nivel de experiencia, columna 'experience_level', que se va a dividir en EX (nivel experto), SE (nivel senior), MI (nivel intermedio) y EN (nivel junior). En la columna 'employment_type', se lista el tipo de contrato al que los empleados están sujetos y se divide en FT (a tiempo completo), PT (media jornada), 'FL' (autónomo) y CT (subcontrata). En la columna 'job_title', 'salary', 'salary_currency', 'salary_in_usd' y 'employee_residence' se puede ver el empleo de los sujetos, su salario, la divisa, el salario en dólares y su residencia, respectivamente. En 'remote_ratio', veremos el porcentaje de trabajo remoto que realizan. En 'company_location' vemos el país donde está situada la empresa en la que trabajan. Y, finalmente, en la columna 'company_size' podemos ver el tamaño de empresa en la que trabajan, que se divide en S(una empresa pequeña), M (una empresa mediana) y L (una empresa grande).

In [254]:
df['work_year'].unique()

array([2023, 2022, 2020, 2021], dtype=int64)

In [255]:
df['experience_level'].unique()

array(['SE', 'MI', 'EN', 'EX'], dtype=object)

In [256]:
df['employment_type'].unique()

array(['FT', 'CT', 'FL', 'PT'], dtype=object)

In [257]:
df['company_size'].unique()

array(['L', 'S', 'M'], dtype=object)

### Conjunto de Datos

In [258]:
df.shape

(3755, 11)

In [259]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

Observamos que en el dataset vamos a tener 3755 filas y 11 columnas. En estas últimas tenemos 4 columnas que van a ser variables numéricas, las cuales serían 'work_year', 'salary', 'salary_in_usd' y 'remote_ratio' y el resto van a ser variables categóricas, aportando información a los datos numéricos.

### Limpieza de los datos

In [260]:
df.isnull().sum()

work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64

Primero, hemos comprobado que no hay valores nulos en el dataset.

In [261]:
duplicates=df.duplicated()
num_duplicates=duplicates.sum()
if duplicates.any():
    print("Se han encontrado duplicados en el DataFrame.")
    print('Hay un total de', num_duplicates, 'valores duplicados en el DataFrame.')
else:
    print("No hay duplicados en el DataFrame.")

Se han encontrado duplicados en el DataFrame.
Hay un total de 1171 valores duplicados en el DataFrame.


In [262]:
duplicate_rows=df[duplicates].sort_values(by='work_year')
duplicate_rows.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
3120,2020,EN,FT,Data Engineer,1000000,INR,13493,IN,100,IN,L
3709,2021,MI,FT,Data Scientist,76760,EUR,90734,DE,50,DE,L
3586,2021,MI,FT,Data Engineer,200000,USD,200000,US,100,US,L
3439,2022,MI,FT,Data Scientist,78000,USD,78000,US,100,US,M
2365,2022,SE,FT,Data Analyst,110600,USD,110600,US,0,US,M


In [263]:
df.drop_duplicates()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


Seguidamente, se comprueba que no hay duplicados en los datos. Al contrario que en el caso anterior, se han encontrado 1171 filas duplicadas. Estas filas aportan valores que no son de interés, ya que están modificando los resultados que se van a obtener en los datos, por lo que han sido eliminadas.

In [264]:
len(df['job_title'].unique())

93

In [265]:
df['job_title'] = df['job_title'].str.lower()
df['job_specialization']=None

job_specializations = {
    'data': 'Data',
    'insight': 'Data',
    'scientist': 'Scientist',
    'engineer': 'Engineer',
    'learning': 'Artificial Intelligence',
    'ml': 'Artificial Intelligence',
    'ai': 'Artificial Intelligence',
    'researcher': 'Artificial Intelligence',
    'technician': 'Artificial Intelligence',
    'bi': 'Business Intelligence',
    'developer': 'Engineer'
}

for i, v in enumerate(df['job_title']):
    if pd.isnull(df.loc[i, 'job_specialization']):
        for value, specialization in job_specializations.items():
            if value in v:
                df.loc[i, 'job_specialization'] = specialization
                break
df['job_title'] = df['job_title'].str.title()

En este paso, se observa que en la columna de 'job_title' se tienen 93 valores diferentes para los trabajos que llevan a cabo los sujetos, por ello, se toma la decision de agrupar los diferentes trabajos en 7 grupos de interés, para mejorar la visualización gráfica del usuario. Estos grupos que se han asignado son Data, Scientist, Engineer, Artificial Intelligence y Business Intelligence.

In [266]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
work_year,3755.0,2022.373635,0.691448,2020.0,2022.0,2022.0,2023.0,2023.0
salary,3755.0,190695.571771,671676.500508,6000.0,100000.0,138000.0,180000.0,30400000.0
salary_in_usd,3755.0,137570.38988,63055.625278,5132.0,95000.0,135000.0,175000.0,450000.0
remote_ratio,3755.0,46.271638,48.58905,0.0,0.0,0.0,100.0,100.0


Finalmente, se observa de una manera global los datos que nos van a aportar las variables numéricas. De aquí, podemos ver que el salario medio en dólares se encuentra en casi 140 000 usd, mientras que el salario máximo estaría en 450 000 usd. Debido a la gran diferencia que hay entre el salario máximo y la media y la mediana, esto puede indicar la presencia de valores atípicos dentro de la variable.

### Observación gráfica

#### Variables categóricas

In [267]:
cols = ['experience_level', 'employment_type', 'job_specialization', 'salary_currency', 'employee_residence', 'company_size', "company_location"]
fig = make_subplots(rows=3, cols=3, subplot_titles=cols)
for i, col in enumerate(cols):
    row = i // 3 + 1
    col = i % 3 + 1
    fig.add_trace(go.Histogram(x=df[cols[i]], nbinsx=20, name=f'Distribución de {cols[i]}'), row=row, col=col)
fig.update_yaxes(showticklabels=False, row=3, col=3) #Esto elimina aquellas que están vacías.
fig.update_layout(height=1200, width=1500, title_text="Distribución de Variables", template='plotly_dark', showlegend=False)
fig.update_xaxes(tickangle=90)
fig.show()

Aquí se está representando el conteo de las variables categóricas que se han utilizado para clasificar la variables numéricas del dataset. En la primera podemos ver que el nivel de experiencia SE (experiencia senior) es el más predominante entre los usuarios. En la segunda, el tipo de contrato FT (a tiempo completo) es el más común entre los empleados. En la tercera vemos los diferentes grupos creados para encasillar los trabajos listados dentro de la columna 'job_title'. Se comprueba que dentro del grupo 'Data' que englobaría todos aquellos trabajos especializados en el análisis y manejo de datos, es donde hay el mayor número de trabajos. En las tres siguientes, 'salary_currency', 'employee_residence' y 'company_location' vemos que los más predominante en las tres son los dólares (usd) y la residencia en Estados Unidos. Finalmente, en la gráfica que muestra el tamaño de la empresa, llamada 'company_size', vemos que la más predominante entre los usuarios es la empresa de tamaño mediano (M).

#### Variables numéricas

In [268]:
cols = ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']
fig = make_subplots(rows=1, cols=4)
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {cols[i]}'), row=1, col=i+1)
fig.update_layout(height=400, width=1200, title_text="Distribución de Variables", template='plotly_dark',showlegend=True)
fig.show()

Aquí se comprueba la distribución de las diferentes variables numéricas dentro del DataFrame. En la primera gráfica, la distribución de 'work_year', se observa que la mayoría de datos se han recogido para el año 2023. En la segunda gráfica, la distribución de 'salary', en sus diferentes divisas, vemos que la mayoría de datos están recogidos dentro de un rango, no obstante, hay presencia de valores atípicos muy alejados del rango mayoritario. En la tercera, la distribución de salary_in_usd, vemos que al pasar el salario a dólares, éste queda más repartido en diferentes rangos, ya que el tener diferentes divisas se creaba un rango muy amplio debido a la gran disparidad entre las monedas de cada país. Aún así, también se observan valores atípicos, como se predijo en el análisis global de los datos. Finalmente, en la distribución de 'remote_ratio', se puede ver que los datos están distribuidos en tres grupos, aquellos que desempeñan su trabajo de manera presencial, los que lo desempeñan de mañnera híbrida (presencial + remoto) y los que lo desempeñan de manera completamente remota, siendo la más predominante la presencial y la que menos, la híbrida.

#### Identificación de Valores Atípicos

In [269]:
def identificar_outliers(dataframe):
    """
    Esta función crea un gráfico de caja (boxplot) para cada columna numérica 
    en un DataFrame para ayudar a identificar los outliers.
    """
    # Seleccionamos solo las columnas numéricas
    numeric_cols = dataframe.select_dtypes(include='number').columns
    # Calculamos el número de filas y columnas para los subplots
    ncols = 4
    nrows = math.ceil(len(numeric_cols) / ncols)
    # Creamos la figura y los subplots
    fig = make_subplots(rows=nrows, cols=ncols, subplot_titles=numeric_cols)
    for i, col in enumerate(numeric_cols):
        # Calculamos las coordenadas del subplot
        row = i // ncols + 1
        col_idx = i % ncols + 1
        # Comprobamos si la columna tiene más de un valor único para evitar errores
        if len(dataframe[col].unique()) > 1:
            fig.add_trace(go.Box(y=dataframe[col], name=col), row=row, col=col_idx)
        else:
            print(f"La columna {col} tiene un solo valor único y no se puede graficar")
    fig.update_layout(title="Gráfico de caja de los outliers", height=600*nrows, showlegend=False, template='plotly_dark')
    fig.show()

identificar_outliers(df)

En la primera gráfica, se puede observar que se ha considerado como valor atípico los datos recogidos dentro del año 2020. Esto se debe a que la cantidad de datos recogidos para ese año es tan pequeña, que no se considera que tengan un peso suficientemente grande como para entrar dentro del rango de datos de interés. En la segunda gráfica se puede comprobar como los salarios quedan recogidos dentro de un rango muy pequeño en comparación con la distribución de valores atípicos. Esto se debe a que la diferencia entre divisas hay imposible recoger todos los salarios dentro de un rango coherente, lo cual alza la necesidad del cambio de divisas a dólares, como se ha hecho dentro del dataset. En la gráfica de 'salary_in_usd' se han conseguido unificar la mayoría de salarios dentro de un rango mayor, no obstante, siguen existiendo valores atípicos muy lejos de ese rango, lo que quiere indicar que puede haber ciertos países en los que para un mismo puesto de trabajo, paguen una cantidad considerablemente mayor en comparación con la mayoría de datos recogidos. Finalmente, para la gráfica de 'remote_ratio' y como se pudo ver en el apartado anterior, todos los datos quedan recogidos dentro del rango establecido, que va del 0 a 100 por ciento.

#### Salario Medio según el Nivel de Experiencia

In [270]:
fig = px.strip(df, x="experience_level", y="salary_in_usd", template="plotly_dark", color='job_specialization')

fig.update_layout(
    title='Distribución de salarios por nivel de experiencia',
    xaxis=dict(title='Nivel de experiencia'),
    yaxis=dict(title='Salario en USD')
)

fig.show()

De esta gráfica podemos comprobar que hay una mayor concentración de trabajos dentro de la experiencia SE. Como es de esperar, los salarios dentro del nivel EN (junior) son más bajos que en el nivel MI (medio), que a su véz son ligéramente más bajos que en nivel SE (senior) y que, igualmente, son ligéramente más bajos que en el nivel EX (experto).

In [271]:
fig = make_subplots(rows=2, cols=1)
salario_medio = df.groupby('experience_level')['salary_in_usd'].mean().reset_index()
fig.add_trace(go.Bar(x=salario_medio["experience_level"], y=salario_medio["salary_in_usd"]),row=1,col=1)
fig.add_trace(go.Box(x=df["experience_level"], y=df["salary_in_usd"]),row=2,col=1)
fig.update_layout(height=1200, width=1200, title_text="Salario Promedio por Nivel de Experiencia", template='plotly_dark', showlegend=True)
fig.show()

En la gráfica de arriba se puede observar que el nivel de experiencia EX (nivel experto) es el que tiene el salario medio más alto, como se pudo comprobar en la gráfica anterior, seguido por el nivel SE (senior), luego por el nivel MI (medio) y finalmente por el nivel EN (junior). No obstante, aquí no somos capaces de apreciar la influencia de los valores atípicos dentro de la media. A pesar de los valores atípicos, la media de los salarios está bastante cerca de la mediana, lo cuál indicaría una distribución simétrica entre los salarios, y que éstos valores suponen un majen de error bastante pequeño dentro de los datos dados.

#### Comparación del Salario por Experiencia y Tipo de Contrato

In [272]:
by_employment = df.groupby(['job_specialization','experience_level','employment_type'])['salary_in_usd'].mean().reset_index()

fig = px.scatter_3d(by_employment,
                    x='employment_type', y='salary_in_usd', z='experience_level', color='job_specialization', template="plotly_dark")
fig.update_layout(
    title="Salario Medio en función del Tipo de Empleo y Experiencia",
    scene=dict(
        xaxis=dict(title="Tipo de Empleo"),
        yaxis=dict(title="Salario Medio en USD"),
        zaxis=dict(title="Nivel de Experiencia")
    )
)

fig.show()

La finalidad de esta comparativa es descubrir si existen diferencias en el salario medio dentro de la misma experiencia cuando hay diferentes tipo de contrato. Se puede observar para todos los niveles de experiencia que el tipo de contrato FL (autónomo), llega a ganar mucho menos que un empleado contratado FT (a tiempo completo), para el mismo nivel de experiencia, y, en ocasiones, incluso considerablemente menos que un PT (media jornada). Para el tipo de contrato CT (subcontrata), se comprueba que su salario es menor que el empleado FT a excepción de un valor atípico, en el cuál el salario medio es mucho mayor que el resto de salarios de la tabla para la especialidad de Data.

#### Evolución del Salario Medio con el paso de los Años

In [273]:
data=df.groupby('work_year')['salary_in_usd'].mean().reset_index()
fig = px.line(data, x='work_year', y='salary_in_usd', template="plotly_dark")

fig.update_layout(
    title='Evolución del Salario Medio',
    xaxis=dict(title='Paso del Tiempo'),
    yaxis=dict(title='Salario en USD')
)
fig.show()

A partir de la gráfica se puede reparar en que, a partir de 2021 hasta el año 2022, hay un crecimiento muy brusco del salario medio. Mientras que para la evolución de 2022 a 2023, el crecimiento deja de tener una pendiente tan pronunciada, lo cuál puede indicar una estabilización del crecimiento salarial.

In [274]:
x_mean=data['work_year'].mean()
y_mean=data['salary_in_usd'].mean()

suma_prod_dif=0
suma_cuad_dif=0

for v1,v2 in zip(data['work_year'],data['salary_in_usd']):
    suma_prod_dif+=(v1-x_mean)*(v2-y_mean)
    suma_cuad_dif+=(v1-x_mean)**2

b1=suma_prod_dif/suma_cuad_dif
b0=y_mean-(x_mean*b1)
y=b0+(b1*2024)

print(f'Para 2024, se estima que el salario medio alcance {round(y,2)} dólares')

pct_salary=((y*100)/data.loc[3,'salary_in_usd'])-100
pct_salary2=((data.loc[2,'salary_in_usd']*100)/data.loc[3,'salary_in_usd'])-((data.loc[1,'salary_in_usd']*100)/data.loc[3,'salary_in_usd'])

print(f'Esto supondría un crecimiento del {round(pct_salary,2)}% frente al {round(pct_salary2,2)}% que hubo de 2021 a 2022.')

Para 2024, se estima que el salario medio alcance 169563.54 dólares
Esto supondría un crecimiento del 13.77% frente al 26.34% que hubo de 2021 a 2022.


In [275]:
fig = go.Figure()
valor = go.Indicator( mode = "number+delta", value = round(y,2), name = "Evolución Salario Medio",
                    delta = dict( reference = data.loc[3,'salary_in_usd'], increasing_color = "green", decreasing_color = "red" ))
fig.add_trace(valor)
fig.update_layout(
    width=400,
    height=300,
    template='plotly_dark'
)
fig.show()

Si se continúa con la misma tendencia de crecimiento, para 2024, se estima que el salario medio alcance 169563.54 dólares. Esto supondría un crecimiento de 2023 a 2024 del 13.77% frente al 26.34% que hubo de 2021 a 2022.

#### Proporción de Trabajo Remoto con la Especialidad

In [276]:
average_remote_ratio_per_job= df.groupby(['job_specialization'])['remote_ratio'].mean().reset_index()

fig = px.bar(average_remote_ratio_per_job,x='remote_ratio', y='job_specialization', template="plotly_dark", color='job_specialization',height=500,orientation='h')

fig.update_layout(
    title='Distribución del Empleo Remoto entre Especializaciones',
    xaxis=dict(title='Ratio Remoto'),
    yaxis=dict(title='Título del empleo')
)

fig.show()

En la gráfica se aprecia que, de media, todos aquellos trabajos relacionados con Business Intelligence tienen un ratio de trabajo remoto del 61% aproximadamente, seguido por aquellos trabajos agrupados en Artifical Intelligence. En las demás especialidades, al ser trabajos más dedicados al tratamiento de datos, donde puede existir el interés de realizar los pertinentes análisis o simulaciones en el sitio de trabajo, ya sea por conveniencia o por temas legales, el ratio se ve disminuido, alcanzando en la especialidad Scientist el 42% aproximadamente.

#### Usuarios con Trabajo Remoto

In [277]:
remote_work_by_country=df[df['remote_ratio']>0].groupby('employee_residence')['remote_ratio'].value_counts()
remote_work_by_country_df=pd.DataFrame(remote_work_by_country).reset_index()
remote_work_by_country_df=remote_work_by_country_df.groupby('employee_residence')['count'].sum()
remote_work_count=pd.DataFrame(remote_work_by_country_df).reset_index()
fig = px.bar(remote_work_count.sort_values(by='count', ascending=False),
             x='employee_residence', y='count', template="plotly_dark", color='employee_residence')

fig.update_layout(
    title='Residencia del Usuario vs Trabajo Remoto',
    yaxis=dict(title='Usuarios con Trabajo Remoto'),
    xaxis=dict(title='Título del empleo')
)

fig.show()

En esta gráfica se está mostrando aquellos países donde viven los usuarios que tienen una situación de trabajo híbrido o teletrabajo. Se comprueba que en Estados Unidos es donde hay un mayor número de empleados con trabajo remoto en comparación con los demás.

#### Evolución del Ratio Remoto con los Años

In [278]:
data=df.groupby('work_year')['remote_ratio'].mean().reset_index()
fig = px.line(data, x='work_year', y='remote_ratio', template="plotly_dark")

fig.update_layout(
    title='Evolución del Trabajo Remoto',
    xaxis=dict(title='Paso del Tiempo'),
    yaxis=dict(title='Proporción trabajo remoto')
)
fig.show()

In [279]:
x_mean=data['work_year'].mean()
y_mean=data['remote_ratio'].mean()

suma_prod_dif=0
suma_cuad_dif=0

for v1,v2 in zip(data['work_year'],data['remote_ratio']):
    suma_prod_dif+=(v1-x_mean)*(v2-y_mean)
    suma_cuad_dif+=(v1-x_mean)**2

b1=suma_prod_dif/suma_cuad_dif
b0=y_mean-(x_mean*b1)
y=b0+(b1*2024)

print(f'Para 2024, se estima que el ratio de trabajo remoto alcance {round(y,2)}%')

pct_remote=((y*100)/data.loc[3,'remote_ratio'])-100
pct_remote2=((data.loc[2,'remote_ratio']*100)/data.loc[3,'remote_ratio'])-((data.loc[1,'remote_ratio']*100)/data.loc[3,'remote_ratio'])

print(f'Esto supondría un decrecimiento del {round(abs(pct_remote),2)}% frente al {round(abs(pct_remote2),2)}% que hubo de 2021 a 2022.')

Para 2024, se estima que el ratio de trabajo remoto alcance 29.2%
Esto supondría un decrecimiento del 14.27% frente al 39.01% que hubo de 2021 a 2022.


In [280]:
fig = go.Figure()
valor = go.Indicator( mode = "number+delta", value = y, name = "Evolución Trabajo Remoto",
                    delta = dict( reference = data.loc[3,'remote_ratio'], increasing_color = "green", decreasing_color = "red" ))
fig.add_trace(valor)
fig.update_layout(
    width=400,
    height=300,
    template='plotly_dark'
)
fig.show()

Si se continúa con la misma tendencia, se estima que, para 2024, el ratio de trabajo remoto alcance el 29.2%. Esto supondría un decrecimiento del 14.27% frente al decrecimiento del 39.01% que hubo de 2021 a 2022.

#### El Salario Medio en función de los Países de los Usuarios

In [281]:
avg_salary_by_country = df.groupby('employee_residence')['salary_in_usd'].mean().reset_index()

fig = px.bar(avg_salary_by_country.sort_values(by='salary_in_usd',ascending=False), x='employee_residence', 
             y='salary_in_usd',color='employee_residence', template="plotly_dark",
             title='Salarios medios en USD por país')
fig.update_layout(xaxis_title='País', yaxis_title='Salario')
fig.update_xaxes(tickangle=90)

fig.show()

En la gráfica se puede ver que la media de salario más alta se corresponde con Israel con más de 400,000 USD, mientras que Estados Unidos se encontraría situado en cuarto lugar, con una media de casi 153,000 USD, estando muy por encima de España, cuya media es de aproximadamente 61,000 USD.

#### Distribución de Roles de Trabajo por Experiencia

In [283]:
experience_job_ds = df.groupby(['experience_level', 'job_title']).size().reset_index(name='Counts')
fig = px.treemap(experience_job_ds, path=['experience_level', 'job_title'], values='Counts', title='Árbol de Trabajo',template="plotly_dark")

fig.show()

Se puede apreciar que un mayor número de roles caen dentro de la experiencia SE (senior), la cuál tendrá una mayor responsabilidad y permitirá diferentes especializaciones con mayor flexibilidad, debido a los conocimientos adquiridos. Por otro lado, la experiencia EX (experto) tiene un menor número de roles agrupados, ya que serán empleos centrados en la organización, la supervisación y la gerencia, lo cuál hace que se generen menos puestos y que los mismos sean muy específicos.

#### Salario Medio en función del Tipo de Contrato

In [287]:
avg_salary_by_employment = df.groupby(['employment_type'])['salary_in_usd'].mean().reset_index()

fig = px.bar(avg_salary_by_employment.sort_values('salary_in_usd', ascending=False),
                    x='employment_type', y='salary_in_usd', color='employment_type', template="plotly_dark")
fig.update_layout(
    title="Salario Medio en función del Tipo de Contrato",
    scene=dict(
        xaxis=dict(title="Tipo de Contrato"),
        yaxis=dict(title="Salario Medio en USD")
    )
)

fig.show()

En la gráfica se observa que en el tipo de contrato FT (a tiempo completo) es donde se alcanza un salario medio mayor, de más de 138,000 USD, lo cuál indica que para ciertos países y ciertos puestos de trabajo, las empresas retribuyen mucho mejor a sus empleados que a las empresas externas que contratan para realizar las tareas. Por otro lado, el salario medio más bajo es para el tipo de contrato PT (media jornada) que no alcanza los 40,000 USD anuales. Así, se puede decir que las empresas favorecen mucho más a los empleados capaces de comprometerse con ellas con salarios mucho más altos.

#### Top 10 Empleos en Data

In [301]:
top10_empleos =pd.DataFrame(df['job_title'].value_counts()[:10])

fig = px.bar(top10_empleos.reset_index(), x='count', y='job_title', template="plotly_dark", color='job_title')

fig.update_layout(
    title='Top 10 Empleos en Data',
    yaxis=dict(title='Título del empleo'),
    xaxis=dict(title='Cantidad de empleados')
)

fig.show()

Los tres empleos más comunes entre los usuarios son Data Engineer, Data Scientist y Data Analyst, los demás al ser más específicos dentro de cada rama, son más inusuales y por tanto, menos usuarios trabajan en ellos.

#### Top 10 empleos más cotizados

In [291]:
top10_cotizados = df.groupby('job_title')['salary_in_usd'].mean().reset_index()
top10_cotizados = top10_cotizados.sort_values(by='salary_in_usd', ascending=False).head(10)

fig = px.bar(top10_cotizados, x='salary_in_usd', y='job_title', template="plotly_dark", color='job_title')

fig.update_layout(
    title='Top 10 empleos más cotizados',
    xaxis=dict(title='Salario medio (USD)'),
    yaxis=dict(title='Título del empleo')
)

fig.show()

Dentro de los diez empleos con mejor cotización, Data Science Tech Lead se sitúa el primero, un salario medio anual de más de 375,000 USD. En el último puesto se encontraría Applied Scientist, con un salario medio anual de más de 190,000 USD. Si se compara esta gráfica con la anterior, el top 10 de empleos en el sector de Data, se puede comprobar que los empleos aquí mostrados son más especializados, lo cuál puede indicar una mayor necesidad por falta de demanda, que se traduciría en sueldos más elevados.

#### Top 10 empleos remotos

In [302]:
top10_remotos = df.groupby('job_title')['remote_ratio'].mean().reset_index()

fig = px.pie(top10_remotos[:10].sort_values(by='remote_ratio', ascending=False),
             names='job_title',values='remote_ratio',color='job_title',template='plotly_dark')

fig.update_layout(
    title='Top 10 empleos remotos')

fig.show()

En la gráfica se comprueba que aquellos empleos con un ratio remoto medio de entre el 70% y el 90% son Applied Data Scientist, Applied Machine Learning Scientist and AI Scientist. En los demás, el ratio remoto medio disminuye considerablemente, indicando que son trabajos donde al menos se necesita una modalidad híbrida para ser realizados eficientemente.

#### Correlaciones entre Variables

In [303]:
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,job_specialization
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L,Data
1,2023,MI,CT,Ml Engineer,30000,USD,30000,US,100,US,S,Engineer
2,2023,MI,CT,Ml Engineer,25500,USD,25500,US,100,US,S,Engineer
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M,Data
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M,Data


In [304]:
le = LabelEncoder()
df['experience_level'] = le.fit_transform(df['experience_level'])
df['employment_type'] = le.fit_transform(df['employment_type'])
df['employee_residence'] = le.fit_transform(df['employee_residence'])
df['company_location'] = le.fit_transform(df['company_location'])
df['company_size'] = le.fit_transform(df['company_size'])
df['job_specialization'] = le.fit_transform(df['job_specialization'])

In [308]:
df_corr=df.corr('pearson',numeric_only=True)
df_corr

Unnamed: 0,work_year,experience_level,employment_type,salary,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,job_specialization
work_year,1.0,0.187748,0.011127,-0.094724,0.22829,0.243475,-0.23643,0.234661,0.138875,0.041612
experience_level,0.187748,1.0,-0.032794,-0.024884,0.327173,0.251325,-0.054025,0.250591,0.066414,0.025573
employment_type,0.011127,-0.032794,1.0,-0.003908,-0.010329,-0.024582,-0.028673,-0.013963,-0.041001,-0.030703
salary,-0.094724,-0.024884,-0.003908,1.0,-0.023676,-0.087176,0.028731,-0.072774,-0.100352,0.004169
salary_in_usd,0.22829,0.327173,-0.010329,-0.023676,1.0,0.414039,-0.064171,0.405183,-0.000372,0.150377
employee_residence,0.243475,0.251325,-0.024582,-0.087176,0.414039,1.0,-0.083142,0.945676,0.032168,-0.007521
remote_ratio,-0.23643,-0.054025,-0.028673,0.028731,-0.064171,-0.083142,1.0,-0.071574,-0.036928,-0.03124
company_location,0.234661,0.250591,-0.013963,-0.072774,0.405183,0.945676,-0.071574,1.0,0.041703,0.003003
company_size,0.138875,0.066414,-0.041001,-0.100352,-0.000372,0.032168,-0.036928,0.041703,1.0,-0.033907
job_specialization,0.041612,0.025573,-0.030703,0.004169,0.150377,-0.007521,-0.03124,0.003003,-0.033907,1.0


In [310]:
fig = go.Figure(data=go.Heatmap(z=df_corr.values, x=df_corr.columns, y=df_corr.columns))
fig.update_layout(
    width=800,
    height=800,
    title='Mapa de calor',
    template='plotly_dark'
)

fig.show()

Tras observar la gráfica de correlaciones, se observan diferentes correlaciones positivas no significativas. La primera se observa entre la experiencia y el salario en dólares. Esta falta de significatividad se puede deber a diferentes puestos de empleo que fueron identificados como valores atípicos, que mostraban salarios muy altos dependiendo del país o la demanda, lo cuál hace que la correlación entre el empleado y el salario disminuya, si para experiencias similares hay diferencias salariales muy dispares. Finalmente, las dos siguientes son entre el salario, la residencia del empleado y la localización de la empresa. La localización de la empresa coincide en su mayoría con la localización del empleado, por lo que ambas parecen tener la misma correlación con el salario. Esto quiere indicar que la localización o residencia tienen un gran impacto en el salario que cobre el empleado, no obstante, la correlación entre las variables puede verse en gran medida detrimentada devido a los elevados sueldos de ciertos empleos, que no encaja con el salario que se percibe en los demás países.
Para el resto de variables, no se observa ninguna correlación, lo cual puede indicar que no exista una relación lineal entre ellas o que se necesitan más datos para establecer una relación más concreta.