# Data Science Salaries 2023

Este conjunto de datos es útil para entender la distribución de los salarios en el campo de la ciencia de datos y cómo estos pueden variar en función de factores como la ubicación del empleado y del empleador, el nivel de experiencia, el tipo de empleo, entre otros. Nos permite explorar el impacto del trabajo remoto en los salarios de ciencia de datos y empezar a sacar nuestras propias conclusiones.

#### VARIABLES

<table>
  <tr>
    <th>Nombre de la columna</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>El año en que se pagó el salario.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>El nivel de experiencia en el trabajo durante el año.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>El tipo de empleo para el rol.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>El rol desempeñado durante el año.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>El total bruto del salario pagado.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>La moneda del salario pagado como código de moneda ISO 4217.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>El salario en dólares estadounidenses (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>El principal país de residencia del empleado durante el año de trabajo como código de país ISO 3166.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>La cantidad total de trabajo realizado a distancia.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>El país de la oficina principal del empleador o la sucursal contratante.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>El número mediano de personas que trabajaron para la empresa durante el año.</td>
  </tr>
</table>


### Objetivos:


El objetivo principal de este ejercicio es aprender y aplicar técnicas de análisis y visualización de datos utilizando las bibliotecas de Python Matplotlib, Seaborn y Plotly. 

Los pasos adecuados para completarlo son:

1. **Explorar el conjunto de datos**: Comprender la estructura del conjunto de datos, los tipos de variables presentes y cómo estas están distribuidas.
   **Limpiar y preparar el conjunto de datos**: Manipular los datos para que sean más accesibles y útiles para el análisis. Esto puede incluir tratar con valores faltantes, convertir tipos de datos y generar nuevas variables a partir de las existentes.
   
2. **Analizar el conjunto de datos**: Extraer información útil y significativa del conjunto de datos a través de diversas técnicas de análisis de datos. </br>
   **Visualizar los datos**: Crear gráficos y diagramas que ayuden a entender y comunicar los patrones y las relaciones presentes en los datos.

Para responder a las preguntas planteadas se deben usar las siguientes bibliotecas :

- Usar **Matplotlib** para crear gráficos básicos como gráficos de barras, de líneas y de dispersión.
- Usar **Seaborn** para crear gráficos más complejos y atractivos visualmente, aprovechando sus capacidades de integración con pandas.
- Usar **Plotly** para crear gráficos interactivos que permiten una exploración más profunda de los datos.




## <span style="color:LightSkyBlue; font-weight:bold;">1. Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset</span>

### Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset

#### Importamos las librerías necesarias:


In [1]:
# Importamos las librerias necesarias para poder ejecutar los comandos que hagan posible la resolución de las cuestiones
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import plotly.express as px
import plotly.graph_objects as go 

### Cargamos nuestro dataset


In [2]:
# Leemos un archivo CSV usando pandas y lo cargamos en el dataFrame "df"
df = pd.read_csv(r"/Users/juliobrionesmorales/Documents/GitHub/Analisis-de-salarios-Big-Data/ds_salaries.csv")

In [3]:
# Mostramos las 15 primeras filas de la tabla para tener una idea de los datos
df.head(15)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
7,2023,SE,FT,Data Scientist,219000,USD,219000,CA,0,CA,M
8,2023,SE,FT,Data Scientist,141000,USD,141000,CA,0,CA,M
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M


#### ¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?

In [4]:
# "shape" nos muestra la dimensión de nuestro dataFrame
df.shape

(3755, 11)

#### ¿Qué tipos de datos contiene cada columna? 

In [5]:
# "dtypes" nos muestra el tipo de datos de cada columna
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

#### ¿Existen valores faltantes en el conjunto de datos? 

In [6]:
# Usamos "isnull" para ver los valores nulos de las columnas. Nos vuelo devuelve valores booleanos.
df.isnull()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
3750,False,False,False,False,False,False,False,False,False,False,False
3751,False,False,False,False,False,False,False,False,False,False,False
3752,False,False,False,False,False,False,False,False,False,False,False
3753,False,False,False,False,False,False,False,False,False,False,False


In [7]:
# Con suma de "isnull" vemos la cantidad de nulos por columna.
df.isnull().sum()

work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64

El resultado muestra que no hay nulos en nuestro dataFrame

#### ¿Cúal es la distribución que presentan las variables de nuestro dataset?

In [8]:
# Sacamos las  estadísticas de las variables numericas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
work_year,3755.0,2022.373635,0.691448,2020.0,2022.0,2022.0,2023.0,2023.0
salary,3755.0,190695.571771,671676.500508,6000.0,100000.0,138000.0,180000.0,30400000.0
salary_in_usd,3755.0,137570.38988,63055.625278,5132.0,95000.0,135000.0,175000.0,450000.0
remote_ratio,3755.0,46.271638,48.58905,0.0,0.0,0.0,100.0,100.0


### <span style="font-weight:bold;">Visualizamos nuestra DataFrame</span>


#### Creamos una gráfica para visualizar nuestras variables numéricas

In [9]:
# Importo librerias gráficas
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [10]:
# Selecciono unicamente las variables de las columnas numéricas. Las conocemos por describe
cols = ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']

# Creo una figura de 1 fila y 4 columnas
fig = make_subplots(rows=1, cols=4)
 
# Iteramos sobre cada elemento de la lista cols utilizando enumerate() para obtener tanto el índice como el valor de cada elemento.
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {col}'), row=1, col=i+1, ) # Creamos un histograma para cada uno de los elementos de "cols"
 
#Se actualiza el diseño de la figura utilizando update_layout(), para especificar la altura, anchura, el título y la leyenda a mostrar. 
fig.update_layout(height=500, width=1200, title_text="Distribución de Variables", showlegend=True) 
fig.show()

#### Creamos una gráfica para visualizar nuestras variables categóricas

In [11]:
# Con la siguiente función podemos obtener las variables numéricas y categóricas
def tipo_de_columnas_ordenadas (df):
    cat = []
    num = []
       
    for col in df.columns:
        if(df[col].dtype == "object"): # Si el tipo de valores de la columna son del tipo objeto, se añade a la lista de "cat"
            cat.append(col)
        else:
            num.append(col)            # Si NO son del tipo objeto, se añade a la lista "num"
 
    return cat , num
 
cat , num = tipo_de_columnas_ordenadas(df)
print("Las columnas categoricas son: ", cat)
print("Las columnas numericas son: ", num)

Las columnas categoricas son:  ['experience_level', 'employment_type', 'job_title', 'salary_currency', 'employee_residence', 'company_location', 'company_size']
Las columnas numericas son:  ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']


In [12]:
# Comprobamos la función anterior
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

In [13]:
# Selecciono unicamente las variables categoricas
cols = ['experience_level', 'employment_type', 'job_title', 'salary_currency', 'employee_residence', 'company_location', 'company_size']
 
# Creo una figura de 1 fila y 7 columnas
fig = make_subplots(rows=1, cols=7)
 
# Iteramos sobre cada elemento de la lista cols utilizando enumerate() para obtener tanto el índice como el valor de cada elemento.
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {col}'), row=1, col=i+1, )# Creamos un histograma para cada uno de los elementos de "cols"

#Se actualiza el diseño de la figura utilizando update_layout(), para especificar la altura, anchura, el título y la leyenda a mostrar. 
fig.update_layout(height=500, width=1500, title_text="Distribución de Variables Categoricas", showlegend=True)
fig.show()

#### Identificamos los outliers de nuestro dataset de forma gráfica

In [14]:
# Creo una variable con con las columnas numéricas
cols = ["work_year", "salary", "salary_in_usd", "remote_ratio"]

# Creo una figura con una fila y 4 columnas
fig = make_subplots(rows=1, cols=4)

# Agregar cada boxplot a un subgráfico
for i, cols in enumerate(cols, start=1):
    trace = px.box(df, y=cols, template="plotly_dark").data[0]
    fig.add_trace(trace, row=1, col=i)
    fig.update_yaxes(title_text=cols, row=1, col=i)

# Actualizar diseño y mostrar figura
fig.update_layout(height=600, width=1000, title_text="Gráficos de caja de múltiples variables")
fig.show()


## <span style="color:LightSkyBlue; font-weight:bold;">2. Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva</span>


Una vez que hemos limpiado y preparado nuestros datos, estamos listos para comenzar a explorarlos y visualizarlos. Si no se nos ha proporcionado un objetivo específico para nuestro análisis, es muy útil formular preguntas sobre nuestros datos. Estas preguntas guiarán nuestras visualizaciones y análisis, y nos ayudarán a descubrir patrones, tendencias e información valiosa.

### ¿Cuál es el salario promedio por nivel de experiencia?

In [15]:
salario_promedio_experiencia = df.groupby('experience_level')['salary_in_usd'].mean().reset_index()
fig = px.bar(salario_promedio_experiencia, x='experience_level', y='salary_in_usd', title='Salario medio por nivel de experiencia', labels={'experience_level': 'Nivel de experiencia', 'salary_in_usd': 'Salario medio'})

fig.show()

In [16]:
print(salario_promedio_experiencia.round(2))

  experience_level  salary_in_usd
0               EN       78546.28
1               EX      194930.93
2               MI      104525.94
3               SE      153051.07


### ¿Cómo ha cambiado el salario medio con el paso del tiempo (work_year)?

En esta gráfica se puede ver como con el paso de los años, el salario promedio ha ascendido.

In [17]:
salario_promedio_tiempo = df.groupby('work_year')['salary_in_usd'].mean().reset_index()
fig = px.bar(salario_promedio_tiempo, x='work_year', y='salary_in_usd', color='work_year', title='Salario promedio con el paso del tiempo', labels={'work_year':'Año Natural', 'salary_in_usd':'Salario en dólares'})
fig.update_layout(showlegend=False)
fig.show()


In [18]:
print(salario_promedio_tiempo.round(2))

   work_year  salary_in_usd
0       2020       92302.63
1       2021       94087.21
2       2022      133338.62
3       2023      149045.54


### ¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?

In [19]:
average_remote_ratio_per_job = df.groupby(["job_title"])["remote_ratio"].mean().reset_index()
average_remote_ratio_per_job = average_remote_ratio_per_job.sort_values(by="remote_ratio", ascending=True)
fig = px.bar(average_remote_ratio_per_job, x='remote_ratio', y='job_title', color='job_title', title = 'Proporcion de trabajo remoto por rol de trabajo')
fig.show()

In [20]:
proporcion_trabajoremoto_rol_trabajo = df.groupby('job_title')['remote_ratio'].mean().reset_index()
average_remote_ratio_per_job = average_remote_ratio_per_job.sort_values(by="remote_ratio", ascending=True)
fig = px.bar(average_remote_ratio_per_job, x='job_title', y='remote_ratio',color='job_title', title='Proporción de trabajo remoto según el rol de trabajo',labels={'employment_type':'Tipo de empleo','remote_ratio':'Radio trabajo remoto'})
fig.show()

### ¿Existe una relación entre el tamaño de la empresa y el salario?

In [21]:
fig = go.Figure()
fig.add_trace(go.Pie(labels=df['company_size'], values=df['salary_in_usd'],name='Proporcion del tamaño de la empresa y salario')) 
fig.update_traces(hoverinfo='label+percent', textfont_size=14, marker=dict(line=dict(color='#000000', width=2)))
fig.update_layout(title='Proporción de tamaño de la empresa y salario')
fig.update_layout(legend=dict(x=.1, y=-.2))
fig.show() 

In [22]:
relacion_tamaño_empresa_salario = df.groupby('company_size')['salary_in_usd'].mean().reset_index()
fig = px.bar(relacion_tamaño_empresa_salario, x='company_size', y='salary_in_usd', title='Proporción del tamaño de la empresa y salario en usd',labels={'company_size':'Tamaño de la empresa','salary_in_usd':'Salarrio en dolares'})
fig.show()

### ¿Cuál es el país con más trabajadores remotos?

In [23]:
remotos = df.groupby('employee_residence')['remote_ratio'].sum().reset_index().sort_values(by="remote_ratio", ascending=False)
fig = px.bar(remotos, x='employee_residence', y='remote_ratio', color= 'employee_residence',title = 'Distribucion de trabajadores remotos por pais')
fig.show()

### ¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?

In [24]:
remote_year = df.groupby('work_year')['remote_ratio'].mean().reset_index()
fig = px.line(remote_year, x='work_year', y='remote_ratio', title='Distribucion del trabajo remoto por año')
fig.show()

In [25]:
remote_year = df.groupby('work_year')['remote_ratio'].mean().reset_index()
fig = px.bar(remote_year, x='work_year', y='remote_ratio', title='Distribucion del trabajo remoto por año')
fig.show()

In [26]:
print(remote_year.round(0).astype(int))

   work_year  remote_ratio
0       2020            65
1       2021            69
2       2022            55
3       2023            34


### ¿Cuál es el país con los salarios promedio más altos en USD?

In [27]:
salario_promedio_por_pais = df.groupby('company_location')['salary_in_usd'].mean().reset_index().sort_values(by = 'salary_in_usd', ascending=False)
fig = px.bar(salario_promedio_por_pais, x='company_location', y='salary_in_usd', title = 'Salarios por pais (USD)')
fig.show()

In [28]:
# Otra manera de verlo
salario_promedio_por_pais = df.groupby('company_location')['salary_in_usd'].mean().reset_index().sort_values(by='salary_in_usd', ascending=False)
fig = px.scatter(salario_promedio_por_pais, x='company_location', y='salary_in_usd', color='salary_in_usd', title='Salarios por país (USD)', size='salary_in_usd', size_max=20)
fig.show()

### ¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?

In [29]:
experience_job = df.groupby(['experience_level', 'job_title']).size().reset_index(name='Count')
 
fig = px.treemap(experience_job, path=['experience_level', 'job_title'], values='Count', title= 'Distribucion de los roles de trabajo por nivel de experiencia')
 
fig.show()

### ¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime ect?

In [30]:
salario_promedio = df.groupby('employment_type')['salary_in_usd'].mean().reset_index().sort_values(by='salary_in_usd', ascending=False)
fig = px.bar(salario_promedio, x='employment_type', y='salary_in_usd', 
             color='employment_type',  
             title='Salario promedio ($) por tipo de contrato', 
             labels={'employment_type':'Tipo de empleo', 'salary_in_usd':'Salario en USD ($)'})

fig.show()


### Crear un top10 con los empleos mas demandados:

In [31]:
top10_empleos = df.job_title.value_counts()[:10].index.tolist()
category_orders = {"job_title": top10_empleos[::-1]} 
fig = px.bar(df[df.job_title.isin(top10_empleos)], y='job_title' , title='Top 10 de empleos mas demandados', category_orders =category_orders, color= 'job_title')
fig.update_xaxes(showticklabels=False)
fig.show()

In [32]:
# Mostramos los porcentajes del top10 de los puestos más demandados
fig = px.pie(df[df.job_title.isin(top10_empleos)], 'job_title', height=600 , title='Top 10 de empleos mas demandados')
 
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

###  Crear un top10 con los empleos mas cotizados:

In [33]:
top10_cotizados = df.groupby('job_title')['salary_in_usd'].mean().reset_index() 
top10_cotizados.sort_values(by='salary_in_usd', inplace=True, ascending=False)
fig = px.bar(top10_cotizados[:10], y='job_title', x='salary_in_usd', color='job_title', title='Top 10 empleaos más cotizados', labels= {'job_title':'Nombre del trabajo', 'salary_in_usd':'Salario promedio ($)'})
fig.show()

###  Crear un top10 con empleos donde podemos trabajar remoto: 

In [34]:
# Agrupamos el tipo de trabajo con la media del remote ratio
top10_remote= df.groupby('job_title')['remote_ratio'].mean().reset_index()
 
# Me fijo el top 10
top10_remote = top10_remote.sort_values(by='remote_ratio', ascending=False).head(10)
 
# Grafico
fig = px.bar(top10_remote, x='remote_ratio', y='job_title' , title='Top 10 de empleos para trabajar remoto', color = 'job_title')
 
# Muestro el grafico
fig.show()

In [35]:
# Otra manera de visualizarlo con los top20 empleos en remoto
top10_remotos = df.groupby('job_title')['remote_ratio'].mean().reset_index()
fig = px.funnel(top10_remotos.sort_values(by='remote_ratio', ascending=False).head(20), x='job_title', y='remote_ratio', 
                title='Top 10 de profesiones que más trabajo remoto tienen', color_discrete_sequence=['#C3E4A3'])
fig.show()

# CONCLUSIONES FINALES:

##### - El dataframe no tiene nulos.
##### - El salario es directamente proporcional al nivel de experiencia.
##### - Entre 2020 y 2023 el salario promedio aumento de 92kUSD a 149kUSD.
##### - Las empresas de tamaño medio tienen en promedio salarios más altos que empresas grandes. Las empresas chicas son las que aportan menor salario.
##### - Los trabajadores que viven en US son los que mayoritariamente trabajan remoto.
##### - El trabajo remoto aumentó levemente del 2020 al 2021, y luego tuvo una gran disminución entre 2021 y 2023.
##### - El país con mayor salario promedio es Israel, con 271kUSD, y el país con menor salario es Macedonia del Norte, con 6kUSD.
##### - El rol más demandado es "Senior" por el numero de puestos ocupados.
##### - El salario promedio más elevado es para los trabajadores "full time" con 138kUSD.
##### - El empleo más demandado es de "Data engineer", seguido de Data cientist y Data analyst.
##### - El empleo más cotizado es de Data sciencie tech lead con un salario promedio de 375kUSD seguido de cloud Data architect con un salaro promedio de 250kUSD.
##### - El empleo con la mayor tasa de trabajo remoto es Applied Data Scientist.
##### -En total hay 10 puestos de trabajo en los que se puede trabajar de forma remota:  'Staff Data Scientist', 'Principal Data Engineer', 'MLOps Engineer', 'Manager Data Management', 'Marketing Data Analyst', 'Compliance Data Analyst', 'Cloud Database Engineer', 'Principal Data Analyst', 'Principal Data Architect', 'BI Data Engineer'.