**Table of contents**<a id='toc0_'></a>    
1. [Data Science Salaries 2023](#toc1_)    
1.1.1. [VARIABLES](#toc1_1_1_)      
1.1.2. [Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset](#toc1_1_2_)    
1.1.2.1. [Importamos las librerías necesarias:](#toc1_1_2_1_)    
1.1.2.2. [Cargamos nuestro dataset](#toc1_1_2_2_)    
1.1.2.3. [¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?](#toc1_1_2_3_)    
1.1.2.4. [¿Qué tipos de datos contiene cada columna?](#toc1_1_2_4_)    
1.1.2.5. [¿Existen valores faltantes en el conjunto de datos?](#toc1_1_2_5_)    
1.1.2.6. [¿Cúal es la distribución que presentan las variables de nuestro dataset?](#toc1_1_2_6_)    
1.1.2.7. [Gráfica para visualizar nuestras variables numéricas:](#toc1_1_2_7_)    
1.1.2.8. [Gráfica para visualizar nuestras variables categóricas:](#toc1_1_2_8_)    
1.1.2.9. [Outliers de nuestro dataset:](#toc1_1_2_9_)    
1.1.3. [Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva:](#toc1_1_3_)    
1.1.3.1. [Información interesante:](#toc1_1_3_1_)    
1.1.3.2. [¿Cuál es el salario promedio por nivel de experiencia?](#toc1_1_3_2_)    
1.1.3.3. [¿Cómo ha cambiado el salario medio con el paso del tiempo?](#toc1_1_3_3_)    
1.1.3.4. [¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?](#toc1_1_3_4_)    
1.1.3.5. [¿Existe una relación entre el tamaño de la empresa y el salario?](#toc1_1_3_5_)    
1.1.3.6. [¿Cuál es el país con más trabajadores remotos?](#toc1_1_3_6_)    
1.1.3.7. [¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?](#toc1_1_3_7_)    
1.1.3.8. [¿Cuál es el país con los salarios promedio más altos en USD?](#toc1_1_3_8_)    
1.1.3.9. [¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?](#toc1_1_3_9_)    
1.1.3.10. [¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime, etc.?](#toc1_1_3_10_)    
1.1.3.11. [Top 10 de los empleos mas demandados:](#toc1_1_3_11_)    
1.1.3.12. [Top 10 de los empleos mas cotizados:](#toc1_1_3_12_)    
1.1.3.13. [Top 10 de empleos con mayor proporción de trabajo remoto:](#toc1_1_3_13_)    

<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=true
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# 1. <a id='toc1_'></a>[Data Science Salaries 2023](#toc0_)

Este conjunto de datos es útil para entender la distribución de los salarios en el campo de la ciencia de datos y cómo estos pueden variar en función de factores como la ubicación del empleado y del empleador, el nivel de experiencia, el tipo de empleo, entre otros. Nos permite explorar el impacto del trabajo remoto en los salarios de ciencia de datos y empezar a sacar nuestras propias conclusiones.

#### 1.1.1.1. <a id='toc1_1_1_1_'></a>[VARIABLES](#toc0_)

<table>
  <tr>
    <th>Nombre de la columna</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>El año en que se pagó el salario.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>El nivel de experiencia en el trabajo durante el año.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>El tipo de empleo para el rol.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>El rol desempeñado durante el año.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>El total bruto del salario pagado.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>La moneda del salario pagado como código de moneda ISO 4217.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>El salario en dólares estadounidenses (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>El principal país de residencia del empleado durante el año de trabajo como código de país ISO 3166.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>La cantidad total de trabajo realizado a distancia.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>El país de la oficina principal del empleador o la sucursal contratante.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>El número mediano de personas que trabajaron para la empresa durante el año.</td>
  </tr>
</table>

### 1.1.2. <a id='toc1_1_2_'></a>[Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset](#toc0_)

#### 1.1.2.1. <a id='toc1_1_2_1_'></a>[Importamos las librerías necesarias:](#toc0_)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import plotly.express as px
import plotly.graph_objects as go

#### 1.1.2.2. <a id='toc1_1_2_2_'></a>[Cargamos nuestro dataset](#toc0_)

In [2]:
df = pd.read_csv("/Users/lucianocufari/Documents/GitHub/data_science_salaries_2023/ds_salaries.csv")

In [3]:
df.head(15)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
7,2023,SE,FT,Data Scientist,219000,USD,219000,CA,0,CA,M
8,2023,SE,FT,Data Scientist,141000,USD,141000,CA,0,CA,M
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M


#### 1.1.2.3. <a id='toc1_1_2_3_'></a>[¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?](#toc0_)

In [4]:
df.shape

(3755, 11)

#### 1.1.2.4. <a id='toc1_1_2_4_'></a>[¿Qué tipos de datos contiene cada columna?](#toc0_)

In [5]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

#### 1.1.2.5. <a id='toc1_1_2_5_'></a>[¿Existen valores faltantes en el conjunto de datos?](#toc0_)

In [6]:
df.isnull().sum().sum()

0

In [7]:
df_valores_nulos = df.isnull()
fig = go.Figure(data=go.Heatmap(
    z=df_valores_nulos,
    colorscale='viridis',
    showscale=False
))

fig.update_layout(title='Heat map of null values', template='plotly_dark')

fig.show()

#### 1.1.2.6. <a id='toc1_1_2_6_'></a>[¿Cúal es la distribución que presentan las variables de nuestro dataset?](#toc0_)

In [8]:
df.columns

Index(['work_year', 'experience_level', 'employment_type', 'job_title',
       'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',
       'remote_ratio', 'company_location', 'company_size'],
      dtype='object')

In [12]:
#Sacamos los nombres de las columnas numericas, y de las columnas categoricas.
def tipo_de_columnas_ordenadas (df):
    cat = []
    num = []
        
    for col in df.columns:
        if(df[col].dtype == "object"):
            cat.append(col)
        else:
            num.append(col)

    return cat , num

cat , num = tipo_de_columnas_ordenadas(df)
print("Las columnas categoricas son: ", cat)
print("Las columnas numericas son: ", num)

Las columnas categoricas son:  ['experience_level', 'employment_type', 'job_title', 'salary_currency', 'employee_residence', 'company_location', 'company_size']
Las columnas numericas son:  ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']


In [13]:
# Descripción estadística de nuestros datos en las columnas numéricas.
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
work_year,3755.0,2022.373635,0.691448,2020.0,2022.0,2022.0,2023.0,2023.0
salary,3755.0,190695.571771,671676.500508,6000.0,100000.0,138000.0,180000.0,30400000.0
salary_in_usd,3755.0,137570.38988,63055.625278,5132.0,95000.0,135000.0,175000.0,450000.0
remote_ratio,3755.0,46.271638,48.58905,0.0,0.0,0.0,100.0,100.0


#### 1.1.2.7. <a id='toc1_1_2_7_'></a>[Gráfica para visualizar nuestras variables numéricas:](#toc0_)

In [14]:
from plotly.subplots import make_subplots
 
cols = ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']
fig = make_subplots(rows=1, cols=4, subplot_titles=cols)
 
for i, col in enumerate(cols):
    fig.add_trace(go.Histogram(x=df[col], nbinsx=20, name=f'Distribución de {col}'), row=1, col=i+1, )
 
fig.update_layout(height=500, 
                  width=1200, 
                  title_text="Distribution of Numerical Variables", 
                  showlegend=False,
                  template='plotly_dark',
                  colorway=['#E9FE42', '#D8F64B', '#A7C82A', '#769B0A'])
fig.show()

#### 1.1.2.8. <a id='toc1_1_2_8_'></a>[Gráfica para visualizar nuestras variables categóricas:](#toc0_)

In [15]:
cols = ['experience_level', 'employment_type', 'salary_currency', 'employee_residence', 'company_size', "company_location", 'job_title']
fig = make_subplots(rows=3, cols=3, subplot_titles=cols)

for i, col in enumerate(cols):
    row = i // 3 + 1
    col = i % 3 + 1
    fig.add_trace(go.Histogram(x=df[cols[i]], nbinsx=20, name=f'{cols[i]}'), row=row, col=col)

fig.update_yaxes(showticklabels=False, row=3, col=3)

fig.update_layout(height=1200, 
                  width=1500, 
                  title_text="Distribution of Categorical Variables", 
                  showlegend=False,
                  template='plotly_dark',
                  colorway=['#FFFFE0', '#FBFF91', '#E9FE42', '#D8F64B', '#A7C82A', '#769B0A', '#5F8011'])
fig.update_xaxes(tickangle=90)
fig.show()

#### 1.1.2.9. <a id='toc1_1_2_9_'></a>[Outliers de nuestro dataset:](#toc0_)

In [16]:
import math
def identificar_outliers(dataframe):
    numeric_cols = dataframe.select_dtypes(include=np.number).columns

    ncols = 4
    nrows = math.ceil(len(numeric_cols) / ncols) 
    fig = make_subplots(rows=nrows, cols=ncols, subplot_titles=numeric_cols, horizontal_spacing=0.12)

    if nrows == 1 or ncols == 1:
        axes = [fig]

    for i, col in enumerate(numeric_cols):
        row = i // ncols
        col_idx = i % ncols
        if len(dataframe[col].unique()) > 1:
            fig.add_trace(go.Box(x=dataframe[col], name=col), row=row+1, col=col_idx+1)
            fig.update_xaxes(row=row+1, col=col_idx+1)
            fig.update_yaxes(row=row+1, col=col_idx+1)
        else:
            print(f"La columna {col} tiene un solo valor único y no se puede graficar")

    fig.update_layout(title='Outliers Identification', height=800, width=1000, 
                      margin=dict(l=40, r=40, t=100, b=40),
                      showlegend=False,
                      template='plotly_dark',
                      colorway=['#E9FE42', '#D8F64B', '#A7C82A', '#769B0A']
                      )

    fig.show()

identificar_outliers(df)

### 1.1.3. <a id='toc1_1_3_'></a>[Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva:](#toc0_)

Una vez que hemos limpiado y preparado nuestros datos, estamos listos para comenzar a explorarlos y visualizarlos. Si no se nos ha proporcionado un objetivo específico para nuestro análisis, es muy útil formular preguntas sobre nuestros datos. Estas preguntas guiarán nuestras visualizaciones y análisis, y nos ayudarán a descubrir patrones, tendencias e información valiosa.

#### 1.1.3.1. <a id='toc1_1_3_1_'></a>[Información interesante:](#toc0_)

#### 1.1.3.2. <a id='toc1_1_3_2_'></a>[¿Cuál es el salario promedio por nivel de experiencia?](#toc0_)

In [17]:
fig = px.box(df, title='Average salary by experience level', x='experience_level', y='salary_in_usd', template="plotly_dark", color_discrete_sequence=['#D8F64B'])
fig.update_xaxes(title_text='Experience Level')
fig.update_yaxes(title_text='Salary in USD')
fig.show()

#### 1.1.3.3. <a id='toc1_1_3_3_'></a>[¿Cómo ha cambiado el salario medio con el paso del tiempo?](#toc0_)

In [19]:
average_salary_per_year = df.groupby('work_year')['salary_in_usd'].mean().reset_index()

fig = px.line(average_salary_per_year, x='work_year', y='salary_in_usd', 
              title='Average salary evolution over time', template="plotly_dark", color_discrete_sequence=['#D8F64B'])
fig.update_xaxes(title_text='Work Year', tickvals=[2020, 2021, 2022, 2023])
fig.update_yaxes(title_text='Salary in USD')

fig.show()

#### 1.1.3.4. <a id='toc1_1_3_4_'></a>[¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?](#toc0_)

In [20]:
average_remote_ratio_per_job = df.groupby('job_title')['remote_ratio'].mean().reset_index()

custom_color_scale = [
    [0, '#FFFFE0'],
    [0.5, '#D8F64B'],
    [1, '#556B2F']
]

fig = px.bar(average_remote_ratio_per_job, y='job_title', x='remote_ratio', 
             title='Average proportion of remote work by job type', template="plotly_dark", color='remote_ratio',
             color_continuous_scale=custom_color_scale, height=1200, orientation='h')

fig.update_xaxes(title_text='Remote Ratio')
fig.update_yaxes(title_text='Job Title')
fig.update_layout(coloraxis_colorbar=dict(title='Remote Ratio'))

fig.show()

#### 1.1.3.5. <a id='toc1_1_3_5_'></a>[¿Existe una relación entre el tamaño de la empresa y el salario?](#toc0_)

In [21]:
color_map = {'S': '#FBFF91', 'M': '#D8F64B', 'L': '#769B0A'}

fig = px.box(df, x='company_size', y='salary_in_usd', 
             title='Ratio between company size and salary', 
             category_orders={"company_size": ["S", "M", "L"]},
             template="plotly_dark", color='company_size', color_discrete_map=color_map)

fig.update_xaxes(title_text='Company Size')
fig.update_yaxes(title_text='Salary in USD')

fig.show()

#### 1.1.3.6. <a id='toc1_1_3_6_'></a>[¿Cuál es el país con más trabajadores remotos?](#toc0_)

In [22]:
remote_work_by_country = df.groupby('employee_residence')['remote_ratio'].sum().reset_index()

fig = px.bar(remote_work_by_country.sort_values('remote_ratio', ascending=False), x='employee_residence', y='remote_ratio', 
             title='Number of remote workers per country', template="plotly_dark", color_discrete_sequence=['#D8F64B'])
fig.update_xaxes(tickangle=90)

fig.update_xaxes(title_text='Employee Residence')
fig.update_yaxes(title_text='Remote Ratio')

fig.show()

#### 1.1.3.7. <a id='toc1_1_3_7_'></a>[¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?](#toc0_)

In [23]:
remote_work_per_year = df.groupby('work_year')['remote_ratio'].mean().reset_index()

fig = px.line(remote_work_per_year, x='work_year', y='remote_ratio', title='Ratio of remote employees over time',
                template="plotly_dark", color_discrete_sequence=['#D8F64B'])

fig.update_xaxes(title_text='Work Year', tickvals=[2020, 2021, 2022, 2023])
fig.update_yaxes(title_text='Remote Ratio', range=[-5, 100])

fig.show()

#### 1.1.3.8. <a id='toc1_1_3_8_'></a>[¿Cuál es el país con los salarios promedio más altos en USD?](#toc0_)

In [24]:
avg_salary_by_country = df.groupby('employee_residence')['salary_in_usd'].mean().reset_index()

custom_color_scale = [
    [0, '#FFFFE0'],
    [0.5, '#D8F64B'],
    [1, '#556B2F']
]

fig = px.bar(avg_salary_by_country.sort_values('salary_in_usd', ascending=False),
             x='employee_residence', y='salary_in_usd', title='Countries with the highest salaries in USD',
             template="plotly_dark", color='salary_in_usd', color_continuous_scale=custom_color_scale)

fig.update_xaxes(title_text='Employee Residence')
fig.update_yaxes(title_text='Salary in USD')
fig.update_layout(coloraxis_colorbar=dict(title='Salary in USD'))

fig.show()

#### 1.1.3.9. <a id='toc1_1_3_9_'></a>[¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?](#toc0_)

In [25]:
experience_job_ds = df.groupby(['experience_level', 'job_title']).size().reset_index(name='Count') 

fig = px.treemap(experience_job_ds, path=['experience_level', 'job_title'], values='Count', 
                 title="Distribution of job roles in different experience categories", 
                 template="plotly_dark")

fig.update_layout(
    margin=dict(l=1, r=1, t=5, b=1),
    font=dict(size=20),
    treemapcolorway=['#FBFF91', '#D8F64B', '#769B0A', '#486617'],
    title_font=dict(size=16),
    title_y=0.965
)

fig.show()

#### 1.1.3.10. <a id='toc1_1_3_10_'></a>[¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime, etc.?](#toc0_)

In [26]:
avg_salary_by_employment = df.groupby('employment_type')['salary_in_usd'].mean().reset_index()

fig = px.bar(avg_salary_by_employment.sort_values('salary_in_usd', ascending=False),
                x='employment_type', y='salary_in_usd', title='Average salary by employment type',
                template="plotly_dark", color_discrete_sequence=['#D8F64B'])

fig.update_xaxes(title_text='Employment Type')
fig.update_yaxes(title_text='Salary in USD')

fig.show()

#### 1.1.3.11. <a id='toc1_1_3_11_'></a>[Top 10 de los empleos mas demandados:](#toc0_)

In [27]:
top10_empleos = df.job_title.value_counts()[:10].index.tolist()

custom_color_scale = [
    '#FFFFE0',
    '#FBFF91',
    '#E9FE42',
    '#D8F64B',
    '#A7C82A',
    '#769B0A',
    '#5F8011',
    '#486617',
    '#2E4A1E',
    '#1D2E13'
]

fig = px.pie(df[df.job_title.isin(top10_empleos)], 
             'job_title',
             height=600, 
             title='Most Demanded Jobs',
             template="plotly_dark",
             )

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(piecolorway=custom_color_scale)
fig.show()

#### 1.1.3.12. <a id='toc1_1_3_12_'></a>[Top 10 de los empleos mas cotizados:](#toc0_)

In [28]:
top10_cotizados = df.groupby('job_title')['salary_in_usd'].mean().reset_index() 
top10_cotizados.sort_values(by='salary_in_usd', inplace=True, ascending=False)

custom_color_scale = [
    [0, '#D8F64B'],
    [1, '#556B2F']
]

fig = px.bar(top10_cotizados[:10], 
             y='job_title', 
             x='salary_in_usd', 
             color='salary_in_usd', 
             title='Best paid jobs', 
             template="plotly_dark",
             color_continuous_scale=custom_color_scale)

fig.update_xaxes(title_text='Salary in USD')
fig.update_yaxes(title_text='Job Title')
fig.update_layout(coloraxis_colorbar=dict(title='Salary in USD'))

fig.show()

#### 1.1.3.13. <a id='toc1_1_3_13_'></a>[Top 10 de empleos con mayor proporción de trabajo remoto:](#toc0_)

In [29]:
top10_remotos = df.groupby('job_title')['remote_ratio'].mean().reset_index()
fig = px.funnel(top10_remotos[:10].sort_values(by='remote_ratio', ascending=False),
                x='job_title',
                y='remote_ratio', 
                title='Top 10 Jobs with the Highest Remote Work Ratio',
                color_discrete_sequence=['#D8F64B'], 
                template="plotly_dark")

fig.update_xaxes(title_text='')
fig.show()