# Laboratorio 2: Técnicas de visualización para estadística descriptiva

Noviembre 2023

# Instrucciones

- Trabajar en grupos de dos o tres personas.
- Hacer una copia de este notebook en `File -> Save a copy in Drive`.
- Se recomienda que uno de los integrantes transmita su pantalla con el notebook mientras conversan en equipo.
- Al final de la sesión, descargar el notebook `File -> Download -> Download .ipynb` y subirlo en la sección Tareas de U-Cursos que se abrirá para esta sesión. Se debe realizar una entrega por grupo.


**Nombres:**

Daniela Mancilla

Gabriela Martínez

Francisca Quijada



# Datos

Salarios de trabajos de ciencia de datos. El dataset tiene 607 registros y 11 atributos. Fuente: ai-jobs.net Salaries

Ver documentación en: https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries

In [1]:
import pandas as pd

data = pd.read_csv("https://raw.githubusercontent.com/cinthiasanchez/visualization/main/ds_salaries.csv")
del data['Unnamed: 0'] #ignoramos esta columna de índices
data.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L


**Para cada una de las siguientes preguntas cree una visualización usando matplotlib, seaborn o ploty. Describa el mapeo visual y su interpretación del gráfico en respuesta a la pregunta planteada. En cada caso, agregue un título y etiquetas necesarias para que la visualización se entienda por sí misma.**

In [2]:
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

**Pregunta 1:** Visualice el top-10 de empleos (job_title) mejores pagados (en usd), ordenado de forma descendente.

In [3]:
data1=data.groupby(["job_title"])['salary_in_usd'].mean().sort_values( ascending=False).round(0).head(10)
data1=data1.reset_index()
data1

Unnamed: 0,job_title,salary_in_usd
0,Data Analytics Lead,405000.0
1,Principal Data Engineer,328333.0
2,Financial Data Analyst,275000.0
3,Principal Data Scientist,215242.0
4,Director of Data Science,195074.0
5,Data Architect,177874.0
6,Applied Data Scientist,175655.0
7,Analytics Engineer,175000.0
8,Data Specialist,165000.0
9,Head of Data,160163.0


In [4]:
fig = px.bar(data1,
             x='job_title',
             y='salary_in_usd',
             title="Empleos mejores pagados",
             labels = {'job_title': 'Empleo', 'salary_in_usd': 'Salario en USD'},
             text_auto='.0f',
             width=700, height=550)
fig.update_traces(textposition = "outside")
fig.show()

Mapeo visual: 

El eje x representa el nombre del empleo, mientras que el eje y representa el salario promedio en dólares.

Interpretación del gráfico: 
- El rango de los 10 empleos mejores pagados va aproximadamente: desde los 405.000 USD, que corresponde al empleo "Data Analytics Lead", hasta los 160.000 USD, correspondiente al empleo "Head of Data".
- La mayoría de los 10 empleos, 6 de 10, tienen un salario menor a los 200.000 USD, luego 3 de 10 tienen un salario que va entre los 200.000 USD y los 400.000 USD, y sólo 1 supera los 400.000 USD.
- Adicionalmente, los empleos con menor salario, desde el "Head of Data" hasta el "Principal Data Scientist" presentan una baja diferencia del salario entre ellos, siendo casi lineal el aumento, mientras que desde el "Principal Data Scientist" hasta el "Data Analytics Lead", se observa un aumento del salario con una pendiente mayor. Es decir, en este último grupo, la diferencia del salario es mayor entre los distintos empleos.

**Pregunta 2:** Visualice el salario promedio (en usd) según el nivel de experiencia y tipo de empleo.

In [5]:
data2=data.groupby(["experience_level","employment_type"])['salary_in_usd'].mean()
data2=data2.reset_index()
data2.head(3)


Unnamed: 0,experience_level,employment_type,salary_in_usd
0,EN,CT,65937.5
1,EN,FT,64457.455696
2,EN,PT,28656.857143


In [6]:
fig = px.bar(data2,
             x='employment_type',
             y='salary_in_usd',
             color="experience_level",
             title="Salario según el tipo de empleo y el nivel de experiencia",
             barmode="group",
             labels = {'employment_type': 'Tipo de empleo','experience_level': 'Experiencia', 'salary_in_usd': 'Salario en USD'},
             width=700, height=400,
             category_orders={'experience_level':['EX','SE','MI','EN'], 'employment_type':['CT', 'FT', 'PT','FL']},
             color_discrete_sequence=("#253494","#2c7fb8","#41b6c4","#a1dab4"),
             )
fig.update_layout(
    xaxis = dict(
        tickvals = ['CT','FT', 'PT', 'FL'],
        ticktext = ['Contrata', 'Tiempo completo', 'Tiempo parcial', 'Independiente']
    )
)

newnames = {'EX':'Director','SE':'Experto','MI': 'Intermedio', 'EN':'Básico'};
fig.for_each_trace(lambda t: t.update(name = newnames[t.name]))
fig.show()

Mapeo visual: 
- El eje x representa el tipo de empleo (o contrato), mientras que el eje y representa el salario promedio en dólares.
- El color representa el nivel de experiencia, para lo que se utilizó una escala de colores secuencial. El color oscuro corresponde a la mayor experiencia (Director), mientras que el más claro a la menor experiencia (Básico).

Interpretación del gráfico: 
- Se observa que las personas que trabajan a tiempo parcial tienen un bajo nivel de experiencia y son los que presentan menores ingresos. Asimismo, los que trabajan de forma independiente reciben menos salario que los de tiempo completo y a contrata.
- En todos los tipos de empleo se observa que a mayor experiencia (de básico a director), aumenta el salario, excepto para el tipo de empleo a contrata, donde la experiencia experto tiene menor salario que el intermedio.
- En términos generales, los sueldos más altos se encuentran en el tipo de empleo a contrata.


**Pregunta 3:** Visualice la distribución de los salarios (en usd) según el tamaño de la compañía. Se recomienda ocupar histograma o boxplot.

In [7]:
fig = px.box(data,
             color="company_size",
             x="company_size",
             y="salary_in_usd",
             title="Distribución de salario según el tamaño de la compañía",
             labels = {'company_size': 'Tamaño de la compañía', 'salary_in_usd': 'Salario en USD'},
             category_orders={'company_size':['S','M', 'L']},
              color_discrete_sequence=("#41b6c4","#2c7fb8","#253494"),
             width=500, height=500)

fig = fig.update_layout(showlegend=False)
fig.update_layout(
    xaxis = dict(
        tickvals = ['L','M', 'S'],
        ticktext = ['Grande', 'Mediana', 'Pequeña'] ))
fig.show()

Mapeo visual: 
- El eje x representa el tamaño de la empresa, correspondiente a pequeña, mediana o grande; mientras que el eje y representa el salario promedio en dólares.
- Además, el color representa el tamaño de la empresa, para potenciar este atributo ordinal. Los colores utilizados corresponden a una escala de colores secuencial, donde el color más claro representa a las empresas pequeñas
#mientras que el más oscuro representa a las empresas grandes.

Interpretación del gráfico: 
- Se observa que la mediana más alta se encuentra para las empresas medianas, mientras que la más baja para las pequeñas. Las empresas que presentan un mayor rango intercuartílico son las grandes, mientras que las de menor rango intercuartílico corresponden a las pequeñas, lo que es una medida de la dispersión de los salarios. No se observan valores atípicos para salarios bajos, sin embargo, se observan valores atípicos muy altos para los 3 tamaños de empresas.
- En términos generales, los diagramas de caja de las empresas medianas y grandes, son bastante similares, donde la mayor diferencia se presenta en el cuartil 1, siendo aproximadamente 78.000 USD para las medianas, versus 60.000 USD para las grandes.

**Pregunta 4:** Visualice, en un gráfico de líneas, cómo ha evolucionado el salario promedio (en usd) según el tipo de empleo por año, del 2020 al 2022.

In [8]:
data3=data.groupby(["employment_type","work_year"])['salary_in_usd'].mean()
data3=data3.reset_index()
data3.head(3)

Unnamed: 0,employment_type,work_year,salary_in_usd
0,CT,2020,100000.0
1,CT,2021,263666.666667
2,CT,2022,31875.0


In [9]:
fig = px.line(data3, x="work_year", y="salary_in_usd",
              labels={'work_year':'Año', 'salary_in_usd': 'Salario en USD','employment_type':'Tipo de empleo'},
              width=700,height=400,
              color='employment_type', markers=True,
              title='Evolución del salario promedio',
              category_orders={ 'employment_type':['CT', 'FT', 'PT','FL']},
               color_discrete_sequence=("#253494","#2c7fb8","#41b6c4","#a1dab4"),
              )
fig.update_xaxes(type='category')

newnames = {'CT':'Contrata','FT': 'Tiempo completo', 'PT':'Tiempo parcial','FL':'Independiente',};
fig.for_each_trace(lambda t: t.update(name = newnames[t.name]))
fig.show()

Mapeo visual:
 
El eje x representa el año, mientras que el eje y representa el salario promedio en dólares. Además el color representa el tipo de empleo, para lo cual se esocogió una escala de colores secuencial.

Interpretación del gráfico:
- Se observa que del año 2020 al 2021, el único tipo de empleo que aumentó considerablemente su salario fue el a contrata, los demás se mantuvieron relativamente iguales (tiempo completo y parcial), mientras que el independiente disminuyó.
- Del año 2021 al 2022, el único que mostró un descenso, el cual fue muy significativo es el a contrata, mientras que los otros 3 mostraron un aumento.
- Si se compara el año inicial 2020, con el final 2022, se observa que el único tipo de empleo que disminuyó su salario es el a contrata, mientras que los demás presentaron un aumento. El tipo de empleo a tiempo parcial fue el que presentó un mayor aumento, sobre un 300%; el independiente presentó un aumento cercano
a un 40%; el de tiempo completo presentó un aumento cercano al 25%; y el a contrata presentó una disminución cercana al 70%.

**Pregunta 5 (opcional):** Plantee una nueva pregunta sobre los datos y cree una visualización que permita responderla. La visualización debe tener al menos 3 variables visuales.

Se propone visualizar la distribución de los salarios, de acuerdo a la cantidad de trabajo remoto, para los 3 empleos más populares.

In [10]:
data["job_title"].value_counts().head(5)

job_title
Data Scientist               143
Data Engineer                132
Data Analyst                  97
Machine Learning Engineer     41
Research Scientist            16
Name: count, dtype: int64

Los 3 trabajos más populares son: Data Scientist, Data Engineer, Data Analyst y Machine Learning Egineer.

In [11]:
data5=data[data.job_title.isin(['Data Scientist', 'Data Engineer', 'Data Analyst'])].sort_values(by=['remote_ratio'])
data5["remote_ratio "]=data5["remote_ratio"].astype(str)
data5.head(3)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,remote_ratio.1
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L,0
292,2022,MI,FT,Data Scientist,130000,USD,130000,US,0,US,M,0
565,2022,SE,FT,Data Engineer,54000,USD,54000,US,0,US,M,0


In [12]:
fig = px.violin(data5,
                x="job_title" ,
                y="salary_in_usd",
                color="remote_ratio",
                title="Salario para los trabajos más populares (top 3), en función del trabajo remoto",
                labels = {'remote_ratio': 'Porcentaje de trabajo remoto','job_title': 'Empleo', 'salary_in_usd': 'Salario en USD'},
                box=True,
                category_orders={'job_title':['Data Scientist','Data Engineer','Data Analyst']},
                 color_discrete_sequence=("#41b6c4","#2c7fb8","#253494"),
                width=1100, height=500,
                )
fig.show()

Mapeo visual: 

- El eje x representa el nombre del empleo, mientras que el eje y representa el salario promedio en dólares.
- Además el color representa la cantidad de trabajo remoto, para lo cual se esocogió una escala de colores secuencial.
- Las tres variables visuales que se utilizan son: color, posición (relativa a los cuartiles) y forma.

Interpretación del gráfico: 

- Para los tres empleos, se observa que en términos generales, el tipo de empleo que recibe menor salario es cuyo porcentaje de trabajo remoto corresponde a un 50%, mientras que el que recibe un mayor salario tiene un porcentaje de trabajo remoto igual a un 100%.
- Se observa que los violines más alargados corresponden a los empleos de Data Scientist y Data Engineer, cuyos % de trabajo remoto corresponden a un 0% y 100%, lo que implica que el rango total de los salarios es mayor en esos grupos.
- Para cada empleo, los sueldos que presentan un menor rango, corresponden a los trabajadores que trabajan 50% remoto. Esto se observa al ser los violines más cortos.