# Data Science Salaries 2023

This dataset is useful for understanding the distribution of salaries in the data science field and how these can vary based on factors such as employee and employer location, level of experience, type of employment, among others. It allows us to explore the impact of remote work on data science salaries and begin to draw our own conclusions.

#### VARIABLES

<table>
  <tr>
    <th>Column Name</th>
    <th>Description</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>The year the salary was paid.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>The level of experience in the job during the year.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>The type of employment for the role.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>The role performed during the year.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>The gross total of the salary paid.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>The currency of the salary paid as an ISO 4217 currency code.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>The salary in United States dollars (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>The primary country of residence of the employee during the work year as an ISO 3166 country code.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>The total amount of work done remotely.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>The country of the employer's main office or contracting branch.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>The median number of people who worked for the company during the year.</td>
  </tr>
</table>

### Objetives:

The main objective of this exercise is to learn and apply data analysis and visualization techniques using the Python libraries Matplotlib, Seaborn and Plotly.

The proper steps to complete it are:

1. **Explore the data set**: Understand the structure of the data set, the types of variables present and how they are distributed.
 **Clean and prepare the data set**: Manipulate the data to make it more accessible and useful for analysis. This may include dealing with missing values, converting data types, and generating new variables from existing ones.
   
2. **Analyze the data set**: Extract useful and meaningful information from the data set through various data analysis techniques. </br>
 **Visualize data**: Create graphs and diagrams that help understand and communicate the patterns and relationships present in the data.

To answer the questions posed, the following libraries should be used:

- Use **Matplotlib** to create basic plots such as bar, line and scatter plots.
- Use **Seaborn** to create more complex and visually attractive graphics, taking advantage of its integration capabilities with pandas.
- Use **Plotly** to create interactive graphs that allow deeper exploration of the data.



### First step, data loading, cleaning, exploration and first understanding of our dataset

#### Import the necessary libraries:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import plotly.express as px

KeyboardInterrupt: 

#### Load our dataset

In [None]:
df = pd.read_csv("/home/deme/Documents/GitHub/Upgrade_Hub/temario/Módulo 1/Plotly/data_practica/ds_salaries.csv")

In [3]:
df.head(15)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
7,2023,SE,FT,Data Scientist,219000,USD,219000,CA,0,CA,M
8,2023,SE,FT,Data Scientist,141000,USD,141000,CA,0,CA,M
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M


¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?

In [4]:
df.shape

(3755, 11)

¿Qué tipos de datos contiene cada columna? 

In [5]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

¿Existen valores faltantes en el conjunto de datos? 

#### ¿Cúal es la distribución que presentan las variables de nuestro dataset?

#### Crea una gráfica para visualizar nuestras variables numéricas:

#### Crea una gráfica para visualizar nuestras variables categóricas:

#### Identifica los outliers de nuestro dataset de forma gráfica: 

Mas adelante veremos como tratar el tema de los outliers o profundizar por ejemplo en los valores repetidos y sus posibles causas, en este ejercicio damos por hecho que los valores repetidos no son un error de generación de nuestro dataset y que los outliers encontrados son reales, por lo tanto lejos de eliminarlos, nos sirven para realizar mejores análisis de datos sobre nuestras variables en cuestión.

### Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva:

Una vez que hemos limpiado y preparado nuestros datos, estamos listos para comenzar a explorarlos y visualizarlos. Si no se nos ha proporcionado un objetivo específico para nuestro análisis, es muy útil formular preguntas sobre nuestros datos. Estas preguntas guiarán nuestras visualizaciones y análisis, y nos ayudarán a descubrir patrones, tendencias e información valiosa.

#### Preguntas a resolver usando las librerías de creaciones gráficas vistas en clase: 

¿Cuál es el salario promedio por nivel de experiencia?

¿Cómo ha cambiado el salario medio con el paso del tiempo (work_year)?

¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?

¿Existe una relación entre el tamaño de la empresa y el salario?

¿Cuál es el país con más trabajadores remotos?

¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?

¿Cuál es el país con los salarios promedio más altos en USD?

¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?

¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime ect?

#### Crear un top10 con los empleos mas demandados:

####  Crear un top10 con los empleos mas cotizados:

####  Crear un top10 con empleos donde podemos trabajar remoto: 