# Data Science Salaries 2023

Este conjunto de datos es útil para entender la distribución de los salarios en el campo de la ciencia de datos y cómo estos pueden variar en función de factores como la ubicación del empleado y del empleador, el nivel de experiencia, el tipo de empleo, entre otros. Nos permite explorar el impacto del trabajo remoto en los salarios de ciencia de datos y empezar a sacar nuestras propias conclusiones.

#### VARIABLES

<table>
  <tr>
    <th>Nombre de la columna</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>work_year</td>
    <td>El año en que se pagó el salario.</td>
  </tr>
  <tr>
    <td>experience_level</td>
    <td>El nivel de experiencia en el trabajo durante el año.</td>
  </tr>
  <tr>
    <td>employment_type</td>
    <td>El tipo de empleo para el rol.</td>
  </tr>
  <tr>
    <td>job_title</td>
    <td>El rol desempeñado durante el año.</td>
  </tr>
  <tr>
    <td>salary</td>
    <td>El total bruto del salario pagado.</td>
  </tr>
  <tr>
    <td>salary_currency</td>
    <td>La moneda del salario pagado como código de moneda ISO 4217.</td>
  </tr>
  <tr>
    <td>salaryinusd</td>
    <td>El salario en dólares estadounidenses (USD).</td>
  </tr>
  <tr>
    <td>employee_residence</td>
    <td>El principal país de residencia del empleado durante el año de trabajo como código de país ISO 3166.</td>
  </tr>
  <tr>
    <td>remote_ratio</td>
    <td>La cantidad total de trabajo realizado a distancia.</td>
  </tr>
  <tr>
    <td>company_location</td>
    <td>El país de la oficina principal del empleador o la sucursal contratante.</td>
  </tr>
  <tr>
    <td>company_size</td>
    <td>El número mediano de personas que trabajaron para la empresa durante el año.</td>
  </tr>
</table>


### Objetivos:


El objetivo principal de este ejercicio es aprender y aplicar técnicas de análisis y visualización de datos utilizando las bibliotecas de Python Matplotlib, Seaborn y Plotly. 

Los pasos adecuados para completarlo son:

1. **Explorar el conjunto de datos**: Comprender la estructura del conjunto de datos, los tipos de variables presentes y cómo estas están distribuidas.
   **Limpiar y preparar el conjunto de datos**: Manipular los datos para que sean más accesibles y útiles para el análisis. Esto puede incluir tratar con valores faltantes, convertir tipos de datos y generar nuevas variables a partir de las existentes.
   
2. **Analizar el conjunto de datos**: Extraer información útil y significativa del conjunto de datos a través de diversas técnicas de análisis de datos. </br>
   **Visualizar los datos**: Crear gráficos y diagramas que ayuden a entender y comunicar los patrones y las relaciones presentes en los datos.

Para responder a las preguntas planteadas se deben usar las siguientes bibliotecas :

- Usar **Matplotlib** para crear gráficos básicos como gráficos de barras, de líneas y de dispersión.
- Usar **Seaborn** para crear gráficos más complejos y atractivos visualmente, aprovechando sus capacidades de integración con pandas.
- Usar **Plotly** para crear gráficos interactivos que permiten una exploración más profunda de los datos.




### Primer paso, la carga de datos, limpieza, exploración y primera comprensión de nuestro dataset

#### Importamos las librerías necesarias:


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import plotly.express as px

#### Cargamos nuestro dataset


In [7]:
df = pd.read_csv(r"C:\Users\Dai\Desktop\Bootcamp_Upgrade_Hub\GitHub\Analisis-de-salario\ds_salaries.csv")

In [8]:
df.head(15)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
5,2023,SE,FT,Applied Scientist,222200,USD,222200,US,0,US,L
6,2023,SE,FT,Applied Scientist,136000,USD,136000,US,0,US,L
7,2023,SE,FT,Data Scientist,219000,USD,219000,CA,0,CA,M
8,2023,SE,FT,Data Scientist,141000,USD,141000,CA,0,CA,M
9,2023,SE,FT,Data Scientist,147100,USD,147100,US,0,US,M


¿Cuántas entradas (filas) y variables (columnas) tiene el conjunto de datos?

In [9]:
df.shape

(3755, 11)

¿Qué tipos de datos contiene cada columna? 

In [10]:
df.dtypes

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object

¿Existen valores faltantes en el conjunto de datos? 

In [11]:
df.isnull()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
3750,False,False,False,False,False,False,False,False,False,False,False
3751,False,False,False,False,False,False,False,False,False,False,False
3752,False,False,False,False,False,False,False,False,False,False,False
3753,False,False,False,False,False,False,False,False,False,False,False


In [12]:
df.isnull().sum()

work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64

In [14]:
df.isnull().sum().sum()

0

#### ¿Cúal es la distribución que presentan las variables de nuestro dataset?

#### Crea una gráfica para visualizar nuestras variables numéricas:

#### Crea una gráfica para visualizar nuestras variables categóricas:

#### Identifica los outliers de nuestro dataset de forma gráfica: 

Mas adelante veremos como tratar el tema de los outliers o profundizar por ejemplo en los valores repetidos y sus posibles causas, en este ejercicio damos por hecho que los valores repetidos no son un error de generación de nuestro dataset y que los outliers encontrados son reales, por lo tanto lejos de eliminarlos, nos sirven para realizar mejores análisis de datos sobre nuestras variables en cuestión.

### Segundo paso, la visualización y el análisis de datos de forma gráfica y atractiva:

Una vez que hemos limpiado y preparado nuestros datos, estamos listos para comenzar a explorarlos y visualizarlos. Si no se nos ha proporcionado un objetivo específico para nuestro análisis, es muy útil formular preguntas sobre nuestros datos. Estas preguntas guiarán nuestras visualizaciones y análisis, y nos ayudarán a descubrir patrones, tendencias e información valiosa.

#### Preguntas a resolver usando las librerías de creaciones gráficas vistas en clase: 

¿Cuál es el salario promedio por nivel de experiencia?

¿Cómo ha cambiado el salario medio con el paso del tiempo (work_year)?

¿Cuál es la proporción de trabajo remoto entre diferentes roles de trabajo?

¿Existe una relación entre el tamaño de la empresa y el salario?

¿Cuál es el país con más trabajadores remotos?

¿Cómo ha cambiado la proporción de trabajo remoto con el paso del tiempo?

¿Cuál es el país con los salarios promedio más altos en USD?

¿Cómo se distribuyen los roles de trabajo en las diferentes categorías de experiencia?

¿Cómo varía el salario promedio entre los diferentes tipos de empleo, fulltime, partime ect?

#### Crear un top10 con los empleos mas demandados:

####  Crear un top10 con los empleos mas cotizados:

####  Crear un top10 con empleos donde podemos trabajar remoto: 