<a href="https://colab.research.google.com/github/VictoriaEFernandez/proyecto-Final-CursoPy/blob/main/Proyecto_Integrador_N%C2%BA3_Victoria_Fernandez.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[<img src="https://siliconmisiones.gob.ar/wp-content/uploads/2023/05/cropped-500x500px-logo-silicon.png" alt="Logo Silicon Misiones" width="300"/>](https://siliconmisiones.gob.ar/)

<div class="markdown-google-sans">
  <h1>Python para Ciencia de Datos e Inteligencia Artificial - Proyecto Integrador Nº3</h1>
</div>

# Sobre el Dataset a utilizar

- Este dataset contiene información relacionada con salarios en el ámbito de Data Science a nivel mundial entre 2020 y 2022.
- [`ds_salaries.csv`](https://gist.githubusercontent.com/mzapf/2004abf1a9e38e6951625f3cf055d133/raw/0c6182893c3ae04f2fcb39283723fdf5cfd0ecbd/ds_salaries.csv) fue generado por [Ruchi Bhatia](https://ruchisbhatia.com/) con datos de [ai-jobs.net](https://ai-jobs.net/).

## Descripción de cada columna

| Columna             | Descripción                                                                                                        |
|--------------------|--------------------------------------------------------------------------------------------------------------------|
| work_year          | El año en que se pagó el salario.                                                                                  |
| experience_level   | El nivel de experiencia en el trabajo durante el año con los siguientes valores posibles: EN Entry-level / Junior MI Mid-level / Intermediate SE Senior-level / Expert EX Executive-level / Director |
| employment_type    | El tipo de empleo para el rol: PT Part-time FT Full-time CT Contract FL Freelance                                   |
| job_title          | El puesto desempeñado durante el año.                                                                              |
| salary             | El monto total del salario bruto pagado.                                                                           |
| salary_currency    | La moneda en la que se pagó el salario según el código ISO 4217.                                                   |
| salary_in_usd      | El salario en USD (tasa de cambio promedio dividida por la tasa USD del año respectivo, según fxdata.foorilla.com). |
| employee_residence | El país de residencia principal del empleado durante el año laboral, según el código de país ISO 3166.              |
| remote_ratio       | La cantidad total de trabajo realizado de forma remota, los valores posibles son: 0 Sin trabajo remoto (menos del 20%) 50 Parcialmente remoto 100 Completamente remoto (más del 80%) |
| company_location   | El país de la oficina principal o sucursal contratante del empleador, según el código de país ISO 3166.             |
| company_size       | El número promedio de empleados que trabajaron para la empresa durante el año: S menos de 50 empleados (pequeña) M 50 a 250 empleados (mediana) L más de 250 empleados (grande) |


# Análisis Exploratorio de Datos

## Importación del dataset y módulos a utilizar

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

dataset_url = "https://gist.githubusercontent.com/mzapf/2004abf1a9e38e6951625f3cf055d133/raw/0c6182893c3ae04f2fcb39283723fdf5cfd0ecbd/ds_salaries.csv"

# Importación del dataset con pandas
data = pd.read_csv(dataset_url)

# Si trabajamos con el objeto EDA (POO) de la Clase 24;
# data = EDA(dataset_url, 'csv')
# data.df retorna el DataFrame

## Paso a paso del Análisis Exploratorio de Datos

In [8]:
#Mostramos las primeras 10 ingresos, para visualizar la tabla
data.head(10+1) #Mostramos los primeros 10 datos


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L
5,2020,EN,FT,Data Analyst,72000,USD,72000,US,100,US,L
6,2020,SE,FT,Lead Data Scientist,190000,USD,190000,US,100,US,S
7,2020,MI,FT,Data Scientist,11000000,HUF,35735,HU,50,HU,L
8,2020,MI,FT,Business Data Analyst,135000,USD,135000,US,100,US,L
9,2020,SE,FT,Lead Data Engineer,125000,USD,125000,NZ,50,NZ,S


### 1. Conociendo la estructura inicial del dataset

Antes de comenzar a analizar en profundidad los datos, es importante entender cuántas observaciones (filas) y variables (columnas) tenemos.

In [7]:
num_observaciones = data.shape[0]  # Número de filas
num_variables = data.shape[1]      # Número de columnas

print(f"Observaciones (filas): {num_observaciones}")
print(f"Variables (columnas): {num_variables}")

Observaciones (filas): 607
Variables (columnas): 11


### 2. Explorando los tipos de datos

Conocer los tipos de datos de cada columna nos permitirá entender mejor cómo están estructurados los datos, lo cual es crucial para decidir cómo manipularlos y analizarlos más adelante.

In [9]:
# Mostrar los tipos de datos de cada columna
tipos_de_datos = data.dtypes
print(tipos_de_datos)
"""data.dtypes: Devuelve una serie que contiene el tipo de datos de cada columna en el DataFrame."""

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object


### 3. Explorando las primeras y últimas filas del dataset

Para tener una idea inicial del contenido del dataset, es útil que observemos las primeras y últimas filas. Esto nos dará una visión general de cómo están organizados los datos y qué tipo de información contienen.

In [11]:
def primeras_ultimas_filas(df,n=2):
  #df: DataFrame con los datos
  #n: Numero de filas para mostrar
  if df is not None:
    print(f"Primeras {n} filas:")
    display(df.head(n))
    print(f"\nÚltimas {n} filas:")
    display(df.tail(n))
  else:
    print("El DataFrame está vacío.")
primeras_ultimas_filas(data)

Primeras 2 filas:


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S



Últimas 2 filas:


Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
605,2022,SE,FT,Data Analyst,150000,USD,150000,US,100,US,M
606,2022,MI,FT,AI Scientist,200000,USD,200000,IN,100,US,L


### 4. Identificando los valores nulos

Es fundamental que identifiquemos si hay valores faltantes en nuestro dataset, ya que estos pueden influir en el análisis posterior. Detectar los valores nulos nos dará una idea de las columnas que requieren atención o tratamiento especial antes de proceder con el análisis.

### 5. Detectando filas duplicadas

Es importante que revisemos si nuestro dataset contiene filas duplicadas, ya que pueden distorsionar los resultados del análisis. Identificar estos duplicados nos permitirá limpiarlos para asegurar que los datos sean precisos y confiables.

### 6. Calculando estadísticas básicas

Obtener un resumen de las estadísticas descriptivas nos permitirá entender mejor las características principales de las variables numéricas y categóricas del dataset. Esto nos dará una visión general sobre la distribución, los promedios, las desviaciones y otros aspectos importantes de los datos.

### 7. Resumen de valores únicos

Es útil que revisemos cuántos valores únicos existen en cada columna del dataset. Esto nos ayudará a entender la diversidad de los datos, especialmente en las columnas categóricas, y a identificar posibles oportunidades para segmentar o analizar los datos en mayor profundidad.

### 8. Visualizando la matriz de correlación

Para comprender mejor las relaciones entre las variables numéricas, es útil que generemos una matriz de correlación. Esto nos permitirá identificar posibles patrones o relaciones entre las variables, lo cual es crucial para análisis más profundos y para la construcción de modelos predictivos.

### 9. Analizando la distribución por año

Vamos a revisar cuántas observaciones tenemos para cada año en la variable `work_year` del dataset. Esto nos permitirá entender mejor la distribución temporal de los datos.

### 10. Analizando la distribución del trabajo remoto

Revisemos la cantidad de observaciones para cada nivel de `remote_ratio` en el dataset. Esto nos ayudará a entender la frecuencia de trabajo presencial, híbrido y remoto.

### 11. Los 10 roles más populares en la ciencia de datos

Vamos a visualizar los 10 roles más frecuentes en la variable `job_title` del dataset. Esto nos permitirá identificar cuáles son los roles más comunes en el ámbito de la ciencia de datos.

### 12. Los 10 roles mejor pagados en ciencia de datos

Vamos a visualizar los 10 roles mejor pagados en la variable `job_title` del dataset, basándonos en la columna de `salary_in_usd`. Esto nos permitirá identificar los puestos con los salarios más altos en el ámbito de la ciencia de datos.

### 13. Los 10 roles más importantes en ciencia de datos según el salario promedio

Vamos a calcular y visualizar los 10 roles en ciencia de datos con el salario promedio más alto, basándonos en la variable `job_title` y `salary_in_usd`. Esto nos permitirá identificar los puestos más valorados económicamente en el campo de la ciencia de datos.

### 14. Total de empleos según nivel de experiencia

Vamos a visualizar la distribución del total de empleos para cada nivel de experiencia, utilizando la variable `experience_level` del dataset. De esta forma, podremos identificar cómo se distribuyen los puestos de trabajo entre los diferentes niveles de experiencia.

### 15. Porcentaje de trabajos on-site, híbridos y remotos

Vamos a visualizar el porcentaje de trabajos que son on-site, híbridos y remotos, utilizando la variable `remote_ratio` del dataset. Esto nos ayudará a comprender mejor la distribución de las modalidades de trabajo en el campo de la ciencia de datos.

### 16. Gráfico KDE de la distribución de los salarios en USD

Vamos a crear un gráfico KDE para visualizar la distribución de los salarios en USD, utilizando la variable `salary_in_usd` del dataset. Este gráfico nos permitirá observar la densidad de los salarios y cómo se distribuyen dentro del dataset.

### 17. Boxplot según nivel de experiencia y salario en USD

Vamos a crear un boxplot para comparar la distribución de los salarios en USD según el nivel de experiencia, utilizando las variables `experience_level` y `salary_in_usd` del dataset. Este gráfico nos ayudará a visualizar la variabilidad de los salarios en cada nivel de experiencia, así como identificar posibles valores atípicos.

## Conclusión

A lo largo de esta exploración del dataset de salarios en Ciencia de Datos, hemos obtenido una visión detallada de varios aspectos clave. Comenzamos por comprender la estructura del dataset y el tipo de información que contiene. A partir de ahí, analizamos la distribución de los datos a través de los años, el trabajo remoto y los diferentes niveles de experiencia.

También identificamos los roles más comunes y mejor pagados, así como las diferencias salariales en función de la experiencia. Los gráficos de densidad y boxplots nos permitieron visualizar cómo se distribuyen los salarios y detectar variabilidad entre los diferentes roles.

Finalmente, estos análisis nos proporcionaron un panorama claro del mercado laboral en ciencia de datos, destacando las tendencias salariales, la importancia de los roles y las modalidades de trabajo.