DATASET: https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023

### Planteamiento del problema de negocio

En este estudio, nuestro objetivo es predecir el salario de profesionales en ciencia de datos en función de diversas variables relacionadas con el trabajo, la experiencia y la ubicación.

Hemos elegido el conjunto de datos "Salarios de ciencia de datos 2023" porque:
Contiene información relevante como título del trabajo, nivel de experiencia, tipo de empleo, ubicación de la empresa y salario .
Incluye variables numéricas y categóricas , lo que permite aplicar técnicas de preprocesamiento como PCA (no supervisado) y modelos de regresión (supervisado) .

El salario es una variable continua , lo que nos lleva a un problema de regresión en lugar de clasificación.
Es útil en la vida real: entender qué factores influyen en el salario puede ayudar tanto a compañeros como a profesionales de datos.
 



In [1]:
import pandas as pd


In [2]:
df=pd.read_csv("./data/ds_salaries.csv")
df

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


### Estructura del análisis

Vamos a dividir el análisis en varias fases:

* **1️ Exploración y análisis inicial de los datos.**


Antes de aplicar cualquier modelo, debemos entender cómo están estructurados los datos:

• Distribución de la variable objetivo (salario) → Ver si es normal, sesgada, etc

• Correlación entre variables numéricas → Identificar si hay relaciones fuertes con el salario.

• Análisis de la cardinalidad de las variables categóricas → Ver cuántos valores únicos hay en cada una (ejemplo: ¿cuántos títulos de trabajo diferentes existen?).

• Detección de valores atípicos (outliers) → Salarios extremadamente altos o bajos podrían distorsionar el modelo.

• Manejo de valores nulos → Determinar si hay datos faltantes y cómo tratarlos.


* **2️ Aplicación de un modelo no supervisado: PCA**

  
Antes de entrenar un modelo de regresión, queremos reducir la dimensionalidad con PCA para:

• Identificar patrones ocultos en los datos numéricos.

• Reducir la redundancia si hay variables muy correlacionadas.

• Visualice los datos en un espacio de menor dimensión y ver si se pueden agrupar según ciertas características.

El PCA solo se aplicará a variables numéricas, así que las categóricas aún no se transforman en esta etapa.

* **3️ Preparación de los datos para el modelo supervisado**

  
#### Aquí ya nos preparamos para la regresión:

a) Creación del Pipeline de preprocesamiento

Dentro del Pipeline aplicaremos:

• OneHotEncoding a variables categóricas: Convertimos texto en variables numéricas.

• Estandarización o normalización de variables numéricas: PCA y modelos de regresión funcionan mejor con datos escalados.

• Manejo de valores desconocidos en prueba : Configuramos OneHotEncoder(handle_unknown='ignore')para evitar errores si aparecen categorías nuevas en prueba.

b) División Tren/Test

Dividimos los datos en entrenamiento y prueba para evaluar el rendimiento del modelo.

* **4️ Entrenamiento de modelos supervisados**
  
• Probamos diferentes modelos de regresión:

o Regresión Lineal (modelo base para interpretar resultados).

o Random Forest Regresor (captura relaciones no lineales).

o XGBoost o LightGBM (modelos más avanzados y eficientes).

* **5 Evaluación del modelo**
  
• Clave métrica: Usaremos MSE (Error Cuadrático Medio) y R² para medir la precisión del modelo.

• Validación cruzada: Para evaluar el rendimiento real y evitar el sobreajuste.

• GridSearchCV : Para optimizar hiperparámetros y encontrar la mejor configuración del modelo.


### Orden en el que haremos cada paso

Exploración de los datos (distribuciones, correlaciones, cardinalidad, valores atípicos, etc.)MIERCOLES

Aplicación de PCA (solo a variables numéricas, para análisis exploratorio). JUEVES

Creación del Pipeline de preprocesamiento (OneHotEncoding, escalado, etc.).VIERNES CLASE MAS DUDAS

División Train/Test . FIND

Entrenamiento de modelos supervisados. FINDE

Evaluación del modelo con validación cruzada y GridSearchCV . FINDE