<a href="https://colab.research.google.com/github/EzeRivero/Data-Science-II/blob/main/IA_Job_Rivero_1Entrega.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Data Science II: Primera Entrega
##Ezequiel Rivero
###Comisión 90455



#Introducción
En este trabajo estaré utilizando un dataset obtenido desde Kaggle.com, el cual trata de información sobre puestos de trabajo y salarios relacionados con Inteligencia Artificial, y tendencias en cuanto al mercado laboral global.

Elegí este dataset ya que es un tema en auge en la actualidad, y me pareció interesante analizarlo, además de que esta base de datos cumple con todos los requisitos de la entrega (tamaño, cantidad de variables, etc.). Es una temática que se encuentra en crecimiento y un mercado laboral de alta demanda, por lo que este análisis puede ser valioso. Cabe mencionar que los datos fueron generados artificialmente mediante herramientas de IA, por lo que no se tomaron fuentes de datos reales, aunque no impide su uso educacional y práctico.



#Objetivo

El **objetivo** será ***analizar los factores que influyen sobre el salario anual***, tanto demográficos como laborales, y poder desarrollar un modelo predictivo de regresión para poder estimar el mismo. Es por ello que para orientarnos en la elaboración de las hipótesis, buscaremos responder las siguientes preguntas:
+ ¿Cómo varía el salario anual según el nivel de experiencia (Entry, Mid, Senior, Executive)?
+ ¿Hay diferencias significativas entre las distintos grados de presencialidad (Remoto, Híbrido, Presencial)?
+ ¿Hay países que tengan, en promedio, mejores salarios que otros?
+ ¿Cómo se relacionan las variables como experiencia, presencialidad y país simultaneamente, con el salario anual?
+ ¿Hay alguna/s otra/s variable/s que modifique/n el salario anual de manera relevante?

#Contexto comercial
Para este trabajo, abordaremos el rol de una empresa consultora, dedicada al análisis estratégico, gestión y desarrollo de personas, y estudios de mercado y de opinión pública, para encontrar insights del mercado laboral relacionado a IA, y poder especializarse en este creciente sector.

#Hipótesis
Hipótesis Nula (H0): No existe una relación estadísticamente significativa entre alguna de las características laborales y el salario anual.

Hipótesis Alternativa (HA): Es posible predecir el salario anual, a partir de las características laborales, como el nivel de experiencia, entre otras.


Para comenzar con el análisis de los datos, importamos las librerías que utilizaremos, cargamos el dataset y observamos sus características generales:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
url = 'https://raw.githubusercontent.com/EzeRivero/Data-Science-II/refs/heads/main/ai_job_dataset.csv'

df = pd.read_csv(url)

In [None]:
df.head()

Unnamed: 0,job_id,job_title,salary_usd,salary_currency,experience_level,employment_type,company_location,company_size,employee_residence,remote_ratio,required_skills,education_required,years_experience,industry,posting_date,application_deadline,job_description_length,benefits_score,company_name
0,AI00001,AI Research Scientist,90376,USD,SE,CT,China,M,China,50,"Tableau, PyTorch, Kubernetes, Linux, NLP",Bachelor,9,Automotive,2024-10-18,2024-11-07,1076,5.9,Smart Analytics
1,AI00002,AI Software Engineer,61895,USD,EN,CT,Canada,M,Ireland,100,"Deep Learning, AWS, Mathematics, Python, Docker",Master,1,Media,2024-11-20,2025-01-11,1268,5.2,TechCorp Inc
2,AI00003,AI Specialist,152626,USD,MI,FL,Switzerland,L,South Korea,0,"Kubernetes, Deep Learning, Java, Hadoop, NLP",Associate,2,Education,2025-03-18,2025-04-07,1974,9.4,Autonomous Tech
3,AI00004,NLP Engineer,80215,USD,SE,FL,India,M,India,50,"Scala, SQL, Linux, Python",PhD,7,Consulting,2024-12-23,2025-02-24,1345,8.6,Future Systems
4,AI00005,AI Consultant,54624,EUR,EN,PT,France,S,Singapore,100,"MLOps, Java, Tableau, Python",Master,0,Media,2025-04-15,2025-06-23,1989,6.6,Advanced Robotics


#Glosario
+ job_id:	Id único para cada oferta de empleo.
+ job_title:	título del puesto estandarizado.
+ salary_usd:	Salario anual en dólares estadounidenses.
+ salary_currency:	Moneda original del salario.
+ salary_local:	Salario en moneda local.
+ experience_level:	Nivel de experiencia o señority: EN (Entry, Principiante), MI (Mid, Intermedio), SE (Senior), EX (Executive, Ejecutivo).
+ employment_type: Tipo de empleo:	FT (Full-time o tiempo completo), PT (Part-time o medio tiempo), CT (Contract o contrato), FL (Freelance o autónomo).
+ job_category:	Categoría de trabajo: ML Engineer, Data Scientist, AI Researcher, etc.
+ company_location:	País donde se ubica la empresa.
+ company_size:	Tamaño de la empresa según empleados: S (Pequeña <50), M (Mediana 50-250), L (Grande >250).
+ employee_residence:	País donde vive el empleado.
+ remote_ratio:	Proporción de (no) presencialidad del puesto: 0 (No remoto o presencial), 50 (Híbrido), 100 (completamente remoto).
+ required_skills:	Las 5 habilidades más requeridas(separadas por comas).
+ education_required:	El nivel mínimo de educación requerido.
+ years_experience:	Años de experiencia requeridos.
+ industry:	Sector industrial de la empresa.
+ posting_date:	Fecha en donde se publicó el puesto
+ application_deadline:	Fecha límite de solicitud.
+ job_description_length:	Recuento de caracteres de la descripción de puesto.
+ benefits_score:	Puntuación numérica del paquete de beneficios (1-10).

#Análisis exploratorio de datos (EDA)

In [None]:
df.shape

(15000, 19)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   job_id                  15000 non-null  object        
 1   job_title               15000 non-null  object        
 2   salary_usd              15000 non-null  int64         
 3   salary_currency         15000 non-null  object        
 4   experience_level        15000 non-null  object        
 5   employment_type         15000 non-null  object        
 6   company_location        15000 non-null  object        
 7   company_size            15000 non-null  object        
 8   employee_residence      15000 non-null  object        
 9   remote_ratio            15000 non-null  int64         
 10  required_skills         15000 non-null  object        
 11  education_required      15000 non-null  object        
 12  years_experience        15000 non-null  int64 

In [None]:
#Formateamos a formato datetime las columnas con fechas (para ver el cambio, ejecutamos nuevamente df.info)

df['application_deadline'] = pd.to_datetime(df['application_deadline'])
df['posting_date'] = pd.to_datetime(df['posting_date'])

In [None]:
df.dtypes['application_deadline']
df.dtypes['posting_date']

dtype('<M8[ns]')

In [None]:
#Nos aseguramos que no hay presencia de valores nulos ni duplicados
print(df.isnull().sum())
df.duplicated().value_counts()

job_id                    0
job_title                 0
salary_usd                0
salary_currency           0
experience_level          0
employment_type           0
company_location          0
company_size              0
employee_residence        0
remote_ratio              0
required_skills           0
education_required        0
years_experience          0
industry                  0
posting_date              0
application_deadline      0
job_description_length    0
benefits_score            0
company_name              0
dtype: int64


Unnamed: 0,count
False,15000


In [None]:
#Datos estadísticos descriptivos de las variables numéricas
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
salary_usd,15000.0,115348.965133,32519.0,70179.75,99705.0,146408.5,399095.0,60260.940438
remote_ratio,15000.0,49.483333,0.0,0.0,50.0,100.0,100.0,40.812712
years_experience,15000.0,6.2532,0.0,2.0,5.0,10.0,19.0,5.545768
posting_date,15000.0,2024-08-29 08:48:51.840000,2024-01-01 00:00:00,2024-04-29 00:00:00,2024-08-28 00:00:00,2024-12-29 00:00:00,2025-04-30 00:00:00,
application_deadline,15000.0,2024-10-11 21:55:23.520000,2024-01-16 00:00:00,2024-06-13 00:00:00,2024-10-12 00:00:00,2025-02-10 00:00:00,2025-07-11 00:00:00,
job_description_length,15000.0,1503.314733,500.0,1003.75,1512.0,2000.0,2499.0,576.127083
benefits_score,15000.0,7.504273,5.0,6.2,7.5,8.8,10.0,1.45087


In [None]:
#Datos estadísticos descriptivos de las variables tipo object
df.describe(include = 'object').T

Unnamed: 0,count,unique,top,freq
job_id,15000,15000,AI15000,1
job_title,15000,20,Machine Learning Researcher,808
salary_currency,15000,3,USD,11957
experience_level,15000,4,MI,3781
employment_type,15000,4,FT,3812
company_location,15000,20,Germany,814
company_size,15000,3,S,5007
employee_residence,15000,20,Sweden,790
required_skills,15000,13663,"Python, TensorFlow, PyTorch",17
education_required,15000,4,Bachelor,3789
