# **EDA**

Vamos a realizar un análisis exploratorio de datos para entender con que tipo de datos estamos trabajando. Para ello llamaremos una serie de funciones que nos mostrarán gráficas ilustrativas que responden a distintas preguntas.

In [2]:
%load_ext autoreload
%autoreload 2

from dotenv import load_dotenv
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import seaborn as sns
import pandas as pd
import numpy as np
import pickle
import sys

import warnings
warnings.filterwarnings("ignore")

sys.path.append("../")

from src import funciones_eda as f_eda
from src import funciones_recomendador as f_recomendador

load_dotenv()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


True

Primero construimos un dataframe trayéndonos todos los datos que tenemos en la base de datos de Mongo.

In [11]:
df = f_recomendador.matriz_skills_ofertas()

Pinged your deployment. You successfully connected to MongoDB!
Datos obtenidos de MongoDB correctamente.

Matriz de habilidades creada correctamente.


In [4]:
df.head(3)

Unnamed: 0,_id,empleo,plataforma,titulo_oferta,empresa,fecha_publicacion,tipo_empleo,url_oferta,descripcion,min_salario,max_salario,nivel_ingles,anios_experiencia,porcentaje,skills_necesarias,skills_valoradas
0,679a59063ea8370992364a38,data_analyst,linkedin,Business Analyst - Private Equity & Principal ...,McKinsey & Company,6 minutes ago,FULL_TIME,https://es.linkedin.com/jobs/view/business-ana...,Who You'll Work WithYou will be based in our M...,,,B2,1,85,[],[API]
1,679a59063ea8370992364a39,data_analyst,linkedin,Arquitecto/a de Datos / Analista de Datos Seni...,UST,7 minutes ago,FULL_TIME,https://es.linkedin.com/jobs/view/arquitecto-a...,Role Description¡Seguimos buscando talento…y n...,,,No especificado,No especificado,90,"[SQL, Python, R, Hadoop, PySpark, ETL]","[AWS, Azure, Cloud, Machine Learning]"
2,679a59063ea8370992364a3a,data_analyst,linkedin,Data Scientist,TomTom,27 minutes ago,FULL_TIME,https://es.linkedin.com/jobs/view/data-scienti...,At TomTom we’re seeking a Data Scientist to jo...,,,B2,3,85,"[Python, SQL, Machine Learning, Data Visualiza...","[PySpark, Scala, Big Data, Cloud, NoSQL]"


In [6]:
print(f"Tenemos {df.shape[0]} ofertas de trabajo")

Tenemos 820 ofertas de trabajo


### **Tipos de empleo y plataformas**


Las ofertas de trabajo vinene de dos plataformas distintas a día de hoy, Linkedin e Infojobs. Los empleos ofertados son tres: Data Science, Data Analyst y Data engineer. Veamos que proporcion hay de cada empleo por plataforma.

In [23]:
f_eda.empleo_por_plataforma(df)

En LinkedIn son siempre 200 ofertas pues un corte que hemos impuesto, sin embargo, de Infojobs se recojen todas las ofertas que había en la web, un número mucho más bajo que en LinkedIn, lo que nos lleva a pensar que si quisieramos buscar un puesto directamente en estas plataforma lo haríamos desde LinkedIn pues ofrece más cantidad y variedad de ofertas. 

Respecto a Infojobs podemos ver que hay más ofertas de Analyst que de Data Science, por lo que es la posición de analista de datos la que más se está demandando a día de hoy.

In [7]:
f_eda.pies_empleo_plataforma(df)

Hablando de números globales respecto a nuestra base de datos, el 73% de las ofertas las hemos obetenido por LinkedIn y el 27% por Infojobs. Como next steps en un futuro se plantea la posibiladad de recabar ofertas de trabajo de otras plataformas como Indeed o Glassdoor.

En cuanto al porcentaje de empelos como vimos en la gráfica anterior desde LinkedIn se recaban la misma cantidad de ofertas para cada puesto, las cual es bastante superior a las que se recogen de Infojobs, por lo que aunque en esta segunda plataforma si que haya diferencias en cuanto a las ofertas disponibles, al mezclarse con las de LinkedIn hacen que los porcentajes de cada empleo se equilibren considerablemente.

### **Empresas**

In [24]:
f_eda.top_empresas(df, 20)

Otro dato que puede ser de intereés es , qué empresas están contratando más perfiles, y en este caso podemos ver el top 20 en el cual destaca en primera posición Canonical, una empresa de programación de ordenadores con base en Reino Unido fundada que se dedica a la promoción y a la venta de soporte comercial y servicios relacionados con Ubuntu y otros proyectos afines.

También podemos encontrar en este top 20 empresas muy conocidas como Deloitte, Amazon, NTT, Bluetab, Celonis o EY, lo cual cobra bastante sentido pues son empresas que siempre están en busca de talento tecnológico con grandes departamentos en este sector.

### **Tipo de empleo**

In [25]:
f_eda.tipo_empleo(df)
sin_clasificar = round(df[df["tipo_empleo"].isna()].shape[0]/df.shape[0]*100,2)
full_time = round(df[df["tipo_empleo"]=="FULL_TIME"].shape[0]/df.shape[0]*100,2)

print(f"El {sin_clasificar}% de las ofertas no tienen clasificación")
print(f"El {full_time}% de las ofertas son de tipo FULL_TIME")

El 26.83% de las ofertas no tienen clasificación
El 69.76% de las ofertas son de tipo FULL_TIME


Podemos observar que un 70% de las ofertas son full time, un 27% no tiene clasificación y que que los demás tipos de empleo son minoritaroios como 12 ofertas de prácticas o 3 ofertas de tiempo parcial.

### **Nivel de inglés**

In [26]:
f_eda.niveles_ingles(df)

En cuanto al nivel de inglés un 46% no especifican que nivel necesitan, sin embargo en el 54% restante si que exigen un nivel de inglés. En el 29% de los casos piden un C1 equivalente a un nivel avanzado, seguido de cerca por el B2 con un 22% lo cual equivale a un nivel medio.

### **Salario**

In [87]:
f_eda.estudio_salario(df)

Salario mínimo y máximo para puestos de Data:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
min_salario,77.0,30595.454545,11087.849507,750.0,24000.0,30000.0,39000.0,56000.0
max_salario,77.0,36900.0,13394.441109,900.0,29000.0,36000.0,45000.0,64000.0



Salario mínimo y máximo para puestos de data analyst:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
min_salario,38.0,26311.842105,9852.804747,750.0,23000.0,25500.0,35250.0,40000.0
max_salario,38.0,30692.105263,11552.474441,900.0,25750.0,30000.0,39000.0,50000.0



Salario mínimo y máximo para puestos de data engineer:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
min_salario,21.0,35285.714286,10493.535425,20000.0,28000.0,36000.0,40000.0,56000.0
max_salario,21.0,43571.428571,12143.193273,22000.0,33000.0,44000.0,48000.0,64000.0



Salario mínimo y máximo para puestos de data science:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
min_salario,18.0,34166.666667,11273.341798,20000.0,25000.0,30000.0,40000.0,56000.0
max_salario,18.0,42222.222222,12923.100864,22000.0,33000.0,44000.0,47500.0,64000.0


Observando los datos de cada puesto podemos ver que el sueldo minimo por lo general son 20000 a excepción de data analyst que aparece como minimo 750, el cual corresponde a un puesto de beca. 

Por otro lado el tanto el salario minimo como el maximo para el puesto de data analyst es bastante menor en comparacion con los valores del maximo de data science y data engineer. Esto también se puede ver reflejado en las medianas, siendo la de data analyst la más baja entre 25000 y 30000 y la mejor la de data engineer entre 36000 y 44000. 

Por lo general la media es bastante robusta pues se aproxima mucho a la mediana. 

Finalmente, a primera vista podemos concluir que los puestos de data analyst están peor pagados en comparación a un data engineer o scientist.

### **Años de experiencia**

In [27]:
f_eda.grafica_anios_experiencia(df)

En el 30% de las ofertas no se especifica la experiencia del usuario, en el 38% de los casos se piden entre 2 y 3 años de experiencia. Un 10% piden como mínimo un años de experiencia y tan solo un 0.2% no piden experiencia, siendo esta una cifra alarmante para los jovenes de nuestro pais, los cuales al acabar la carrera no encuentran oportunidades en el mercado laboral.

In [22]:
f_eda.anios_sueldo(df)

Viendo el salario por años de experiencia para 3 y 4 años parece no encajar demsadio, pues de forma lógica no tiene sentido que el sueldo máximo de una persona con 2 años de experiencia sea superior al de una persona con 3-4 años. Sin embargo, esto se puede deber a que no hay muchos empleos que pidan 3 o 4 años de experencia, por lo que habría que aumentar considerablemente la base de datos para sacar unos insights más realistas. 

Por otro lado si que parece tener sentido los salarios para 1,2 y 5 años de experiencia, puesto que hay más ofertas para estos años. Como next steps se plantea la extracción de un número mayor de ofertas de trabajo y ver como se modifica est gráfica.

### **Skills requeridas en las ofertas**

In [28]:
f_eda.skills_por_empleo(df, "")

Para todos los puestos de data podemos ver cuales son las skills más solicitas, liderando Python y SQL, seguidas de tecnologías cloud y demás tecnologías propias de los distintos puestos de data science, analyt y engineer. Por lo que en la siguiente gráfica podremos ver de forma más limpia cuales son las skills que más se demandan en cada una de las posiciones:

In [30]:
f_eda.skills_por_empleo_top10(df)

En todas ellas tenemos de nuevo en cabeza SQL y Python ya que son muy características de la rama Data y se utlizan para los tres tipos de empleo. Para data analyst como era de esperar en tercera posición tenemos Power Bi, también esta Excel y aptitudes de analista de datos. Para Data Science en tercera posición tenemos Machine Leraning y seguido de tecnologías Cloud. En cuanto a Data Engineer tenemos cloud seguido de pyspark, java y ETL. Todas ellas encajan con teconologías propias de cada puesto y pueden ayudarnos a ver que es lo que más se demanda en las ofertas de trabajo y así formarnos más para poder ser más empleables.