# 1.Data_extract_and_clean_offers_job_Computrabajo


### Web srcapping computrabajo

Usaremos la libreria de *requests* y *BeatifulSoup* para usar la técnica de web scrapping para crear una base de datos desde 0 con datos públicos, de manera que la página no detecte que somos un programa para recaudar información. Se busca en la página **computrabajo** las ofertas filtradas como **analista de datos**, y se extraeran los datos que consideré relevantes cómo el salario, la experiencia, etc.. y guardarlo en un formato *.csv*

# 2.Data_Clean_computrabajo

Recopilaremos datos de las ofertas de empleo de computrabajo para intentar observar diferencias en el mercado laboral en el campo de *analista de datos* y puestos afines. Para ello, seguiremos el proceso de data clean & transformation
: se extrajieron los datos de la página **computrabajo** con el web scrapping anterior. Transformaremos los conjuntos de datos limpiándolos, separandolos, imputandolos y creando nuevas variables, además, se observó una oportunidad para realizar un *ML* y un pequeño *EDA* para intentar rescatar información de algunas ofertas, para posterior realizar visualizaciones.  

| Columna         | Descripción                                                                                                                                                                                |
| --------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **url**         | Enlace directo a la oferta de empleo publicada en el portal Computrabajo. Permite acceder a la fuente original de la información.                                                          |
| **title**       | Título del cargo ofertado, como aparece en el anuncio. Generalmente resume el rol o posición laboral.                                                                                      |
| **company**     | Nombre de la empresa que publica la oferta. Puede incluir nombres comerciales o razones sociales.                                                                                          |
| **rating**      | Calificación promedio de la empresa según los usuarios de Computrabajo. Se presenta en escala decimal (por ejemplo, 4.24).                                                                 |
| **location**    | Ciudad y departamento donde se localiza el empleo. En formato "Ciudad, Departamento".                                                                                                      |
| **salary**      | Rango salarial o monto ofrecido por la empresa. Usualmente aparece en pesos colombianos e indica si es mensual, quincenal, etc. Puede ser un valor numérico o una frase como "A convenir". |
| **contract**    | Tipo de contrato ofrecido, como "Contrato a término indefinido", "Prestación de servicios", entre otros.                                                                                   |
| **schedule**    | Jornada laboral esperada, como "Tiempo completo", "Medio tiempo", "Turnos", etc.                                                                                                           |
| **description** | Texto completo del anuncio de la oferta. Suele incluir funciones del cargo, perfil buscado, beneficios, y condiciones.                                                                     |
| **education**   | Nivel mínimo de estudios requerido, como "Bachillerato", "Técnico", "Universitario", "Maestría", etc.                                                                                      |
| **experience**  | Años de experiencia requeridos para aplicar al cargo. Puede expresarse como un número exacto o un rango.                                                                                   |
| **age**         | Rango de edad solicitado (si lo hay). Puede aparecer como un número exacto ("A partir de 18 años").                                                                  |
| **skills**      | Lista de habilidades o conocimientos requeridos o valorados. Puede estar vacía o contener herramientas técnicas, idiomas, software, etc.                                                   |


Se transformaron quitaron caracteres especiales en varias columnas para cambiar el tipo de la columna y tener datos más uniformes

El principal desafío de la BBDD que quedó es que existen valores nulos que algunas empresas en la oferta no especifican datos vitales , cómo el salario o la experiencia requeridad o que en realidad esos datos las tenemos en otros campos entonces, tendremos que buscar patrones para extraer está información y  así completar nuestra BBDDD.

## Limpiezas_especiales

- En `location`separamos por `department`y `city`

- En `description` y en `title` se usó un sistema de lematización (proceso de reducir una palabra a su forma base gramatical, considerando su contexto y significado. "corriendo" → "correr"), porque hay información en muchas ofertas que en realidad pertenecen a otro campos.

- En `salary` y `experience` algunos nulos los extraeremos de `description` mediante de funciones creadas apartir de una exploración a detalle buscando patrones, en el caso de `experience` los valores restantes usaremos la moda para completar la columna.

- Con `title` crearemos un nuevo campo llamado `category` en el cúal agruparemos trabajos u ofertas similares

- Para `skills` el problema es que muy pocas empresas usaban realmente esté campo, pero es una variable que la mayoria de ofertas tienen pero en `description`, entonces usamos todas las habilidades de las empresas que si llenaron este campo y con esté pequeño conjunto de datos, buscaremos en description y las agruparemos en habilidades similares o equivalentes para crear variables binarias, cómo se muestra en la siguiente tabla.

| Categoría                           | Descripción                                                                                      | Ejemplos representativos                                                  |
|-------------------------------------|--------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------|
| Gestión y Planeación                | Términos relacionados con la organización, mejora de procesos y gestión de proyectos             | gestión, planificación, presupuesto, proyecto, mejora                     |
| Finanzas y Contabilidad             | Conceptos financieros y contables                                                                | finanza, contabilidad, facturación, conciliación bancaria                 |
| Auditoría y Calidad                 | Normas y metodologías de auditoría y mejora continua                                              | auditoría, ISO 9001, lean, six sigma                                      |
| Recursos Humanos                    | Áreas relacionadas con selección, psicología organizacional y personal                           | recurso humano, reclutamiento, psicología                                 |
| Logística y Operaciones             | Gestión de inventarios, análisis de datos y operaciones                                           | inventario, base de datos, contabilizar                                   |
| Desarrollo y Tecnología Empresarial| Metodologías de desarrollo de software empresarial                                                | continuous deployment, test driven development                            |
| Lenguajes y Bases de Datos          | Tecnologías de programación y bases de datos relacionales                                         | python, sql, mysql, postgresql, oracle                                    |
| BI y Visualización                  | Herramientas de inteligencia de negocios y visualización                                          | Power BI, PBI                                                              |
| Sistemas Operativos                 | Sistemas operativos comunes en entornos empresariales                                             | linux, windows, unix                                                      |
| Microsoft Office                    | Herramientas de la suite de oficina de Microsoft                                                  | excel, word, powerpoint, access, outlook                                  |
| ERP y CRM                           | Plataformas de gestión empresarial y de clientes                                                  | ERP, CRM                                                                   |
| GIS, CAD y Diseño                   | Herramientas de diseño técnico y geoespacial                                                      | AutoCAD, ArcGIS, CorelDRAW                                                |
| Web y Programación                  | Tecnologías para desarrollo web                                                                  | javascript, PHP, Wordpress                                                |
| Adobe Suite                         | Software de diseño y edición de Adobe                                                            | Photoshop, Illustrator, Premiere                                          |
| Otros Tecnológicos                  | Otros términos relacionados con tecnología y digitalización                                       | servidor, openoffice, digitalización, software contabilidad              |
| Big Data y Procesamiento            | Herramientas para procesamiento de grandes volúmenes de datos                                     | Hadoop, Spark, Elasticsearch                                              |
| Redes                               | Términos relacionados con redes informáticas y sociales                                           | red, red social, networking                                               |
| Habilidades Personales              | Competencias individuales para el desarrollo personal y profesional                               | creatividad, iniciativa, aprendizaje, organización                        |
| Habilidades Interpersonales         | Habilidades de comunicación y relación con otros                                                  | liderazgo, trabajo en equipo, negociación, comunicación                   |
| Comerciales y de Servicio           | Orientadas al servicio al cliente, ventas y relaciones públicas                                   | marketing, atención al cliente, asesor comercial                          |
| Sectores Específicos                | Ámbitos laborales concretos o sectores industriales                                               | construcción, salud, retail                                               |
| Otros Operativos                    | Habilidades o tareas operativas generales                                                         | archivo, logística, administración, transporte                            |
| Idiomas                             | Idiomas hablados en distintos contextos laborales                                                 | inglés, francés, alemán, portugués, japonés, árabe                        |


# 3.Modelo_RF

Se observa una oportunidad para realizar un modelo de *ML* para imputar los salarios restantes, porque son una cantidad de datos interesantes para sólo eliminarlos y perder cantidad de datos en otros campos, tener en cuenta el ruido en *salary* en el momento de sacar conclusiones.

Se realizó una comparación de modelos de **ML**, los mejores fueron *Random forest* y *GradientBoosting*, se optó por *Random forest* por que era más estable en sus resultados 

| Modelo            | MSE           | R²        |
|-------------------|---------------|-----------|
| **RandomForest**      | **7.887789e+11**  | **0.407944**  |
| GradientBoosting  | 8.530569e+11  | 0.359697  |
| KNeighbors        | 9.048840e+11  | 0.320795  |
| Lasso             | 9.877329e+11  | 0.258609  |
| DecisionTree      | 1.045709e+12  | 0.215092  |
| Ridge             | 1.334565e+12  | -0.001723 |
| LinearRegression  | 1.334565e+12  | -0.001723 |
| SVR               | 1.470968e+12  | -0.104106 |



Se agregaron 2 variables extras de experiencia, por la teoría nos explica la relación entre experiencia y los salarios, deberia ser la variable más importante del modelo.

**experience**: es la variable original (en años), representa una relación lineal directa.

**experiencia2** = experience ** 2: permite capturar una relación no lineal (por ejemplo, que los salarios crezcan más rápido con más experiencia).

**experiencia_log**= log1p(experience): captura una relación logarítmica, útil si el efecto de la experiencia se desacelera (ej. de 0 a 5 años importa mucho, de 20 a 25 casi no)

### Evaluación del Modelo

| Métrica   | Escala Logarítmica | Escala Real         |
|-----------|--------------------|---------------------|
| MSE       | 0.0780             | 825286400409.05     |
| R²        | 0.4909             | 0.3805              |



- **MSE (Error Cuadrático Medio)**
  - *Escala logarítmica (0.0780):*
Error promedio al predecir log(salario + 1). Es bajo → indica buenas predicciones en esa escala.

  - *Escala real (825 mil millones):*
Error promedio al predecir el salario en pesos reales. Alto porque los salarios son valores grandes y muy dispersos.
 
- **R² (Coeficiente de determinación)**
  - *Escala logarítmica (0.4909):*
El modelo explica 49% de la variación en el log(salario). Es un resultado decente.

  - *Escala real (0.3805):*
El modelo explica 38% de la variación en los salarios reales. Peor que en log, porque los valores extremos afectan más.