## Proyecto_Final

### **1.** Análisis del Mercado Laboral con Datos de LinkedIn y Spark

### **2.** Descripción General del Proyecto:

Este proyecto práctico te invita a explorar el dinámico mundo del mercado laboral utilizando datos reales de ofertas de **empleo de LinkedIn**. A través del poder de Spark y Scala, nos sumergiremos en un análisis profundo para descubrir tendencias clave, identificar las empresas líderes en contratación y extraer valiosa información de las descripciones de trabajo.

Aprovechando un dataset limpio y bien estructurado, aplicaremos técnicas de Big Data y análisis de datos para responder a preguntas como: ¿Cuáles son las industrias con mayor demanda de talento? ¿Qué habilidades son las más buscadas? ¿Cómo se distribuyen las oportunidades de empleo geográficamente? Y ¿Qué características comparten las empresas que más contratan?

Además, exploraremos las relaciones entre empresas y ofertas de trabajo utilizando GraphFrames, permitiéndonos visualizar y analizar la red de conexiones en el mercado laboral.

Este proyecto es una oportunidad para consolidar tus conocimientos en **Spark, Scala, Spark SQL y GraphFrames**, mientras trabajas con datos relevantes y actuales. Prepárate para descubrir patrones ocultos, generar visualizaciones impactantes y obtener una visión clara del panorama laboral actual.

### **3.** Dataset

#### **a)** Descripción Dataset:

El conjunto de datos de LinkedIn proporciona una visión detallada de 5588 ofertas de empleo, distribuidas en 15 columnas que abarcan información esencial para el análisis del mercado laboral. Este dataset incluye variables clave como el título del puesto, la empresa, la ubicación (ciudad y estado), la industria, el nivel de experiencia, el tipo de trabajo (remoto o en sitio), el número de solicitantes y una descripción detallada de las responsabilidades del puesto. Abarcando una amplia gama de industrias, en especial relacionadas a la ciencia de datos, ingenieria y consultoria, y ubicaciones globales, este conjunto de datos es ideal para aplicar técnicas de Spark y Scala y realizar análisis profundos sobre las tendencias del mercado laboral, la demanda de habilidades y las características de las empresas líderes en contratación.

#### **b)** Datos
[Dataset_kaggle](https://www.kaggle.com/datasets/shashankshukla123123/linkedin-job-cleandata)

#### **c)** Descripción de las variables clave y su significado.

| Column Name        | Description                                                                                  |
|--------------------|----------------------------------------------------------------------------------------------|
| job_ID             | Unique identifier for each job listing.                                                      |
| designation        | The title or position of the job.                                                             |
| company_id         | Unique identifier for each company.                                                          |
| name               | Name of the company offering the job.                                                        |
| work_type          | Indicates whether the job is remote or on-site.                                              |
| involvement        | The level of involvement required for the job (e.g., Full-time, Part-time).                  |
| employees_count    | The count of employees in the company.                                                       |
| total_applicants   | The total number of applicants for the job.                                                  |
| linkedin_followers | The number of followers on the company's LinkedIn page.                                      |
| job_details        | Description of the job and its responsibilities.                                             |
| details_id         | Unique identifier for the job details.                                                      |
| industry           | The industry or sector to which the company belongs.                                         |
| level              | The experience level or seniority associated with the job.                                   |
| City               | The city where the job is located.                                                           |
| State              | The state where the job is located.                                                          |


### Tipos de Variables

#### **1.** Variables categóricas:

- **designation**: Puede ser útil para análisis de roles más demandados.
- **work_type**: Útil para segmentar trabajos remotos vs. presenciales.
- **involvement**: Permite diferenciar entre trabajos de tiempo completo, medio tiempo, etc.
- **industry**: Útil para análisis por sector económico.
- **level**: Permite clasificar trabajos por nivel de experiencia (junior, senior, etc.).
- **City y State**: Útiles para análisis geográficos.

#### **2.** Variables numéricas:

- **employees_count**: Puede indicar el tamaño de la empresa.
- **total_applicants**: Útil para medir la popularidad de un trabajo.
- **linkedin_followers**: Puede ser un indicador de la reputación o visibilidad de la empresa.

#### **3.** Variables de texto:

- **job_details**: Puede ser procesado con técnicas de NLP (Procesamiento de Lenguaje Natural) para extraer información relevante, como habilidades requeridas o responsabilidades clave.


#### **4.** Identificadores únicos:

- **job_ID, company_id, y details_i**: Son útiles para unir tablas o realizar análisis específicos por trabajo o empresa.

### **4.** Objetivos del Proyecto:

  - Analizar las tendencias del mercado laboral.
  - Identificar las empresas con mayor actividad de contratación.
  - Extraer información relevante de las descripciones de trabajo.
  - Aplicar técnicas de análisis de grafos con Graphframes para ver la relación entre las empresas.

### **5.** Requisitos Previos:

  - Spark con Scala instalado.
  - Jupyter Notebook o Zeppelin (opcional).
  - Bibliotecas de Spark (Spark SQL, Spark MLlib, Graphframes).

### **6.** Análisis Propuestos:

#### **1.** Análisis de la distribución de ofertas de trabajo por industria y ubicación.

   **a)** Análisis con Spark SQL
   
   **b)** Análisis con API de Dataframe
   
   **c)** Análisis con Graphframes
   
   **d)** Análisis con MLlib
   - Hacer un clustering de las industrias con mayor demanda
    
#### **2.** Análisis de la relación entre el tamaño de la empresa y el número de solicitantes.

   **a)**  Análisis con Spark SQL
   
   **b)**  Análisis con API de Dataframe
   
   **c)**  Visualización con GraphFrames
   
   **d)**  Aplicación de Machine Learning (Regresión)

#### **3.** Analisis de las palabras mas usadas en las descripciones de trabajo.

   **a)**  Tokenización y Procesamiento de Texto
   
   **b)**  Contar la Frecuencia de las Palabras
   
#### **4.** Creación de grafos con Graphframes y analisis de las relaciones entre las empresas.

   **a)**  Creación de los Vértices y Bordes
   
   **b)**  Análisis de la Red de Empresas

   - **b1)** Grado de Conexión (Cuántas relaciones tiene cada empresa)
       
   - **b2)** Identificación de Empresas Más Conectadas (Centralidad)
       
   - **b3)** Detección de Comunidades Empresariales
     
     (En Databricks, debes configurar un directorio antes de ejecutar el análisis).
       - Ejecuta lo siguiente antes de llamar a connectedComponents:
         
       // Configurar un directorio de checkpoint en Databricks
     
        **spark.sparkContext.setCheckpointDir("/tmp/checkpoints")**