# Proyecto Final: Análisis de Big Data con Spark y HDFS
## Visión general:
Este proyecto está diseñado para ayudarte a adquirir experiencia práctica con Spark y HD
Trabajarás con tu propio conjunto de datos y utilizarás Spark para analizar los datos, obte
información y generar resultados en diferentes formatos de salida y fuentes. También util
Spark Structured Streaming para realizar análisis en tiempo real de los datos utilizando
## Entorno:
Ejecutarás este proyecto en tu propia computadora personal utilizando un entorno con
contenedores Docker que contienen Spark 3 y HDFS Py

# 1. Proyecto: IT Salary Survey for EU region
**Dataset:** https://www.kaggle.com/datasets/parulpandey/2020-it-salary-survey-for-eu-region
<br/>
<br/>
<div style="text-align: center;">
    <!--<img src="images/img211.png" width="300" height="200" alt="image">-->
    <img src="images/img212.png" width="300" height="300" alt="image">
    <img src="images/img213.png" width="300" height="200" alt="image">
</div>

## 2.1 Objetivos general:
Analizar las tendencias y dinámicas laborales en el sector tecnológico a lo largo del tiempo y en función de diversos factores demográficos, económicos y empresariales, con el fin de proporcionar una visión integral de los cambios en la utilización de tecnologías, estructuras salariales, y decisiones empresariales durante y después de la pandemia de COVID-19


## 2.2 Objetivos Específicos del Proyecto

### 2.2.1. Análisis de lenguajes de programación por grupo de edad

- **Objetivo:** Determinar los lenguajes de programación más utilizados por las siguientes franjas etarias:
  - 18 a 30 años
  - 31 a 40 años
  - Mayores de 41 años

### 2.2.2. Examinación de estructuras salariales en el sector tecnológico
- **Objetivo:** Compilar un listado de salarios, ordenados de mayor a menor, especificando el puesto y la ciudad de trabajo.

### 2.2.3. Identificación de empresas con despidos durante la pandemia de COVID-19
- **Objetivo:** Listar las empresas que realizaron despidos durante la pandemia y analizar las diferencias salariales entre géneros durante este periodo.

### 2.2.4. Investigación de lenguajes de programación predominantes
- **Objetivo:** Establecer cuáles son los lenguajes de programación más utilizados en la actualidad dentro del sector tecnológico.

### 2.2.5. Estudio de diferencias en empleo y salarios por género, experiencia y país
- **Objetivo:** 
  - Comparar las diferencias saraliales entre hombres y mujeres en general.
  - Analizar las diferencias salariales promedio entre hombres y mujeres en niveles senior y junior.
  - Analizar los salarios entre los diferentes países de la Unión Europea.
    

### 2.2.6. Comparación de salarios anuales de desarrolladores de Python (2018 vs. 2020)
- **Objetivo:** Analizar cómo han evolucionado los salarios anuales de los desarrolladores de Python desde 2018 hasta 2020.

### 2.2.7. Evaluación de la evolución de los lenguajes de programación más utilizados (2018-2020)
- **Objetivo:** Identificar los cinco lenguajes de programación más populares en los años 2018, 2019 y 2020 y examinar las tendencias y cambios a lo largo de estos años.


## 2. Etapa 2: Análisis de datos con PySpark Estructurado
En esta etapa, utilizarás Spark DataFrames para realizar análisis de datos y obtener información.
Utilizarás agregaciones y estadísticas de dataframe para responder preguntas sobre los datos.
También puedes utilizar visualizaciones para mostrar tus resultados


<div style="text-align: center;">
    <img src="images/img221.png" width="500" height="200" alt="image">
</div>

## 2.1 Código.
### 2.1.1. Cargar datos

In [3]:
# Importamos módulos para la carga y manejo de datos
import pyspark.sql.functions as f 
import pyspark.sql.types as t

In [3]:
# Creamos sesión de Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Etapa 2") \
    .getOrCreate()

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/05/15 14:58:01 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [12]:
# Cargamos los datos de 2018
datasets_path = 'data/'
dataset2018_path=f'{datasets_path}/IT Salary Survey EU  2018.csv'
salaries2018 = spark.read.format('csv').option('header', True).load(datasets_path)
#salaries2018.show(truncate=False)

In [13]:
# Cargamos los datos de 2019
dataset2019_path=f'{datasets_path}/IT Salary Survey EU  2019.csv'
salaries2019 = spark.read.format('csv').option('header', True).load(datasets_path)
#salaries2019.show(truncate=False)

In [14]:
# Cargamos los datos de 2020
datasets_path = 'data/'
dataset2020_path=f'{datasets_path}/IT Salary Survey EU  2020.csv'
salaries2020 = spark.read.format('csv').option('header', True).load(datasets_path)
#salaries2020.show(truncate=False)

### 2.2.2. Análisis

#### 1. Diferencia entre promedios salariales del género masculino y femenino
En esta sección, exploraremos las diferencias en los salarios entre hombres y mujeres, enfocándonos específicamente en el nivel senior para obtener un análisis detallado de un segmento concreto. Iniciaremos con un análisis descriptivo estadístico para evaluar la presencia de sesgos en los datos. Si detectamos un sesgo significativo, procederemos a filtrar la información, centrándonos en un país específico. Esto nos permitirá realizar una comparación más equitativa y precisa de las disparidades salariales entre géneros. Para ello, nos enfocaremos en el año mas reciente proporcionado en los datos.