# Proyecto Final: Análisis de Big Data con Spark y HDFS
## Visión general:
Este proyecto está diseñado para ayudarte a adquirir experiencia práctica con Spark y HD
Trabajarás con tu propio conjunto de datos y utilizarás Spark para analizar los datos, obte
información y generar resultados en diferentes formatos de salida y fuentes. También util
Spark Structured Streaming para realizar análisis en tiempo real de los datos utilizando
## Entorno:
Ejecutarás este proyecto en tu propia computadora personal utilizando un entorno con
contenedores Docker que contienen Spark 3 y HDFS Py

## Integrantes del equipo:
* Alejandra Elizabeth Trujillo Navarro
* Carla Georgina Sanchez Arreguin
* Jessica Montserrat Morales Enrique
* Sofia Daniela Rodriguez Saenz

# 1. Proyecto: IT Salary Survey for EU region
**Dataset:** https://www.kaggle.com/datasets/parulpandey/2020-it-salary-survey-for-eu-region
<br/>
<br/>
<div style="text-align: center;">
    <img src="images/img212.png" width="400" height="400" alt="image">
    <img src="images/img213.png" width="339" height="339" alt="image">
</div>

## 2.1 Objetivos general:
Analizar las tendencias y dinámicas laborales en el sector tecnológico a lo largo del tiempo y en función de diversos factores demográficos, económicos y empresariales, con el fin de proporcionar una visión integral de los cambios en la utilización de tecnologías, estructuras salariales, y decisiones empresariales durante y después de la pandemia de COVID-19


## 2.2 Objetivos Específicos del Proyecto

### 2.2.1. Análisis de lenguajes de programación por grupo de edad

- **Objetivo:** Determinar los lenguajes de programación más utilizados por las siguientes franjas etarias:
  - 18 a 30 años
  - 31 a 40 años
  - Mayores de 41 años

### 2.2.2. Examinación de estructuras salariales en el sector tecnológico
- **Objetivo:** Compilar un listado de salarios, ordenados de mayor a menor, especificando el puesto y la ciudad de trabajo.

### 2.2.3. Identificación de empresas con despidos durante la pandemia de COVID-19
- **Objetivo:** Listar las empresas que realizaron despidos durante la pandemia y analizar las diferencias salariales entre géneros durante este periodo.

### 2.2.4. Investigación de lenguajes de programación predominantes
- **Objetivo:** Establecer cuáles son los lenguajes de programación más utilizados en la actualidad dentro del sector tecnológico.

### 2.2.5. Estudio de diferencias en empleo y salarios por género y país
- **Objetivo:** 
  - Comparar las diferencia salariales en trabajadores en los diferentes géneros.
  - Comparar las diferencias salariales en los diferentes países de la Unión Europea.

### 2.2.6. Comparación de salarios anuales de desarrolladores de Python (2018 vs. 2020)
- **Objetivo:** Analizar cómo han evolucionado los salarios anuales de los desarrolladores de Python desde 2018 hasta 2020.

### 2.2.7. Evaluación de la evolución de los lenguajes de programación más utilizados (2018-2020)
- **Objetivo:** Identificar los cinco lenguajes de programación más populares en los años 2018, 2019 y 2020 y examinar las tendencias y cambios a lo largo de estos años.


## 1. Etapa 1: 1. Conceptos básicos estructurados de PySpark con DataFrames
En esta etapa, se concentrará en cargar los datos en HDFS y usar Spark DataFrames para realizar operaciones básicas como crear esquemas, seleccionar columnas, filtrar y ordenar filas y limpieza de valores nulos.

<div style="text-align: center;">
    <img src="images/grafica.png" width="300" height="300" alt="image">
</div>

## 1.1 Código

In [1]:
# Importamos módulos para la carga y manejo de datos
import pyspark.sql.functions as f 
import pyspark.sql.types as t

In [2]:
# Creamos sesión de Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("IT_Salary") \
    .getOrCreate()

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/05/16 13:56:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
# Cargamos los datos de 2018
datasets_path = 'data/'
dataset2018_path=f'{datasets_path}/IT Salary Survey EU 2018.csv'
salaries2018 = spark.read.format('csv').option('header', True).load(datasets_path)

In [4]:
salaries2018 = salaries2018.withColumnRenamed('Total years of experience', 'YearsExperience'
).withColumnRenamed('Years of experience in Germany', 'YersExpGermany'  
).withColumnRenamed('Seniority Level', 'SeniorityLevel' 
).withColumnRenamed('Your main technology / programming language' , 'ProgrammingLanguage'
).withColumnRenamed('Other technologies/programming languages you use often', 'OtherTech'
).withColumnRenamed('Yearly brutto salary (without bonus and stocks) in EUR', 'YearSalary'
).withColumnRenamed('Yearly bonus + stocks in EUR', 'YearBonus'
).withColumnRenamed('Annual brutto salary (without bonus and stocks) one year ago. Only answer if staying in the same country', 'PrevYearSalary'
).withColumnRenamed('Annual bonus+stocks one year ago. Only answer if staying in same country','PrevYearBonus'                   
).withColumnRenamed('Number of vacation days', 'VacationsDays'
).withColumnRenamed('Employment status', 'EmployStatus'
).withColumnRenamed('Сontract duration', 'СontractDuration' 
).withColumnRenamed('Main language at work', 'MainLanguage' 
).withColumnRenamed('Company size', 'CompanySize' 
).withColumnRenamed('Have you lost your job due to the coronavirus outbreak?', 'LostJobCoronavirus'
).withColumnRenamed('Have you been forced to have a shorter working week (Kurzarbeit)? If yes, how many hours per week', 'ShorterWorkingWeek'  
).withColumnRenamed('Have you received additional monetary support from your employer due to Work From Home? If yes, how much in 2020 in EUR', 'PayWorkHome'                    
)

In [5]:
salaries2018.show(truncate=False, vertical = True)

-RECORD 0-------------------------------------------------------------------------------------
 Timestamp           | 24/11/2020 11:14:15                                                    
 Age                 | 26                                                                     
 Gender              | Male                                                                   
 City                | Munich                                                                 
 Position            | Software Engineer                                                      
 YearsExperience     | 5                                                                      
 YersExpGermany      | 3                                                                      
 SeniorityLevel      | Senior                                                                 
 ProgrammingLanguage | TypeScript                                                             
 OtherTech           | Kotlin, Javascript / Typesc

In [6]:
# Cargamos los datos de 2019
dataset2019_path=f'{datasets_path}/IT Salary Survey EU  2019.csv'
salaries2019 = spark.read.format('csv').option('header', True).load(datasets_path)
salaries2019.show(truncate=False, vertical = True)

-RECORD 0-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Timestamp                                                                                                               | 24/11/2020 11:14:15                                                    
 Age                                                                                                                     | 26                                                                     
 Gender                                                                                                                  | Male                                                                   
 City                                                                                                                    | Munich                                                                 
 Position                

In [7]:
# Cargamos los datos de 2020
datasets_path = 'data/'
dataset2020_path=f'{datasets_path}/IT Salary Survey EU  2020.csv'
salaries2020 = spark.read.format('csv').option('header', True).load(datasets_path)
salaries2020.show(truncate=False, vertical = True)

-RECORD 0-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Timestamp                                                                                                               | 24/11/2020 11:14:15                                                    
 Age                                                                                                                     | 26                                                                     
 Gender                                                                                                                  | Male                                                                   
 City                                                                                                                    | Munich                                                                 
 Position                

24/05/16 13:57:11 WARN GarbageCollectionMetrics: To enable non-built-in garbage collector(s) List(G1 Concurrent GC), users should configure it(them) to spark.eventLog.gcMetrics.youngGenerationGarbageCollectors or spark.eventLog.gcMetrics.oldGenerationGarbageCollectors


## Eliminar valores nulos

In [8]:
# Cambiar el nombre de las columnas problemáticas a nombres más simples
salaries2018_renamed = salaries2018.withColumnRenamed(
    'Annual brutto salary (without bonus and stocks) one year ago. Only answer if staying in the same country',
    'PrevYearSalary'
).withColumnRenamed(
    'Annual bonus+stocks one year ago. Only answer if staying in same country',
    'PrevYearBonus'
)

# Eliminar filas con valores nulos en cualquier columna y contar el resultado
salaries2018_renamed.dropna().count()

24/05/16 13:10:36 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: Zeitstempel, Age, Gender, City, Seniority level, Position (without seniority), Years of experience, Your main technology / programming language, Yearly brutto salary (without bonus and stocks), Yearly bonus, Yearly stocks, Yearly brutto salary (without bonus and stocks) one year ago. Only answer if staying in same country, Yearly bonus one year ago. Only answer if staying in same country, Yearly stocks one year ago. Only answer if staying in same country, Number of vacation days, Number of home office days per month, Main language at work, Company name , Company size, Company type, Сontract duration, Company business sector, 0
 Schema: Timestamp, Age, Gender, City, Position , Total years of experience, Years of experience in Germany, Seniority level, Your main technology / programming language, Other technologies/programming languages you use often, Yearly brutto salary (without bonus and stock

144

## 2. Etapa 2: Análisis de datos con PySpark Estructurado
En esta etapa, utilizarás Spark DataFrames para realizar análisis de datos y obtener información.
Utilizarás agregaciones y estadísticas de dataframe para responder preguntas sobre los datos.
También puedes utilizar visualizaciones para mostrar tus resultados

<div style="text-align: center;">
    <img src="images/analysis.png" width="500" height="200" alt="image">
</div>

## 2.1 Código

#### 2.1.1. Diferencia entre promedios salariales del género masculino y femenino
En esta sección, exploraremos las diferencias en los salarios entre hombres y mujeres, enfocándonos específicamente en el nivel senior para obtener un análisis detallado de un segmento concreto. Iniciaremos con un análisis descriptivo estadístico para evaluar la presencia de sesgos en los datos. Si detectamos un sesgo significativo, procederemos a filtrar la información, centrándonos en un país específico. Esto nos permitirá realizar una comparación más equitativa y precisa de las disparidades salariales entre géneros. Para ello, nos enfocaremos en el año mas reciente proporcionado en los datos, es decir 2020.

In [10]:
### Verificamos estructura de los salarios
salaries2020.printSchema()

root
 |-- Timestamp: string (nullable = true)
 |-- Age: string (nullable = true)
 |-- Gender: string (nullable = true)
 |-- City: string (nullable = true)
 |-- Position : string (nullable = true)
 |-- Total years of experience: string (nullable = true)
 |-- Years of experience in Germany: string (nullable = true)
 |-- Seniority level: string (nullable = true)
 |-- Your main technology / programming language: string (nullable = true)
 |-- Other technologies/programming languages you use often: string (nullable = true)
 |-- Yearly brutto salary (without bonus and stocks) in EUR: string (nullable = true)
 |-- Yearly bonus + stocks in EUR: string (nullable = true)
 |-- Annual brutto salary (without bonus and stocks) one year ago. Only answer if staying in the same country: string (nullable = true)
 |-- Annual bonus+stocks one year ago. Only answer if staying in same country: string (nullable = true)
 |-- Number of vacation days: string (nullable = true)
 |-- Employment status: string (null