# Proyecto Final: Análisis de Big Data con Spark y HDFS
## Visión general:
Este proyecto está diseñado para ayudarte a adquirir experiencia práctica con Spark y HD
Trabajarás con tu propio conjunto de datos y utilizarás Spark para analizar los datos, obte
información y generar resultados en diferentes formatos de salida y fuentes. También util
Spark Structured Streaming para realizar análisis en tiempo real de los datos utilizando
## Entorno:
Ejecutarás este proyecto en tu propia computadora personal utilizando un entorno con
contenedores Docker que contienen Spark 3 y HDFS Py

## Integrantes del equipo:
* Alejandra Elizabeth Trujillo Navarro
* Carla Georgina Sanchez Arreguin
* Jessica Montserrat Morales Enrique
* Sofia Daniela Rodriguez Saenz

# 1. Proyecto: IT Salary Survey for EU region
**Dataset:** https://www.kaggle.com/datasets/parulpandey/2020-it-salary-survey-for-eu-region
<br/>
<br/>
<div style="text-align: center;">
    <img src="images/img212.png" width="400" height="400" alt="image">
    <img src="images/img213.png" width="339" height="339" alt="image">
</div>

## 2.1 Objetivos general:
Analizar las tendencias y dinámicas laborales en el sector tecnológico a lo largo del tiempo y en función de diversos factores demográficos, económicos y empresariales, con el fin de proporcionar una visión integral de los cambios en la utilización de tecnologías, estructuras salariales, y decisiones empresariales durante y después de la pandemia de COVID-19


## 2.2 Objetivos Específicos del Proyecto

### 2.2.1. Análisis de lenguajes de programación por grupo de edad

- **Objetivo:** Determinar los lenguajes de programación más utilizados por las siguientes franjas etarias:
  - 18 a 30 años
  - 31 a 40 años
  - Mayores de 41 años

### 2.2.2. Examinación de estructuras salariales en el sector tecnológico
- **Objetivo:** Compilar un listado de salarios, ordenados de mayor a menor, especificando el puesto y la ciudad de trabajo.

### 2.2.3. Identificación de empresas con despidos durante la pandemia de COVID-19
- **Objetivo:** Listar las empresas que realizaron despidos durante la pandemia y analizar las diferencias salariales entre géneros durante este periodo.

### 2.2.4. Investigación de lenguajes de programación predominantes
- **Objetivo:** Establecer cuáles son los lenguajes de programación más utilizados en la actualidad dentro del sector tecnológico.

### 2.2.5. Estudio de diferencias en empleo y salarios por género y país
- **Objetivo:** 
  - Comparar las diferencia salariales en trabajadores en los diferentes géneros.
  - Comparar las diferencias salariales en los diferentes países de la Unión Europea.

### 2.2.6. Comparación de salarios anuales de desarrolladores de Python (2018 vs. 2020)
- **Objetivo:** Analizar cómo han evolucionado los salarios anuales de los desarrolladores de Python desde 2018 hasta 2020.

### 2.2.7. Evaluación de la evolución de los lenguajes de programación más utilizados (2018-2020)
- **Objetivo:** Identificar los cinco lenguajes de programación más populares en los años 2018, 2019 y 2020 y examinar las tendencias y cambios a lo largo de estos años.


## 1. Etapa 1: 1. Conceptos básicos estructurados de PySpark con DataFrames
En esta etapa, se concentrará en cargar los datos en HDFS y usar Spark DataFrames para realizar operaciones básicas como crear esquemas, seleccionar columnas, filtrar y ordenar filas y limpieza de valores nulos.

<div style="text-align: center;">
    <img src="images/grafica.png" width="300" height="300" alt="image">
</div>

## 1.1 Código

In [176]:
# Importamos módulos para la carga y manejo de datos
import pyspark.sql.functions as f 
import pyspark.sql.types as t

In [177]:
# Creamos sesión de Spark
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("IT_Salary") \
    .getOrCreate()

In [178]:
# Cargamos los datos de 2018
datasets_path = 'data/'
dataset2018_path=f'{datasets_path}/IT Salary Survey EU 2018.csv'
salaries2018 = spark.read.format('csv').option('header', True).load(dataset2018_path)

In [174]:
salaries2018 = salaries2018.withColumnRenamed('Years of experience', 'YearsExperience'
).withColumnRenamed('Your level', 'Level'  
).withColumnRenamed('Current Salary', 'Salary' 
).withColumnRenamed('Salary one year ago' , 'SalaryOneYear'
).withColumnRenamed('Salary two years ago', 'SalaryTwoYears'
).withColumnRenamed('Are you getting any Stock Options?', 'StockOptions'
).withColumnRenamed('Main language at work', 'MainLanguage'
).withColumnRenamed('Company type ', 'CompanyType' 
)

In [175]:
salaries2018.show(truncate=False, vertical = True)

-RECORD 0-------------------------------------------
 Timestamp       | 14/12/2018 12:41:33              
 Age             | 43                               
 Gender          | M                                
 City            | München                          
 Position        | QA Ingenieur                     
 YearsExperience | 11                               
 Level           | Senior                           
 Salary          | 77000                            
 SalaryOneYear   | 76200                            
 SalaryTwoYears  | 68000                            
 StockOptions    | No                               
 MainLanguage    | Deutsch                          
 Company size    | 100-1000                         
 Company type    | Product                          
-RECORD 1-------------------------------------------
 Timestamp       | 14/12/2018 12:42:09              
 Age             | 33                               
 Gender          | F                          

In [136]:
# Cargamos los datos de 2019
dataset2019_path=f'{datasets_path}/IT Salary Survey EU  2019.csv'
salaries2019 = spark.read.format('csv').option('header', True).load(datasets_path)

In [134]:
salaries2019 = salaries2019.withColumnRenamed('Total years of experience', 'YearsExperience'
).withColumnRenamed('Years of experience in Germany', 'YersExpGermany'  
).withColumnRenamed('Seniority Level', 'SeniorityLevel' 
).withColumnRenamed('Your main technology / programming language' , 'ProgrammingLanguage'
).withColumnRenamed('Other technologies/programming languages you use often', 'OtherTech'
).withColumnRenamed('Yearly brutto salary (without bonus and stocks) in EUR', 'YearSalary'
).withColumnRenamed('Yearly bonus + stocks in EUR', 'YearBonus'
).withColumnRenamed('Annual brutto salary (without bonus and stocks) one year ago. Only answer if staying in the same country', 'PrevYearSalary'
).withColumnRenamed('Annual bonus+stocks one year ago. Only answer if staying in same country','PrevYearBonus'                   
).withColumnRenamed('Number of vacation days', 'VacationsDays'
).withColumnRenamed('Employment status', 'EmployStatus'
).withColumnRenamed('Сontract duration', 'СontractDuration' 
).withColumnRenamed('Main language at work', 'MainLanguage' 
).withColumnRenamed('Company size', 'CompanySize' 
).withColumnRenamed('Have you lost your job due to the coronavirus outbreak?', 'LostJobCoronavirus'
).withColumnRenamed('Have you been forced to have a shorter working week (Kurzarbeit)? If yes, how many hours per week', 'ShorterWorkingWeek'  
).withColumnRenamed('Have you received additional monetary support from your employer due to Work From Home? If yes, how much in 2020 in EUR', 'PayWorkHome'                    
)

In [137]:
salaries2019.show(truncate=False, vertical = True)

-RECORD 0-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Timestamp                                                                                                               | 24/11/2020 11:14:15                                                    
 Age                                                                                                                     | 26                                                                     
 Gender                                                                                                                  | Male                                                                   
 City                                                                                                                    | Munich                                                                 
 Position                

In [138]:
# Cargamos los datos de 2020
datasets_path = 'data/'
dataset2020_path=f'{datasets_path}/IT Salary Survey EU 2020.csv'
salaries2020 = spark.read.format('csv').option('header', True).load(datasets_path)

In [139]:
salaries2020.show(truncate=False, vertical = True)

-RECORD 0-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Timestamp                                                                                                               | 24/11/2020 11:14:15                                                    
 Age                                                                                                                     | 26                                                                     
 Gender                                                                                                                  | Male                                                                   
 City                                                                                                                    | Munich                                                                 
 Position                

## Eliminar valores nulos

In [116]:
salaries2018.printSchema()

root
 |-- Timestamp: string (nullable = true)
 |-- Age: string (nullable = true)
 |-- Gender: string (nullable = true)
 |-- City: string (nullable = true)
 |-- Position : string (nullable = true)
 |-- YearsExperience: string (nullable = true)
 |-- YersExpGermany: string (nullable = true)
 |-- SeniorityLevel: string (nullable = true)
 |-- ProgrammingLanguage: string (nullable = true)
 |-- OtherTech: string (nullable = true)
 |-- YearSalary: string (nullable = true)
 |-- YearBonus: string (nullable = true)
 |-- PrevYearSalary: string (nullable = true)
 |-- PrevYearBonus: string (nullable = true)
 |-- VacationsDays: string (nullable = true)
 |-- EmployStatus: string (nullable = true)
 |-- СontractDuration: string (nullable = true)
 |-- MainLanguage: string (nullable = true)
 |-- CompanySize: string (nullable = true)
 |-- Company type: string (nullable = true)
 |-- LostJobCoronavirus: string (nullable = true)
 |-- ShorterWorkingWeek: string (nullable = true)
 |-- PayWorkHome: string (nulla

In [117]:
salaries2018.count()

3009

In [118]:
# Eliminar filas con valores nulos en cualquier columna y contar el resultado
salaries2018.dropna().count()

24/05/16 16:58:14 WARN CSVHeaderChecker: Number of column in CSV header is not equal to number of fields in the schema:
 Header length: 14, schema size: 23
CSV file: file:///home/mmorales/Documentos/Proyecto-Final/data/IT%20Salary%20Survey%20EU%202018.csv
24/05/16 16:58:14 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: Zeitstempel, Age, Gender, City, Seniority level, Position (without seniority), Years of experience, Your main technology / programming language, Yearly brutto salary (without bonus and stocks), Yearly bonus, Yearly stocks, Yearly brutto salary (without bonus and stocks) one year ago. Only answer if staying in same country, Yearly bonus one year ago. Only answer if staying in same country, Yearly stocks one year ago. Only answer if staying in same country, Number of vacation days, Number of home office days per month, Main language at work, Company name , Company size, Company type, Сontract duration, Company business sector, 0
 Schema: Timesta

144

In [119]:
# Eliminar filas con valores nulos en cualquier columna y contar el resultado
salaries2019.dropna().count()

AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION] A column or function parameter with name `Annual brutto salary (without bonus and stocks) one year ago`.` Only answer if staying in the same country` cannot be resolved. Did you mean one of the following? [`Timestamp`, `Age`, `Gender`, `City`, `Position `, `Total years of experience`, `Years of experience in Germany`, `Seniority level`, `Your main technology / programming language`, `Other technologies/programming languages you use often`, `Yearly brutto salary (without bonus and stocks) in EUR`, `Yearly bonus + stocks in EUR`, `Annual brutto salary (without bonus and stocks) one year ago`.` Only answer if staying in the same country`, `Annual bonus+stocks one year ago`.` Only answer if staying in same country`, `Number of vacation days`, `Employment status`, `Сontract duration`, `Main language at work`, `Company size`, `Company type`, `Have you lost your job due to the coronavirus outbreak?`, `Have you been forced to have a shorter working week (Kurzarbeit)? If yes, how many hours per week`, `Have you received additional monetary support from your employer due to Work From Home? If yes, how much in 2020 in EUR`].

## 2. Etapa 2: Análisis de datos con PySpark Estructurado
En esta etapa, utilizarás Spark DataFrames para realizar análisis de datos y obtener información.
Utilizarás agregaciones y estadísticas de dataframe para responder preguntas sobre los datos.
También puedes utilizar visualizaciones para mostrar tus resultados

<div style="text-align: center;">
    <img src="images/img221.png" width="500" height="200" alt="image">
</div>

## 2.1 Código