# Limpieza de datos con PySpark: Data Science Job Posting on Glassdoor

Los [datos](https://tajamar365.sharepoint.com/:x:/s/3405-MasterIA2024-2025/ETYTQ0c-i6FLjM8rZ4iT1cgB6ipFAkainM-4V9M8DXsBiA?e=PeMtvh) fueron extraídos (scrapeados) del sitio web de Glassdoor y recoge los salarios de distintos puestos relacionados a Data.

dbfs:/FileStore/shared_uploads/mario.martin@tajamar365.com/DS_jobs.csv

### Resolver los siguientes requerimientos, para cada operación/moficación imprima como van quedadndo los cambios.

1. Cargar los datos y mostrar el esquema o la informacion de las columnas y el tip de dato de cada columna

In [0]:
df = spark.read.option("header", "true") \
               .option("delimiter", ";") \
               .option("multiline", "true") \
               .option("quote", "\"") \
               .option("escape", "\"") \
               .csv("dbfs:/FileStore/shared_uploads/mario.martin@tajamar365.com/DS_jobs.csv")

In [0]:
df.printSchema()
df.show(5)

root
 |-- index,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors: string (nullable = true)

+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|index,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors|
+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                        0,Sr Data Scienti...|
|                                                                                                                                        1,Data Scientist,...|
|          

2. Eliminar duplicados

In [0]:
df = df.dropDuplicates()
df.show(5)

+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|index,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors|
+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                        2,Data Scientist,...|
|                                                                                                                                        We are currently ...|
|                                                                                                                                        Analysis Group is...|
|                                             

3. Decidir que hacer con los datos faltantes 

In [0]:
from pyspark.sql import functions as F

# Imprimimos la cantidad de datos nulos por columna
print("Datos nulos por columna:")
df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in df.columns]).show()

Datos nulos por columna:
+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|index,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors|
+------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                                           1|
+------------------------------------------------------------------------------------------------------------------------------------------------------------+



4. Decidir que hacer con los valores nulos

In [0]:
print(df.columns)
# Reemplazarlos por un valor predeterminado
df = df.na.fill({'Salary Estimate': 0, 'Job Title': 'Unknown'})  
df.show(5)

['index,Job Title,Salary Estimate,Job Description,Rating,Company Name,Location,Headquarters,Size,Founded,Type of ownership,Industry,Sector,Revenue,Competitors']


[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-4280287956583440>:3[0m
[1;32m      1[0m [38;5;28mprint[39m(df[38;5;241m.[39mcolumns)
[1;32m      2[0m [38;5;66;03m# Reemplazarlos por un valor predeterminado[39;00m
[0;32m----> 3[0m df [38;5;241m=[39m df[38;5;241m.[39mna[38;5;241m.[39mfill({[38;5;124m'[39m[38;5;124mSalary Estimate[39m[38;5;124m'[39m: [38;5;241m0[39m, [38;5;124m'[39m[38;5;124mJob Title[39m[38;5;124m'[39m: [38;5;124m'[39m[38;5;124mUnknown[39m[38;5;124m'[39m})  
[1;32m      4[0m df[38;5;241m.[39mshow([38;5;241m5[39m)

File [0;32m/databricks/spark/python/pyspark/instrumentation_utils.py:48[0m, in [0;36m_wrap_function.<locals>.wrapper[0;34m(*args, **kwargs)[0m
[1;32m     46[0m start [38;5;241m=[39m time[38;5;241m.[39mperf_counter()
[1;32m     47[0m [38;5;28;01mtry[39;00m:


5. ¿Cuántos registros tiene el csv?

In [0]:
print(f"Total de registros: {df.count()}")

Total de registros: 4264


6. Mostrar los valores únicos de `Job title` 

In [0]:
df.select("Job Title").distinct().show()

[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-4280287956583443>:1[0m
[0;32m----> 1[0m [43mdf[49m[38;5;241;43m.[39;49m[43mselect[49m[43m([49m[38;5;124;43m"[39;49m[38;5;124;43mJob Title[39;49m[38;5;124;43m"[39;49m[43m)[49m[38;5;241m.[39mdistinct()[38;5;241m.[39mshow()

File [0;32m/databricks/spark/python/pyspark/instrumentation_utils.py:48[0m, in [0;36m_wrap_function.<locals>.wrapper[0;34m(*args, **kwargs)[0m
[1;32m     46[0m start [38;5;241m=[39m time[38;5;241m.[39mperf_counter()
[1;32m     47[0m [38;5;28;01mtry[39;00m:
[0;32m---> 48[0m     res [38;5;241m=[39m [43mfunc[49m[43m([49m[38;5;241;43m*[39;49m[43margs[49m[43m,[49m[43m [49m[38;5;241;43m*[39;49m[38;5;241;43m*[39;49m[43mkwargs[49m[43m)[49m
[1;32m     49[0m     logger[38;5;241m.[39mlog_success(
[1;32m     50[0m        

7. Remover la letra `K` de la columna `Salary Estimate` y multiplicar por 1000.

8. Mostrar los valores únicos del campo `Salary Estimate`

9. Eliminar `(Glassdoor est.)` y `(Employer est.)` del campo `Salary Estimate`

10. Mostrar de mayor a menor los valores del campo `Salary Estimate`

11. De la columna `Job Description` quitar los saltos de linea `\n` del texto

12. De la columna `Rating` muestre los valores unicos.

13. Del campo `Rating` reemplazar los `-1.0` por `0.0`.

14. Mostrar los valores unicos y ordenar los valores del campo `Company Name`.

15. Quitar todos los caracteres innecesarios que encuentres en el campo `Company Name`. Por ejemplo los saltos de linea `\n`

16. En el campo `Location` convertir esa columna en dos: `City` y `State`. Las ciudades que tengas en `Location` asignar a la columna `City`. Lo mismo para `State`. Luego elimine la columna `Location`.

17. Repetir la misma lógica de la pregunta 16 pero para el campo `Headquarters`. En Headquarters dejar solo la ciudad, mientras que para el estado añadirla a una columna nueva ` Headquarter State`.

18. Muestre los valores únicos del campo `Headquarter State` 

19. Mostrar valores unicos del campo `Size`.

20. Quitar 'employee' de los registros del campo `Size`. Elimine tambien otros caracteres basura.

21. Reemplazar la palabra 'to' por '-' en todos los registros del campo `Size`. Reemplazar tambien '-1' por 'Unknown'. 

22. Mostrar el tipo de dato del campo `Type of ownership` y sus registros unicos.

23. Cambiar '-1' por 'Unknown' en todos los registros del campo `Type of ownership`.

24. Cambiar:  
-  `Company - Public` por `Public Company`  
-  `Company - Private` por `Private Company`  
-  `Private Practice / Firm` por `Private Company`  
-  `Subsidiary or Business Segment` por `Business`  
-  `College / University` por `Education`  
En todos los registros del campo `Type of ownership`.

25. Mostrar el tipo de dato y los valores unicos del campo `Industry`.

26. En el mismo campo de `Industry` reemplazar '-1' por 'Not Available' y '&' por 'and'.  Vuelva a imprimir los valores unicos en orden alfabético.

27. Para el campo `Sector`, muestre el tipo de dato y los valores únicos.

28. Aplica la misma lógica de la pregunta 26 pero sobre el campo `Sector`.

29. Para el campo `Revenue`, muestre el tipo de dato y los valores únicos en orden ascedente.

30. En el campo `Revenue`, cambiar:  
-  `-1` por `N/A`  
-  `Unknown / Non-Applicable` por `N/A`  
-  `Less than $1 million (USD)` por `Less than 1`
-  Quitar `$` y `(USD)`

31. Borrar el campo `Competitors`.

32. Crear tres columnas: `min_salary` (salario mínimo), `max_salary` (salario maximo) y `avg_salary` (salario promedio) a partir de los datos del campo `Salary Estimate`.

33. Mostrar los valores unicos del campo `Founded` y el tipo de dato.

34. Reemplazar '-1' por '2024' en todos los registros del campo `Founded`.

35. Crear una nueva columna o campo que se llame `company_age` con los datos que se deducen del campo `Founded`.

36. Crear una columna o campo que se llame: `Job Type` y en cada registro debe ir Senior, Junior o NA según los datos del campo `Job Title`.  
- Cambiar 'sr' o 'senior' o 'lead' o 'principal' por `Senior` en el campo `Job Type`. No olvidar las mayúsculas.
- Cambiar 'jr' o 'jr.' o cualquier otra variante por `Junior`.  
- En cualquier otro caso distinto a los anteriores añadir NA.

37. Muestra los registros únicos del campo `Job Type`. 

38. Partiendo del campo `Job Description` se extraer todas o las principales skills solicitadas por las empresas, por ejemplo: Python, Spark , Big Data. Cada Skill debe ir en una nueva columna de tipo Binaria ( 0 , 1) o Booleana (True,  False) de modo que cada skill va ser una nueva columna y si esa skill es solicitada por la empresa colocar 1 sino colocar 0. Por ejemplo:  

Por ejemplo:  
| Job Title         | Salary Estimate | Job Description                                 | Rating | Company Name       | Size       | Founded | Type of ownership         | Industry                       | Sector                         | Same State      | company_age | Python | Excel |
|--------------------|-----------------|-------------------------------------------------|--------|--------------------|------------|---------|---------------------------|--------------------------------|--------------------------------|----------------|-------------|--------|-------|
| Sr Data Scientist | 137000-171000   | Description The Senior Data Scientist is resp... | 3.1    | Healthfirst        | 1001-5000  | 1993    | Nonprofit Organization    | Insurance Carriers            | Insurance Carriers            | Same State      | 31          | 0      | 0     |
| Data Scientist    | 137000-171000   | Secure our Nation, Ignite your Future Join th... | 4.2    | ManTech            | 5001-10000 | 1968    | Public Company            | Research and Development      | Research and Development      | Same State      | 56          | 0      | 0     |
| Data Scientist    | 137000-171000   | Overview Analysis Group is one of the larges... | 3.8    | Analysis Group      | 1001-5000  | 1981    | Private Company           | Consulting                    | Consulting                    | Same State      | 43          | 1      | 1     |
| Data Scientist    | 137000-171000   | JOB DESCRIPTION: Do you have a passion for Da... | 3.5    | INFICON            | 501-1000   | 2000    | Public Company            | Electrical and Electronic Manufacturing | Electrical and Electronic Manufacturing | Different State | 24          | 1      | 1     |


39. Exportar dataset final a csv

40. Extraer todos los insights posibles que sean de valor o utilidad. Cree nuevas columnas, agrupar,  filtrar hacer varios plots que muestren dichos insights que sean de utilidad para una empresa o para un usuario. Elabore conclusiones con los insights encontrados. 