# Gold Layer Transformations

In [1]:
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.config("spark.driver.memory", "15g").getOrCreate()

### Load Data

In [3]:
sermil_df = spark.read.parquet("../Silver/*")

In [4]:
sermil_df.limit(10).toPandas()

Unnamed: 0,ANO_NASCIMENTO,PESO,ALTURA,CABECA,CALCADO,CINTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,...,ESCOLARIDADE,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,JSM,MUN_JSM,UF_JSM,VINCULACAO_ANO
0,1990,,,,,,PINDARE MIRIM,MA,BRASIL,Solteiro,...,Ensino Fundamental Completo,Com dispensa,Urbana,GRAJAU,MA,BRASIL,27/46 - GRAJAU,GRAJAU,MA,2012
1,1987,,,,,,BRAGANCA PAULISTA,SP,BRASIL,Solteiro,...,Alfabetizado,Com dispensa,Urbana,BRAGANCA PAULISTA,SP,BRASIL,14/27 - BRAGANCA PAULISTA,BRAGANCA PAULISTA,SP,2012
2,1994,,,,,,MAIRIPORA,SP,BRASIL,Solteiro,...,Ensino Medio Completo,Com dispensa,Urbana,MAIRIPORA,SP,BRASIL,14/97 - MAIRIPORA,MAIRIPORA,SP,2012
3,1994,,,,,,IGUATU,PR,BRASIL,Solteiro,...,Ensino Fundamental Completo,Com dispensa,Urbana,IGUATU,PR,BRASIL,15/348 - IGUATU,IGUATU,PR,2012
4,1990,,,,,,SAO SEBASTIAO DO TOCANTINS,TO,BRASIL,Solteiro,...,Ensino Medio Completo,Com dispensa,Urbana,SAO SEBASTIAO DO TOCANTINS,TO,BRASIL,28/144 - SAO SEBASTIAO DO TOCANTIS,SAO SEBASTIAO DO TOCANTINS,TO,2012
5,1992,,,,,,RIBEIRAO,PE,BRASIL,Solteiro,...,Ensino Fundamental Incompleto,Com dispensa,Urbana,PAULISTA,PE,BRASIL,21/59 - PAULISTA,PAULISTA,PE,2012
6,1993,,,,,,BRASILIA,DF,BRASIL,Solteiro,...,Ensino Medio Incompleto,Com dispensa,Urbana,AGUAS LINDAS DE GOIAS,GO,BRASIL,7/283 - SANTO ANTONIO DESCOBERTO,SANTO ANTONIO DO DESCOBERTO,GO,2012
7,1994,,,,,,SALVADOR,BA,BRASIL,Solteiro,...,Ensino Medio Incompleto,Com dispensa,Urbana,SALVADOR,BA,BRASIL,17/1 - SALVADOR (NAZARE),SALVADOR,BA,2012
8,1992,,,,,,VITORIA,ES,BRASIL,Solteiro,...,Ensino Fundamental Incompleto,Com dispensa,Urbana,ANCHIETA,ES,BRASIL,2/320 - ANCHIETA,ANCHIETA,ES,2012
9,1992,,,,,,IPIAU,BA,BRASIL,Solteiro,...,Ensino Medio Incompleto,Com dispensa,Urbana,SAO CAETANO DO SUL,SP,BRASIL,4/11 - SAO CAETANO DO SUL,SAO CAETANO DO SUL,SP,2012


### Transform Data

In [5]:
# Removing columns that will be useless for my analysis

sermil_df = sermil_df.drop(*["PESO", "ALTURA", "CABECA", "CALCADO", "CINTURA", "DISPENSA", "MUN_NASCIMENTO", "UF_NASCIMENTO", "JSM", "MUN_JSM", "UF_JSM"])

sermil_df.limit(10).toPandas()

Unnamed: 0,ANO_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,VINCULACAO_ANO
0,1990,BRASIL,Solteiro,M,Ensino Fundamental Completo,Urbana,GRAJAU,MA,BRASIL,2012
1,1987,BRASIL,Solteiro,M,Alfabetizado,Urbana,BRAGANCA PAULISTA,SP,BRASIL,2012
2,1994,BRASIL,Solteiro,M,Ensino Medio Completo,Urbana,MAIRIPORA,SP,BRASIL,2012
3,1994,BRASIL,Solteiro,M,Ensino Fundamental Completo,Urbana,IGUATU,PR,BRASIL,2012
4,1990,BRASIL,Solteiro,M,Ensino Medio Completo,Urbana,SAO SEBASTIAO DO TOCANTINS,TO,BRASIL,2012
5,1992,BRASIL,Solteiro,M,Ensino Fundamental Incompleto,Urbana,PAULISTA,PE,BRASIL,2012
6,1993,BRASIL,Solteiro,M,Ensino Medio Incompleto,Urbana,AGUAS LINDAS DE GOIAS,GO,BRASIL,2012
7,1994,BRASIL,Solteiro,M,Ensino Medio Incompleto,Urbana,SALVADOR,BA,BRASIL,2012
8,1992,BRASIL,Solteiro,M,Ensino Fundamental Incompleto,Urbana,ANCHIETA,ES,BRASIL,2012
9,1992,BRASIL,Solteiro,M,Ensino Medio Incompleto,Urbana,SAO CAETANO DO SUL,SP,BRASIL,2012


In [6]:
# Adding the military draft year, because it disappers when partitioning and powerBI cant read the folder name
sermil_df = sermil_df.withColumn("ANO_ALISTAMENTO", sermil_df.VINCULACAO_ANO)

sermil_df.limit(5).toPandas()

Unnamed: 0,ANO_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,VINCULACAO_ANO,ANO_ALISTAMENTO
0,1990,BRASIL,Solteiro,M,Ensino Fundamental Completo,Urbana,GRAJAU,MA,BRASIL,2012,2012
1,1987,BRASIL,Solteiro,M,Alfabetizado,Urbana,BRAGANCA PAULISTA,SP,BRASIL,2012,2012
2,1994,BRASIL,Solteiro,M,Ensino Medio Completo,Urbana,MAIRIPORA,SP,BRASIL,2012,2012
3,1994,BRASIL,Solteiro,M,Ensino Fundamental Completo,Urbana,IGUATU,PR,BRASIL,2012,2012
4,1990,BRASIL,Solteiro,M,Ensino Medio Completo,Urbana,SAO SEBASTIAO DO TOCANTINS,TO,BRASIL,2012,2012


### Save Data

In [7]:
sermil_df.write.parquet("../Gold/sermil.parquet", mode="overwrite", partitionBy="VINCULACAO_ANO")