# Importação de Bibliotecas

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.window import Window as W

# Criação da Spark Session

In [2]:
spark = (SparkSession.builder
        .master("local")
        .appName("Pyspark_IPCA_prod_serv")
        .config("spark.ui.port", "4054")
        .getOrCreate()
        )

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


In [3]:
spark

# Extração do arquivo

In [4]:
df = spark.read.parquet('gs://projeto_final_2021/pandas_to_parquet/IPCA_parquet/IPCA_prod_serv.snappy')

                                                                                

# Imprimindo o Schema

In [5]:
df.printSchema()

root
 |-- mes: string (nullable = true)
 |-- ano: short (nullable = true)
 |-- regiao: string (nullable = true)
 |-- item: string (nullable = true)
 |-- value: float (nullable = true)



In [6]:
df.show(2)

+---------+----+------+------------+-----+
|      mes| ano|regiao|        item|value|
+---------+----+------+------------+-----+
|  janeiro|2020|Brasil|Índice_geral| 0.21|
|fevereiro|2020|Brasil|Índice_geral| 0.25|
+---------+----+------+------------+-----+
only showing top 2 rows



                                                                                

In [7]:
df.schema.names

['mes', 'ano', 'regiao', 'item', 'value']

In [8]:
df.show()

+---------+----+------+------------+-----+
|      mes| ano|regiao|        item|value|
+---------+----+------+------------+-----+
|  janeiro|2020|Brasil|Índice_geral| 0.21|
|fevereiro|2020|Brasil|Índice_geral| 0.25|
|    março|2020|Brasil|Índice_geral| 0.07|
|    abril|2020|Brasil|Índice_geral|-0.31|
|     maio|2020|Brasil|Índice_geral|-0.38|
|    junho|2020|Brasil|Índice_geral| 0.26|
|    julho|2020|Brasil|Índice_geral| 0.36|
|   agosto|2020|Brasil|Índice_geral| 0.24|
| setembro|2020|Brasil|Índice_geral| 0.64|
|  outubro|2020|Brasil|Índice_geral| 0.86|
| novembro|2020|Brasil|Índice_geral| 0.89|
| dezembro|2020|Brasil|Índice_geral| 1.35|
|  janeiro|2021|Brasil|Índice_geral| 0.25|
|fevereiro|2021|Brasil|Índice_geral| 0.86|
|    março|2021|Brasil|Índice_geral| 0.93|
|    abril|2021|Brasil|Índice_geral| 0.31|
|     maio|2021|Brasil|Índice_geral| 0.83|
|    junho|2021|Brasil|Índice_geral| 0.53|
|    julho|2021|Brasil|Índice_geral| 0.96|
|   agosto|2021|Brasil|Índice_geral| 0.87|
+---------+

# Modificações e alterações nas colunas

In [9]:
#CRIANDO COLUNA MES
df = (df.withColumn("mes",
                         when(col("mes").like("janeiro"), "1")
                         .when(col("mes").like("fevereiro"), "2")
                         .when(col("mes").like("março"), "3")
                         .when(col("mes").like("abril"), "4")
                         .when(col("mes").like("maio"), "5")
                         .when(col("mes").like("junho"), "6")
                         .when(col("mes").like("julho"), "7")
                         .when(col("mes").like("agosto"), "8")
                         .when(col("mes").like("setembro"), "9")
                         .when(col("mes").like("outubro"), "10")
                         .when(col("mes").like("novembro"), "11")
                         .when(col("mes").like("dezembro"), "12")
                         )
          )


In [12]:
df.show(1000)

+---+----+------+--------------------+-----+
|mes| ano|regiao|                item|value|
+---+----+------+--------------------+-----+
|  1|2020|Brasil|        Índice_geral| 0.21|
|  2|2020|Brasil|        Índice_geral| 0.25|
|  3|2020|Brasil|        Índice_geral| 0.07|
|  4|2020|Brasil|        Índice_geral|-0.31|
|  5|2020|Brasil|        Índice_geral|-0.38|
|  6|2020|Brasil|        Índice_geral| 0.26|
|  7|2020|Brasil|        Índice_geral| 0.36|
|  8|2020|Brasil|        Índice_geral| 0.24|
|  9|2020|Brasil|        Índice_geral| 0.64|
| 10|2020|Brasil|        Índice_geral| 0.86|
| 11|2020|Brasil|        Índice_geral| 0.89|
| 12|2020|Brasil|        Índice_geral| 1.35|
|  1|2021|Brasil|        Índice_geral| 0.25|
|  2|2021|Brasil|        Índice_geral| 0.86|
|  3|2021|Brasil|        Índice_geral| 0.93|
|  4|2021|Brasil|        Índice_geral| 0.31|
|  5|2021|Brasil|        Índice_geral| 0.83|
|  6|2021|Brasil|        Índice_geral| 0.53|
|  7|2021|Brasil|        Índice_geral| 0.96|
|  8|2021|

# Salvar o arquivo

In [11]:
(df.write.format("parquet")
.option("header", "true")
.option("inferschema", "true")
.save("gs://projeto_final_2021/parquet_to_bq/IPCA_prod_serv")
)

AnalysisException: path gs://projeto_final_2021/parquet_to_bq/IPCA_prod_serv already exists.