<a href="https://colab.research.google.com/github/MarianaDuartee/ProjetoFinal/blob/main/2_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### INSTALANDO DEPENDECIAS

In [None]:
!pip install pyspark
!pip install gcsfs
!pip install pandas

### IMPORTANDO BIBLIOTECAS, ABRINDO SPARKSESSION E CONFIGURANDO CHAVE DE SERVIÇO

In [3]:
from pyspark.sql import SparkSession
from pyspark import SQLContext
from google.cloud import storage
from pyspark.sql.types import *
from pyspark.sql.types import DateType
from pyspark.sql import Window

import pyspark
import pyspark.sql.functions as F
import os
import gcsfs
import pandas as pd

In [None]:
spark = SparkSession.builder\
.master('local')\
.appName('Projeto_Final')\
.config('spark.ui.enable', 'true')\
.config('spark.ui.port', '4050')\
.getOrCreate()

spark

serviceaccount = '/content/soulcode-projeto-final-4b88bea6e07a.json'
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = serviceaccount

spark

### IMPORTANDO, EXTRAINDO INFORMAÇÕES E ANALISANDO DATAFRAMES

In [None]:
'''https://acervolima.com/como-converter-pandas-para-pyspark-dataframe/'''

# ARQUIVO 1
file_path_1 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_despesas_normalizado.csv'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_1):
    data = pd.read_csv(file_path_1, sep=',', encoding='UTF-8', header=0)

df_1 = spark.createDataFrame(data)

# --------------------------------------------

#ARQUIVO 2
file_path_2 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_ocorrencias_normalizado.json'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_2):
    data = pd.read_json(file_path_2, encoding='UTF-8')

df_2 = spark.createDataFrame(data)

# --------------------------------------------

#ARQUIVO 3
file_path_3 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_vitimas_normalizado.json'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_3):
    data = pd.read_json(file_path_3, encoding='UTF-8')

df_3 = spark.createDataFrame(data)

# --------------------------------------------

#ARQUIVO 4
file_path_4 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_ocorrencias_normalizado.json'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_4):
    data = pd.read_json(file_path_4, encoding='UTF-8')

df_4 = spark.createDataFrame(data)

# --------------------------------------------

#ARQUIVO 5
file_path_5 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_ocorrencia_vitimas_porAnoEstado.csv'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_5):
    data = pd.read_csv(file_path_5, sep=',', encoding='UTF-8')

df_5 = spark.createDataFrame(data)

# --------------------------------------------

# ARQUIVO 6
file_path_6 = 'gs://data_lake_ingest_data/1_input/Tabela_frequencia_escolar.xlsx'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_6):
    data = pd.read_excel(file_path_6, header=0)

df_6 = spark.createDataFrame(data)

# --------------------------------------------

# ARQUIVO 7
file_path_7 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_taxa_analfabetismo_normalizado.csv'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_7):
    data = pd.read_csv(file_path_7, header=0)

df_7 = spark.createDataFrame(data)

# --------------------------------------------

df_1.printSchema()
df_1.show(5, truncate=False)
df_1.dtypes

df_2.printSchema()
df_2.show(5, truncate=False)
df_2.dtypes

df_3.printSchema()
df_3.show(5, truncate=False)
df_3.dtypes

df_4.printSchema()
df_4.show(5, truncate=False)
df_4.dtypes

df_5.printSchema()
df_5.show(5, truncate=False)
df_5.dtypes

df_6.printSchema()
df_6.show(5, truncate=False)
df_6.dtypes

df_7.printSchema()
df_7.show(5, truncate=False)
df_7.dtypes

### NORMALIZANDO DATAFRAMES


In [None]:
# DATAFRAME 1

df_1 = df_1.drop('Estimativa_2021', 'Previsao2021Media')
df_1 = df_1.drop('Estimativa_2021', 'Previsao2021Media')
df_1 = df_1.withColumnRenamed('Media Anual', 'Estimativa_Despesa_2021')
df_1 = df_1.withColumnRenamed('Previsao2021|Media', 'Previsao2021_Media')

df_1.withColumn("Despesas2017", F.round(df_1.Despesas2016.cast(FloatType()), 3))
df_1.withColumn("Despesas2017", F.round(df_1.Despesas2017.cast(FloatType()), 3))
df_1.withColumn("Despesas2018", F.round(df_1.Despesas2018.cast(FloatType()), 3))
df_1.withColumn("Despesas2019", F.round(df_1.Despesas2019.cast(FloatType()), 3))
df_1.withColumn("Despesas2020", F.round(df_1.Despesas2020.cast(FloatType()), 3))
df_1.withColumn("Previsao2021_Media", F.round(df_1.Previsao2021_Media.cast(FloatType()), 3))

df_1.show()
df_1.dtypes

In [None]:
# DATAFRAME 6

# DROPANDO COLUNAS
df_6 = df_6.drop('15 a 17 anos - 2019', 
                 '15 a 17 anos - 2018',
                 '15 a 17 anos - 2017',
                 '15 a 17 anos - 2016',
                 '18 a 24 anos - 2019',
                 '18 a 24 anos - 2018',
                 '18 a 24 anos - 2017',
                 '18 a 24 anos - 2016',
                 '25 anos ou mais - 2019',
                 '25 anos ou mais - 2018',
                 '25 anos ou mais - 2017',
                 '25 anos ou mais - 2016')

# RENOMEANDO COLUNAS FAIXA DE IDADE
df_6 = df_6.withColumnRenamed('Grandes Regiões, Unidades da Federação e Municípios das Capitais', 'UF')
df_6 = df_6.withColumnRenamed('Media 15 a 17 anos', 'Media_Freq_15_a_17_anos')
df_6 = df_6.withColumnRenamed('média 18 a 24 anos', 'Media_Freq_18_a_24_anos')
df_6 = df_6.withColumnRenamed('média 25 anos ou mais', 'Media_Freq_25_anos_ou_mais')

# FILTRO PARA REMOVER REGIÕES E CAPITAIS
df_6 = df_6.filter((df_6.UF != "Brasil") & 
            (df_6.UF != "Norte") & 
            (df_6.UF != "Nordeste") &
            (df_6.UF != "Sudeste") & 
            (df_6.UF != "Sul") &
            (df_6.UF != "Centro-Oeste") &
            (df_6.UF != "Porto Velho") &
            (df_6.UF != "Rio Branco") &
            (df_6.UF != "Manaus") &
            (df_6.UF != "Boa Vista") &
            (df_6.UF != "Macapá") &
            (df_6.UF != "Palmas") &
            (df_6.UF != "São Luiz") &
            (df_6.UF != "Teresina") &
            (df_6.UF != "Fortaleza") &
            (df_6.UF != "Natal") &
            (df_6.UF != "joão Pessoa") &
            (df_6.UF != "Recife") &
            (df_6.UF != "Maceió") &
            (df_6.UF != "Aracaju") &
            (df_6.UF != "Salvador") &
            (df_6.UF != "Belo Horizonte") &
            (df_6.UF != "Vitória") &
            (df_6.UF != "Curitiba") &
            (df_6.UF != "Florianópolis") &
            (df_6.UF != "Porto Alegre") &
            (df_6.UF != "Campo Grande") &
            (df_6.UF != "Cuiabá") &
            (df_6.UF != "Goiânia") &
            (df_6.UF != "Brasilia"))\
            .orderBy('UF', ascending=True)

# # INCREMENTANDO TAXA DE EVASÃO
# df_6 = df_6.withColumn('Evasao_11_a_14_anos', (df_5.Freq_11_a_14_anos - 100)) 
# df_6 = df_6.withColumn('Evasao_15_a_17_anos', (df_5.Freq_11_a_14_anos - 100))
# df_6 = df_6.withColumn('Evasao_18_a_24_anos', (df_5.Freq_11_a_14_anos - 100))
# df_6 = df_6.withColumn('Evasao_25_anos_ou_mais', (df_5.Freq_11_a_14_anos - 100))

# CONVERTENDO VALORES EM PORCENTAGEM
'''https://stackoverflow.com/questions/60673912/how-to-convert-number-into-percentage'''

df_6 = df_6\
.withColumn("Media_Freq_15_a_17_anos", F.concat((F.col("Media_Freq_15_a_17_anos") * 1).cast("int"), F.lit(' %')))\
.withColumn("Media_Freq_18_a_24_anos", F.concat((F.col("Media_Freq_18_a_24_anos") * 1).cast("int"), F.lit(' %')))\
.withColumn("Media_Freq_25_anos_ou_mais", F.concat((F.col("Media_Freq_25_anos_ou_mais") * 1).cast("int"), F.lit(' %')))
# .withColumn("Media_Freq_Escolar", F.concat((F.col("Media_Freq_Escolar") * 1).cast("int"), F.lit(' %')))\
# .withColumn("Evasao_11_a_14_anos", F.concat((F.col("Evasao_11_a_14_anos") * 1).cast("int"), F.lit(' %')))\
# .withColumn("Evasao_15_a_17_anos", F.concat((F.col("Evasao_15_a_17_anos") * 1).cast("int"), F.lit(' %')))\
# .withColumn("Evasao_18_a_24_anos", F.concat((F.col("Evasao_18_a_24_anos") * 1).cast("int"), F.lit(' %')))\
# .withColumn("Evasao_25_anos_ou_mais", F.concat((F.col("Evasao_25_anos_ou_mais") * 1).cast("int"), F.lit(' %')))

# AJUSTANDO EXIBIÇÃO DO DATAFRAME
df_6 = df_6.select('UF', 
                   'Media_Freq_15_a_17_anos', 
                #    'Evasao_11_a_14_anos',
                   'Media_Freq_18_a_24_anos',
                #    'Evasao_15_a_17_anos',
                   'Media_Freq_25_anos_ou_mais',
                #    'Evasao_18_a_24_anos',
                #    'Freq_25_anos_ou_mais',
                #    'Evasao_25_anos_ou_mais',
                #    'Media_Freq_Escolar'
               )

df_6.show()

In [None]:
# TRANSFORMARDO DATAFRAME PYSPAK EM PANDAS
'''https://sparkbyexamples.com/pyspark/convert-pyspark-dataframe-to-pandas/'''

df_6 = df_6.toPandas()
df_6.to_csv('temp_pyspark_tabela_frequencia_escolar_normalizado.csv')

BUCKET_NAME= "data_lake_ingest_data"
storage_client = storage.Client()
bucket = storage_client.get_bucket(BUCKET_NAME)

fileout = "2_temp/temp_pyspark_tabela_frequencia_escolar_normalizado.csv"
destination_blob = bucket.blob(fileout)
destination_blob.upload_from_filename('/content/temp_pyspark_tabela_frequencia_escolar_normalizado.csv')

In [None]:
# DATAFRAME 7
df_7 = df_7.drop('Grupo_idade')
df_7 = df_7.drop('Unnamed: 0')

df_7 = df_7\
.withColumn("TaxaAnalfabetismo2016", F.concat((F.col("TaxaAnalfabetismo2016") * 1).cast("int"), F.lit(' %')))\
.withColumn("TaxaAnalfabetismo2017", F.concat((F.col("TaxaAnalfabetismo2017") * 1).cast("int"), F.lit(' %')))\
.withColumn("TaxaAnalfabetismo2018", F.concat((F.col("TaxaAnalfabetismo2018") * 1).cast("int"), F.lit(' %')))\
.withColumn("TaxaAnalfabetismo2019", F.concat((F.col("TaxaAnalfabetismo2019") * 1).cast("int"), F.lit(' %')))

df_7.show()

### CONSULTAS / AGREGANDO DADOS

In [None]:
# VISUALIZAR DATAFRAMES TRATADOS

df_1.show(5, truncate=False)
df_2.show(5, truncate=False)
df_3.show(5, truncate=False)
df_4.show(5, truncate=False)
df_5.show(5, truncate=False)
df_6.show(5, truncate=False)
df_7.show(5, truncate=False)

JOINS

In [None]:
# AGREGAÇÃO 1

#AGRUPANDO VALORES DOS DATAFRAMES
df_ins2 = df_2.groupBy('UF').sum('Ocorrencias').orderBy('UF')
df_ins2.show(50, truncate=False)

df_ins3 = df_3.groupBy('UF').sum('Vitimas').orderBy('UF')
df_ins3.show(50, truncate=False)

# ------------------------------------------------------------

# JOIN 1
# AGREGA OS VALORES TOTAIS DE OCORRENCIAS E VITIMAS

df_join_1 = df_ins2.join(df_ins3, on=['UF'], how='inner')\
.select('UF', 'sum(Ocorrencias)', 'sum(Vitimas)')\
.orderBy(F.asc('UF'))

df_join_1.show(50, False)

# ------------------------------------------------------------

# JOIN 2
# AGREGA OS VALORES TOTAIS DE OCORRENCIAS, VITIMAS, MEDIA DE FREQ ESCOLAR

df_join_1 = df_join_1.join(df_6, on=['UF'], how='inner')\
.select('UF', 'sum(Ocorrencias)', 'sum(Vitimas)', 'Media_Freq_25_anos_ou_mais')\
.orderBy('UF', ascending=True)

df_join_1.show(50, False)

# ------------------------------------------------------------

# JOIN 3
# AGREGA OS VALORES TOTAIS DE DESPESAS GOVERNAMENTAIS, OCORRENCIAS, VITIMAS, MEDIA DE FREQ. ESCOLAR

df_join_1 = df_join_1.join(df_1, on=['UF'], how='inner')\
.select('UF', 'Despesas2020', 'sum(Ocorrencias)', 'sum(Vitimas)', 'Media_Freq_25_anos_ou_mais')\
.orderBy(F.asc('UF'))

df_join_1\
.orderBy("Despesas2020", ascending=False)\
.show(50, False)

df_join_1.dtypes

# ------------------------------------------------------------

df_join_1 = df_join_1.toPandas()
df_join_1.to_csv('temp_pyspark_agg_1_General_Data.csv')

BUCKET_NAME= "data_lake_ingest_data"
storage_client = storage.Client()
bucket = storage_client.get_bucket(BUCKET_NAME)

fileout = "2_temp/temp_pyspark_agg_1_General_Data.csv"
destination_blob = bucket.blob(fileout)
destination_blob.upload_from_filename('/content/temp_pyspark_agg_1_General_Data.csv')

In [None]:
# AGREGAÇÃO 2

# JOIN 1
# AGREGA OS VALORES TOTAIS DE OCORRENCIAS E VITIMAS POR ESTADO 

# ------------------------------------------------------------

df_join_1 = df_6.join(df_7, on=['UF'], how='inner')\
.select('UF', 'Media_Freq_15_a_17_anos', 'Media_Freq_18_a_24_anos', 'Media_Freq_25_anos_ou_mais', 
        'TaxaAnalfabetismo2016', 'TaxaAnalfabetismo2017', 'TaxaAnalfabetismo2018', 'TaxaAnalfabetismo2019')\
.orderBy(F.asc('UF'))\

df_join_1.show()

# ------------------------------------------------------------

df_join_1 = df_join_1.toPandas()
df_join_1.to_csv('temp_pyspark_agg_2_Freq_Escolar_Taxa_Analfa.csv')

BUCKET_NAME= "data_lake_ingest_data"
storage_client = storage.Client()
bucket = storage_client.get_bucket(BUCKET_NAME)

fileout = "2_temp/temp_pyspark_agg_2_Freq_Escolar_Taxa_Analfa.csv"
destination_blob = bucket.blob(fileout)
destination_blob.upload_from_filename('/content/temp_pyspark_agg_2_Freq_Escolar_Taxa_Analfa.csv')

In [None]:
# AGREGAÇÃO 3

# AGRUPANDO VALORES DOS DATAFRAMES
df_agg_1 = df_2.filter(df_2.Ano == 2020)\
.groupBy('UF').sum('Ocorrencias').alias('Ocorrencias_2020').orderBy('UF')

df_agg_1.show()

# ------------------------------------------------------------

df_agg_2 = df_3.filter(df_3.Ano == 2020)\
.groupBy('UF').sum('Vitimas').alias('Vitimas_2020').orderBy('UF')

df_agg_2.show()

# ------------------------------------------------------------

# AGREGANDO OS VALORES PELO ANO DE 2020

df_join_1 = df_agg_1.join(df_agg_2, on=['UF'], how='inner')\
.select('UF', 'sum(Ocorrencias)', 'sum(Vitimas)')\
.orderBy('UF', ascending=True)

df_join_1.show()

# ------------------------------------------------------------

df_join_2 = df_1.select('UF', 'Despesas2020')

df_join_1 = df_join_1.join(df_join_2, on=['UF'], how='inner')\
.select('UF', 
        'sum(Ocorrencias)', 
        'sum(Vitimas)', 
        'Despesas2020')

df_join_1 = df_join_1\
.withColumnRenamed('sum(Ocorrencias)', 'Ocorrencias_2020')\
.withColumnRenamed('sum(Vitimas)', 'Vitimas_2020')\
.withColumnRenamed('Despesas2020', 'Despesas_Gov_2020')\

df_join_1.show()

# ------------------------------------------------------------

df_join_1 = df_join_1.toPandas()
df_join_1.to_csv('temp_pyspark_agg_3_general_data_2020.csv')

BUCKET_NAME= "data_lake_ingest_data"
storage_client = storage.Client()
bucket = storage_client.get_bucket(BUCKET_NAME)

fileout = "2_temp/temp_pyspark_agg_3_general_data_2020.csv"
destination_blob = bucket.blob(fileout)
destination_blob.upload_from_filename('/content/temp_pyspark_agg_3_general_data_2020.csv')

WINDOW FUNCTIONS RANKING

In [None]:
# ANALISANDO AS OCORRENCIAS DO ESTADO SP EM 2019

df_2_consulta = df_2.groupby('UF', 'TipoCrime', 'Ano')\
.sum('Ocorrencias')\
.filter(
    (df_2.UF == "São Paulo") & 
    (df_2.Ano == 2019))\
.orderBy('TipoCrime')

# --------------------------------------------

# RANKING DAS OCORRENCIAS
w0 = Window.partitionBy(F.col('UF')).orderBy(F.desc('sum(Ocorrencias)'))

df_2_consulta.withColumn('Ranking', F.row_number().over(w0))\
.show(truncate=False)


STRUCT TYPE | UNION BY NAME

In [None]:
# CRIANDO DATAFRAME VAZIO

esquema = (StructType([
        StructField('UF', StringType(), True),
        StructField('TipoCrime', StringType(), True),
        StructField('Ano', IntegerType(), True),
        StructField('Mes', StringType(), True),
        StructField('SexoVitima', StringType(), True),
        StructField('Vitimas', IntegerType(), True)
    ])
)

df_3_consulta = spark.createDataFrame(data='', schema=esquema)
df_3_consulta.printSchema()
df_3_consulta.show()

# UNINDO DF

df_3_consulta.unionByName(df_3)\
.orderBy('Ano', ascending=False)\
.show(5, truncate=False)

# --------------------------------------------

# EXIBINDO AS QTD. DE VITIMAS DE CRIMES DO ESTADO RJ EM 2020 POR SEXO

df_3_consulta = df_3.groupby('UF', 'TipoCrime', 'Ano', 'SexoVitima')\
.sum('Vitimas')\
.filter(
    (df_3.UF == "Rio de Janeiro") &
    (df_3.Ano == 2020) &
    (df_3.SexoVitima == "Feminino"))\
.orderBy('TipoCrime')

df_3_consulta.show(truncate=False)

df_3_consulta = df_3.groupby('UF', 'TipoCrime', 'Ano', 'SexoVitima')\
.sum('Vitimas')\
.filter(
    (df_3.UF == "Rio de Janeiro") &
    (df_3.Ano == 2020) &
    (df_3.SexoVitima == "Masculino"))\
.orderBy('TipoCrime')

df_3_consulta.show(truncate=False)

df_3_consulta = df_3.groupby('UF', 'TipoCrime', 'Ano', 'SexoVitima')\
.sum('Vitimas')\
.filter(
    (df_3.UF == "Rio de Janeiro") &
    (df_3.Ano == 2020) &
    (df_3.SexoVitima == "Sexo NI"))\
.orderBy('TipoCrime')

df_3_consulta.show(truncate=False)

HEADER | AGGREGATE | SUM

In [None]:
# ALTERANDO CABEÇALHO

file_path_1 = 'gs://data_lake_ingest_data/2_temp/temp_pandas_despesas_normalizado.csv'

fs = gcsfs.GCSFileSystem(project='soulcode-projeto-final', token=serviceaccount)
with fs.open(file_path_1):
    data = pd.read_csv(file_path_1,
                       sep=',', 
                       encoding='UTF-8')

esquema=['UF', 
         'Desp_2016', 
         'Desp_2017', 
         'Desp_2018', 
         'Desp_2019', 
         'Desp_2020', 
         'Variacao_%', 
         'Previsao_2021_Media']

df_1_consulta = spark.createDataFrame(data, schema=esquema)

df_1_consulta.show(5, truncate=False)

# --------------------------------------------

# AGREGANDO O TOTAL DE DESPESAS GOVERNAMENTAIS DO PARANA REFERENTES AOS ULTIMOS 3 ANOS

df_1_consulta.select('UF', 'Desp_2018', 'Desp_2019', 'Desp_2020')\
.filter((df_1_consulta.UF == 'Paraná'))\
.groupBy('UF', 'Desp_2018', 'Desp_2019', 'Desp_2020')\
.agg(F.sum(df_1_consulta.Desp_2018 + 
           df_1_consulta.Desp_2019 +
           df_1_consulta.Desp_2020).alias('PR_Despesas_Totais_Milhoes'))\
.show()

FILTERS

In [None]:
# FILTRANDO INTERVALOS

# IGUAL A 90% E MAIOR QUE 20 %
df_6.filter(
    (df_6.Media_Freq_15_a_17_anos == '90 %') & 
    (df_6.Media_Freq_15_a_17_anos > '20 %'))\
.select('UF', 'Media_Freq_15_a_17_anos')\
.orderBy(F.desc('Media_Freq_15_a_17_anos'))\
.show(5, truncate=False)

# IGUAL E MENOR A 40 % OU IGUAL E MAIOR QUE 20 %
df_6.filter(
    (df_6.Media_Freq_18_a_24_anos <= '40 %') |
    (df_6.Media_Freq_18_a_24_anos >= '20 %'))\
.select('UF', 'Media_Freq_18_a_24_anos')\
.orderBy(F.desc('Media_Freq_18_a_24_anos'))\
.show(5, truncate=False)

# IGUAL E MENOR QUE 20 % OU MAIOR QUE 8 %
df_6.filter(
    (df_6.Media_Freq_25_anos_ou_mais <= '20 %') |
    (df_6.Media_Freq_25_anos_ou_mais > '8 %'))\
.select('UF', 'Media_Freq_25_anos_ou_mais')\
.orderBy(F.desc('Media_Freq_25_anos_ou_mais'))\
.show(5, truncate=False)