# Importação de libs

In [0]:
from pyspark.sql.functions import col, regexp_replace

#Banco

In [0]:
#Ingerindo os registros
df_banco = spark.read.csv('FileStore/df/ativ/Bancos/*.tsv', header=True, inferSchema=True, sep='\t')

In [0]:
#Tratando o campo Nome
df_banco_filtrado = df_banco.withColumn("Nome", regexp_replace(col('Nome'), " - PRUDENCIAL", ""))
df_banco_filtrado.display()

Segmento,CNPJ,Nome
S1,0,BANCO DO BRASIL
S1,60746948,BRADESCO
S1,30306294,BTG PACTUAL
S1,360305,CAIXA ECONOMICA FEDERAL
S1,60872504,ITAU
S1,90400888,SANTANDER
S2,92702067,BANRISUL
S2,7237373,BANCO DO NORDESTE DO BRASIL S.A.
S2,33657248,BNDES
S2,33479023,CITIBANK


#Empregados

In [0]:
#Ingerindo os registros
df_empregados = spark.read.csv('FileStore/df/ativ/Empregados/*.csv', header=True, inferSchema=True, sep='|')

In [0]:
#Renomeando colunas
df_empregados = df_empregados.withColumnRenamed("Perspectiva positiva da empresa(%)", "satisfacao_empregado")
df_empregados = df_empregados.withColumnRenamed("Remuneração e benefícios", "satisfacao_salario")

#Agrupando e tirando a media
df_empregados = df_empregados.groupBy("Nome").agg({
        'satisfacao_empregado': 'mean',
        'satisfacao_salario': 'mean'
    })
df_empregados.display()

Nome,avg(satisfacao_salario),avg(satisfacao_empregado)
SANTANDER,4.0,65.0
BOFA MERRILL LYNCH,3.8,61.0
BRADESCO,4.3,66.0
JP MORGAN CHASE,3.9,76.5
BANCO TOKYO-MITSUBISHI BM S.A.,3.6,43.0
MORGAN STANLEY,3.7,76.0
BANCO DO NORDESTE DO BRASIL S.A.,4.2,83.0
APE POUPEX,2.7,52.5
BANRISUL,4.1,59.0
ORIGINAL,4.0,53.0


# Reclamações

In [0]:
#Ingerindo os registros
df_reclamacoes = spark.read.csv('FileStore/df/ativ/Reclamacoes/*.csv', header=True, inferSchema=True, sep=';')

In [0]:
#Tratando os nomes
df_reclamacoes = df_reclamacoes.withColumnRenamed("Quantidade total de clientes – CCS e SCR", "Quantidade total de clientes")

#Fazendo as agregações
df_reclamacoes = df_reclamacoes.groupby("Instituição financeira").agg({
        'Índice': 'min',
        'Quantidade total de reclamações': 'sum',
        'Quantidade total de clientes': 'mean'
    })

In [0]:
#Tratando colunas
df_reclamacoes_filtrado = df_reclamacoes.withColumn("Instituição financeira", regexp_replace(col('Instituição financeira'), " \(conglomerado\)", ""))
df_reclamacoes_filtrado = df_reclamacoes_filtrado.withColumnRenamed("Instituição financeira", "Nome")
df_reclamacoes_filtrado = df_reclamacoes_filtrado.withColumnRenamed("min(Índice)", "indice")
df_reclamacoes_filtrado = df_reclamacoes_filtrado.withColumnRenamed("sum(Quantidade total de reclamações)", "qtd_total_reclamacoes")
df_reclamacoes_filtrado = df_reclamacoes_filtrado.withColumnRenamed("avg(Quantidade total de clientes)", "qtd_total_clientes")
df_reclamacoes_filtrado.display()

Nome,indice,qtd_total_reclamacoes,qtd_total_clientes
ABC-BRASIL,,59,37465.57142857143
ABN AMRO,,1,0.0
ACESSO SOLUÇÕES DE PAGAMENTO S.A.,1324,358,3125360.0
ACESSO SOLUÇÕES DE PAGAMENTO S.A. - INSTITUIÇÃO DE PAGAMENTO,1552,179,5538591.0
ACG INSTITUIÇÃO DE PAGAMENTO S.A.,,2,51711.0
AFINZ,,62,483968.0
AGIBANK,11241,3377,1526788.857142857
"AGORACRED S/A SOCIEDADE DE CRÉDITO, FINANCIAMENTO E INVESTIMENTO",,47,480460.7142857143
"AL5 S.A. CRÉDITO, FINANCIAMENTO E INVESTIMENTO",,52,22749.0
ALFA,,480,423848.4285714286


#Joins

In [0]:
join_df = df_empregados.join(df_reclamacoes_filtrado, on="Nome", how="inner")
final_df = join_df.join(df_banco_filtrado, on="Nome", how="inner")

In [0]:
#Renomeando colunas
final_df = final_df.withColumnRenamed("avg(satisfacao_salario)", "satisfacao_salario")
final_df = final_df.withColumnRenamed("avg(satisfacao_empregado)", "satisfacao_empregado")
final_df = final_df.withColumnRenamed("Segmento", "segmento")

In [0]:
final_df.display()

Nome,satisfacao_salario,satisfacao_empregado,indice,qtd_total_reclamacoes,qtd_total_clientes,segmento,CNPJ
ALFA,3.8,47.0,,480,423848.4285714286,S3,60770336
BANCO DO NORDESTE DO BRASIL S.A.,4.2,83.0,,490,8966108.714285715,S2,7237373
BANCO FIBRA S.A.,4.2,84.0,,17,163767.16666666666,S3,58616418
BANRISUL,4.1,59.0,1472.0,3689,5107234.571428572,S2,92702067
BMG,4.2,63.0,10186.0,12161,9491476.57142857,S3,61186680
BNP PARIBAS,3.4,63.0,12522.0,4624,2211990.571428572,S3,1522368
BOFA MERRILL LYNCH,3.8,61.0,,7,4732.0,S3,62073200
BRADESCO,4.3,66.0,2164.0,60835,100752267.57142857,S1,60746948
BTG PACTUAL,4.4,73.0,,133,766998.0,S1,30306294
CITIBANK,3.8,68.0,,97,18253.85714285714,S2,33479023


In [0]:
#Salvando tabela
final_df.write \
    .format("delta") \
    .mode("overwrite") \
    .option("mergeSchema", "true") \
    .saveAsTable("stage.atividade03")

In [0]:
%sql
--Visualizando os dados
select * from stage.atividade03

Nome,Satisfacao_salario,Satisfacao_empregado,indice,qtd_total_reclamacoes,qtd_total_clientes,segmento,CNPJ
ALFA,3.8,47.0,,480,423848.4285714286,S3,60770336
BANCO DO NORDESTE DO BRASIL S.A.,4.2,83.0,,490,8966108.714285715,S2,7237373
BANCO FIBRA S.A.,4.2,84.0,,17,163767.16666666666,S3,58616418
BANRISUL,4.1,59.0,1472.0,3689,5107234.571428572,S2,92702067
BMG,4.2,63.0,10186.0,12161,9491476.57142857,S3,61186680
BNP PARIBAS,3.4,63.0,12522.0,4624,2211990.571428572,S3,1522368
BOFA MERRILL LYNCH,3.8,61.0,,7,4732.0,S3,62073200
BRADESCO,4.3,66.0,2164.0,60835,100752267.57142857,S1,60746948
BTG PACTUAL,4.4,73.0,,133,766998.0,S1,30306294
CITIBANK,3.8,68.0,,97,18253.85714285714,S2,33479023
