#**Grupo 3**
* Daniel Mattos de Carvalho Sanches da Silva
* Hudson Mesquita Souza
* Tariana de Jesus Gomes Leite

In [0]:
%sh
pip install openpyxl

In [0]:
# Importação de bibliotecas
from pyspark.sql.functions import *
from pyspark.sql import Row
from pyspark.sql import functions as f
from datetime import date
from datetime import datetime
import pandas as pd
spark.sql("set spark.sql.legacy.timeParserPolicy=LEGACY")

In [0]:
dbutils.fs.ls("/mnt/blobed")

#**Concessionária**

Desde o começo deste projeto foi no informado que estaríamos trabalhando com dados de vendas de carros, portanto já pudemos inferir que:
*   A Data seria uma uma coluna muito importante para o projeto, pois a venda por período de tempo (seja qual o dia da semana ou durante feriados, por exemplo) pode ser uma maneira significativa de aumentar as vendas;
*   A quantidade de vendas por Marca e/ou Modelo;
*   Dentre outras que poderiam ser solicitadas.

#**Data_feriado**
Neste bloco foram disponibilizados dois CSVs para realizar a limpeza e a junção em um único dataframe contendo as colunas:
*   Data;
*   Numero - com inteiros de 1 a 7 representando os dias da semana;
*   Tipo - Útil, feriado (com o nome) e fim de semana;
*   0-1 - 0 para fins de semana e feriados e 1 para dias úteis.

__________________

**Calendário**
* A coluna Data era do tipo string - converção para o tipo date com a máscara dd/MM/yyyy

**Feriado**
* Ao final do CSV havia algumas colunas com informações nulas e sem relevância para o projeto, portanto houve a remoção deles
* A coluna Data era do tipo string - converção para o tipo date com a máscara dd/MM/yyyy

Depois da limpeza e tipagem, foi feito um letf join de Data e Feriado (nesta ordem) e então:
* Transformação da coluna Data em Timestamp, criação da coluna Numero usando a função date_format passando a coluna Data e o parâmetro "u", que mostra o dia da semana em nº, em que 1 é seg. e 7 é dom;
* Utilização a cláusula when, comparação dos valores da coluna Numero para o preenchimento dos valores da coluna Tipo;
* Utilizando a cláusula when, comparação dos valores da coluna Tipo para preencher os valores da coluna 0-1 (se for 'Útil' seta 1; senão seta 0);
* E por fim, tipagem dos dados: Data para tipo date e Numero e 0-1 para tipo int.

In [0]:
#Leitura dos CSVs
calendario = spark.read.options(sep=";", header=True, encoding = "UTF-8").csv("/mnt/blobed/modulo_02/calendario/calendario.csv")
feriados = spark.read.options(sep=";", header=True, encoding = "UTF-8").csv("/mnt/blobed/modulo_02/calendario/feriados_nacionais.csv")

display(calendario)
display(feriados)

Data
30/06/2016 00:00
01/07/2016 00:00
02/07/2016 00:00
03/07/2016 00:00
04/07/2016 00:00
05/07/2016 00:00
06/07/2016 00:00
07/07/2016 00:00
08/07/2016 00:00
09/07/2016 00:00


Data,Dia da Semana,Feriado
01/01/2001,segunda-feira,Confraternização Universal
26/02/2001,segunda-feira,Carnaval
27/02/2001,terça-feira,Carnaval
13/04/2001,sexta-feira,Paixão de Cristo
21/04/2001,sábado,Tiradentes
01/05/2001,terça-feira,Dia do Trabalho
14/06/2001,quinta-feira,Corpus Christi
07/09/2001,sexta-feira,Independência do Brasil
12/10/2001,sexta-feira,Nossa Sr.a Aparecida - Padroeira do Brasil
02/11/2001,sexta-feira,Finados


In [0]:
#Converte a coluna Data para o tipo date e guarda em calend
calend = calendario.withColumn("Data", f.to_date(f.to_timestamp(col("Data"), "dd/MM/yyyy")))
display(calend)

Data
2016-06-30
2016-07-01
2016-07-02
2016-07-03
2016-07-04
2016-07-05
2016-07-06
2016-07-07
2016-07-08
2016-07-09


In [0]:
#Remove os nulos de feriados e guarda em feriados_nn
feriados_nn = feriados.na.drop(how="any") #how = any dropa se algum dos valores for nulo
feriados_nn = feriados_nn.withColumn("Data", f.to_date(f.to_timestamp(col("Data"), "dd/MM/yyyy")))
display(feriados_nn)

Data,Dia da Semana,Feriado
2001-01-01,segunda-feira,Confraternização Universal
2001-02-26,segunda-feira,Carnaval
2001-02-27,terça-feira,Carnaval
2001-04-13,sexta-feira,Paixão de Cristo
2001-04-21,sábado,Tiradentes
2001-05-01,terça-feira,Dia do Trabalho
2001-06-14,quinta-feira,Corpus Christi
2001-09-07,sexta-feira,Independência do Brasil
2001-10-12,sexta-feira,Nossa Sr.a Aparecida - Padroeira do Brasil
2001-11-02,sexta-feira,Finados


In [0]:
#Junção dos 2 frames pegando o que tem do da esquerda e em comum entre os 2
data_feriado = calend.join(feriados_nn, on=['Data'], how='left').orderBy('Data')
display(data_feriado)

Data,Dia da Semana,Feriado
2016-06-30,,
2016-07-01,,
2016-07-02,,
2016-07-03,,
2016-07-04,,
2016-07-05,,
2016-07-06,,
2016-07-07,,
2016-07-08,,
2016-07-09,,


In [0]:
#o padrão de formatação de data é usado para obter o dia da semana em um número. por exemplo 1 para segunda-feira e 7 para domingo
#u – o padrão de formatação de data é usado para obter o dia da semana em um número. por exemplo 1 para segunda-feira e 7 para domingo
data_feriado = data_feriado.withColumn("Data", \
    to_timestamp(col("Data")))\
    .withColumn("Numero", date_format(col("Data"), "u"))


In [0]:
#Cria a coluna 'Tipo' e a preenche segundo a cláusula when
data_feriado = data_feriado.withColumn("Tipo", \
                                       when((data_feriado.Numero == '6') | (data_feriado.Numero == '7'), 'Fim de Semana')\
                                       .when((data_feriado.Feriado.isNull()), 'Útil')\
                                       .otherwise(data_feriado.Feriado)
                                      )
display(data_feriado)

Data,Dia da Semana,Feriado,Numero,Tipo
2016-06-30T00:00:00.000+0000,,,4,Útil
2016-07-01T00:00:00.000+0000,,,5,Útil
2016-07-02T00:00:00.000+0000,,,6,Fim de Semana
2016-07-03T00:00:00.000+0000,,,7,Fim de Semana
2016-07-04T00:00:00.000+0000,,,1,Útil
2016-07-05T00:00:00.000+0000,,,2,Útil
2016-07-06T00:00:00.000+0000,,,3,Útil
2016-07-07T00:00:00.000+0000,,,4,Útil
2016-07-08T00:00:00.000+0000,,,5,Útil
2016-07-09T00:00:00.000+0000,,,6,Fim de Semana


In [0]:
#Cria a coluna '0-1' e a preenche segundo a cláusula when
data_feriado = data_feriado.withColumn("0-1", \
                                       when(data_feriado.Tipo == 'Útil', '1')\
                                       .when(data_feriado.Tipo != 'Útil', '0'))

display(data_feriado)

Data,Dia da Semana,Feriado,Numero,Tipo,0-1
2016-06-30T00:00:00.000+0000,,,4,Útil,1
2016-07-01T00:00:00.000+0000,,,5,Útil,1
2016-07-02T00:00:00.000+0000,,,6,Fim de Semana,0
2016-07-03T00:00:00.000+0000,,,7,Fim de Semana,0
2016-07-04T00:00:00.000+0000,,,1,Útil,1
2016-07-05T00:00:00.000+0000,,,2,Útil,1
2016-07-06T00:00:00.000+0000,,,3,Útil,1
2016-07-07T00:00:00.000+0000,,,4,Útil,1
2016-07-08T00:00:00.000+0000,,,5,Útil,1
2016-07-09T00:00:00.000+0000,,,6,Fim de Semana,0


In [0]:
#Formata a data
data_feriado = data_feriado.withColumn("Data", f.to_date(f.to_timestamp(col("Data"), "dd/MM/yyyy")))
display(data_feriado)

Data,Dia da Semana,Feriado,Numero,Tipo,0-1
2016-06-30,,,4,Útil,1
2016-07-01,,,5,Útil,1
2016-07-02,,,6,Fim de Semana,0
2016-07-03,,,7,Fim de Semana,0
2016-07-04,,,1,Útil,1
2016-07-05,,,2,Útil,1
2016-07-06,,,3,Útil,1
2016-07-07,,,4,Útil,1
2016-07-08,,,5,Útil,1
2016-07-09,,,6,Fim de Semana,0


In [0]:
#Drop coluna "Dia da Semana" e "Feriado"
data_feriado = data_feriado.drop("Dia da Semana")
data_feriado = data_feriado.drop("Feriado")

display(data_feriado)

Data,Numero,Tipo,0-1
2016-06-30,4,Útil,1
2016-07-01,5,Útil,1
2016-07-02,6,Fim de Semana,0
2016-07-03,7,Fim de Semana,0
2016-07-04,1,Útil,1
2016-07-05,2,Útil,1
2016-07-06,3,Útil,1
2016-07-07,4,Útil,1
2016-07-08,5,Útil,1
2016-07-09,6,Fim de Semana,0


In [0]:
#tipagem de dados

data_feriado = data_feriado.withColumn("Numero", col("Numero").cast("int")).withColumn("0-1", col("0-1").cast("int"))

display(data_feriado)

Data,Numero,Tipo,0-1
2016-06-30,4,Útil,1
2016-07-01,5,Útil,1
2016-07-02,6,Fim de Semana,0
2016-07-03,7,Fim de Semana,0
2016-07-04,1,Útil,1
2016-07-05,2,Útil,1
2016-07-06,3,Útil,1
2016-07-07,4,Útil,1
2016-07-08,5,Útil,1
2016-07-09,6,Fim de Semana,0


#**Vendas**
Neste bloco, foram fornecidos 2 CSVs (um com os dados mensais e outro com os dados semanais) contendo as vendas para o consumidor final, tendo o vin como código do carro vendido
Tendo como objetivo descobrir quantas vendas foram realizadas desde o começo do ano até a data mais recente.
Estes dados são muito importantes pois com eles poderiam ser feitas muitas consultas, como por exemplo:
* Qual foi a marca que vendeu mais;
* Qual modelo vendeu mais;
* Qual o mês em que houveram mais vendas;
* Ou tambem, pelo contrário, qual modelo, marca ou mês em que se vendeu menos para que decisões possam ser tomadas a respeito.

In [0]:
#Leitura CSVs vendas
dados_mensais = spark.read.options(sep=";", header=True, encoding = "UTF-8")\
    .csv("/mnt/blobed/modulo_02/detran/mensal/2022_09_06_detranmensal.csv")
dados_semanais = spark.read.options(sep=";", header=True, encoding = "UTF-8")\
    .csv("/mnt/blobed/modulo_02/detran/semanal/2022_09_05_detransemanal.csv")

display(dados_semanais)
display(dados_mensais)

mes,marca,modelo,versao,dia,ano,vin
9,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8,1,2022,9BG148FK0PC408873
9,CHEVROLET,N400 MAX,N400 MAX 1.5,1,2022,LZWCDAGA5PC801017
9,VOLKSWAGEN,GOL,GOL HB 1.6,1,2022,9BWAB45U7NT120908
9,VOLKSWAGEN,GOL,GOL HB 1.6,1,2022,9BWAB45U5NT122446
9,CHEVROLET,GROOVE,GROOVE 1.5,1,2022,LZWADAGA5PG003665
9,VOLKSWAGEN,T-CROSS,T CROSS TSI 1.0 AUT,1,2022,9BWBH6BF7N4066511
9,CHEVROLET,N400 MAX,N400 MAX 1.5,1,2022,LZWCDAGA9PC803787
9,CHEVROLET,N400 MAX,N400 MAX 1.5,1,2022,LZWCDAGA1PC803802
9,CHEVROLET,N400 MAX,N400 MAX 1.5,1,2022,LZWCDAGA1PC802231
9,VOLKSWAGEN,SAVEIRO,SAVEIRO CS 1.6,1,2022,9BWKL45UXNP046264


mes,marca,modelo,versao,dia,ano,vin
1,PEUGEOT,2008,2008 BLUE HDI 130 EAT8 1.5 AUT,6,2022,VR3UDYHZSNJ526248
1,CHEVROLET,SAIL,SAIL 1.5,6,2022,LSGHD52H3ND024627
1,PEUGEOT,PARTNER,PARTNER 1.6,4,2022,VR3EF9HPANJ531887
1,CHEVROLET,CAPTIVA,CAPTIVA 1.5 AUT,24,2022,LZWADAGA7NB024303
1,CHEVROLET,N400 MAX,N400 MAX 1.5,3,2022,LZWCDAGA3NC807556
1,FORD,NEW RANGER,RANGER RAPTOR 2.0,6,2022,MPBUR2366NX359311
1,CHEVROLET,GROOVE,GROOVE LTZ 1.5,3,2022,LZWADAGA8NG006685
1,CHEVROLET,GROOVE,GROOVE LTZ 1.5,3,2022,LZWADAGA2NG005841
1,CHEVROLET,GROOVE,GROOVE LTZ 1.5,3,2022,LZWADAGA7NG006144
1,CHEVROLET,GROOVE,GROOVE PREMIER 1.5,3,2022,LZWADAGA1NG007063


In [0]:
#DADOS SEMANAIS
#Cria coluna data
#Edita o nome das outras colunas
dados_semanais_data = dados_semanais.select(\
    concat_ws('-',dados_semanais.ano, dados_semanais.mes, dados_semanais.dia)\
    .alias("Data"), "Marca", "Modelo", "Versao", "Vin", "Mes")

#Converte a nova coluna (Data) no tipo date
dados_semanais_data = dados_semanais_data.withColumn("Data", col("Data").cast("date"))

display(dados_semanais_data)


Data,Marca,Modelo,Versao,Vin,Mes
2022-09-01,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8,9BG148FK0PC408873,9
2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA5PC801017,9
2022-09-01,VOLKSWAGEN,GOL,GOL HB 1.6,9BWAB45U7NT120908,9
2022-09-01,VOLKSWAGEN,GOL,GOL HB 1.6,9BWAB45U5NT122446,9
2022-09-01,CHEVROLET,GROOVE,GROOVE 1.5,LZWADAGA5PG003665,9
2022-09-01,VOLKSWAGEN,T-CROSS,T CROSS TSI 1.0 AUT,9BWBH6BF7N4066511,9
2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA9PC803787,9
2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1PC803802,9
2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1PC802231,9
2022-09-01,VOLKSWAGEN,SAVEIRO,SAVEIRO CS 1.6,9BWKL45UXNP046264,9


In [0]:
#DADOS MENSAIS
#Cria coluna data
#Edita o nome das outras colunas
dados_mensais_data = dados_mensais.select(\
    concat_ws('-',dados_mensais.ano, dados_mensais.mes, dados_mensais.dia)\
    .alias("Data"), "Marca", "Modelo", "Versao", "Vin", "Mes")

#Converte a nova coluna (Data) no tipo date
dados_mensais_data = dados_mensais_data.withColumn("Data", col("Data").cast("date"))

display(dados_mensais_data)

Data,Marca,Modelo,Versao,Vin,Mes
2022-01-06,PEUGEOT,2008,2008 BLUE HDI 130 EAT8 1.5 AUT,VR3UDYHZSNJ526248,1
2022-01-06,CHEVROLET,SAIL,SAIL 1.5,LSGHD52H3ND024627,1
2022-01-04,PEUGEOT,PARTNER,PARTNER 1.6,VR3EF9HPANJ531887,1
2022-01-24,CHEVROLET,CAPTIVA,CAPTIVA 1.5 AUT,LZWADAGA7NB024303,1
2022-01-03,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA3NC807556,1
2022-01-06,FORD,NEW RANGER,RANGER RAPTOR 2.0,MPBUR2366NX359311,1
2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA8NG006685,1
2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA2NG005841,1
2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA7NG006144,1
2022-01-03,CHEVROLET,GROOVE,GROOVE PREMIER 1.5,LZWADAGA1NG007063,1


#**Atualização dos dados semanais**
Como o CSV das vendas semanais estava desatualizado, foi nos passado outro arquivo com as atualizações até o dia 10/09
 Novamente, foi criada a coluna Data e atualização dos nomes das Colunas
 ----------
 Dados atualizados são de extrema importancia para que as consultas e os dados finais sejam os mais fieis possíveis, facilitando assim o trabalho dos tomadores de decisão.

In [0]:
#atualização dados semanais
dados_semanais_att = spark.read.options(sep =";", header=True, encoding = "UTF-8").csv("/mnt/blobed/modulo_02/detran/semanal/2022_09_13_detransemanal.csv")

display(dados_semanais_att)

mes,marca,modelo,versao,dia,ano,vin
9,CHEVROLET,TRACKER,TRACKER 1.2T AUT,5,2022,9BGEP76C0PB135070
9,CHEVROLET,TRACKER,TRACKER 1.2T,5,2022,9BGEA76C0PB123327
9,CHEVROLET,TRACKER,TRACKER 1.2T,5,2022,9BGEA76C0PB134732
9,FORD,NEW RANGER,RANGER ICA DSL LIMITED 4X4 3.2L,5,2022,8AFAR23W9PJ298163
9,FORD,NEW RANGER,RANGER ICA DSL LIMITED 4X4 3.2L AT,5,2022,8AFAR23W1PJ288565
9,FORD,NEW RANGER,RANGER RAPTOR 2.0 DIESEL,5,2022,MPBUR2361NX380342
9,FORD,NEW RANGER,RANGER ICA DSL XLT 4X2 3.2L,5,2022,8AFAR22W8PJ296969
9,CHEVROLET,TRACKER,TRACKER 1.2T AUT,5,2022,9BGEP76C0PB137255
9,TOYOTA,RAIZE,RAIZE CVT 1.2 AUT,2,2022,MHKAB1BA4NJ017854
9,CHEVROLET,N400 MAX,N400 MAX 1.5,2,2022,LZWCDAGA6PC801995


In [0]:
#Atualização dos dados
#Cria coluna data
#Edita o nome das outras colunas
dados_semanais_att_data = dados_semanais_att.select(\
    concat_ws('-',dados_semanais_att.ano, dados_semanais_att.mes, dados_semanais_att.dia)\
    .alias("Data"), "Marca", "Modelo", "Versao", "Vin", "Mes")

#Converte a nova coluna (Data) no tipo date
dados_semanais_att_data = dados_semanais_att_data.withColumn("Data", col("Data").cast("date"))

display(dados_semanais_att_data)

Data,Marca,Modelo,Versao,Vin,Mes
2022-09-05,CHEVROLET,TRACKER,TRACKER 1.2T AUT,9BGEP76C0PB135070,9
2022-09-05,CHEVROLET,TRACKER,TRACKER 1.2T,9BGEA76C0PB123327,9
2022-09-05,CHEVROLET,TRACKER,TRACKER 1.2T,9BGEA76C0PB134732,9
2022-09-05,FORD,NEW RANGER,RANGER ICA DSL LIMITED 4X4 3.2L,8AFAR23W9PJ298163,9
2022-09-05,FORD,NEW RANGER,RANGER ICA DSL LIMITED 4X4 3.2L AT,8AFAR23W1PJ288565,9
2022-09-05,FORD,NEW RANGER,RANGER RAPTOR 2.0 DIESEL,MPBUR2361NX380342,9
2022-09-05,FORD,NEW RANGER,RANGER ICA DSL XLT 4X2 3.2L,8AFAR22W8PJ296969,9
2022-09-05,CHEVROLET,TRACKER,TRACKER 1.2T AUT,9BGEP76C0PB137255,9
2022-09-02,TOYOTA,RAIZE,RAIZE CVT 1.2 AUT,MHKAB1BA4NJ017854,9
2022-09-02,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA6PC801995,9


In [0]:
#Join dados semanais e dados semanais novos
dados_set_totais = dados_semanais_data.join(dados_semanais_att_data,['Mes','Data', 'Marca', 'Modelo', 'Versao', 'Vin'],'outer')

display(dados_set_totais)

Mes,Data,Marca,Modelo,Versao,Vin
9,2022-09-01,BMW,X6,X6 M50I 4X4 4.4 AUT,WBACY8103N9L11585
9,2022-09-01,CHEVROLET,CAPTIVA,CAPTIVA MT6 4X2 1.5,LZWADAGA3PB009929
9,2022-09-01,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8,9BG148FK0PC408873
9,2022-09-01,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8,9BG148FK0PC408966
9,2022-09-01,CHEVROLET,GROOVE,GROOVE 1.5,LZWADAGA5PG003665
9,2022-09-01,CHEVROLET,GROOVE,GROOVE PREMIER 1.5,LZWADAGA0NG021925
9,2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA0PC802415
9,2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1PC802231
9,2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1PC803802
9,2022-09-01,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA4PC803826


In [0]:
dados_totais = dados_set_totais.join(dados_mensais_data,['Mes','Data', 'Marca', 'Modelo', 'Versao', 'Vin'],'outer')
display(dados_totais)

Mes,Data,Marca,Modelo,Versao,Vin
1,2022-01-03,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8 AT,9BG148MK0NC431959
1,2022-01-03,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8 AT,9BG148PK0NC431083
1,2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA2NG005841
1,2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA7NG006144
1,2022-01-03,CHEVROLET,GROOVE,GROOVE PREMIER 1.5,LZWADAGA1NG007063
1,2022-01-03,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1NC808169
1,2022-01-03,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA3NC807556
1,2022-01-03,CHEVROLET,SAIL,SAIL 1.5,LSGHD52H1ND024884
1,2022-01-03,CHEVROLET,SAIL,SAIL 1.5,LSGHD52H1ND025050
1,2022-01-03,CHEVROLET,SILVERADO,SILVERADO DCAB 4X4 5.3 AT,3GCPY9ED6MG465102


#**Consultas**
Neste bloco, foram realizadas algumas consultas com os dados já tratados acima.
* Quantidade de vendas por mes;
* Marcas e Modelos mais vendidos;
* Quanto, especificamente, a marca Fiat vendeu no decorrer dos meses.
---------
Como já explicitado acima, a confiabilidade dos dados é muito importante pois através deles é que podemos entregar a necessidade do cliente.

In [0]:
# selecionando quantas vendas existem em cada mês:
vendas_por_mes = dados_totais.groupBy('Mes').count() \
    .withColumnRenamed('count','Qntde_vendida')

vendas_por_mes = vendas_por_mes.orderBy('Mes')

display(vendas_por_mes)

Mes,Qntde_vendida
1,5453
2,4604
3,5845
4,5740
5,5496
6,6272
7,5885
8,5358
9,1224


In [0]:
#ver quantas marcas diferentes existem no dataframe 
display(dados_totais.select('Marca').distinct())

#Agrupando a quantidade de carros vendidos em cada marca e modelo
vendas = dados_totais.groupBy('Marca', 'Modelo').count().withColumnRenamed('count', 'Qntde_vendidos')
display(vendas.head(1))

Marca
HYUNDAI
FIAT
TOYOTA
FORD
PEUGEOT
CHEVROLET
BMW
VOLKSWAGEN
RENAULT


Marca,Modelo,Qntde_vendidos
PEUGEOT,LANDTREK,509


In [0]:
#Qual a quantidade de vendas de Fiats ao longo do ano?
vendas_fiat = dados_totais.groupBy("Marca", 'Mes').count()
vendas_fiat = vendas_fiat.select('Mes', 'count') \
    .where(dados_totais.Marca == "FIAT") \
    .withColumnRenamed('count', 'Qntde_Vendida') \
    .orderBy('Mes')
display(vendas_fiat)

Mes,Qntde_Vendida
1,8
2,27
3,8
4,36
5,150
6,139
7,54
8,39
9,25


In [0]:
#Filtrar os dados para o primeiro semestre 
# Agrupar os dados por marca e modelo (a contagem de vin’s dará o número de veículos vendidos para o consumidor final)
dados_totais_prSemestre = dados_totais.where("Mes < '7'")
display(dados_totais_prSemestre)

Mes,Data,Marca,Modelo,Versao,Vin
1,2022-01-03,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8 AT,9BG148MK0NC431959
1,2022-01-03,CHEVROLET,COLORADO,COLORADO DCAB 4X4 2.8 AT,9BG148PK0NC431083
1,2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA2NG005841
1,2022-01-03,CHEVROLET,GROOVE,GROOVE LTZ 1.5,LZWADAGA7NG006144
1,2022-01-03,CHEVROLET,GROOVE,GROOVE PREMIER 1.5,LZWADAGA1NG007063
1,2022-01-03,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA1NC808169
1,2022-01-03,CHEVROLET,N400 MAX,N400 MAX 1.5,LZWCDAGA3NC807556
1,2022-01-03,CHEVROLET,SAIL,SAIL 1.5,LSGHD52H1ND024884
1,2022-01-03,CHEVROLET,SAIL,SAIL 1.5,LSGHD52H1ND025050
1,2022-01-03,CHEVROLET,SILVERADO,SILVERADO DCAB 4X4 5.3 AT,3GCPY9ED6MG465102


#**TARGET - Metas primeiro semestre 2022**
Neste bloco foi adicionado o CSV de metas de vendas para o 1º sem. de 2022. Foi feito tratamento dos dados e junção da tabela de vendas com a de target. O objetivo principal desta etapa foi consultar quais marcas atingiram a meta estipulada para o período.

In [0]:
#Leitura csv Target
target = spark.read.options(sep=";", header=True, encoding = "UTF-8").csv("/mnt/blobed/modulo_02/target/target.csv")

#Cast Target Semestre 1 para inteiro 
target = target.withColumn("Target Semestre 1", col("Target Semestre 1").cast("int"))
#Muda o nome da coluna Target Semestre 1 para Target_Semestre_1
target = target.withColumnRenamed('Target Semestre 1', 'Target_Semestre_1')
display(target)

Marca,Modelo,Target_Semestre_1
BMW,118,2
BMW,218I,4
BMW,220,1
BMW,235,1
BMW,320,2
BMW,330,14
BMW,420,2
BMW,430I,1
BMW,520,3
BMW,530,1


In [0]:
#vendas -> quantidade de carros vendidos de cada marca e modelo
#Fazer um join entre a tabela de target com a tabela de vendas
target_vendas = vendas.join(target, on = ['Marca', 'Modelo'], how='outer')
target_vendas = target_vendas.withColumnRenamed('count', 'Qntde_vendida')
display(target_vendas)

Marca,Modelo,Qntde_vendidos,Target_Semestre_1
BMW,118,2,2.0
BMW,218I,4,4.0
BMW,220,1,1.0
BMW,235,1,1.0
BMW,320,4,2.0
BMW,330,15,14.0
BMW,420,2,2.0
BMW,430I,1,1.0
BMW,520,3,3.0
BMW,530,1,1.0


In [0]:
#Com a tabela construída, responder: Quais as marcas que atingiraram a meta de vendas para o semestre de 2022?
meta_atingida = target_vendas.where("Qntde_vendidos >= Target_Semestre_1").orderBy('Marca', 'Modelo')
display(meta_atingida)

Marca,Modelo,Qntde_vendidos,Target_Semestre_1
BMW,118,2,2
BMW,218I,4,4
BMW,220,1,1
BMW,235,1,1
BMW,320,4,2
BMW,330,15,14
BMW,420,2,2
BMW,430I,1,1
BMW,520,3,3
BMW,530,1,1


#**Metas para primeira semana de Setembro (pulso)**
 Neste bloco foi feita a leitura e harmonização da tabela de metas para a primeira semana de setembro, diferente da seção acima em que foi trabalhada target, que eram os dados para todo o semestre.
 A principal diferença da pulso para a target são os Dealers, que seriam filiais/lojas da concessionária. Então, sabendo os Dealers e suas quantidades vendidas de cada um podereiam ser feitas diversas consultas, como por exemplo:
 * Qual dealer vendeu mais e/ou qual vendeu menos;
 * Qual atingiu a meta e/ou qual não conseguiu alcançá-la;
 
 Além disso ainda podemos comparar os modelos, quais venderam mais, quais atingiram a meta estipulada para setembro, dentre outras.

In [0]:
#Leitura do caminho do arquivo
caminho = 'https://uniedsa.blob.core.windows.net/hudsonmesquita/1.METAS_2022_SET.xlsx'
#Leitura do Excel
metas_leitura = pd.read_excel(caminho, sheet_name='Por Dealer Real')

#Drop das linhas de espaçamento
metas_pulso = metas_leitura.dropna(how = "all")

#Obter apenas o nome do arquivo
arquivo = caminho.split('/')
nome_arquivo = arquivo[len(arquivo) - 1]

In [0]:
#Obter Data da Planilha
data = pd.to_datetime(metas_leitura.columns[2]).strftime('%Y-%m-%d')

#Retirando o nome das colunas
nome_colunas = list(metas_leitura.iloc[3].dropna())
i = nome_colunas.index('TOTAL')
del nome_colunas[i : len(nome_colunas)]


In [0]:
#Inserindo Nome das Colunas CodSAP e Modelo
nome_colunas.insert(0,"CodSAP")
nome_colunas.insert(1,"Modelo")

#Dropando colunas
metas_pulso = metas_pulso.drop([0]).drop("Unnamed: 0",axis = 1)

#Dropando as linhas de total (Retirando por Código)
metas_pulso = metas_pulso.dropna(subset = ["CONSC"])

#Renomeando colunas
metas_pulso = metas_pulso.drop([2]).rename(columns= {"CONSC":"CodSAP",data: "Modelo" })

#Tipificando corretamente a tabela CodSAP para String
metas_pulso= metas_pulso.astype({'CodSAP' : 'str'})

#Dropando as colunas de total por carro
metas_pulso = metas_pulso.dropna(axis = 1)

#Renomeação das colunas
metas_pulso.columns = nome_colunas


In [0]:
#Melt das colunas
metas_pulso = pd.melt(metas_pulso, id_vars = ["CodSAP","Modelo"])

#Renomeação da coluna de Dealers e Quantidade
metas_pulso = metas_pulso.rename(columns = {"value":"Quant","variable":"Dealer"})

#Ordenação por Modelo para reorganização
metas_pulso = metas_pulso.sort_values(["CodSAP","Dealer"])

#Reseta e organiza índice
metas_pulso = metas_pulso.reset_index()
metas_pulso = metas_pulso.drop("index", axis = 1)
metas_pulso.index += 1

#Inserindo Data na coluna
metas_pulso.insert(0,"Data", data)

#Inserindo filename na coluna
metas_pulso.insert(5,"Filename", nome_arquivo)

#Inserindo timestamp na coluna para temporização de tratamento
metas_pulso.insert(6,"Timestamp", pd.Timestamp.now())

display(metas_pulso)

Data,CodSAP,Modelo,Dealer,Quant,Filename,Timestamp
2022-09-11,2065,PARTNER 3.1,DL-A,19,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-B,16,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-C,17,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-D,4,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-E,3,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-F,9,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-G,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-H,10,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-I,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2022-09-11,2065,PARTNER 3.1,DL-J,1,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000


#**Padronização dos dados DETRAN com Pulso**

Neste bloco foi criada um **de-para** para os nomes de modelos dos dados do detran (mensais e semanais já limpos e unidos acima) e os do pulso. 

O processo **de-para** é utilizado para a obtenção de uma normalização de dados de diferentes bases a fim de ampliar as consultas e resultados que podem ser encontrados, bem como possíveis relações antes ignoradas.

In [0]:
#Leitura da tabela De-Para 
de_para = pd.read_excel('https://uniedsa.blob.core.windows.net/danielmattos/Modelo_De_Para.xlsx', sheet_name = 'Sheet1' \
                        , dtype = {'Modelo Detran' : str, 'Modelo Metas' : str }, usecols = ["Modelo Detran","Modelo Metas"])

de_para

Unnamed: 0,Modelo Detran,Modelo Metas
0,235,235 1L COMFORT
1,301,301 TM
2,420,420 1.8L COMFORT
3,500 1.5 COMFORT,500 1.5 COMFORT
4,500 1.5 LUXURY,500 1.5 LUXURY
...,...,...
146,X4,
147,X5,
148,X6,
149,X7,


In [0]:
#Criação do modelo De-Para
#collect_set retorna um conjunto de objetos com elementos duplicados eliminados
modelos_detran =  sorted(dados_totais.select(f.collect_set('modelo').alias('Modelo Detran')).first()['Modelo Detran'])
modelos_pulso = sorted(metas_pulso.Modelo.unique())

#Criação e demonstração dos nomes iguais
nomes_iguais = set(modelos_detran).intersection(modelos_pulso)
print (nomes_iguais)

#Demonstração dos nomes dos modelos
print('\nModelos Detran')
print(modelos_detran)
print('\nModelos Pulso')
print(modelos_pulso)

In [0]:
#Renomeando coluna para o join
de_para = de_para.rename(columns = {'Modelo Metas' : 'Modelo'})

#Retirando o espaço dado nos valores da tabela
de_para['Modelo'] = de_para['Modelo'].str.lstrip()
de_para['Modelo Detran'] = de_para['Modelo Detran'].str.lstrip()

#Realizando o join
metas_para = metas_pulso.merge(de_para, how = 'inner')

display(metas_para)
#Drop da tabela de modelo antiga e renome para a união
metas_para = metas_para.drop(['Modelo'], axis = 1).rename(columns = {'Modelo Detran' : 'modelo'})
metas_para = metas_para[["CodSAP", "modelo", "Dealer", "Quant", "Filename", "Timestamp"]] #reordenando as colunas

#Tipificação correta da coluna modelo para String
metas_para = metas_para.astype({'modelo' : 'str'})

#Conversão da tabela metas_para de Pandas para Pyspark
metas_para = spark.createDataFrame(metas_para)
metas_para = metas_para.withColumnRenamed('modelo','Modelo')

display(metas_para)

Data,CodSAP,Modelo,Dealer,Quant,Filename,Timestamp,Modelo Detran
2022-09-11,2065,PARTNER 3.1,DL-A,19,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-B,16,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-C,17,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-D,4,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-E,3,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-F,9,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-G,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-H,10,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-I,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER
2022-09-11,2065,PARTNER 3.1,DL-J,1,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000,PARTNER


CodSAP,Modelo,Dealer,Quant,Filename,Timestamp
2065,PARTNER,DL-A,19,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-B,16,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-C,17,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-D,4,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-E,3,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-F,9,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-G,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-H,10,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-I,5,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000
2065,PARTNER,DL-J,1,1.METAS_2022_SET.xlsx,2022-09-21T22:17:14.884+0000


In [0]:
#Agrupamento da tabela metas_para por modelos
metas_agg = metas_para.groupBy(['modelo']).sum().withColumnRenamed('sum(Quant)','Meta')

display(metas_agg)
#Agrupamento da tabela dados_set_totais agrupados por modelos
setembro_agg = dados_set_totais.groupBy(['modelo']).count().withColumnRenamed('count','Vendas')

display(setembro_agg)

#Junção do banco metas e dados de Setembro para verificação do atingimento da meta
metas_setembro = setembro_agg.join(metas_agg,'modelo' ,'inner')
display(metas_setembro)

#Verificação de atingimento das metas de Setembro
entrega_metas = metas_setembro.filter(col('Vendas') >= col('Meta'))
display(entrega_metas)

modelo,Meta
STARIA FG,128
500 1.5 COMFORT,164
520,98
DUCATO,133
ELANTRA CN7,146
235,148
PARTNER,155
PULSE,119
5008,118
TRAILBLAZER,142


modelo,Vendas
CAMARO,1
T-CROSS,2
SILVERADO,1
GRAND I-10 AI3 HB 1.2,24
SAVEIRO,8
STARIA FG,2
308,20
COROLLA,6
STARIA MB,6
GRAND I-10 SEDAN,4


modelo,Vendas,Meta
SILVERADO,1,152
STARIA FG,2,128
PULSE,21,119
SANTA FE TM,3,125
5008,3,118
NEW ESCAPE,5,128
C-HR,1,104
SANTA FE TM FL,1,156
N400 MAX,32,148
TRAILBLAZER,1,142


modelo,Vendas,Meta


In [0]:
#Criação do modelo De-Para (Vendas Totais para Target)
modelos_detran =  sorted(dados_totais.select(f.collect_set('modelo').alias('Modelo Detran')).first()['Modelo Detran'])
modelos_target =  sorted(target.select(f.collect_set('Modelo').alias('Modelo Target')).first()['Modelo Target'])

#Verificação de igualdade de nomes
nomes_iguais = set(modelos_detran).intersection(modelos_target)
print ('Modelos Detran \n', modelos_detran)
print('\nModelos Target \n', modelos_target)

print(len(modelos_target))
print(len(nomes_iguais))

#**Base de integração**

Neste bloco foi adicionado ao projeto um CSV chamado *integração* que contém os vins (indicador de venda de cada carro) e os dealers. 
Com estas informações pode-se realizar, dentre outras consultas:
* Quantidades vendidas por dealer;
* Quantidades vendidas por dealer em um intervalo de tempo, mês, por exemplo;
* Quais dealers atingiram a meta de venda mensal, semestral, anual, etc.;
* Quais dealers não atingiram as metas e em qual período.

Estas informações são essenciais para que os tomadores de decisão da empresa possam esboçar novos métodos para sanar as baixas vendas, por exemplo, e manter (ou descobrir, se ainda não tiverem tomado ciência) as estratégias que já funcionam.

In [0]:
#leitura da base de integração
integracao = spark.read.options(sep=";", header=True, encoding = "UTF-8").csv("/mnt/blobed/modulo_02/integracao/integracao.csv")

In [0]:
dados_totais_integr = integracao.join(dados_totais,['Vin'],'outer').orderBy('Data')

display(dados_totais_integr)

vin,Dealer,Mes,Data,Marca,Modelo,Versao
MR2B29F34N1232765,DL-E,1,2022-01-03,TOYOTA,YARIS,YARIS SEDAN OTTO 1.5
MALBG513ANM098905,DL-I,1,2022-01-03,HYUNDAI,I20 BI3,I20 BI3 1.4
8AJDB3CD5N1317042,DL-G,1,2022-01-03,TOYOTA,HILUX,HILUX PICKUP 4P 4X4 2.4
JTMZ43FV0ND104133,DL-A,1,2022-01-03,TOYOTA,RAV4,RAV4 OTTO 2.0
8AJDB3CD3N1317623,DL-A,1,2022-01-03,TOYOTA,HILUX,HILUX PICKUP 4P 4X4 2.4
MALC741BAMM295803,DL-K,1,2022-01-03,HYUNDAI,ACCENT HCI,ACCENT HCI 1.4
8AJDB3CD2N1317550,DL-I,1,2022-01-03,TOYOTA,HILUX,HILUX PICKUP 4P 4X4 2.4
8AJDB3CD8N1317083,DL-H,1,2022-01-03,TOYOTA,HILUX,NEW HILUX 4X4 2.4
MALC741BAMM295811,DL-K,1,2022-01-03,HYUNDAI,ACCENT HCI,ACCENT HCI 1.4
MR2B29F32N1235728,DL-A,1,2022-01-03,TOYOTA,YARIS,YARIS SEDAN GLI 1.5


In [0]:
#Agrupamento dos modelos vendidos por dealer
totais_entrega = dados_totais_integr.groupBy(['Modelo','Dealer', 'Mes']).count() \
    .withColumnRenamed('count','Qntde_vendidas')

#Junção para averiguar atingimento da meta semestral
juncao_semestral = target.join(totais_entrega,'Modelo','inner')

#Verificação de atingimento da meta semestral
analise_semestral = juncao_semestral.filter(col('Target_Semestre_1') <= col('Qntde_vendidas')).orderBy('Dealer')

#Reorganização das colunas
analise_semestral = analise_semestral.select('Marca','Modelo','Dealer','Qntde_vendidas', 'Target_Semestre_1')

#Demonstração do resultado
display(analise_semestral)

Marca,Modelo,Dealer,Qntde_vendidas,Target_Semestre_1
BMW,X1,DL-A,1,1
VOLKSWAGEN,NUEVO VIRTUS,DL-A,1,1
FIAT,FIORINO,DL-A,1,1
VOLKSWAGEN,NUEVO VIRTUS,DL-A,1,1
HYUNDAI,TUCSON NX4,DL-A,6,5
HYUNDAI,TUCSON NX4,DL-A,7,5
HYUNDAI,TUCSON NX4,DL-A,7,5
HYUNDAI,TUCSON NX4,DL-A,5,5
VOLKSWAGEN,NUEVO VIRTUS,DL-A,1,1
FORD,F 450,DL-A,1,1


In [0]:
#Análise mensal
juncao_mensal = target.join(totais_entrega,'Modelo','inner')

analise_mensal = juncao_mensal.filter(col('Target_Semestre_1') <= col('Qntde_vendidas')).where(col('Mes') == '9').orderBy('Dealer')

analise_mensal = analise_mensal.select('Marca','Modelo','Dealer','Qntde_vendidas', 'Target_Semestre_1')

display(analise_mensal)

Marca,Modelo,Dealer,Qntde_vendidas,Target_Semestre_1
VOLKSWAGEN,NUEVO VIRTUS,DL-A,1,1
CHEVROLET,CAMARO,DL-H,1,1
