In [None]:
# Importando as bibliotecas
import re
import mysql.connector
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, lower, to_timestamp, month, hour, datediff, dayofweek
from pyspark.sql.types import StringType
from pyspark.ml.feature import Tokenizer

## Carregando os dados
Nesta etapa, irei carregar os dados.

In [None]:
# Iniciando sessão no Spark
spark = SparkSession.builder.appName('Cluster').getOrCreate()


In [None]:
# Lendos os dados csv
customers = spark.read.csv("../data/raw/olist_customers_dataset.csv", header=True)
geolocalization = spark.read.csv("../data/raw/olist_geolocation_dataset.csv", header=True)
order_items = spark.read.csv("../data/raw/olist_order_items_dataset.csv", header=True)
order_payments = spark.read.csv("../data/raw/olist_order_payments_dataset.csv", header=True)
order_reviews = spark.read.csv("../data/raw/olist_order_reviews_dataset.csv", header=True)
orders = spark.read.csv("../data/raw/olist_orders_dataset.csv", header=True)
products = spark.read.csv("../data/raw/olist_products_dataset.csv", header=True)
sellers = spark.read.csv("../data/raw/olist_sellers_dataset.csv", header=True)
product_category = spark.read.csv("../data/raw/product_category_name_translation.csv", header=True)

## Transformando os dados
Nesta etapa, irei realizar uma série de transformações nos dados. Antes disso, irei unir as tabelas conforme o indicado no diagrama de relacionamento, e só após isso, realizar  as transformações.

### Juntando os dados

In [None]:
# Criando tabelas temporárias
customers.createOrReplaceTempView("customers")
geolocalization.createOrReplaceTempView('geolocalization')
order_items.createOrReplaceTempView('order_items')
order_payments.createOrReplaceTempView('order_payments')
order_reviews.createOrReplaceTempView('order_reviews')
orders.createOrReplaceTempView('orders')
products.createOrReplaceTempView('products')
sellers.createOrReplaceTempView('sellers')
product_category.createOrReplaceTempView('product_category')

In [38]:
orders_full = spark.sql("WITH geo_sellers AS  \
                            ( \
                            SELECT s.seller_zip_code_prefix, \
                            s.seller_city, \
                            s.seller_id,\
                            s.seller_state, \
                            g.geolocation_lat, \
                            g.geolocation_lng \
                            FROM sellers s  \
                            FULL OUTER JOIN geolocalization g  \
                            ON s.seller_zip_code_prefix = g.geolocation_zip_code_prefix \
                            ),  \
                            item_info AS \
                            ( \
                            SELECT oi.order_id, \
                            oi.order_item_id, \
                            oi.product_id, \
                            oi.seller_id, \
                            oi.shipping_limit_date, \
                            oi.price, \
                            oi.freight_value, \
                            p.product_category_name, \
                            p.product_name_lenght, \
                            p.product_description_lenght,  \
                            p.product_photos_qty, \
                            p.product_weight_g,  \
                            p.product_length_cm, \
                            p.product_height_cm, \
                            p.product_width_cm  \
                            FROM order_items oi  \
                            LEFT JOIN products p  \
                            ON oi.product_id = p.product_id \
                            )  \
                            SELECT o.order_id, \
                            o.customer_id, \
                            ii.product_id,  \
                            o.order_status, \
                            CAST(o.order_estimated_delivery_date AS date), \
                            CAST(o.order_purchase_timestamp AS timestamp), \
                            CAST(o.order_approved_at AS timestamp),  \
                            CAST(o.order_delivered_carrier_date AS timestamp), \
                            CAST(o.order_delivered_customer_date AS timestamp),  \
                            CAST(or.review_score AS int), \
                            LOWER(or.review_comment_title) AS review_comment_title, \
                            LOWER(or.review_comment_message) AS review_comment_message, \
                            CAST(or.review_creation_date AS date), \
                            CAST(or.review_answer_timestamp AS timestamp),  \
                            CAST(op.payment_sequential AS int), \
                            op.payment_type, \
                            CAST(op.payment_installments AS int),  \
                            CAST(op.payment_value AS float), \
                            c.customer_city, \
                            LOWER(c.customer_state) AS customer_state,  \
                            gs.seller_city, \
                            LOWER(gs.seller_state) AS seller_state, \
                            CAST(ii.shipping_limit_date AS timestamp), \
                            CAST(ii.price AS float), \
                            CAST(ii.freight_value AS float), \
                            ii.product_category_name, \
                            CAST(ii.product_name_lenght AS int), \
                            CAST(ii.product_description_lenght AS int),  \
                            CAST(ii.product_photos_qty AS int), \
                            CAST(ii.product_weight_g AS int),  \
                            CAST(ii.product_length_cm AS int), \
                            CAST(ii.product_height_cm AS int), \
                            CAST(ii.product_width_cm AS int),  \
                            CASE  \
                                WHEN c.customer_state IN ('ac', 'am', 'ro', 'rr', 'pa', 'ap', 'to') THEN 'norte'  \
                                WHEN c.customer_state IN ('ma', 'pi', 'ce', 'rn', 'pb', 'pe', 'se', 'al', 'ba') THEN 'nordeste'  \
                                WHEN c.customer_state IN ('mt', 'ms', 'go', 'df') THEN 'centro-oeste'  \
                                WHEN c.customer_state IN ('sp', 'rj', 'es', 'mg') THEN 'sudeste'  \
                                ELSE 'sul'  \
                            END AS customer_region, \
                            CASE  \
                                WHEN gs.seller_state IN ('ac', 'am', 'ro', 'rr', 'pa', 'ap', 'to') THEN 'norte'  \
                                WHEN gs.seller_state IN ('ma', 'pi', 'ce', 'rn', 'pb', 'pe', 'se', 'al', 'ba') THEN 'nordeste'  \
                                WHEN gs.seller_state IN ('mt', 'ms', 'go', 'df') THEN 'centro-oeste'  \
                                WHEN gs.seller_state IN ('sp', 'rj', 'es', 'mg') THEN 'sudeste'  \
                                ELSE 'sul'  \
                            END AS seller_region, \
                            CASE  \
                                WHEN ii.product_category_name IN ('fashion_roupa_masculina', 'fashion_roupa_feminina', 'fashion_roupa_infanto_juvenil', 'fashion_underwear_e_moda_praia', 'fashion_bolsas_e_acessorios', 'fashion_calcados', 'fashion_esporte') THEN 'moda e acessorios'  \
                                WHEN ii.product_category_name IN ('moveis_decoracao', 'moveis_colchao_e_estofado', 'moveis_cozinha_area_de_servico_jantar_e_jardim', 'moveis_quarto', 'moveis_sala', 'utilidades_domesticas', 'cama_mesa_banho', 'casa_construcao', 'casa_conforto', 'casa_conforto_2') THEN 'casa e decoracao'  \
                                WHEN ii.product_category_name IN ('livros_tecnicos', 'livros_importados','livros_interesse_geral') THEN 'livros e educacao'  \
                                WHEN ii.product_category_name IN ('beleza_saude', 'fraldas_higiene', 'perfumaria') THEN 'beleza e saude'  \
                                WHEN ii.product_category_name IN ('brinquedos', 'jogos', 'instrumentos_musicais') THEN 'brinquedos e jogos'  \
                                WHEN ii.product_category_name IN ('alimentos_bebidas', 'bebidas', 'alimentos') THEN 'alimentos e bebidas'  \
                                WHEN ii.product_category_name IN ('artigos_de_festas', 'artigos_de_natal') THEN 'artigos para festas'  \
                                WHEN ii.product_category_name IN ('artes', 'cine_foto', 'artes_e_artesanato') THEN 'artes e artesanato'  \
                                WHEN ii.product_category_name IN ('construcao_ferramentas_construcao', 'construcao_ferramentas_seguranca', 'construcao_ferramentas_jardim', 'construcao_ferramentas_iluminacao', 'construcao_ferramentas_ferramentas') THEN 'construcao e ferramentas'  \
                                WHEN ii.product_category_name IN ('esporte_lazer') THEN 'esporte e lazer'  \
                                ELSE 'outros'  \
                            END AS product_sub_category, \
                            ii.product_weight_g / 1000 AS product_weight_kg, \
                            ii.product_length_cm / 100 AS product_length_m, \
                            ii.product_height_cm / 100 AS product_height_m, \
                            ii.product_width_cm / 100 AS product_width_m, \
                            DAYOFWEEK(o.order_purchase_timestamp) AS order_weekday, \
                            MONTH(o.order_purchase_timestamp) AS order_month, \
                            HOUR(o.order_purchase_timestamp) AS order_hour, \
                            DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) AS order_delivery_time, \
                            DATEDIFF(o.order_approved_at, o.order_purchase_timestamp) AS order_approval_time, \
                            CASE \
                                WHEN order_weekday = 1 THEN 'sunday'  \
                                WHEN order_weekday = 2 THEN 'monday'  \
                                WHEN order_weekday = 3 THEN 'tuesday'  \
                                WHEN order_weekday = 4 THEN 'wednesday'  \
                                WHEN order_weekday = 5 THEN 'thursday'  \
                                WHEN order_weekday = 6 THEN 'friday'  \
                                ELSE 'saturday'  \
                            END AS order_weekday_name, \
                            CASE \
                                WHEN order_month = 1 THEN 'january'  \
                                WHEN order_month = 2 THEN 'february'  \
                                WHEN order_month = 3 THEN 'march'  \
                                WHEN order_month = 4 THEN 'april'  \
                                WHEN order_month = 5 THEN 'may'  \
                                WHEN order_month = 6 THEN 'june'  \
                                WHEN order_month = 7 THEN 'july'  \
                                WHEN order_month = 8 THEN 'august'  \
                                WHEN order_month = 9 THEN 'september'  \
                                WHEN order_month = 10 THEN 'october'  \
                                WHEN order_month = 11 THEN 'november'  \
                                ELSE 'december'  \
                            END AS order_month_name, \
                            CASE  \
                                WHEN or.review_score <= 3 THEN 'bad'  \
                                ELSE 'good'  \
                            END AS review_score_class \
                            FROM orders o \
                            LEFT JOIN order_reviews or  \
                            ON o.order_id = or.order_id  \
                            LEFT JOIN order_payments op  \
                            ON o.order_id = op.order_id  \
                            LEFT JOIN customers c  \
                            ON o.customer_id = c.customer_id  \
                            LEFT JOIN item_info ii   \
                            ON o.order_id = ii.order_id  \
                            LEFT JOIN geo_sellers gs  \
                            ON ii.seller_id = gs.seller_id")

In [None]:
# Checando o número de linhas
orders_full.count()

In [None]:
# Checando a quantidade de colunas
len(orders_full.columns)

In [None]:
# Buscando e dropando duplicatas
orders_full = orders_full.drop_duplicates()

In [None]:
# Checando a quantidade de linhas novamente
orders_full.count()

Agora com a junção já feita, vamos passar para a fase de tratamento dos dados.
Como a junção foi feita selecionando as colunas, não há colunas duplicadas no dataset.

### Tratando os dados
Nesta etapa, passarei de coluna a coluna tratando o dado conforme necessário.

In [None]:
# Checando as colunas
orders_full.columns

#### order_Status


In [None]:
# Checando os valores
orders_full.select('order_status').distinct().collect()

A coluna em questão não demonstra ter erros, onde os valores estão na mesma case
 e sem inconsistências. Além disso, o tipo do dado é **string**, o que 
 corresponde com os valores da coluna.

### order_estimated_delivery_date

In [None]:
orders_full.select('order_estimated_delivery_date').show()

Como podemos ver, os valores dessa coluna se referem a data estimada da entrega, sem hora e nem minutos. Por isso, será transformada em apenas **data** e não **timestamp**.

In [None]:
# Alterando o tipo para data
orders_full = orders_full.withColumn("order_estimated_delivery_date", col("order_estimated_delivery_date").cast('date'))


### order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date
Aqui 4 colunas serão tratadas juntas, pois demandam o mesmo tratamento, **string** para **timestamp**.

In [None]:
# Criando uma lista com as colunas
colunas = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date']

In [None]:
# Realizando a transformação em cada coluna
for coluna in colunas:
    orders_full = orders_full.withColumn(coluna, to_timestamp(coluna))

### review_score
A princípio essa coluna parece estar com o tipo errado, vamos verificar os valores:

In [None]:
# Checando os valores distintos
orders_full.select('review_score').distinct().show()

In [None]:
# Alterando o tipo para data
orders_full = orders_full.withColumn("review_score", col("review_score").cast('int'))


### review_comment_title

In [None]:
# Checando os valores 
orders_full.select('review_comment_title').show()

Aqui o formato parece estar correto, mas irei limpar o texto, retirando pontuações e normalizando o texto (mesma case).

In [None]:
# regex para remover pontuações
re_special = "[^\w\s]"

In [None]:
# Criando funções para remover caracteres especiais
func = lambda titulo: re.sub(re_special, ' ', str(titulo).strip())
func_udf = udf(func, StringType())

In [None]:
# Aplicando a função
orders_full = orders_full.withColumn('review_comment_title', func_udf(lower('review_comment_title')))

Agora irei criar tokens a partir do texto.

In [None]:
# Criando um tokenizador
tokenizer = Tokenizer(inputCol="review_comment_title", outputCol="review_comment_title_tokens")

# Criando nova coluna com os tokens
orders_full = tokenizer.transform(orders_full)

In [None]:
# Checando os valores 
orders_full.select('review_comment_title').show()

In [None]:
# Checando os valores 
orders_full.select('review_comment_title_tokens').show()

### review_comment_message

In [None]:
# Checando os valores
orders_full.select('review_comment_message').show()

Aqui eu usarei o mesmo tratamento da coluna passada, removendo pontuações e 
deixando o texto na mesma case.

In [None]:
# Aplicando a função
orders_full = orders_full.withColumn('review_comment_message', func_udf(lower('review_comment_message')))

Por fim, irei criar os tokens.

In [None]:
# Criando o tokenizer
tokenizer = Tokenizer(inputCol="review_comment_message", outputCol="review_comment_message_tokens")

# Criando nova coluna com os tokens
orders_full = tokenizer.transform(orders_full)

In [None]:
# Checando os valores 
orders_full.select('review_comment_message').show()

In [None]:
# Checando os valores 
orders_full.select('review_comment_message_tokens').show()

### review_creation_date

In [None]:
# Checando os valores 
orders_full.select('review_creation_date').show()

Como podemos ver, os valores dessa coluna se referem a data de criação da review, sem hora e nem minutos. Por isso, será transformada em apenas **data** e não **timestamp**.

In [None]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('review_creation_date', col('review_creation_date').cast('date'))

### review_answer_timestamp

In [None]:
# Checando os valores
orders_full.select('review_answer_timestamp').show()

Desta vez os dados possuem data e hora, fazendo com que seja necessário transforma-los para o formato **timestamp**.

In [None]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('review_answer_timestamp', to_timestamp('review_answer_timestamp'))

### payment_sequential

In [None]:
# Verificando os valores únicos
orders_full.select('payment_sequential').distinct().show()

O dado aparenta ser numerico, representando o número de pagamentos.

In [None]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('payment_sequential', col('payment_sequential').cast('int'))

### payment_type

In [None]:
# Checando os valores
orders_full.select('payment_type').distinct().show()

Não aparenta haver inconsistências nos valores e nem no tipo do dado. Por isso, não irei aplicar tatamento nesta coluna.

### payment_installments

In [None]:
# Checando os valores distintos
orders_full.select('payment_installments').distinct().show()

A coluna aparenta representar o número de parcelas. Embora não apresente 
inconsistências nos valores, ainda é necessário aplicar uma alteração de tipo
de dado.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('payment_installments', col('payment_installments').cast('int'))

### payment_value

In [None]:
# Checando os valores distintos
orders_full.select('payment_value').distinct().show()

A coluna represaenta o valor de pagamento. O tipo de dado deve ser alterado para float.

In [None]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('payment_value', col('payment_value').cast('float'))

### customer_city

In [None]:
# Checando os valores distintos
orders_full.select('customer_city').distinct().show(20)

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### customer_state

In [None]:
# Checando os valores distintos
orders_full.select('customer_state').distinct().collect()

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### seller_city

In [None]:
# Checando os valores distintos
orders_full.select('seller_city').distinct().show()

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### seller_state

In [None]:
# Checando os valores distintos
orders_full.select('seller_state').distinct().collect()

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### shipping_limit_date

In [None]:
# Checando os valores 
orders_full.select('shipping_limit_date').show()

Como mostrado no schema, os dados estão no formato de **string**. Aqui, irei
alterar o tipo para timestamp, pois possui data e hora.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('shipping_limit_date', to_timestamp('shipping_limit_date'))

### price

In [None]:
# Checando a coluna
orders_full.select('price').show()

Aqui tenho números com centavos, por isso, será alterado para **float**.

In [None]:
orders_full = orders_full.withColumn('price', col('price').cast('float'))

### freight_value

In [None]:
# Checando a coluna
orders_full.select('freight_value').show()

Aqui tenho números com centavos, por isso, será alterado para **float**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('freight_value', col('freight_value').cast('float'))

### product_category_name

In [None]:
# Checando a coluna
orders_full.select('product_category_name').distinct().show()

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### product_name_lenght

In [None]:
# Checando a coluna 
orders_full.select('product_name_lenght').show()

A coluna contém um dado com o tamanho do nome do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_name_lenght', col('product_name_lenght').cast('int'))

### product_description_lenght

In [None]:
# Checando a coluna
orders_full.select('product_description_lenght').show()

A coluna contém um dado com o tamanho da descrição do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_description_lenght', col('product_description_lenght').cast('int'))

### product_photos_qty

In [None]:
# Checando a coluna
orders_full.select('product_photos_qty').show()

A coluna contém um dado com a quantidade de fotos do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_photos_qty', col('product_photos_qty').cast('int'))

### product_weight_g

In [None]:
# Checando a coluna
orders_full.select('product_weight_g').show()

A coluna contém um dado com o peso do produto em gramas. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_weight_g', col('product_weight_g').cast('int'))

### product_length_cm

In [None]:
# Checando a coluna
orders_full.select('product_length_cm').show()

A coluna contém um dado com o comprimento do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_length_cm', col('product_length_cm').cast('int'))

### product_height_cm

In [None]:
# Checando a coluna
orders_full.select('product_height_cm').show()

A coluna contém um dado com a altura do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_height_cm', col('product_height_cm').cast('int'))

### product_width_cm

In [None]:
# Checando a coluna
orders_full.select('product_width_cm').show()

A coluna contém um dado com a largura do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [None]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_width_cm', col('product_width_cm').cast('int'))

#### Criando novas features

Agora que a tabela já parece estar boa, irei criar uma novas features. A primeira 
será criada a partir das colunas ``customer_state`` e ``seller_state``, criando categorias para os 
estados, onde cada estado vai receber a região em que se localiza no Brasil.

In [None]:
# Criando lista de regiões  
estados_norte = ['AC', 'AM', 'RO', 'RR', 'AP', 'TO', 'PA']
estados_nordeste = ['MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'BA', 'SE']
estados_centro = ['MT', 'MS', 'DF', 'GO']
estados_sudeste = ['MG', 'SP', 'ES', 'RJ']
estados_sul = ['PR', 'SC', 'RS']

# Criando função 
func = lambda estado: 'NORTE' if estado in estados_norte else \
        ('NORDESTE' if estado in estados_nordeste else \
        ('CENTRO-OESTE' if estado in estados_centro else \
        ('SUDESTE' if estado in estados_sudeste else 'SUL')))

func_udf = udf(func, StringType())

In [None]:
# Aplicando a função
orders_full = orders_full.withColumn("customer_region", func_udf("customer_state"))
orders_full = orders_full.withColumn("seller_region", func_udf("seller_state"))

Agora, irei criar uma nova coluna para resumir as categorias da coluna
``product_category_name``.

In [None]:
# Criando novas categorias
eletronicos_e_tecnologia = ['pcs', 'pc_gamer', 'tablets_impressao_imagem', 
                            'telefonia_fixa', 'telefonia', 
                            'informatica_acessorios', 'eletronicos', 'audio', 
                            'consoles_games', 'dvds_blu_ray']

moda_e_acessorios = ['fashion_roupa_masculina', 'fashion_roupa_feminina',
                     'fashion_roupa_infanto_juvenil',
                     'fashion_underwear_e_moda_praia',
                     'fashion_bolsas_e_acessorios', 'fashion_calcados',
                     'fashion_esporte']

casa_e_decoracao = ['moveis_decoracao', 'moveis_colchao_e_estofado', 
                    'moveis_cozinha_area_de_servico_jantar_e_jardim', 
                    'moveis_quarto', 'moveis_sala', 'utilidades_domesticas', 
                    'cama_mesa_banho', 'casa_construcao', 'casa_conforto', 
                    'casa_conforto_2']

livros_e_educacao = ['livros_tecnicos', 'livros_importados', 
                     'livros_interesse_geral']

beleza_e_saude = ['beleza_saude', 'fraldas_higiene', 'perfumaria']

brinquedos_e_jogos = ['brinquedos', 'jogos', 'instrumentos_musicais']

alimentos_e_bebidas = ['alimentos_bebidas', 'bebidas', 'alimentos']

artigos_para_festas = ['artigos_de_festas', 'artigos_de_natal']

arte_e_artesanato = ['artes', 'cine_foto', 'artes_e_artesanato']

ferramentas_e_construcao = ['construcao_ferramentas_construcao', 
                            'construcao_ferramentas_seguranca', 
                            'construcao_ferramentas_jardim', 
                            'construcao_ferramentas_iluminacao', 
                            'construcao_ferramentas_ferramentas']

esporte_e_lazer = ['esporte_lazer']

outros = ['cool_stuff', 'flores', 'industria_comercio_e_negocios', 
          'malas_acessorios', 'seguros_e_servicos', 'market_place', 
          'relogios_presentes', 'papelaria', 'climatizacao', 
          'sinalizacao_e_seguranca', 'agro_industria_e_comercio', 
          'cds_dvds_musicais', 'musica', 'eletroportateis']

In [None]:
# Criando a função
func = lambda categoria: 'eletronicos e tecnologia' if categoria in eletronicos_e_tecnologia else \
       ('moda e acessorios' if categoria in moda_e_acessorios else \
       ('casa e decoracao' if categoria in casa_e_decoracao else \
       ('livros e educacao' if categoria in livros_e_educacao else \
       ('beleza e saude' if categoria in beleza_e_saude else \
       ('brinquedos e jogos' if categoria in brinquedos_e_jogos else \
       ('alimentos_e_bebidas' if categoria in alimentos_e_bebidas else \
       ('artigos para festas' if categoria in artigos_para_festas else \
       ('arte e artesanato' if categoria in arte_e_artesanato else \
       ('ferramentas e construcao' if categoria in ferramentas_e_construcao else \
       ('esporte e lazer' if categoria in esporte_e_lazer else 'outros'))))))))))
       
func_udf = udf(func, StringType())


In [None]:
# Criando nova coluna
orders_full = orders_full.withColumn('sub_category_product_name', func_udf('product_category_name'))

Como novas colunas, irei criar novas unidades de medida a partir  das 
unidades das colunas ``product_weight_g``, ``product_length_cm``, 
``product_height_cm`` e ``product_width_cm``.

In [None]:
# Alterando a unidade de medida das colunas
orders_full = orders_full.withColumn('product_weight_kg', col('product_weight_g')/1000)
orders_full = orders_full.withColumn('product_length_m', col('product_length_cm')/100)
orders_full = orders_full.withColumn('product_height_m', col('product_height_cm')/100)
orders_full = orders_full.withColumn('product_width_m', col('product_width_cm')/100)


E para finalizar, irei extrair novas colunas a partir dos dados que representam datas.

In [None]:
# Obtendo o dia da semana da compra
orders_full = orders_full.withColumn('order_day_of_week', dayofweek('order_purchase_timestamp'))

# Criando uma função para obter o nome do dia da semana
func = lambda dia: 'sunday' if dia == 1 else  \
        ('monday' if dia == 2 else  \
        ('tuesday' if dia == 3 else  \
        ('wednesday' if dia == 4 else  \
        ('thursday' if dia == 5 else  \
        ('friday' if dia == 6 else 'saturday')))))

func_udf = udf(func, StringType())

# Aplicando a função
orders_full = orders_full.withColumn('order_name_day_of_week', func_udf('order_day_of_week'))

In [None]:
# Obtendo o mês da compŕa
orders_full = orders_full.withColumn('order_month', month('order_purchase_timestamp'))

# Criando uma função para nomear os meses
func = lambda mes: 'january' if mes == 1 else  \
        ('february' if mes == 2 else  \
        ('march' if mes == 3 else  \
        ('april' if mes == 4 else  \
        ('may' if mes == 5 else  \
        ('june' if mes == 6 else  \
        ('july' if mes == 7 else  \
        ('august' if mes == 8 else  \
        ('september' if mes == 9 else  \
        ('october' if mes == 10 else  \
        ('november' if mes == 11 else 'december'))))))))))
        
func_udf = udf(func, StringType())

# Aplicando a função
orders_full = orders_full.withColumn('order_name_month', func_udf('order_month'))

In [None]:
# Obtendo a hora da compra
orders_full = orders_full.withColumn('order_hour', hour('order_purchase_timestamp'))

In [None]:
# Obtendo o tempo de processamento do pedido
orders_full = orders_full.withColumn('order_processing_days', datediff('order_approved_at', 'order_purchase_timestamp'))

In [None]:
# Calculando a diferença de dias entre a data do pedido e a data de entrega
orders_full = orders_full.withColumn('order_delivery_days', datediff('order_delivered_customer_date', 'order_purchase_timestamp'))

## Salvando os dados

In [None]:
# Criando o db
db_connection = mysql.connector.connect(user="root", password="123456", host="localhost", auth_plugin='mysql_native_password')
db_cursor = db_connection.cursor()
db_cursor.execute("CREATE DATABASE IF NOT EXISTS dbTeste;")

In [None]:
mysql_url = "jdbc:mysql://localhost:3306/dbTeste"
mysql_properties = {
    "user": "root",
    "password": "123456",
    "driver": "com.mysql.jdbc.Driver"
}

#orders_full.write.jdbc(mysql_url, "tableteste", mode="overwrite", properties=mysql_properties)
orders_full.write \
    .format("jdbc") \
    .option("url", mysql_url) \
    .option("dbtable", "teste") \
    .mode("overwrite") \
    .options(**mysql_properties) \
    .save()



In [None]:

# Write to MySQL Table
orders_full.write \
  .format("jdbc") \
  .option("driver","com.mysql.cj.jdbc.Driver") \
  .option("url", "jdbc:mysql://localhost:3306/dbTeste") \
  .option("dbtable", "dbTeste") \
  .option("user", "root") \
  .option("password", "123456") \
  .save('append')
