In [70]:
# Importando as bibliotecas
import re
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, lower, to_timestamp, month, hour, datediff, dayofweek
from pyspark.sql.types import StringType
from sqlalchemy import create_engine

## Carregando os dados
Nesta etapa, irei carregar os dados.

In [2]:
# Iniciando sessão no Spark
spark = SparkSession.builder.appName('Cluster').getOrCreate()


23/05/18 16:33:05 WARN Utils: Your hostname, daniel-VJFE43F11X-XXXXXX resolves to a loopback address: 127.0.1.1; using 192.168.0.157 instead (on interface wlo1)
23/05/18 16:33:05 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/05/18 16:33:06 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
# Lendos os dados csv
customers = spark.read.csv("../data/raw/olist_customers_dataset.csv", header=True)
geolocalization = spark.read.csv("../data/raw/olist_geolocation_dataset.csv", header=True)
order_items = spark.read.csv("../data/raw/olist_order_items_dataset.csv", header=True)
order_payments = spark.read.csv("../data/raw/olist_order_payments_dataset.csv", header=True)
order_reviews = spark.read.csv("../data/raw/olist_order_reviews_dataset.csv", header=True)
orders = spark.read.csv("../data/raw/olist_orders_dataset.csv", header=True)
products = spark.read.csv("../data/raw/olist_products_dataset.csv", header=True)
sellers = spark.read.csv("../data/raw/olist_sellers_dataset.csv", header=True)
product_category = spark.read.csv("../data/raw/product_category_name_translation.csv", header=True)

                                                                                

## Transformando os dados
Nesta etapa, irei realizar uma série de transformações nos dados. Antes disso, irei unir as tabelas conforme o indicado no diagrama de relacionamento, e só após isso, realizar  as transformações.

### Juntando os dados

In [4]:
# Criando tabelas temporárias
customers.createOrReplaceTempView("customers")
geolocalization.createOrReplaceTempView('geolocalization')
order_items.createOrReplaceTempView('order_items')
order_payments.createOrReplaceTempView('order_payments')
order_reviews.createOrReplaceTempView('order_reviews')
orders.createOrReplaceTempView('orders')
products.createOrReplaceTempView('products')
sellers.createOrReplaceTempView('sellers')
product_category.createOrReplaceTempView('product_category')

In [5]:
# Unindo as tabelas
orders_full = spark.sql("WITH geo_sellers AS  \
                        ( \
                        SELECT s.seller_zip_code_prefix, s.seller_city, s.seller_id,\
                        s.seller_state, g.geolocation_lat, g.geolocation_lng \
                        FROM sellers s  \
                        FULL OUTER JOIN geolocalization g  \
                        ON s.seller_zip_code_prefix = g.geolocation_zip_code_prefix \
                        ),  \
                        item_info AS \
                        ( \
                        SELECT oi.order_id, oi.order_item_id, oi.product_id, \
                        oi.seller_id, oi.shipping_limit_date, oi.price, \
                        oi.freight_value, p.product_category_name, \
                        p.product_name_lenght, p.product_description_lenght,  \
                        p.product_photos_qty, p.product_weight_g,  \
                        p.product_length_cm, p.product_height_cm, p.product_width_cm  \
                        FROM order_items oi  \
                        LEFT JOIN products p  \
                        ON oi.product_id = p.product_id \
                        )  \
                        SELECT o.order_id, o.customer_id, ii.product_id,  \
                        o.order_status, o.order_estimated_delivery_date, \
                        o.order_purchase_timestamp, o.order_approved_at,  \
                        o.order_delivered_carrier_date, o.order_delivered_customer_date,  \
                        or.review_score, or.review_comment_title, or.review_comment_message,  \
                        or.review_creation_date, or.review_answer_timestamp,  \
                        op.payment_sequential, op.payment_type, op.payment_installments,  \
                        op.payment_value, c.customer_city, c.customer_state,  \
                        gs.seller_city, gs.seller_state, ii.shipping_limit_date, ii.price, \
                        ii.freight_value, ii.product_category_name, \
                        ii.product_name_lenght, ii.product_description_lenght,  \
                        ii.product_photos_qty, ii.product_weight_g,  \
                        ii.product_length_cm, ii.product_height_cm, ii.product_width_cm  \
                        FROM orders o \
                        LEFT JOIN order_reviews or  \
                        ON o.order_id = or.order_id  \
                        LEFT JOIN order_payments op  \
                        ON o.order_id = op.order_id  \
                        LEFT JOIN customers c  \
                        ON o.customer_id = c.customer_id  \
                        LEFT JOIN item_info ii   \
                        ON o.order_id = ii.order_id  \
                        LEFT JOIN geo_sellers gs  \
                        ON ii.seller_id = gs.seller_id")

In [6]:
# Checando o número de linhas
orders_full.count()

                                                                                

17094341

In [7]:
# Checando a quantidade de colunas
len(orders_full.columns)

33

In [8]:
# Buscando e dropando duplicatas
orders_full = orders_full.drop_duplicates()

In [9]:
# Checando a quantidade de linhas novamente
orders_full.count()

23/05/18 16:33:53 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
                                                                                

108500

Agora com a junção já feita, vamos passar para a fase de tratamento dos dados.
Como a junção foi feita selecionando as colunas, não há colunas duplicadas no dataset.

### Tratando os dados
Nesta etapa, passarei de coluna a coluna tratando o dado conforme necessário.

In [10]:
# Checando as colunas
orders_full.columns

['order_id',
 'customer_id',
 'product_id',
 'order_status',
 'order_estimated_delivery_date',
 'order_purchase_timestamp',
 'order_approved_at',
 'order_delivered_carrier_date',
 'order_delivered_customer_date',
 'review_score',
 'review_comment_title',
 'review_comment_message',
 'review_creation_date',
 'review_answer_timestamp',
 'payment_sequential',
 'payment_type',
 'payment_installments',
 'payment_value',
 'customer_city',
 'customer_state',
 'seller_city',
 'seller_state',
 'shipping_limit_date',
 'price',
 'freight_value',
 'product_category_name',
 'product_name_lenght',
 'product_description_lenght',
 'product_photos_qty',
 'product_weight_g',
 'product_length_cm',
 'product_height_cm',
 'product_width_cm']

In [11]:
# Checando o schema
orders_full.printSchema()

root
 |-- order_id: string (nullable = true)
 |-- customer_id: string (nullable = true)
 |-- product_id: string (nullable = true)
 |-- order_status: string (nullable = true)
 |-- order_estimated_delivery_date: string (nullable = true)
 |-- order_purchase_timestamp: string (nullable = true)
 |-- order_approved_at: string (nullable = true)
 |-- order_delivered_carrier_date: string (nullable = true)
 |-- order_delivered_customer_date: string (nullable = true)
 |-- review_score: string (nullable = true)
 |-- review_comment_title: string (nullable = true)
 |-- review_comment_message: string (nullable = true)
 |-- review_creation_date: string (nullable = true)
 |-- review_answer_timestamp: string (nullable = true)
 |-- payment_sequential: string (nullable = true)
 |-- payment_type: string (nullable = true)
 |-- payment_installments: string (nullable = true)
 |-- payment_value: string (nullable = true)
 |-- customer_city: string (nullable = true)
 |-- customer_state: string (nullable = true)


#### order_Status


In [12]:
# Checando os valores
orders_full.select('order_status').distinct().collect()

[Row(order_status='shipped'),
 Row(order_status='canceled'),
 Row(order_status='invoiced'),
 Row(order_status='created'),
 Row(order_status='delivered'),
 Row(order_status='unavailable'),
 Row(order_status='processing'),
 Row(order_status='approved')]

A coluna em questão não demonstra ter erros, onde os valores estão na mesma case
 e sem inconsistências. Além disso, o tipo do dado é **string**, o que 
 corresponde com os valores da coluna.

### order_estimated_delivery_date

In [13]:
orders_full.select('order_estimated_delivery_date').show()



+-----------------------------+
|order_estimated_delivery_date|
+-----------------------------+
|          2018-07-16 00:00:00|
|          2018-01-17 00:00:00|
|          2017-06-27 00:00:00|
|          2017-12-15 00:00:00|
|          2018-05-15 00:00:00|
|          2017-10-19 00:00:00|
|          2018-05-23 00:00:00|
|          2018-08-20 00:00:00|
|          2018-02-09 00:00:00|
|          2018-08-23 00:00:00|
|          2018-04-16 00:00:00|
|          2017-12-21 00:00:00|
|          2017-06-02 00:00:00|
|          2017-07-21 00:00:00|
|          2018-02-21 00:00:00|
|          2017-11-03 00:00:00|
|          2018-04-19 00:00:00|
|          2018-03-22 00:00:00|
|          2017-12-18 00:00:00|
|          2018-03-12 00:00:00|
+-----------------------------+
only showing top 20 rows



                                                                                

Como podemos ver, os valores dessa coluna se referem a data estimada da entrega, sem hora e nem minutos. Por isso, será transformada em apenas **data** e não **timestamp**.

In [14]:
# Alterando o tipo para data
orders_full = orders_full.withColumn("order_estimated_delivery_date", col("order_estimated_delivery_date").cast('date'))


### order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date
Aqui 4 colunas serão tratadas juntas, pois demandam o mesmo tratamento, **string** para **timestamp**.

In [15]:
# Criando uma lista com as colunas
colunas = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date']

In [16]:
# Realizando a transformação em cada coluna
for coluna in colunas:
    orders_full = orders_full.withColumn(coluna, to_timestamp(coluna))

### review_score
A princípio essa coluna parece estar com o tipo errado, vamos verificar os valores:

In [17]:
# Checando os valores distintos
orders_full.select('review_score').distinct().show()

+------------+
|review_score|
+------------+
|           3|
|        null|
|           5|
|           1|
|           4|
|           2|
+------------+



In [18]:
# Alterando o tipo para data
orders_full = orders_full.withColumn("review_score", col("review_score").cast('int'))


### review_comment_title

In [19]:
# Checando os valores 
orders_full.select('review_comment_title').show()



+--------------------+
|review_comment_title|
+--------------------+
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
|                ruim|
|                null|
|                null|
|        Kit muai tai|
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
|                null|
+--------------------+
only showing top 20 rows



                                                                                

Aqui o formato parece estar correto, mas irei limpar o texto, retirando pontuações e normalizando o texto (mesma case).

In [20]:
# regex para remover pontuações
re_special = "[^\w\s]"

In [21]:
# Criando funções para remover caracteres especiais
func = lambda titulo: re.sub(re_special, ' ', str(titulo).strip())
func_udf = udf(func, StringType())

In [22]:
# Aplicando a função
orders_full = orders_full.withColumn('review_comment_title', func_udf(lower('review_comment_title')))

In [23]:
# Checando os valores 
orders_full.select('review_comment_title').show()

[Stage 181:>                                                        (0 + 1) / 1]

+--------------------+
|review_comment_title|
+--------------------+
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
|                ruim|
|                None|
|                None|
|        kit muai tai|
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
|                None|
+--------------------+
only showing top 20 rows



                                                                                

### review_comment_message

In [24]:
# Checando os valores
orders_full.select('review_comment_message').show()



+----------------------+
|review_comment_message|
+----------------------+
|                  null|
|                  null|
|  Recebi os produto...|
|                  null|
|                  null|
|                  null|
|  fiz duas compras ...|
|                  null|
|                  null|
|  Muito satisfeito ...|
|                  null|
|                  null|
|  Entregue em 5 dia...|
|                  null|
|  O produto veio de...|
|   Tudo ok. Exceto ...|
|          nao recebido|
|                  null|
|                  null|
|                  null|
+----------------------+
only showing top 20 rows



                                                                                

Aqui eu usarei o mesmo tratamento da coluna passada, removendo pontuações e 
deixando o texto na mesma case.

In [25]:
# Aplicando a função
orders_full = orders_full.withColumn('review_comment_message', func_udf(lower('review_comment_message')))

In [26]:
# Checando os valores 
orders_full.select('review_comment_message').show()



+----------------------+
|review_comment_message|
+----------------------+
|                  None|
|                  None|
|  recebi os produto...|
|                  None|
|                  None|
|                  None|
|  fiz duas compras ...|
|                  None|
|                  None|
|  muito satisfeito ...|
|                  None|
|                  None|
|  entregue em 5 dia...|
|                  None|
|  o produto veio de...|
|  tudo ok  exceto q...|
|          nao recebido|
|                  None|
|                  None|
|                  None|
+----------------------+
only showing top 20 rows



                                                                                

### review_creation_date

In [27]:
# Checando os valores 
orders_full.select('review_creation_date').show()



+--------------------+
|review_creation_date|
+--------------------+
| 2018-07-01 00:00:00|
| 2018-01-10 00:00:00|
| 2017-06-14 00:00:00|
| 2017-12-13 00:00:00|
| 2018-05-08 00:00:00|
| 2017-10-04 00:00:00|
| 2018-05-25 00:00:00|
| 2018-08-21 00:00:00|
| 2018-01-30 00:00:00|
| 2018-08-21 00:00:00|
| 2018-04-06 00:00:00|
| 2017-12-12 00:00:00|
| 2017-05-28 00:00:00|
| 2017-07-26 00:00:00|
| 2018-02-09 00:00:00|
| 2017-10-20 00:00:00|
| 2018-04-22 00:00:00|
| 2018-03-21 00:00:00|
| 2017-12-02 00:00:00|
| 2018-03-14 00:00:00|
+--------------------+
only showing top 20 rows



                                                                                

Como podemos ver, os valores dessa coluna se referem a data de criação da review, sem hora e nem minutos. Por isso, será transformada em apenas **data** e não **timestamp**.

In [28]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('review_creation_date', col('review_creation_date').cast('date'))

### review_answer_timestamp

In [29]:
# Checando os valores
orders_full.select('review_answer_timestamp').show()



+-----------------------+
|review_answer_timestamp|
+-----------------------+
|    2018-07-05 22:09:40|
|    2018-01-11 09:26:34|
|    2017-06-14 15:03:40|
|    2017-12-13 18:16:18|
|    2018-05-10 13:38:36|
|    2017-10-09 22:28:58|
|    2018-06-04 20:09:10|
|    2018-08-21 16:41:15|
|    2018-01-30 22:00:55|
|    2018-08-23 13:53:23|
|    2018-04-07 03:24:13|
|    2017-12-13 14:18:23|
|    2017-05-30 15:58:21|
|    2017-07-28 10:15:45|
|    2018-02-10 12:41:55|
|    2017-10-22 18:50:43|
|    2018-04-23 11:51:20|
|    2018-03-22 01:19:46|
|    2017-12-04 10:15:47|
|    2018-03-14 11:30:11|
+-----------------------+
only showing top 20 rows



                                                                                

Desta vez os dados possuem data e hora, fazendo com que seja necessário transforma-los para o formato **timestamp**.

In [30]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('review_answer_timestamp', to_timestamp('review_answer_timestamp'))

### payment_sequential

In [31]:
# Verificando os valores únicos
orders_full.select('payment_sequential').distinct().show()

+------------------+
|payment_sequential|
+------------------+
|                 7|
|                15|
|                11|
|                 3|
|                 8|
|                22|
|                16|
|                 5|
|                18|
|                17|
|                 6|
|                19|
|                 9|
|                 1|
|                20|
|                10|
|                 4|
|                12|
|                13|
|                21|
+------------------+
only showing top 20 rows



O dado aparenta ser numerico, representando o número de pagamentos.

In [32]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('payment_sequential', col('payment_sequential').cast('int'))

### payment_type

In [33]:
# Checando os valores
orders_full.select('payment_type').distinct().show()

+------------+
|payment_type|
+------------+
|      boleto|
| not_defined|
| credit_card|
|     voucher|
|  debit_card|
|        null|
+------------+



Não aparenta haver inconsistências nos valores e nem no tipo do dado. Por isso, não irei aplicar tatamento nesta coluna.

### payment_installments

In [34]:
# Checando os valores distintos
orders_full.select('payment_installments').distinct().show()

+--------------------+
|payment_installments|
+--------------------+
|                   7|
|                  15|
|                  11|
|                   3|
|                   8|
|                   5|
|                  18|
|                  17|
|                   6|
|                  23|
|                   9|
|                  24|
|                   1|
|                  20|
|                  10|
|                   4|
|                  12|
|                  13|
|                  14|
|                  21|
+--------------------+
only showing top 20 rows



A coluna aparenta representar o número de parcelas. Embora não apresente 
inconsistências nos valores, ainda é necessário aplicar uma alteração de tipo
de dado.

In [35]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('payment_installments', col('payment_installments').cast('int'))

### payment_value

In [36]:
# Checando os valores distintos
orders_full.select('payment_value').distinct().show()

+-------------+
|payment_value|
+-------------+
|       518.39|
|        85.24|
|       136.60|
|       320.07|
|        48.04|
|       131.57|
|        83.65|
|       244.38|
|       369.61|
|       116.99|
|       157.25|
|       110.61|
|       197.97|
|       255.07|
|       192.66|
|       200.52|
|        34.71|
|       307.14|
|        73.43|
|        28.79|
+-------------+
only showing top 20 rows



A coluna represaenta o valor de pagamento. O tipo de dado deve ser alterado para float.

In [37]:
# Alterando o tipo de dado
orders_full = orders_full.withColumn('payment_value', col('payment_value').cast('float'))

### customer_city

In [38]:
# Checando os valores distintos
orders_full.select('customer_city').distinct().show(20)

+------------------+
|     customer_city|
+------------------+
|         igrejinha|
|         arapiraca|
|          camacari|
|              pote|
|aguas de sao pedro|
|              iepe|
|         boa vista|
|          itanhaem|
|          buritama|
|              ijui|
|           valente|
|           brusque|
|  leandro ferreira|
|        crissiumal|
|cachoeira paulista|
|          perdigao|
| sao joao da barra|
|      martinopolis|
|         guimaraes|
|    porto amazonas|
+------------------+
only showing top 20 rows



Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### customer_state

In [39]:
# Checando os valores distintos
orders_full.select('customer_state').distinct().collect()

[Row(customer_state='SC'),
 Row(customer_state='RO'),
 Row(customer_state='PI'),
 Row(customer_state='AM'),
 Row(customer_state='RR'),
 Row(customer_state='GO'),
 Row(customer_state='TO'),
 Row(customer_state='MT'),
 Row(customer_state='SP'),
 Row(customer_state='PB'),
 Row(customer_state='ES'),
 Row(customer_state='RS'),
 Row(customer_state='MS'),
 Row(customer_state='AL'),
 Row(customer_state='MG'),
 Row(customer_state='PA'),
 Row(customer_state='BA'),
 Row(customer_state='SE'),
 Row(customer_state='PE'),
 Row(customer_state='CE'),
 Row(customer_state='RN'),
 Row(customer_state='RJ'),
 Row(customer_state='MA'),
 Row(customer_state='AC'),
 Row(customer_state='DF'),
 Row(customer_state='PR'),
 Row(customer_state='AP')]

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### seller_city

In [40]:
# Checando os valores distintos
orders_full.select('seller_city').distinct().show()

[Stage 362:>                                                        (0 + 1) / 1]

+--------------------+
|         seller_city|
+--------------------+
|           igrejinha|
|             brusque|
|            buritama|
|  sao joao de meriti|
|               garca|
|         carapicuiba|
|    fernando prestes|
|             ipaussu|
|       nova friburgo|
|           jacutinga|
|              araras|
| sao pedro da aldeia|
|              santos|
|itapecerica da serra|
|            ibitinga|
|               muqui|
|     franco da rocha|
|              cuiaba|
|             marilia|
|          votorantim|
+--------------------+
only showing top 20 rows



                                                                                

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### seller_state

In [41]:
# Checando os valores distintos
orders_full.select('seller_state').distinct().collect()

                                                                                

[Row(seller_state='SC'),
 Row(seller_state='RO'),
 Row(seller_state='PI'),
 Row(seller_state='AM'),
 Row(seller_state='GO'),
 Row(seller_state=None),
 Row(seller_state='MT'),
 Row(seller_state='SP'),
 Row(seller_state='ES'),
 Row(seller_state='PB'),
 Row(seller_state='RS'),
 Row(seller_state='MS'),
 Row(seller_state='MG'),
 Row(seller_state='PA'),
 Row(seller_state='BA'),
 Row(seller_state='SE'),
 Row(seller_state='PE'),
 Row(seller_state='CE'),
 Row(seller_state='RN'),
 Row(seller_state='RJ'),
 Row(seller_state='MA'),
 Row(seller_state='AC'),
 Row(seller_state='DF'),
 Row(seller_state='PR')]

Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### shipping_limit_date

In [42]:
# Checando os valores 
orders_full.select('shipping_limit_date').show()



+-------------------+
|shipping_limit_date|
+-------------------+
|2018-06-29 18:15:24|
|2017-12-28 02:12:50|
|2017-06-08 10:35:11|
|2017-11-30 01:34:26|
|2018-04-30 04:31:13|
|2017-09-29 11:10:11|
|2018-05-07 14:30:30|
|2018-08-17 00:30:18|
|2018-01-22 14:30:15|
|2018-08-13 21:35:18|
|2018-04-03 19:55:17|
|2017-12-04 15:30:49|
|2017-05-29 03:55:21|
|2017-07-17 03:55:36|
|2018-02-12 03:55:28|
|2017-10-13 15:07:14|
|2018-04-04 03:15:32|
|2018-03-13 02:15:53|
|2017-12-01 18:13:38|
|2018-02-13 14:10:07|
+-------------------+
only showing top 20 rows



                                                                                

Como mostrado no schema, os dados estão no formato de **string**. Aqui, irei
alterar o tipo para timestamp, pois possui data e hora.

In [43]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('shipping_limit_date', to_timestamp('shipping_limit_date'))

### price

In [44]:
# Checando a coluna
orders_full.select('price').show()



+------+
| price|
+------+
| 28.00|
| 62.90|
| 59.90|
| 34.90|
| 84.90|
| 79.00|
| 69.99|
| 60.00|
| 89.90|
|134.99|
| 28.90|
| 19.90|
| 89.90|
| 89.90|
| 59.90|
| 39.00|
|245.00|
| 75.00|
|359.90|
| 29.90|
+------+
only showing top 20 rows



                                                                                

Aqui tenho números com centavos, por isso, será alterado para **float**.

In [45]:
orders_full = orders_full.withColumn('price', col('price').cast('float'))

### freight_value

In [46]:
# Checando a coluna
orders_full.select('freight_value').show()



+-------------+
|freight_value|
+-------------+
|        14.51|
|        14.19|
|        14.17|
|        20.25|
|        16.56|
|        14.30|
|        19.46|
|         9.17|
|        15.38|
|        27.90|
|        15.23|
|        17.63|
|        18.39|
|        34.79|
|        11.73|
|        15.10|
|        19.59|
|        12.97|
|        69.39|
|        17.60|
+-------------+
only showing top 20 rows



                                                                                

Aqui tenho números com centavos, por isso, será alterado para **float**.

In [47]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('freight_value', col('freight_value').cast('float'))

### product_category_name

In [48]:
# Checando a coluna
orders_full.select('product_category_name').distinct().show()

                                                                                

+---------------------+
|product_category_name|
+---------------------+
|                  pcs|
|                bebes|
|                artes|
|            cine_foto|
|     moveis_decoracao|
|             pc_gamer|
| construcao_ferram...|
| tablets_impressao...|
|    artigos_de_festas|
| fashion_roupa_mas...|
|     artigos_de_natal|
|           la_cuisine|
|               flores|
|      livros_tecnicos|
|                 null|
|       telefonia_fixa|
| construcao_ferram...|
|           cool_stuff|
|     eletrodomesticos|
|    livros_importados|
+---------------------+
only showing top 20 rows



Os dados da coluna já estão na mesma case, sem pontuações e possui o formato 
correto, tornando desnecessário a aplicação de tratamento na mesma.

### product_name_lenght

In [49]:
# Checando a coluna 
orders_full.select('product_name_lenght').show()



+-------------------+
|product_name_lenght|
+-------------------+
|                 57|
|                 60|
|                 63|
|                 39|
|                 58|
|                 35|
|                 56|
|                 52|
|                 51|
|                 59|
|                 51|
|                 60|
|                 47|
|                 47|
|                 63|
|                 51|
|                 49|
|                 48|
|                 58|
|                 60|
+-------------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com o tamanho do nome do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [50]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_name_lenght', col('product_name_lenght').cast('int'))

### product_description_lenght

In [51]:
# Checando a coluna
orders_full.select('product_description_lenght').show()



+--------------------------+
|product_description_lenght|
+--------------------------+
|                      1505|
|                       660|
|                       655|
|                       440|
|                       252|
|                       920|
|                       623|
|                       560|
|                       455|
|                      1732|
|                       221|
|                       500|
|                       482|
|                       482|
|                       785|
|                       991|
|                      1019|
|                      1337|
|                      1404|
|                       465|
+--------------------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com o tamanho da descrição do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [52]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_description_lenght', col('product_description_lenght').cast('int'))

### product_photos_qty

In [53]:
# Checando a coluna
orders_full.select('product_photos_qty').show()



+------------------+
|product_photos_qty|
+------------------+
|                 1|
|                 7|
|                 4|
|                 2|
|                 4|
|                 7|
|                 3|
|                 7|
|                 1|
|                 5|
|                 1|
|                 3|
|                 2|
|                 2|
|                 1|
|                 3|
|                 3|
|                 2|
|                 4|
|                 2|
+------------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com a quantidade de fotos do produto. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [54]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_photos_qty', col('product_photos_qty').cast('int'))

### product_weight_g

In [55]:
# Checando a coluna
orders_full.select('product_weight_g').show()



+----------------+
|product_weight_g|
+----------------+
|            1000|
|             450|
|             300|
|             200|
|             850|
|             100|
|             900|
|             800|
|             413|
|            1550|
|             100|
|             100|
|           16100|
|           16100|
|             800|
|             167|
|             350|
|             167|
|           30000|
|            2600|
+----------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com o peso do produto em gramas. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [56]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_weight_g', col('product_weight_g').cast('int'))

### product_length_cm

In [57]:
# Checando a coluna
orders_full.select('product_length_cm').show()



+-----------------+
|product_length_cm|
+-----------------+
|               60|
|               20|
|               16|
|               16|
|               38|
|               20|
|               38|
|               30|
|               20|
|               40|
|               24|
|               16|
|               35|
|               35|
|               38|
|               17|
|               16|
|               16|
|               60|
|               30|
+-----------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com o comprimento do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [58]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_length_cm', col('product_length_cm').cast('int'))

### product_height_cm

In [59]:
# Checando a coluna
orders_full.select('product_height_cm').show()



+-----------------+
|product_height_cm|
+-----------------+
|               15|
|                5|
|                9|
|                9|
|                7|
|                2|
|                9|
|               15|
|               13|
|               20|
|                4|
|                3|
|               65|
|               65|
|                4|
|                3|
|                3|
|                3|
|               66|
|               10|
+-----------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com a altura do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [60]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_height_cm', col('product_height_cm').cast('int'))

### product_width_cm

In [61]:
# Checando a coluna
orders_full.select('product_width_cm').show()



+----------------+
|product_width_cm|
+----------------+
|              30|
|              20|
|              11|
|              11|
|              28|
|              25|
|              21|
|              15|
|              15|
|              20|
|              34|
|              11|
|              44|
|              44|
|              19|
|              17|
|              11|
|              11|
|              29|
|              30|
+----------------+
only showing top 20 rows



                                                                                

A coluna contém um dado com a largura do produto em centímetros. Como esse número não
pode possuir casas decimais, será convertido para **int**.

In [62]:
# Alterando o tipo do dado
orders_full = orders_full.withColumn('product_width_cm', col('product_width_cm').cast('int'))

#### Criando novas features

Agora que a tabela já parece estar boa, irei criar uma novas features. A primeira 
será criada a partir das colunas ``customer_state`` e ``seller_state``, criando categorias para os 
estados, onde cada estado vai receber a região em que se localiza no Brasil.

In [63]:
# Criando lista de regiões  
estados_norte = ['AC', 'AM', 'RO', 'RR', 'AP', 'TO', 'PA']
estados_nordeste = ['MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'BA', 'SE']
estados_centro = ['MT', 'MS', 'DF', 'GO']
estados_sudeste = ['MG', 'SP', 'ES', 'RJ']
estados_sul = ['PR', 'SC', 'RS']

# Criando função 
func = lambda estado: 'NORTE' if estado in estados_norte else \
        ('NORDESTE' if estado in estados_nordeste else \
        ('CENTRO-OESTE' if estado in estados_centro else \
        ('SUDESTE' if estado in estados_sudeste else 'SUL')))

func_udf = udf(func, StringType())

In [64]:
# Aplicando a função
orders_full = orders_full.withColumn("customer_region", func_udf("customer_state"))
orders_full = orders_full.withColumn("seller_region", func_udf("seller_state"))

Agora, irei criar uma nova coluna para resumir as categorias da coluna
``product_category_name``.

In [65]:
# Criando novas categorias
eletronicos_e_tecnologia = ['pcs', 'pc_gamer', 'tablets_impressao_imagem', 
                            'telefonia_fixa', 'telefonia', 
                            'informatica_acessorios', 'eletronicos', 'audio', 
                            'consoles_games', 'dvds_blu_ray']

moda_e_acessorios = ['fashion_roupa_masculina', 'fashion_roupa_feminina', 
                     'fashion_roupa_infanto_juvenil', 
                     'fashion_underwear_e_moda_praia', 
                     'fashion_bolsas_e_acessorios', 'fashion_calcados', 
                     'fashion_esporte']

casa_e_decoracao = ['moveis_decoracao', 'moveis_colchao_e_estofado', 
                    'moveis_cozinha_area_de_servico_jantar_e_jardim', 
                    'moveis_quarto', 'moveis_sala', 'utilidades_domesticas', 
                    'cama_mesa_banho', 'casa_construcao', 'casa_conforto', 
                    'casa_conforto_2']

livros_e_educacao = ['livros_tecnicos', 'livros_importados', 
                     'livros_interesse_geral']

beleza_e_saude = ['beleza_saude', 'fraldas_higiene', 'perfumaria']

brinquedos_e_jogos = ['brinquedos', 'jogos', 'instrumentos_musicais']

alimentos_e_bebidas = ['alimentos_bebidas', 'bebidas', 'alimentos']

artigos_para_festas = ['artigos_de_festas', 'artigos_de_natal']

arte_e_artesanato = ['artes', 'cine_foto', 'artes_e_artesanato']

ferramentas_e_construcao = ['construcao_ferramentas_construcao', 
                            'construcao_ferramentas_seguranca', 
                            'construcao_ferramentas_jardim', 
                            'construcao_ferramentas_iluminacao', 
                            'construcao_ferramentas_ferramentas']

esporte_e_lazer = ['esporte_lazer']

outros = ['cool_stuff', 'flores', 'industria_comercio_e_negocios', 
          'malas_acessorios', 'seguros_e_servicos', 'market_place', 
          'relogios_presentes', 'papelaria', 'climatizacao', 
          'sinalizacao_e_seguranca', 'agro_industria_e_comercio', 
          'cds_dvds_musicais', 'musica', 'eletroportateis']

In [66]:
# Criando a função
func = lambda categoria: 'eletronicos e tecnologia' if categoria in eletronicos_e_tecnologia else \
       ('moda e acessorios' if categoria in moda_e_acessorios else \
       ('casa e decoracao' if categoria in casa_e_decoracao else \
       ('livros e educacao' if categoria in livros_e_educacao else \
       ('beleza e saude' if categoria in beleza_e_saude else \
       ('brinquedos e jogos' if categoria in brinquedos_e_jogos else \
       ('alimentos_e_bebidas' if categoria in alimentos_e_bebidas else \
       ('artigos para festas' if categoria in artigos_para_festas else \
       ('arte e artesanato' if categoria in arte_e_artesanato else \
       ('ferramentas e construcao' if categoria in ferramentas_e_construcao else \
       ('esporte e lazer' if categoria in esporte_e_lazer else 'outros'))))))))))
       
func_udf = udf(func, StringType())


In [67]:
# Criando nova coluna
orders_full = orders_full.withColumn('sub_category_product_name', func_udf('product_category_name'))

Como novas colunas, irei criar novas unidades de medida a partir  das 
unidades das colunas ``product_weight_g``, ``product_length_cm``, 
``product_height_cm`` e ``product_width_cm``.

In [68]:
# Alterando a unidade de medida das colunas
orders_full = orders_full.withColumn('product_weight_kg', col('product_weight_g')/1000)
orders_full = orders_full.withColumn('product_length_m', col('product_length_cm')/100)
orders_full = orders_full.withColumn('product_height_m', col('product_height_cm')/100)
orders_full = orders_full.withColumn('product_width_m', col('product_width_cm')/100)


E para finalizar, irei extrair novas colunas a partir dos dados que representam datas.

In [71]:
# Obtendo o dia da semana da compra
orders_full = orders_full.withColumn('order_day_of_week', dayofweek('order_purchase_timestamp'))

# Criando uma função para obter o nome do dia da semana
func = lambda dia: 'sunday' if dia == 1 else  \
        ('monday' if dia == 2 else  \
        ('tuesday' if dia == 3 else  \
        ('wednesday' if dia == 4 else  \
        ('thursday' if dia == 5 else  \
        ('friday' if dia == 6 else 'saturday')))))

func_udf = udf(func, StringType())

# Aplicando a função
orders_full = orders_full.withColumn('order_name_day_of_week', func_udf('order_day_of_week'))

In [72]:
# Obtendo o mês da compŕa
orders_full = orders_full.withColumn('order_month', month('order_purchase_timestamp'))

# Criando uma função para nomear os meses
func = lambda mes: 'january' if mes == 1 else  \
        ('february' if mes == 2 else  \
        ('march' if mes == 3 else  \
        ('april' if mes == 4 else  \
        ('may' if mes == 5 else  \
        ('june' if mes == 6 else  \
        ('july' if mes == 7 else  \
        ('august' if mes == 8 else  \
        ('september' if mes == 9 else  \
        ('october' if mes == 10 else  \
        ('november' if mes == 11 else 'december'))))))))))
        
func_udf = udf(func, StringType())

# Aplicando a função
orders_full = orders_full.withColumn('order_name_month', func_udf('order_month'))

In [73]:
# Obtendo a hora da compra
orders_full = orders_full.withColumn('order_hour', hour('order_purchase_timestamp'))

In [74]:
# Obtendo o tempo de processamento do pedido
orders_full = orders_full.withColumn('order_processing_days', datediff('order_approved_at', 'order_purchase_timestamp'))

In [75]:
# Calculando a diferença de dias entre a data do pedido e a data de entrega
orders_full = orders_full.withColumn('order_delivery_days', datediff('order_delivered_customer_date', 'order_purchase_timestamp'))

## Salvando os dados

In [7]:
# Criando a engine de um banco MySql
engine = create_engine('mysql+pymysql://root:123456@localhost:3306')