In [1]:
# Importando as bibliotecas
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from sqlalchemy import create_engine
from pyspark.sql.types import StringType


## Carregando os dados
Nesta etapa, irei carregar os dados.

In [2]:
spark = SparkSession.builder.appName('Cluster').getOrCreate()

In [3]:
# Lendos os dados csv
customers = spark.read.csv("../data/raw/olist_customers_dataset.csv", header=True)
geolocalization = spark.read.csv("../data/raw/olist_geolocation_dataset.csv", header=True)
order_items = spark.read.csv("../data/raw/olist_order_items_dataset.csv", header=True)
order_payments = spark.read.csv("../data/raw/olist_order_payments_dataset.csv", header=True)
order_reviews = spark.read.csv("../data/raw/olist_order_reviews_dataset.csv", header=True)
orders = spark.read.csv("../data/raw/olist_orders_dataset.csv", header=True)
products = spark.read.csv("../data/raw/olist_products_dataset.csv", header=True)
sellers = spark.read.csv("../data/raw/olist_sellers_dataset.csv", header=True)
product_category = spark.read.csv("../data/raw/product_category_name_translation.csv", header=True)

## Transformando os dados
Nesta etapa, irei realizar uma série de transformações nos dados. Irei unir as tabelas inicialmente, e após isso, realizar transformações nos dados e criação de features.

### Tabela Customers

In [6]:
# Checando os valores
customers.show(5)

+--------------------+--------------------+------------------------+--------------------+--------------+
|         customer_id|  customer_unique_id|customer_zip_code_prefix|       customer_city|customer_state|
+--------------------+--------------------+------------------------+--------------------+--------------+
|06b8999e2fba1a1fb...|861eff4711a542e4b...|                   14409|              franca|            SP|
|18955e83d337fd6b2...|290c77bc529b7ac93...|                   09790|sao bernardo do c...|            SP|
|4e7b3e00288586ebd...|060e732b5b29e8181...|                   01151|           sao paulo|            SP|
|b2b6027bc5c5109e5...|259dac757896d24d7...|                   08775|     mogi das cruzes|            SP|
|4f2d8ab171c80ec83...|345ecd01c38d18a90...|                   13056|            campinas|            SP|
+--------------------+--------------------+------------------------+--------------------+--------------+
only showing top 5 rows



In [7]:
# Checando o schema
customers.printSchema()

root
 |-- customer_id: string (nullable = true)
 |-- customer_unique_id: string (nullable = true)
 |-- customer_zip_code_prefix: string (nullable = true)
 |-- customer_city: string (nullable = true)
 |-- customer_state: string (nullable = true)



Podemos ver que possuímos poucas colunas, todas com o formato correto. Vale 
notar que a coluna ``customer_zip_code`` está no formato de **string**, o que é 
válido, pois dependendo da forma como ela será utilizada, pode ser categórica ou
numérica. Optarei por adicionar uma coluna com esses dados em numérico, que serão
úteis em projetos que trabalham com pontos geográficos.

In [8]:
# Adicionando uma coluna com o zip no formato de inteiro 
customers = customers.withColumn('customer_zip_code_prefix_int', customers.customer_zip_code_prefix.cast('Int'))

Agora, vou verificar os valores das colunas ``customer_city`` e 
``customer_state``.

In [9]:
# Checando os valores da coluna 
customers.select('customer_city').distinct().show()

+--------------------+
|       customer_city|
+--------------------+
|            camacari|
|           arapiraca|
|           itaberaba|
|           igrejinha|
|  aguas de sao pedro|
|            vermelho|
|                pote|
|jijoca de jericoa...|
|            barracao|
|                iepe|
|divino das laranj...|
|       astolfo dutra|
|            itanhaem|
|             brusque|
|           boa vista|
|  cachoeira paulista|
|            guaranta|
|             valente|
|   sao joao da barra|
|                ijui|
+--------------------+
only showing top 20 rows



In [10]:
# Checando os valores da coluna 
customers.select('customer_state').distinct().show()

+--------------+
|customer_state|
+--------------+
|            SC|
|            RO|
|            PI|
|            AM|
|            RR|
|            GO|
|            TO|
|            MT|
|            SP|
|            ES|
|            PB|
|            RS|
|            MS|
|            AL|
|            MG|
|            PA|
|            BA|
|            SE|
|            PE|
|            CE|
+--------------+
only showing top 20 rows



Não parece haver erros nessas colunas, onde todos os valores estão normalizados 
(mesma case) e com escrita consistente.

In [11]:
# Checando os valores
customers.show(5)

+--------------------+--------------------+------------------------+--------------------+--------------+----------------------------+
|         customer_id|  customer_unique_id|customer_zip_code_prefix|       customer_city|customer_state|customer_zip_code_prefix_int|
+--------------------+--------------------+------------------------+--------------------+--------------+----------------------------+
|06b8999e2fba1a1fb...|861eff4711a542e4b...|                   14409|              franca|            SP|                       14409|
|18955e83d337fd6b2...|290c77bc529b7ac93...|                   09790|sao bernardo do c...|            SP|                        9790|
|4e7b3e00288586ebd...|060e732b5b29e8181...|                   01151|           sao paulo|            SP|                        1151|
|b2b6027bc5c5109e5...|259dac757896d24d7...|                   08775|     mogi das cruzes|            SP|                        8775|
|4f2d8ab171c80ec83...|345ecd01c38d18a90...|                   

Agora que a tabela já parece estar boa, irei criar uma nova feature a partir da 
coluna ``customer_state``, criando categorias para os estados, onde cada estado 
vai receber a região em que se localiza no Brasil.

In [12]:
# Criando lista de regiões  
estados_norte = ['AC', 'AM', 'RO', 'RR', 'AP', 'TO', 'PA']
estados_nordeste = ['MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'BA', 'SE']
estados_centro = ['MT', 'MS', 'DF', 'GO']
estados_sudeste = ['MG', 'SP', 'ES', 'RJ']
estados_sul = ['PR', 'SC', 'RS']

# Criando função 
func = lambda estado: 'NORTE' if estado in estados_norte else ('NORDESTE' if estado in estados_nordeste else ('CENTRO-OESTE' if estado in estados_centro else ('SUDESTE' if estado in estados_sudeste else 'SUL')))
func_udf = udf(func, StringType())

In [13]:
# Aplicando a função
customers = customers.withColumn("Regiao", func_udf("customer_state"))

In [14]:
# Checando o resultado
customers.show()

+--------------------+--------------------+------------------------+--------------------+--------------+----------------------------+-------+
|         customer_id|  customer_unique_id|customer_zip_code_prefix|       customer_city|customer_state|customer_zip_code_prefix_int| Regiao|
+--------------------+--------------------+------------------------+--------------------+--------------+----------------------------+-------+
|06b8999e2fba1a1fb...|861eff4711a542e4b...|                   14409|              franca|            SP|                       14409|SUDESTE|
|18955e83d337fd6b2...|290c77bc529b7ac93...|                   09790|sao bernardo do c...|            SP|                        9790|SUDESTE|
|4e7b3e00288586ebd...|060e732b5b29e8181...|                   01151|           sao paulo|            SP|                        1151|SUDESTE|
|b2b6027bc5c5109e5...|259dac757896d24d7...|                   08775|     mogi das cruzes|            SP|                        8775|SUDESTE|
|4f2d8

A princípio a tabela não possui mais mudanças em termo de tipo de dado e criação de features, por isso, encerrarei  o tratamentyo dessa tabela nesta etapa.

### Tabela geolocalization

In [15]:
# Checando os valores
geolocalization.show()

+---------------------------+-------------------+-------------------+----------------+-----------------+
|geolocation_zip_code_prefix|    geolocation_lat|    geolocation_lng|geolocation_city|geolocation_state|
+---------------------------+-------------------+-------------------+----------------+-----------------+
|                      01037| -23.54562128115268| -46.63929204800168|       sao paulo|               SP|
|                      01046|-23.546081127035535| -46.64482029837157|       sao paulo|               SP|
|                      01046| -23.54612896641469| -46.64295148361138|       sao paulo|               SP|
|                      01041|  -23.5443921648681| -46.63949930627844|       sao paulo|               SP|
|                      01035|-23.541577961711493| -46.64160722329613|       sao paulo|               SP|
|                      01012|-23.547762303364266| -46.63536053788448|       são paulo|               SP|
|                      01047|-23.546273112412678| -46.6

In [16]:
# Checando o schema
geolocalization.printSchema()

root
 |-- geolocation_zip_code_prefix: string (nullable = true)
 |-- geolocation_lat: string (nullable = true)
 |-- geolocation_lng: string (nullable = true)
 |-- geolocation_city: string (nullable = true)
 |-- geolocation_state: string (nullable = true)



Aparentemente os dados dessa tabela são os mesmos contidos na tabela 
``customers``, fazendo com que o mesmo tipo de processamento seja realizado. A
única diferença são as colunas de geolocalização, que estão no formato de **str**
e serão transformados em **float**. 

In [25]:
# Alterando os tipos de dados
geolocalization = geolocalization.withColumn('geolocation_lat', geolocalization.geolocation_lat.cast('double'))
geolocalization = geolocalization.withColumn('geolocation_lng', geolocalization.geolocation_lng.cast('double'))
geolocalization = geolocalization.withColumn('geolocalization_zip_code_prefix_int', geolocalization.geolocation_zip_code_prefix.cast('Int'))

ParseException: 
[UNSUPPORTED_DATATYPE] Unsupported data type "T".(line 1, pos 0)

== SQL ==
t
^^^


Agora vou aplicar a mesma função da tabela passada para gerar as regiões.

In [22]:
# Aplicando a função
geolocalization = geolocalization.withColumn("Regiao", func_udf("geolocation_state"))

SyntaxError: invalid syntax (266514625.py, line 2)

In [19]:
# Checando o resultado
geolocalization.show()

+---------------------------+-------------------+-------------------+----------------+-----------------+-----------------------------------+-------+
|geolocation_zip_code_prefix|    geolocation_lat|    geolocation_lng|geolocation_city|geolocation_state|geolocalization_zip_code_prefix_int| Regiao|
+---------------------------+-------------------+-------------------+----------------+-----------------+-----------------------------------+-------+
|                      01037| -23.54562128115268| -46.63929204800168|       sao paulo|               SP|                               1037|SUDESTE|
|                      01046|-23.546081127035535| -46.64482029837157|       sao paulo|               SP|                               1046|SUDESTE|
|                      01046| -23.54612896641469| -46.64295148361138|       sao paulo|               SP|                               1046|SUDESTE|
|                      01041|  -23.5443921648681| -46.63949930627844|       sao paulo|               SP|  

In [20]:
# Checando o novo Schema
geolocalization.printSchema()

root
 |-- geolocation_zip_code_prefix: string (nullable = true)
 |-- geolocation_lat: double (nullable = true)
 |-- geolocation_lng: double (nullable = true)
 |-- geolocation_city: string (nullable = true)
 |-- geolocation_state: string (nullable = true)
 |-- geolocalization_zip_code_prefix_int: integer (nullable = true)
 |-- Regiao: string (nullable = true)



A princípio a tabela não possui mais mudanças em termo de tipo de dado e criação de features, por isso, encerrarei  o tratamentyo dessa tabela nesta etapa.

### Tabela order_items

In [21]:
# Checando os dados
order_items.show()

+--------------------+-------------+--------------------+--------------------+-------------------+------+-------------+
|            order_id|order_item_id|          product_id|           seller_id|shipping_limit_date| price|freight_value|
+--------------------+-------------+--------------------+--------------------+-------------------+------+-------------+
|00010242fe8c5a6d1...|            1|4244733e06e7ecb49...|48436dade18ac8b2b...|2017-09-19 09:45:35| 58.90|        13.29|
|00018f77f2f0320c5...|            1|e5f2d52b802189ee6...|dd7ddc04e1b6c2c61...|2017-05-03 11:05:13|239.90|        19.93|
|000229ec398224ef6...|            1|c777355d18b72b67a...|5b51032eddd242adc...|2018-01-18 14:48:30|199.00|        17.87|
|00024acbcdf0a6daa...|            1|7634da152a4610f15...|9d7a1d34a50524090...|2018-08-15 10:10:18| 12.99|        12.79|
|00042b26cf59d7ce6...|            1|ac6c3623068f30de0...|df560393f3a51e745...|2017-02-13 13:57:51|199.90|        18.14|
|00048cc3ae777c65d...|            1|ef92

In [30]:
# Checando o schema
order_items.printSchema()

root
 |-- order_id: string (nullable = true)
 |-- order_item_id: string (nullable = true)
 |-- product_id: string (nullable = true)
 |-- seller_id: string (nullable = true)
 |-- shipping_limit_date: string (nullable = true)
 |-- price: string (nullable = true)
 |-- freight_value: string (nullable = true)



Para essa tabela, teremos que alterar o tipo de três colunas:
``shipping_limit_date``, ``price`` e ``freight_value``. Com as mesmas colunas 
também será possível realizar uma boa criação de novas features.

## Salvando os dados

In [7]:
# Criando a engine de um banco MySql
engine = create_engine('mysql+pymysql://root:123456@localhost:3306')