# Preparação

#### Bibliotecas

In [8]:
import os
import json
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#### Função para leitura dos .CSVs

In [9]:
def leitura_csvs(csv_names: dict ,pasta_csvs="dataset"):
    """Lê os CSVs do dataset Olist 2016-2018

    Retorna um dicionário de DataFrames."""
    dfs = {}  #dicionario onde serão guardados os dataframes
    #preenche o dicionario dos DFs, (usando as mesmas chaves)
    for key_name in csv_names.keys():
        dfs[key_name] = pd.read_csv(os.path.join(pasta_csvs, csv_names[key_name]))
    #retorno
    return dfs

#### Dicionario com os nomes dos .CSVs

In [10]:
csvs = {
  "orders": "olist_orders_dataset.csv",
  "items": "olist_order_items_dataset.csv",
  "payments": "olist_order_payments_dataset.csv",
  "reviews": "olist_order_reviews_dataset.csv",
  "customers": "olist_customers_dataset.csv",
  "geo": "olist_geolocation_dataset.csv",
  "products": "olist_products_dataset.csv",
  "sellers": "olist_sellers_dataset.csv",
  "translations": "product_category_name_translation.csv"
}

# Inicio

#### Leitura dos .CSVs

In [11]:
dfs = leitura_csvs(csvs)

## Perguntas

### Previsão de cancelamento de ordens
Objetivo: Identificar se pedidos provavelmente serão cancelados <small>*(TODO: considerar troca para "identificar a probabilidade de", via regressão)*</small>

In [12]:
#Dataframe a utilizar: 'orders'
df_orders = dfs['orders']

#### Target:
Uma variavel binária que representa a chance de cancelamento, originaria da variavel order_status

In [13]:
#Cria a variável binária
df_orders['is_canceled'] = (df_orders['order_status'] == 'canceled').astype(int)

#### Features:
+ tipo de produto <small>*(product_category_name)*</small>
+ tempo de entrega estimado <small>*(order_estimated_delivery_date - order_purchase_timestamp)*</small>
+ frete <small>*(freight_value)*</small>
+ forma de pagamento <small>*(payment_type)*</small>
+ estado do cliente <small>*(customer_state)*</small>

In [14]:
# Features "Puras", que nao envolvem calculos com multiplas variaveis
features_supervisionado = [
    'product_category_name',
    'freight_value',
    'payment_type',
    'customer_state',
]

#features para o calculo do tempo de entrega
features_data_supervisionado = ['order_estimated_delivery_date','order_purchase_timestamp',]