<a href="https://colab.research.google.com/github/vf-fontes/intro-cd/blob/master/20200930_Olist.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# OLIST E-COMMERCE
Autor: Vinicius Fontes

OBJETIVO:  Realizar análise descritiva de um conjunto de Datasets do Marketplace OLIST. Aprtir desta análises verificar possibilidade de utilização de algoritmos de Machine Learning para conclusões preditivas.

*   Dataset Original: *https://www.kaggle.com/olistbr/brazilian-ecommerce*

Lista de Datasets:
*  olist_orders_dataset: Informações sobre as compras realizadas => **[DATASET PRINCIPAL]**
* olist_customers_dataset: Informações sobre os clientes bem como sua localização
* olist_geolocation_dataset: Códigos postais das cidades brasileiras e suas geolocalizações
* olist_order_items_dataset: Informações sobre produtos comprados em cada compra
* olist_order_payments_dataset: Informações sobre formas de pagamentos
* olist_order_reviews_dataset: Avaliações realizadas pelos clientes
* olist_products_dataset: Informação sobre os produtos à venda
* olist_sellers_dataset: Informações sobre o vendedor
* product_category_name_translation: Nomes dos produtos em lingua inglesa


# Instalando Bilbiotecas

In [None]:
#!pip install gitly
#!pip install fuzzywuzzy
#!pip install pyufbr
!pip install unidecode

Collecting unidecode
[?25l  Downloading https://files.pythonhosted.org/packages/d0/42/d9edfed04228bacea2d824904cae367ee9efd05e6cce7ceaaedd0b0ad964/Unidecode-1.1.1-py2.py3-none-any.whl (238kB)
[K     |█▍                              | 10kB 17.5MB/s eta 0:00:01[K     |██▊                             | 20kB 1.5MB/s eta 0:00:01[K     |████▏                           | 30kB 2.1MB/s eta 0:00:01[K     |█████▌                          | 40kB 2.5MB/s eta 0:00:01[K     |██████▉                         | 51kB 1.8MB/s eta 0:00:01[K     |████████▎                       | 61kB 2.0MB/s eta 0:00:01[K     |█████████▋                      | 71kB 2.3MB/s eta 0:00:01[K     |███████████                     | 81kB 2.5MB/s eta 0:00:01[K     |████████████▍                   | 92kB 2.7MB/s eta 0:00:01[K     |█████████████▊                  | 102kB 2.6MB/s eta 0:00:01[K     |███████████████▏                | 112kB 2.6MB/s eta 0:00:01[K     |████████████████▌               | 122kB 2.6MB/

# Importando Bibliotecas

In [None]:
# Bibliotecas de Métodos Necessários
import pandas as pd
import numpy as np
from gitly.colab.plot import GitlyPlotter
import plotly.express as px
from pyUFbr.baseuf import ufbr
from unidecode import unidecode

# Importando Datasets

In [None]:
df_clientes = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_customers_dataset.csv')
df_geo = pd.read_csv('//content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_geolocation_dataset.csv', encoding='utf8')
df_compra_itens = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_order_items_dataset.csv')
df_compra_pagamentos = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_order_payments_dataset.csv')
df_reviews = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_order_reviews_dataset.csv')
df_compras = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_orders_dataset.csv')
df_produtos = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_products_dataset.csv')
df_vendedores = pd.read_csv('/content/drive/My Drive/MBA/MÓDULO - FUNDAMENTOS/TIAGO [Introdução a Ciência de Dados]/Datasets/olist_sellers_dataset.csv')

# Explorando Dataset de Clientes (Customers)

## Pré-processamento

### Verificando existência de valores nulos

In [None]:
# Verificando existência de valores nulos
df_clientes.isnull().sum()

customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64

## Conhecendo o Dataset

In [None]:
# Conhecendo o Dataset
df_clientes.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [None]:
# Quais cidades tem no meu dataset
customerCity = df_clientes.customer_city.unique()
print('Cidades únicas encontradas no dataset: ', np.sort(customerCity))

Cidades únicas encontradas no dataset:  ['abadia dos dourados' 'abadiania' 'abaete' ... 'zacarias' 'ze doca'
 'zortea']


In [None]:
# Quantidade de cidades únicas
print('Quantidade de cidades Únicas: ',len(customerCity))

Quantidade de cidades Únicas:  4119


In [None]:
# Porcentagem de cidades brasileiras já atendidas pela OLIST
print('Porcentagem de cidades brasileiras já atendidas pela OLIST: %.2f%%'%(len(customerCity)*100/5570))

Porcentagem de cidades brasileiras já atendidas pela OLIST: 73.95%


Oportunidade de divulgação em %26,05 das cidades brasileiras, que equivale 1.450 cidades

In [None]:
# Quais cidades brasileiras não foram contempladas
cities_estate = []
for i in customerEstate:
  cities_estate.append(ufbr.list_cidades(i))
cities_estate

[['ADAMANTINA',
  'ADOLFO',
  'AGUAÍ',
  'ÁGUAS DA PRATA',
  'ÁGUAS DE LINDÓIA',
  'ÁGUAS DE SANTA BÁRBARA',
  'ÁGUAS DE SÃO PEDRO',
  'AGUDOS',
  'ALAMBARI',
  'ALFREDO MARCONDES',
  'ALTAIR',
  'ALTINÓPOLIS',
  'ALTO ALEGRE',
  'ALUMÍNIO',
  'ÁLVARES FLORENCE',
  'ÁLVARES MACHADO',
  'ÁLVARO DE CARVALHO',
  'ALVINLÂNDIA',
  'AMERICANA',
  'AMÉRICO BRASILIENSE',
  'AMÉRICO DE CAMPOS',
  'AMPARO',
  'ANALÂNDIA',
  'ANDRADINA',
  'ANGATUBA',
  'ANHEMBI',
  'ANHUMAS',
  'APARECIDA',
  "APARECIDA D'OESTE",
  'APIAÍ',
  'ARAÇARIGUAMA',
  'ARAÇATUBA',
  'ARAÇOIABA DA SERRA',
  'ARAMINA',
  'ARANDU',
  'ARAPEÍ',
  'ARARAQUARA',
  'ARARAS',
  'ARCO-ÍRIS',
  'AREALVA',
  'AREIAS',
  'AREIÓPOLIS',
  'ARIRANHA',
  'ARTUR NOGUEIRA',
  'ARUJÁ',
  'ASPÁSIA',
  'ASSIS',
  'ATIBAIA',
  'AURIFLAMA',
  'AVAÍ',
  'AVANHANDAVA',
  'AVARÉ',
  'BADY BASSITT',
  'BALBINOS',
  'BÁLSAMO',
  'BANANAL',
  'BARÃO DE ANTONINA',
  'BARBOSA',
  'BARIRI',
  'BARRA BONITA',
  'BARRA DO CHAPÉU',
  'BARRA DO TURVO',
  

In [None]:
cities = []
for i in customerEstate:
  n +=1
  for a in cities_estate[][:]:
    m +=1
    cities.append(cities_estate[n][m])
cities

TypeError: ignored

In [None]:
# Quais estados tem no meu dataset
customerEstate = df_clientes.customer_state.unique()
print('Estados únicos encontradas no dataset: ', np.sort(customerEstate))

Estados únicos encontradas no dataset:  ['AC' 'AL' 'AM' 'AP' 'BA' 'CE' 'DF' 'ES' 'GO' 'MA' 'MG' 'MS' 'MT' 'PA'
 'PB' 'PE' 'PI' 'PR' 'RJ' 'RN' 'RO' 'RR' 'RS' 'SC' 'SE' 'SP' 'TO']


In [None]:
# Quantidade de estados únicos
print('Quantidade de estados Únicos: ',len(customerEstate))

Quantidade de estados Únicos:  27


In [None]:
# Quantidade de clientes
print('Quantidade de clientes que já realizaram compras pela OLIST: ', len(df_clientes.customer_unique_id.unique()))

Quantidade de clientes que já realizaram compras pela OLIST:  96096


In [None]:
df_clientes.groupby(by='customer_city').count().sort_values(by='customer_id', ascending=False)

In [None]:
df_temp = df_clientes.groupby( by = 'customer_unique_id' ).count()
df_temp.sort_values(by='customer_id', ascending=False)

In [None]:
df_clientes.groupby( by = 'customer_unique_id' ).count()['customer_id'] > 2

In [None]:
df_group = df_clientes.groupby( by = 'customer_unique_id' ).count()
df_group[ (df_group['customer_id'] >= 4) ]

In [None]:
df_clientes.customer_city.value_counts().head(7).reset_index()

In [None]:



gitly = GitlyPlotter(renderer='colab') #renderer='github' permite que os gráficos dinâmicos fiquem estaticos para aparecerem no notebook  do github
data = df_clientes.customer_city.value_counts().head(7).reset_index()
fig = px.bar(data,x='index', y='customer_city')
gitly.show(fig)