### Download do conjunto de dados de varejo on-line: <br>
> https://archive.ics.uci.edu/ml/datasets/online+retail

### Informações do conjunto de dados: <br>
#### Este é um conjunto de dados transnacional que contém todas as transações ocorridas entre 12/01/2010 e 12/09/2011 para um varejo on-line sem loja registrado e baseado no Reino Unido. A empresa vende principalmente presentes exclusivos para todas as ocasiões. Muitos clientes da empresa são atacadistas.

### Fonte: <br>
#### Dr. Daqing Chen, Diretor: grupo de análise pública. chend '@' lsbu.ac.uk , Escola de Engenharia, Londres South Bank University, Londres SE1 0AA, Reino Unido.

### Solicitação de Citação:<br>
#### Daqing Chen, Sai Liang Sain e Kun Guo, Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining, Journal of Database Marketing and Customer Strategy Management, vol. 19, No. 3, pp. 197–208, 2012 (Publicado online antes da impressão: 27 de agosto de 2012. doi: 10.1057/dbm.2012.17).

In [1]:
#Importando a Biblioteca Pandas

import pandas as pd

In [2]:
# Atribuindo o arquivo a uma variável para iniciar a análise

dados = pd.read_excel('Varejo Online.xlsx') # Entre parenteses, informar o caminho do arquivo.
dados

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France


In [3]:
# Buscando propriedades do dataset

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


In [4]:
# Renomeando o nome das colunas

dados = dados.rename(columns =
{
    'InvoiceNo' : 'Numero_Fatura',
    'StockCode' : 'Codigo_estoque',
    'Description' : 'Descricao_produto',
    'Quantity' : 'Quantidade',
    'InvoiceDate' : 'Data_Fatura',
    'UnitPrice': 'Preco_unitario',
    'CustomerID': 'Cliente_ID',
    'Country': 'País'
})
display(dados.head())

Unnamed: 0,Numero_Fatura,Codigo_estoque,Descricao_produto,Quantidade,Data_Fatura,Preco_unitario,Cliente_ID,País
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [5]:
# Inserindo uma coluna de total

dados['Total'] = (dados["Quantidade"] * dados["Preco_unitario"])
dados.head()

Unnamed: 0,Numero_Fatura,Codigo_estoque,Descricao_produto,Quantidade,Data_Fatura,Preco_unitario,Cliente_ID,País,Total
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [6]:
df = dados.groupby('País')["Total"].sum()
display(df)

País
Australia                137077.270
Austria                   10154.320
Bahrain                     548.400
Belgium                   40910.960
Brazil                     1143.600
Canada                     3666.380
Channel Islands           20086.290
Cyprus                    12946.290
Czech Republic              707.720
Denmark                   18768.140
EIRE                     263276.820
European Community         1291.750
Finland                   22326.740
France                   197403.900
Germany                  221698.210
Greece                     4710.520
Hong Kong                 10117.040
Iceland                    4310.000
Israel                     7907.820
Italy                     16890.510
Japan                     35340.620
Lebanon                    1693.880
Lithuania                  1661.060
Malta                      2505.470
Netherlands              284661.540
Norway                    35163.460
Poland                     7213.140
Portugal               

In [8]:
# Total de países que a empresa atuou: 38 países.
paises = dados.País.unique() 
paises_distintos = len(paises)
paises_distintos

38

In [9]:
# Faturamento Total - 2 maneiras distintas de extrair o faturamento total.
df = (dados.groupby('Numero_Fatura')["Total"].sum()).sum()
display(df)

9747747.934

In [14]:
faturamento = (dados["Quantidade"] * dados["Preco_unitario"]).sum()
print(f'{faturamento:.2f}')

9747747.93
