## PanadasEDA 이커머스

* 실제 이커머스 데이터 분석을 경험한다.
* EDA를 통한 데이터분석을 경험합니다.
* pandas/plotly 라이브러리를 활용해서 실제 데이터를 분석하는 전과정을 익혀본다.
* 이커머스 데이터를 경험하여 유사한 도메인을 만났을때 이해도를 높인다.

### 실제 데이터 분석과 도메인의 이해 
1. **데이터 분석을 통해 얻어야할 질문이 있어야 함**
2. **해당 도메인에 대한 깊은 이해가 있을 수록 더 깊은 분석/인사이트 도출 가능**
  - 데이터 분석뿐만 아니라, 데이터 예측도 해당 도메인을 가장 잘 이해하는 사람이 가장 잘 하게 되어 있음
  - 단순히 기술을 잘 사용할 수 있다고 잘 하는 것이 아님

### 이커머스(e-commerce) 데이터 분석
> 온라인 비즈니스 활성화로 온라인 상에서의 데이터 분석이 중요해짐<br>
> 온라인 비즈니스는 유사성을 가지고 잇고, 이 중 가장 활발한 분야가 이커머스(e-commerce)임 <br>
> 관련 도메인(업계) 데이터 분석을 통해 온라인 비즈니스 데이터에 대해서도 조금씩 익숙해질 수 있음

## 이커머스 데이터 분석
- 브라질에서 가장 큰 백화점의 이커머스 쇼핑몰 (https://olist.com/solucoes/distribuidoras-e-lojas-de-bebidas/)
  - 2016년도부터 2018년도 10만개 개의 구매 데이터 정보
  - 구매 상태, 가격, 지불수단, 물류 관련, 리뷰관련, 상품 정보, 구매자 지역 관련 정보

- 데이터셋 (dataset)
  - olist_customers_dataset.csv
  - olist_geolocation_dataset.csv
  - olist_order_items_dataset.csv
  - olist_order_payments_dataset.csv
  - olist_order_reviews_dataset.csv
  - olist_orders_dataset.csv
  - olist_sellers_dataset.csv
  - olist_products_dataset.csv

> 일반적으로 현업에서는 하이브(HIVE), MySQL(SQL), mongodb(NoSQL) 등 데이터를 저장/관리하는 데이터베이스에서 SQL 과 유사한 형태의 명령을 통해 데이터셋을 만드는 것이 일반적임  

<div class="alert alert-block" style="border: 1px solid #566573;background-color:#EAF2F8;">
<font size="3em" style="font-weight:bold;color:#3f8dbf;">탐색적 데이터 분석: 1. 데이터의 출처와 주제에 대해 이해</font><br>

### 전체 판매 프로세스
1. 해당 쇼핑몰에 중소업체가 계약을 맺고
2. 중소업체가 해당 쇼핑몰에 직접 상품을 올리고
3. 고객이 구매하면, 중소업체가 Olist가 제공하는 물류 파트너를 활용해서 배송을 하고,
4. 고객이 상품을 받으면, 고객에게 이메일 survey 가 전송되고,
5. 고객이 이메일 survey 에 별점과 커멘트를 남겨서 제출하게 됨
    
### 데이터 출처
- 브라질에서 가장 큰 백화점의 이커머스 쇼핑몰 (https://olist.com/)
  - 2016년도부터 2018년도 10만개의 구매 데이터 정보
  - 구매 상태, 가격, 지불수단, 물류 관련, 리뷰관련, 상품 정보, 구매자 지역 관련 정보

### 주요 질문(탐색하고자 하는 질문 리스트)  <-- 가장 중요함!!
- 얼마나 많은 고객이 있는가?
- 고객은 어디에 주로 사는가?
- 고객은 주로 어떤 지불방법을 사용하는가?
- 평균 거래액은 얼마일까?
- 일별, 주별, 월별 판매 트렌드는?
- 어떤 카테고리가 가장 많은 상품이 팔렸을까?
</div>

<div class="alert alert-block" style="border: 1px solid #566573;background-color:#EAF2F8;">
<font size="3em" style="font-weight:bold;color:#3f8dbf;">탐색적 데이터 분석: 2. 데이터의 크기 확인</font><br>
<font size="3em" style="font-weight:bold;color:#3f8dbf;">탐색적 데이터 분석: 3. 데이터 구성 요소(feature)의 속성(특징) 확인</font> 
<br>

- **수치형 데이터일 경우**에는 다음과 같이 EDA 5 수치 + 평균(mean) 확인  <br>
  - 최소값(minimum), 제1사분위수, 중간값(mediam)=제2사분위수, 제3사분위수, 최대값(maximum) + 평균(mean) 확인 <br>
  - 특잇값(outlier) 확인
  - 필요하면 boxplot 과 histogram 그려보기 


- **범주형 데이터일 경우**에는 각 수준별 갯수 세기<br>
  - 필요하면 절대 빈도(bar 그래프), 상대 빈도(원 그래프) 그려보기


- **시계열 데이터일 경우**에는 필요하면 line 또는 bar 그래프 그리기

- feature 간 상관관계 분석이 필요할 경우에는 heatmap 또는 scatter 그래프 그리기
</div>
</div>

> 시각화를 위해 데이터 조작이 필요하므로, 가볍게 각 데이터만 확인

### olist_products_dataset.csv

In [1]:
import pandas as pd

In [3]:
pro=pd.read_csv("olist_data/olist_products_dataset.csv")
pro.head()

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [4]:
pro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
product_id                    32951 non-null object
product_category_name         32341 non-null object
product_name_lenght           32341 non-null float64
product_description_lenght    32341 non-null float64
product_photos_qty            32341 non-null float64
product_weight_g              32949 non-null float64
product_length_cm             32949 non-null float64
product_height_cm             32949 non-null float64
product_width_cm              32949 non-null float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [10]:
pro["product_category_name"].value_counts()

cama_mesa_banho                                  3029
esporte_lazer                                    2867
moveis_decoracao                                 2657
beleza_saude                                     2444
utilidades_domesticas                            2335
automotivo                                       1900
informatica_acessorios                           1639
brinquedos                                       1411
relogios_presentes                               1329
telefonia                                        1134
bebes                                             919
perfumaria                                        868
fashion_bolsas_e_acessorios                       849
papelaria                                         849
cool_stuff                                        789
ferramentas_jardim                                753
pet_shop                                          719
eletronicos                                       517
construcao_ferramentas_const

### olist_customers_dataset.csv


In [6]:
cs= pd.read_csv("olist_data/olist_customers_dataset.csv")

In [8]:
cs.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [9]:
cs.customer_state.value_counts()

SP    41746
RJ    12852
MG    11635
RS     5466
PR     5045
SC     3637
BA     3380
DF     2140
ES     2033
GO     2020
PE     1652
CE     1336
PA      975
MT      907
MA      747
MS      715
PB      536
PI      495
RN      485
AL      413
SE      350
TO      280
RO      253
AM      148
AC       81
AP       68
RR       46
Name: customer_state, dtype: int64

# olist_geolocation_dataset.csv

In [15]:
geo= pd.read_csv("olist_data/olist_geolocation_dataset.csv")

In [16]:
geo.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


### olist_order_items_dataset.csv



In [18]:
item= pd.read_csv("olist_data/olist_order_items_dataset.csv")

In [19]:
item.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


### olist_order_payments_dataset.csv


In [20]:
pay= pd.read_csv("olist_data/olist_order_payments_dataset.csv")

In [21]:
pay.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


### olist_order_reviews_dataset.csv


In [22]:
review= pd.read_csv("olist_data/olist_order_reviews_dataset.csv")

In [23]:
review.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


In [27]:
review.describe()

Unnamed: 0,review_score
count,100000.0
mean,4.07089
std,1.359663
min,1.0
25%,4.0
50%,5.0
75%,5.0
max,5.0


### olist_orders_dataset.csv


In [25]:
order= pd.read_csv("olist_data/olist_orders_dataset.csv")

In [26]:
order.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [28]:
order.shape

(99441, 8)

### olist_sellers_dataset.csv


### product_category_name_translation.csv
