In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import pyodbc



In [6]:
cnxn_str = ('DRIVER={SQL Server};'
            'SERVER=DESKTOP-EUDP8MN\KUROMINE;'
            'DATABASE=pj1;'
            'UID=sa;'
            'PWD=19122002')
cnxn = pyodbc.connect(cnxn_str)

In [7]:
train_df = pd.read_sql("select * from train", cnxn)
train_df.head()

Unnamed: 0,id,date,store_nbr,family,sales,onpromotion
0,0,2013-01-01,1,AUTOMOTIVE,0.0,0
1,1,2013-01-01,1,BABY CARE,0.0,0
2,2,2013-01-01,1,BEAUTY,0.0,0
3,3,2013-01-01,1,BEVERAGES,0.0,0
4,4,2013-01-01,1,BOOKS,0.0,0


In [8]:
oil_df=pd.read_sql("select * from oil", cnxn)
oil_df.head()

Unnamed: 0,date,dcoilwtico
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.2


In [9]:
stores_df=pd.read_sql('select * from stores', cnxn)
stores_df.head()

Unnamed: 0,store_nbr,city,state,type,cluster
0,1,Quito,Pichincha,D,13
1,2,Quito,Pichincha,D,13
2,3,Quito,Pichincha,D,8
3,4,Quito,Pichincha,D,9
4,5,Santo Domingo,Santo Domingo de los Tsachilas,D,4


In [10]:
holidays_events_df=pd.read_sql('select * from holidays_events', cnxn)
holidays_events_df.head()

Unnamed: 0,date,type,locale,locale_name,description,transferred
0,2012-03-02,Holiday,Local,Manta,Fundacion de Manta,False
1,2012-04-01,Holiday,Regional,Cotopaxi,Provincializacion de Cotopaxi,False
2,2012-04-12,Holiday,Local,Cuenca,Fundacion de Cuenca,False
3,2012-04-14,Holiday,Local,Libertad,Cantonizacion de Libertad,False
4,2012-04-21,Holiday,Local,Riobamba,Cantonizacion de Riobamba,False


In [11]:
transactions_df=pd.read_sql('select * from transactions', cnxn)
transactions_df.head()

Unnamed: 0,date,store_nbr,transactions
0,2013-01-01,25,770
1,2013-01-02,1,2111
2,2013-01-02,2,2358
3,2013-01-02,3,3487
4,2013-01-02,4,1922


### Kiểm tra dữ liệu lặp

In [12]:
def check_duplicated(dataframe):
    duplicated_rows = dataframe.duplicated()

    # In các hàng bị lặp lại
    if len(dataframe[duplicated_rows])>0:
        print('Có dòng dữ liệu bị lặp')
        display(dataframe[duplicated_rows])
    else:
        print('Không có dòng dữ liệu nào bị lặp')

In [13]:
check_duplicated(train_df)

Không có dòng dữ liệu nào bị lặp


In [14]:
check_duplicated(oil_df)

Không có dòng dữ liệu nào bị lặp


In [15]:
check_duplicated(stores_df)

Không có dòng dữ liệu nào bị lặp


In [16]:
check_duplicated(holidays_events_df)

Không có dòng dữ liệu nào bị lặp


In [17]:
check_duplicated(transactions_df)

Không có dòng dữ liệu nào bị lặp


### <font color=#529603> Mỗi cột có ý nghĩa gì? </font>

- train_df

|<center>STT</center>|<center>Tên cột dữ liệu</center> | <center>Mô tả</center> |
|--|:------:| ---|
|1|id|<center>Định danh của sản phẩm<center>|
|2|date| <center>Ngày<center>|
|3|store_nbr|<center>Định danh cửa hàng<center>|
|4|family| <center>Họ sản phẩm<center>||
|5|sales|<center>Doanh số<center>|
|6|onpromotion|<center>Được quảng bá?<center>|


- oil_df

|<center>STT</center>|<center>Tên cột dữ liệu</center> | <center>Mô tả</center> |
|--|:------:| ---|
|1|date|<center>Ngày<center>|
|2|dcoilwtico| <center>Giá dầu<center>|


- stores_df

|<center>STT</center>|<center>Tên cột dữ liệu</center> | <center>Mô tả</center> |
|--|:------:| ---|
|1|store_nbr|<center>Định danh của cửa hàng<center>|
|2|city| <center>Thành phố<center>|
|3|state| <center>Bang<center>|
|4|type|<center>Loại cửa hàng<center>|
|5|cluster| <center>Nhóm cửa hàng<center>|



- holidays_events_df

|<center>STT</center>|<center>Tên cột dữ liệu</center> | <center>Mô tả</center> |
|--|:------:| ---|
|1|date|<center>Ngày<center>|
|2|type| <center>Loại ngày<center>|
|3|locale| <center>Loại địa phương<center>|
|4|locale_name|<center>Tên địa phương<center>|
|5|description| <center>Mô tả về ngày<center>|
|5|transferred| <center>Có đổi ngày sự kiện không?<center>|


- transactions_df

|<center>STT</center>|<center>Tên cột dữ liệu</center> | <center>Mô tả</center> |
|--|:------:| ---|
|1|date|<center>Ngày<center>|
|2|store_nbr| <center>Định danh cửa hàng<center>|
|3|transactions| <center>Số lượng giao dịch<center>|


### <font color=#529603> Mỗi cột có kiểu dữ liệu gì? </font>


In [18]:
train_df.dtypes

id               int64
date            object
store_nbr        int64
family          object
sales          float64
onpromotion      int64
dtype: object

In [19]:
oil_df.dtypes

date           object
dcoilwtico    float64
dtype: object

In [20]:
stores_df.dtypes

store_nbr     int64
city         object
state        object
type         object
cluster       int64
dtype: object

In [21]:
holidays_events_df.dtypes

date           object
type           object
locale         object
locale_name    object
description    object
transferred    object
dtype: object

In [22]:
transactions_df.dtypes

date            object
store_nbr        int64
transactions     int64
dtype: object

### <font color=#529603> Với mỗi cột, các giá trị được phân bố như thế nào? </font>


Với các cột dữ liệu dạng số ta sẽ tính % dữ liệu thiếu, min, max. Kết quả được lưu vào DataFrame `nume_col_profiles_df` với:
- `missing_ratio`: % dữ liệu thiếu.
- `min`: giá trị nhỏ nhất.
- `max`: giá trị lớn nhất.

In [23]:
def missing_ratio(c):
    return  c.isna().sum()/len(c) * 100

def min(c):
    return c.min()

def max(c):
    return c.max()

In [24]:
numerical_cols = train_df[train_df.select_dtypes(exclude=['object']).columns]
nume_col_train_df = numerical_cols.agg([missing_ratio, min, max])
nume_col_train_df

Unnamed: 0,id,store_nbr,sales,onpromotion
missing_ratio,0.0,0.0,0.0,0.0
min,0.0,1.0,0.0,0.0
max,3000887.0,54.0,124717.0,741.0


In [25]:
numerical_cols = oil_df[oil_df.select_dtypes(exclude=['object']).columns]
nume_col_oil_df = numerical_cols.agg([missing_ratio, min, max])
nume_col_oil_df

Unnamed: 0,dcoilwtico
missing_ratio,3.530378
min,26.19
max,110.62


In [26]:
numerical_cols = stores_df[stores_df.select_dtypes(exclude=['object']).columns]
nume_col_stores_df = numerical_cols.agg([missing_ratio, min, max])
nume_col_stores_df

Unnamed: 0,store_nbr,cluster
missing_ratio,0.0,0.0
min,1.0,1.0
max,54.0,17.0


Với các cột categorical, ta tính tỉ lệ % dữ liệu thiếu, số lượng giá trị khác nhau, phân bố của các giá trị khác nhau. Kết quả được lưu vào DataFrame `cate_col_profiles_df` với:
- `missing_ratio`: % dữ liệu thiếu
- `num_diff_vals`: số lượng giá trị khác |nhau <em>(không xét giá trị thiếu)</em>
- `ratio_diff_vals`: phân bố của các giá trị khác nhau <em>(không xét giá trị thiếu)</em>.

In [27]:
numerical_cols = transactions_df[transactions_df.select_dtypes(exclude=['object']).columns]
nume_col_transactions_df = numerical_cols.agg([missing_ratio, min, max])
nume_col_transactions_df

Unnamed: 0,store_nbr,transactions
missing_ratio,0.0,0.0
min,1.0,5.0
max,54.0,8359.0


In [28]:
def num_diff_vals(col):
    return len(col.value_counts())

def ratio_diff_vals(col):
    return np.round(col.value_counts(normalize=True),2).to_dict()

In [29]:
object_cols = train_df[train_df.select_dtypes(include=['object']).columns]
cate_col_train_df=object_cols.agg([missing_ratio,num_diff_vals,ratio_diff_vals])
cate_col_train_df

Unnamed: 0,date,family
missing_ratio,0.0,0.0
num_diff_vals,1684,33
ratio_diff_vals,"{'2013-01-01': 0.0, '2016-01-15': 0.0, '2016-0...","{'AUTOMOTIVE ': 0.03, 'HOME..."


In [30]:
object_cols = oil_df[oil_df.select_dtypes(include=['object']).columns]
cate_col_oil_df=object_cols.agg([missing_ratio,num_diff_vals,ratio_diff_vals])
cate_col_oil_df

Unnamed: 0,date
missing_ratio,0.0
num_diff_vals,1218
ratio_diff_vals,"{'2013-01-01': 0.0, '2016-02-08': 0.0, '2016-0..."


In [31]:
object_cols = stores_df[stores_df.select_dtypes(include=['object']).columns]
cate_col_stores_df=object_cols.agg([missing_ratio,num_diff_vals,ratio_diff_vals])
cate_col_stores_df

Unnamed: 0,city,state,type
missing_ratio,0.0,0.0,0.0
num_diff_vals,22,16,5
ratio_diff_vals,"{'Quito ': 0.33, 'Guay...","{'Pichincha ': 0.35, 'Guay...","{'D ': 0.33, 'C ..."


In [32]:
object_cols = holidays_events_df[holidays_events_df.select_dtypes(include=['object']).columns]
cate_col_holidays_events_df=object_cols.agg([missing_ratio,num_diff_vals,ratio_diff_vals])
cate_col_holidays_events_df

Unnamed: 0,date,type,locale,locale_name,description,transferred
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0
num_diff_vals,312,6,3,24,103,2
ratio_diff_vals,"{'2014-06-25': 0.01, '2017-06-25': 0.01, '2016...","{'Holiday ': 0.63, 'Event ...","{'National ': 0.5, 'Local...","{'Ecuador ': 0.5, 'Quito...",{'Carnaval ': 0...,"{'False ': 0.97, 'True ': 0.03}"


In [33]:
object_cols = transactions_df[transactions_df.select_dtypes(include=['object']).columns]
cate_col_transactions_df=object_cols.agg([missing_ratio,num_diff_vals,ratio_diff_vals])
cate_col_transactions_df

Unnamed: 0,date
missing_ratio,0.0
num_diff_vals,1682
ratio_diff_vals,"{'2017-08-15': 0.0, '2017-06-02': 0.0, '2017-0..."


### <font color=#529603> Tiền xử lý</font>

Tiến hành chỉnh kiểu dữ liệu cho những dữ liệu có kiểu `object`.

In [34]:
train_df.date=pd.to_datetime(train_df.date)
train_df.family=train_df.family.astype('string')
train_df.dtypes

id                      int64
date           datetime64[ns]
store_nbr               int64
family                 string
sales                 float64
onpromotion             int64
dtype: object

In [35]:
oil_df.date=pd.to_datetime(oil_df.date)
oil_df.dtypes

date          datetime64[ns]
dcoilwtico           float64
dtype: object

In [36]:
stores_df.city=stores_df.city.astype('string')
stores_df.state=stores_df.state.astype('string')
stores_df.type=stores_df.type.astype('string')
stores_df.dtypes

store_nbr     int64
city         string
state        string
type         string
cluster       int64
dtype: object

In [37]:
holidays_events_df.type=holidays_events_df.type.astype('string')
holidays_events_df.transferred=holidays_events_df.transferred.astype(bool)
holidays_events_df.dtypes

date           object
type           string
locale         object
locale_name    object
description    object
transferred      bool
dtype: object

In [38]:
transactions_df.date=pd.to_datetime(transactions_df.date)
transactions_df.dtypes

date            datetime64[ns]
store_nbr                int64
transactions             int64
dtype: object

Xử lý dữ liệu thiếu

Tiến hành trực quan cột dữ liệu thiếu bằng histogram để xem dữ liệu có lệch nhiều không để tiến hành điền dữ liệu thiếu.

In [39]:
fig = px.histogram(oil_df, x="dcoilwtico")
fig.show()

> Dữ liệu lệch và không phân phối đều nên điền dữ liệu thiếu bằng trung vị để giảm thiểu độ lệch.

In [40]:
oil_df.dcoilwtico.fillna(np.median(oil_df.dcoilwtico[~np.isnan(oil_df.dcoilwtico)]),inplace = True)

Xuất các file đã chỉnh sửa để trực quan

In [42]:
train_df.to_csv('Visualization/train.csv')
oil_df.to_csv('Visualization/oil.csv')
holidays_events_df.to_csv('Visualization/holidays_events.csv')
stores_df.to_csv('Visualization/stores_df.csv')
transactions_df.to_csv('Visualization/transactions.csv')


>Tiếp theo ta sẽ tiến hành trực quan bằng `Tableau`.