# EXAMPLE:  PHÂN TÍCH  DỮ LIỆU BICYCLE COUNT
---

<img src='Pic/bicycle.png' width='500px'>

---
**Bài toán:**
* Người ta lắp đặt thiết bị để đếm số lượng xe đạp đi qua chiều phía đông và phía tây của cây cầu Fremont Bridge theo từng giờ.
* Chi tiết: https://data.seattle.gov/Transportation/Fremont-Bridge-Bicycle-Counter/65db-xm6k
----------------------
**Tập dữ liệu:**
* Tập dữ liệu là số lượng xe đạp đi qua cây cầu Fremont Bridge. Dữ liệu này được thu thập tự động thông qua các cảm biến ở 2 lối đi bộ ở phía đông và phía tây của cây cầu. Số lượng xe đạp được tổng hợp theo từng giờ.
* Tập dữ liệu bao gồm 4 cột:
    - Date: Thời gian (ngày - giờ): 10/03/2012 12:00:00 AM (Kiểu thời gian mm/dd/yyyy hh:mm:ss)
    - Fremont Bridge Total: Tổng số xe đi theo cả 2 lối đông và tây (Kiểu số nguyên)
    - Fremont Bridge East Sidewalk: Số xe đạp đi qua lối phía đông của cầu tương ứng với thời gian (Kiểu số nguyên)
    - Fremont Bridge West Sidewalk: Số xe đạp đi qua lối phía tây của cầu tương ứng với thời gian (Kiểu số nguyên)
-------------------------------
**Mục tiêu:**
1. Phân tích dữ liệu chuỗi thời gian (Time Series Data) sử dụng Pandas.
2. Kết hợp với các biểu đồ để tìm ra được những Insight ẩn chứa trong tập dữ liệu.


---
*Copyright: Đặng Văn Nam - FIT.HUMG  - AIAcademy @2021*

## 1) Đọc, quan sát và chuẩn hóa dữ liệu
---

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
#Đọc dữ liệu trong file csv
path='Data_Excercise\Data_Bicycle_Counter.csv'
df_bicycle=pd.read_csv(path)
df_bicycle.info()

In [None]:
df_bicycle.head(10)

In [None]:
#Kiểm tra dữ liệu missing
df_bicycle.isnull().sum()

In [None]:
#Liệt kê các thời điểm không có dữ liệu (Missing values)
df_bicycle[df_bicycle.isnull().any(axis=1)]

#hoặc
#df_bicycle[pd.isnull(df_bicycle['Total'])]

In [None]:
# Đổi lại tên các cột cho ngắn gọn
df_bicycle.columns = ['Date','Total', 'East', 'West']
df_bicycle

In [None]:
df_bicycle.info()

In [None]:
#Chuyển đổi dữ liệu cột Date về dạng chuỗi thời gian
df_bicycle['Date'] = pd.to_datetime(df_bicycle['Date'])
df_bicycle.sort_values(['Date'],inplace=True)
df_bicycle.reset_index(drop=True,inplace=True)
df_bicycle.info()

In [None]:
df_bicycle.head()

In [None]:
df_bicycle.tail()

In [None]:
#Thiết lập cột Date làm index cho DataFrame

df_bicycle.set_index('Date',inplace=True)
df_bicycle.head()

## 2) Khám phá tập dữ liệu
---
### A) Sử dụng các đặc trưng thống kê

In [None]:
#Sử dụng sum tính tổng lượt người đi xe đạp
df_bicycle.sum()

In [None]:
#Sử dụng describe để quan sát các thông số
df_bicycle.describe()

In [None]:
#Thống kê số lượng xe đạp qua cầu phía West
w = df_bicycle['Total'].value_counts()
print(w[:30])

In [None]:
#Trực quan hóa số liệu thống kê
plt.figure(figsize=(10,4)) 
plt.bar(w.index,w.values)
plt.grid(True)
plt.show()

In [None]:
#Thống kê số lượng xe đạp qua cầu phía West
e = df_bicycle['East'].value_counts()
print(e[:30])

In [None]:
#Trực quan hóa số liệu thống kê
plt.bar(e.index,e.values)

<img src='Pic/insight.png' width='200px' hight='300px' align='left'>

Phát hiện 1:
----
1. Số lượng người đi xe đạp bên cầu phía West (8 344 494) cao hơn cầu phía East (6 997 333)
2. Lượng người đi qua từng bên cầu cao nhất theo giờ 850 lượt, toàn bộ 1097 lượt
3. Lượng người đi xe đạp qua cầu chủ yếu nhỏ dưới 30 lượt

### B) Phương pháp Phân tích chuỗi thời gian
---

### 1) Thống kê tổng số lượng đi xe đạp theo năm để thấy xu hướng chung

In [None]:
df_bicycle.info()

In [None]:
df_bicycle.index

In [None]:
#Dữ liệu bắt đầu từ 3/10/2012 --> 31/08/2020 
#Tách dữ liệu chỉ lấy từ năm 2013 - 2019 cho đầy đủ dữ liệu
df_full_year = df_bicycle.loc['2013':'2020']
df_full_year.info()

In [None]:
#Tổng hợp số liệu chuỗi thời gian theo từng năm
#Tính tổng số lượt qua cầu theo năm
yearly = df_full_year.resample('Y').sum() #Tính tổng theo năm
yearly

In [None]:
#Trực quan hóa trên biểu đồ

yearly.plot(kind='line',style=[':*', '--o', '-s'], color=['red','green','blue'],figsize=(8,5))
plt.ylabel('Tổng số lượt qua cầu')
plt.xlabel('Năm')
plt.title('ĐỒ THỊ THỐNG KÊ SỐ LƯỢNG THEO NĂM')
plt.grid(True)

<img src='Pic/insight.png' width='300px' hight='300px' align='left'>

Phát hiện 2:Từ biểu đồ thống kê tổng số xe đạp qua cầu theo năm ta thấy:
---
* Số lượng người đi xe đạp qua cầu Fremont có xu hướng tăng lên theo từng năm, những năm 2018, 2019 tăng nhanh. Năm 2020 sụt giảm nghiêm trọng --> Bất thường: Dịch bệnh Covid 19 -->Hạn chế đi lại....
* Lượt xe đạp qua lối đi phía tây nhiều hơn lối đi phía đông, và cũng có xu hướng tăng nhanh trong những năng gần đây.

## 2) Thống kê số lượng người đi xe đạp theo tháng để thấy xu hướng mùa vụ
---

In [None]:
#Thống kê số lượng xe theo tháng qua phía Đông, Tây và Toàn bộ
data_month = df_bicycle.resample('M').sum() #Tính tổng lượt đi theo tháng
data_month.plot(style=['-', '-', '-'], color=['red','green','blue'],figsize=(8,5))
plt.ylabel('Số lượng xe đạp theo tháng');
plt.grid(True)
plt.show()


In [None]:
#Hiển thị chi tiết dữ liệu theo tháng của một năm cụ thể [2019].
data_2019 = df_bicycle.loc['2019',['Total']]
df_month_19 = data_2019.resample('M').sum() #Tính tổng theo tháng
df_month_19.plot(marker='o', markersize='10', color='red',figsize=(8,5))
plt.ylabel('Tổng số lượng xe theo từng tháng')
plt.title('THỐNG KÊ TỔNG SỐ LƯỢT XE ĐẠP THEO TỪNG THÁNG TRONG NĂM 2019',loc='center')
plt.grid(True)
plt.show()

<img src='Pic/insight.png' width='200px' hight='300px' align='left'>

Phát hiện 3: Từ biểu đồ thể hiện lượng xe đạp qua cầu theo tháng ta thấy:
---
* Dữ liệu chuỗi thời gian có tính thời vụ (seasonal)
* Mọi người đạp xe nhiều hơn vào các tháng mùa hè và ít hơn vào các tháng mùa đông (4 tháng có số lượng người đạp xe nhiều nhất:5, 6, 7 và 8)

--> **Dữ liệu chuỗi thời gian về lượng xe đạp qua cầu có tính xu hướng (tăng dần) và tính thời vụ (số lượng nhiều hơn vào các tháng mùa hè và ít hơn vào các tháng mùa đông)**

## 3) Thống kê lượng đi xe đạp theo giờ
---

In [None]:
#Tính trung bình lượng xe theo từng giờ qua cầu trong toàn bộ tập dữ liệu
by_time = df_bicycle.groupby(df_bicycle.index.time).mean()
by_time

In [None]:
#Trực quan hóa dữ liệu:
hourly_ticks = 2 * 60 * 60 * np.arange(12)
by_time.plot(xticks=hourly_ticks, style=[':*', '--s', '-o'],figsize=(12,5))
plt.grid()
plt.xlabel('Thời gian (h)')
plt.ylabel('Trung bình số xe qua cầu theo giờ')
plt.title('BIỂU ĐỒ THỂ HIỆN LƯỢNG XE TRUNG BÌNH QUA CẦU THEO TỪNG GIỜ',loc='center')
plt.show()

<img src='Pic/insight.png' width='200px' hight='300px' align='left'>

Phát hiện 4: Từ biểu đồ thể hiện lượng xe đạp qua cầu trung bình theo giờ ta thấy:
---
* Lượng người đi xe đạp qua cầu chủ yếu tập trung vào thời điểm 7,8,9h buổi sáng | 16, 17, 18h buổi chiều
* Lượng người đi nhiều nhất vào thời điểm 8(h) sáng - 17h chiều.
* Thời điểm buổi sáng lượng người đi qua cầu làn phía Đông (East) Lớn hơn làn phía Tây (Đi từ bên ngoài bào trung tâm thành phố Seattle) | Buổi chiều lượng người đi qua cầu làn phía Tây (West) lơn hơn (đi ra khỏi trung tâm thành phố). 

## 4) Thống kê lượng xe trung bình theo ngày trong tuần
---

In [None]:
#Nhóm dữ liệu theo ngày trong tuần và tính trung bình
df_weekday = df_bicycle.groupby(df_bicycle.index.dayofweek).mean()
#Đổi tên index theo ngày dễ quan sát
df_weekday.index = ['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']
df_weekday

In [None]:
#Trực quan hóa dữ liệu lên đồ thị
#stick =['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']
df_weekday.plot(style=[':*', '--s', '-o'],figsize=(10,5));
plt.grid()
plt.xlabel('Thứ trong tuần')
plt.ylabel('Trung bình theo ngày trong tuần')
plt.title('LƯỢNG XE TRUNG BÌNH QUA CẦU THEO TỪNG NGÀY TRONG TUẦN',loc='center')
plt.show()

In [None]:
#Thực hiện thống kê số lượng người đi xe đạp qua cầu
#Tách giữa ngày làm việc [thứ 2 - thứ 5] và ngày cuối tuần [thứ 7, CN]
df_weekend = np.where(df_bicycle.index.weekday < 5, 'Weekday', 'Weekend')
#Tính lượng người đi qua trung bình theo giờ giữa các ngày trong tuần và cuối tuần
df_by_time = df_bicycle.groupby([df_weekend, df_bicycle.index.time]).mean()
df_by_time

In [None]:
#Trực quan hóa dữ liệu
fig, ax = plt.subplots(1, 2, figsize=(14, 4))
df_by_time.loc['Weekday'].plot(ax=ax[0], title='Ngày làm việc[từ Thứ 2-6]',
                           xticks=hourly_ticks, style=[':*', '--s', '-o'], grid=True, rot=45)
df_by_time.loc['Weekend'].plot(ax=ax[1], title='Ngày cuối tuần [Thứ 7, CN]',
                           xticks=hourly_ticks, style=[':*', '--s', '-o'], grid=True,rot=45);

<img src='Pic/insight.png' width='200px' hight='300px' align='left'>

Phát hiện 5: Từ biểu đồ thể hiện lượng xe đạp qua cầu trung bình theo ngày trong tuần:
---
* Lượng người đi xe đạp qua cầu chủ yếu vào các ngày làm việc trong tuần [thứ 2 --> thứ 6]; Cuối tuần [Thứ 7, CN] lượng người đi qua cầu giảm đi đáng kể. Lượng người đi qua cầu ngày làm việc gấp đôi ngày cuối tuần.
* Vào các ngày làm việc trong tuần lượng người đi xe đạp qua cầu chủ yếu tập trung vào thời điểm 7,8,9h buổi sáng | 16, 17, 18h buổi chiều. Lượng người đi nhiều nhất vào thời điểm 8(h) sáng - 17h chiều.
* Vào các ngày cuối tuần, người đi xe đạp chủ yếu qua cầu trong thời gian từ 12-16h

<img src='Pic/action.jpg'>

## THỰC HÀNH SỐ 3
---
Dựa vào dữ liệu chuỗi thời gian quan trắc thông số nhiệt độ của Hà Giang và Cà Mau từ năm 2012 đến 2019 (Data_Temperature.csv), sử dụng các kỹ thuật để tìm ra những thông tin từ 2 bộ dữ liệu đó.