## 1. Import

In [76]:
import numpy as np 
import pandas as pd
import matplotlib as plt
import datetime as dt
import collections

## 2. Tiền xử lý dữ liệu

### Đọc dữ liệu thô từ file trong folder ./data/

In [77]:
gas_df = pd.read_csv("Data/heating-gas-consumption-and-cost-2010-feb-2022-1.csv")
gas_df

Unnamed: 0,Development Name,Borough,Account Name,Location,Meter AMR,Meter Scope,TDS #,EDP,RC Code,Funding Source,...,Service End Date,# days,Meter Number,Estimated,Current Charges,Rate Class,Bill Analyzed,Consumption (Therms),ES Commodity,Underlying Utility
0,BETANCES I,BRONX,BETANCES I,,NONE,,211.0,326,B021100,FEDERAL,...,01/31/2010,53.0,2545269,N,0.00,,Yes,0.00,UTILITY GAS,ConEd
1,ADAMS,BRONX,ADAMS,BLD 04,NONE,BLD 1-7,118.0,248,B011800,FEDERAL,...,01/26/2010,33.0,3299599,N,78292.97,Trans Res MultiDwell Heat Dual,Yes,136632.00,UTILITY GAS,ConEd
2,ADAMS,BRONX,ADAMS,BLD 04,Not Applicable,,118.0,248,B011800,FEDERAL,...,01/26/2010,32.0,3.95416E+14,N,133779.54,,Yes,136632.00,BROKERED GAS,ConEd
3,ALBANY/ALBANY II,BROOKLYN,ALBANY/ALBANY II,ALBANY BLD 04,AMR,BLD 1-6,31.0,524,K003100,FEDERAL,...,01/28/2010,30.0,08372362-66.8%,N,44335.21,T3 Tran Mult Fam,Yes,153899.18,UTILITY GAS,NatGrid NYC
4,ALBANY/ALBANY II,BROOKLYN,ALBANY/ALBANY II,ALBANY BLD 04,AMR,BLD 7-9,85.0,524,K008500,FEDERAL,...,01/28/2010,30.0,08372362-33.2%,N,22034.86,T3 Tran Mult Fam,Yes,76488.82,UTILITY GAS,NatGrid NYC
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
214630,WYCKOFF GARDENS,BROOKLYN,WYCKOFF GARDENS,BLD 03,Not Applicable,,163.0,272,K016300,FEDERAL,...,05/25/2021,27.0,178911501,N,20283.93,,Yes,48561.00,BROKERED GAS,NatGrid NYC
214631,WYCKOFF GARDENS,BROOKLYN,WYCKOFF GARDENS,BLD 03,Not Applicable,,163.0,272,K016300,FEDERAL,...,06/25/2021,30.0,178911501,N,1509.99,,Yes,3615.00,BROKERED GAS,NatGrid NYC
214632,WYCKOFF GARDENS,BROOKLYN,WYCKOFF GARDENS,BLD 03,Not Applicable,,163.0,272,K016300,FEDERAL,...,07/27/2021,31.0,178911501,,0.00,,Yes,0.00,BROKERED GAS,NatGrid NYC
214633,WYCKOFF GARDENS,BROOKLYN,WYCKOFF GARDENS,BLD 03,Not Applicable,,163.0,272,K016300,FEDERAL,...,01/06/2022,162.0,178911501,N,184610.42,,Yes,435135.10,BROKERED GAS,NatGrid NYC


### Dữ liệu thô có bao nhiêu hàng và bao nhiêu cột?

In [78]:
shape = gas_df.shape
print("Số dòng:", gas_df.shape[0])
print("Số cột:", gas_df.shape[1])
if shape[0] > 1000:
    print(f"Your data good!.")
else:
    print(f"Your raw data absolutely small. Please choose larger year interval.!")

Số dòng: 214635
Số cột: 25
Your data good!.


### Mỗi hàng có ý nghĩa gì? Có vấn đề gì nếu các hàng có ý nghĩa khác nhau?

- Mỗi hàng đại diện cho một bản ghi dữ liệu riêng biệt. Các bản ghi này chứa thông tin về một đối tượng hoặc thực thể cụ thể, được xác định bởi các giá trị trong các cột tương ứng: 'Development Name', 'Borough', ...

- Có các hàng có ý nghĩa khác nhau trong một dataframe phụ thuộc vào mục đích sử dụng của nó. Ví dụ, trong một khung dữ liệu chứa thông tin về quốc gia, có thể có các hàng đại diện cho các nhà cung cấp, nhà sản xuất khí gas, mức độ tiêu thụ khí gas và tổng tiền phải thanh toán, ... Trong trường hợp này, các hàng sẽ có ý nghĩa khác nhau, vì các thông tin được lưu trữ cho các nhà cung cấp, nhà sản xuất khí gas, mức độ tiêu thụ khí gas và tổng tiền phải thanh toán,... sẽ khác nhau.

### Dữ liệu thô có hàng trùng lặp không?

Tính số hàng có trùng lặp toàn bộ thông tin và lưu nó vào biến `num_duplicate_rows`

In [79]:
num_duplicated_rows = gas_df.duplicated().sum()
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Your raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

Your raw data have 19674 duplicated lines. Please de-deduplicate your raw data.!


In [80]:
# De-deduplicate raw data
# (Optional)
gas_df = gas_df.drop_duplicates()
# RETEST
num_duplicated_rows = gas_df.duplicated().sum()
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")

Your raw data have no duplicated line.!


### Mỗi cột có ý nghĩa gì?

In [81]:
print(gas_df.columns)

Index(['Development Name', 'Borough', 'Account Name', 'Location', 'Meter AMR',
       'Meter Scope', 'TDS #', 'EDP', 'RC Code', 'Funding Source', 'AMP #',
       'Vendor Name', 'UMIS BILL ID', 'Revenue Month', 'Service Start Date',
       'Service End Date', '# days', 'Meter Number', 'Estimated',
       'Current Charges', 'Rate Class', 'Bill Analyzed',
       'Consumption (Therms)', 'ES Commodity', 'Underlying Utility'],
      dtype='object')


**Ý nghĩa các cột dữ liệu:**
- `Development Name`: nhà phát triển gas tiêu dùng
- `Borough`: đơn vị hành chính của một thành phố lớn (quận, thị xã, thành phố trực thuộc)
- `Account Name`: nhà phát triển gas tiêu dùng
- `Location`: vị trí địa lý của người dùng
- `Meter AMR`: người dùng có lắp đặt công nghệ cho phép tự động đọc chỉ số đồng hồ đo khí gas từ xa hay không
- `Meter Scope`: công cụ được sử dụng để kiểm tra, hiệu chuẩn và sửa chữa đồng hồ đo khí gas
- `TDS #`: tổng lượng chất rắn hòa tan trong khí gas
- `EDP`: hệ thống phát hiện và ngăn chặn sự cố khí gas
- `RC Code`: mã quy định về an toàn sử dụng khí gas.
- `Funding Source`: nguồn tài trợ cho các dự án khí gas tiêu dùng
- `AMP #`: mã người tiêu dùng có dùng công nghệ cho phép tự động đọc chỉ số đồng hồ đo khí gas từ xa
- `Vendor Name`:  đơn vị cung cấp gas cho các hộ gia đình và doanh nghiệp.
- `UMIS BILL ID`: mã hóa đơn thanh toán 
- `Revenue Month`: tháng thanh toán
- `Service Start Date`: ngày bắt đầu dùng khí gas tương ứng với 1 hóa đơn
- `Service End Date`: ngày kết thúc dùng khí gas tương ứng với 1 hóa đơn
- `# days`: số ngày tiêu dùng gas của mỗi hóa đơn
- `Meter Number`: tổng số tiêu dùng gas của mỗi hóa đơn
- `Estimated`: ước lượng hay không?
- `Current Charges`: chi phí gas hiện tại mà khách hàng phải thanh toán
- `Rate Class`: phân loại khách hàng dựa trên nhu cầu sử dụng gas
- `Bill Analyzed`: được xác nhận đã thanh toán hóa đơn
- `Consumption (Therms)`: lượng gas tiêu thụ được tính bằng đơn vị therm
- `ES Commodity`: nôm na là NYCHA mua khí đốt môi giới từ thị trường Năng lượng và vẫn được công ty điện lực lập hóa đơn. Mỗi tháng, một tài khoản sẽ có hóa đơn gas môi giới (BROKERED GAS) và hóa đơn gas tiện ích (UTILITY GAS). Mức tiêu thụ được liệt kê trên cả hai hóa đơn, chỉ sử dụng giá trị tiêu thụ tiện ích khi phân tích dữ liệu.
- `Underlying Utility`: cơ sở để xác định giá

### Mỗi cột hiện có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu không phù hợp để xử lý tiếp không?

In [82]:
print(gas_df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 194961 entries, 0 to 214634
Data columns (total 25 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   Development Name      193553 non-null  object 
 1   Borough               194961 non-null  object 
 2   Account Name          194961 non-null  object 
 3   Location              191585 non-null  object 
 4   Meter AMR             194503 non-null  object 
 5   Meter Scope           37643 non-null   object 
 6   TDS #                 191953 non-null  float64
 7   EDP                   194961 non-null  int64  
 8   RC Code               194961 non-null  object 
 9   Funding Source        194961 non-null  object 
 10  AMP #                 192740 non-null  object 
 11  Vendor Name           194961 non-null  object 
 12  UMIS BILL ID          194961 non-null  int64  
 13  Revenue Month         194961 non-null  object 
 14  Service Start Date    194953 non-null  object 
 15  

- Dựa trên ý nghĩa của các cột dữ liệu, mình thấy 2 cột `Account Name` và `Development Name` có ý nghĩa tương tự nhau (nhà phát triển, sản xuất gas tiêu dùng), và khi quan sát, mình thấy giá trị 2 cột này có các giá trị là như nhau. Do đó, để tinh gọn dataframe, mình nên xóa đi cột `Account Name`.

In [83]:
if 'Account Name' in gas_df.columns:
    del gas_df['Account Name']

- Bởi vì mục đích chính của chúng mình là phân tích lương tiêu thụ và chi phí của mỗi hộ khi tiêu dùng khí gas, mình quyết định xóa đi 3 cột về đồng hồ đo khí gas: `Meter AMR`, `Meter Scope`, `AMP #`, trên tinh thần là tinh gọn dữ liệu đến mức tối ưu nhất.

In [84]:
del gas_df["Meter AMR"]
del gas_df['Meter Scope']
del gas_df['AMP #']

- Các chỉ số liên quan đến an toàn khí gas như: `EDP`, `TDS #`, `RC Code`  cũng không liên quan đến vấn đề mình nên khám phá, do đó nên loại bỏ chúng.

In [85]:
del gas_df['EDP']
del gas_df['TDS #']
del gas_df['RC Code']

- Đối với các chỉ số ước tính trên đồng hồ đo gas, bởi vì mình đã có 2 cột dữ liệu tin cậy về chi phí và mức tiêu thụ là `Current Charges` và `Consumption (Therms)`, có thể gặp khó khăn khi phân tích 2 cột có độ tương tự về mặt ý nghĩa nhưng lại mâu thuẫn về mặt giá trị. Nên loại bỏ 2 cột là `Meter Number`, `Estimated`.

In [86]:
del gas_df['Meter Number']
del gas_df['Estimated']

- `Underlying Utility` liên quan đến cơ sở pháp lý. Cột dữ liệu này nằm ngoài mục tiêu ta cần phân tích. tốt nhất là tinh gọn dữ liệu hơn bằng cách xóa bỏ chúng.

In [87]:
del gas_df['Underlying Utility']

- Các thông số trên hóa đơn như `Bill Analyzed`, `Rate Class`, `UMIS BILL ID` không có giá trị đáng kể cho bài toán phân tích dữ liệu được đề cập, tốt nhất là xóa chúng.

In [88]:
del gas_df['Bill Analyzed']

In [89]:
del gas_df['Rate Class']

In [90]:
del gas_df['UMIS BILL ID']

- Xa hơn nữa, bởi vì chỉ sử dụng giá trị tiêu thụ tiện ích khi phân tích dữ liệu, nên ta chỉ chọn ra các dòng có `ES Commodity` ==  'UTILITY GAS'

In [91]:
gas_df = gas_df[gas_df['ES Commodity'] == 'UTILITY GAS']

- Và sau đó, vì cột `ES Commodity` chỉ còn 1 giá trị duy nhất là 'UTILITY GAS', trên tinh thần tinh gọn tối đa dữ liệu, xóa bỏ cột này

In [92]:
del gas_df['ES Commodity']

### Dữ liệu thu thập được có hợp lý không?

Chúng ta có một thắc mắc liệu rằng số liệu thu thập được có hợp lý hay không? Các cột dữ liệu dạng số như `# days`, `Current Charges`, `Consumption (Therms)` có chứa giá trị âm ở trong hay không?

In [93]:
print(gas_df['# days'].min())
print(gas_df['Current Charges'].min())
print(gas_df['Consumption (Therms)'].min())

-335.0
-15873.15
0.0


- Như vậy, các cột dữ liệu dạng số có chứa số âm và số 0, về các ý nghĩa thực tế của `# days`, `Current Charges`, `Consumption (Therms)`, thì các giá trị âm này là vô lý.
- Do đó, mình nên xóa các hàng có giá trị âm và số 0 (vì dữ liệu 0 này được xem như là missing value, không có giá trị để phân tích)

In [94]:
gas_df = gas_df[gas_df['# days'] > 0]
gas_df = gas_df[gas_df['Current Charges'] > 0]
gas_df = gas_df[gas_df['Consumption (Therms)'] > 0]



### Xử lý dữ liệu bị thiếu & Chuyển đổi kiểu dữ liệu

##### Mình bắt đầu xử lý dữ liệu bị thiếu. Chạy hàm `isnull()` để bạn có thể tổng quan về dữ liệu của mình có giá trị thiếu hay không, và tính tỷ lệ dữ liệu missing của mỗi cột.

In [95]:
missing_ratio = gas_df.isna().sum() / gas_df.shape[0]
missing_ratio

Development Name        0.006388
Borough                 0.000000
Location                0.002086
Funding Source          0.000000
Vendor Name             0.000000
Revenue Month           0.000000
Service Start Date      0.000000
Service End Date        0.000000
# days                  0.000000
Current Charges         0.000000
Consumption (Therms)    0.000000
dtype: float64

- Suy ra rằng, một số cột categorical như `Development Name`, `Location` có tỷ lệ nhỏ dữ liệu bị thiếu
- Các cột còn lại, bao gồm toàn bộ numeric columns **không** có giá trị bị thiếu

In [96]:
df_isnull = gas_df.isnull()
print(df_isnull.any())

Development Name         True
Borough                 False
Location                 True
Funding Source          False
Vendor Name             False
Revenue Month           False
Service Start Date      False
Service End Date        False
# days                  False
Current Charges         False
Consumption (Therms)    False
dtype: bool


Dataframe có một tỷ lệ nhỏ missing vale ở 2 cột là `Development Name` và `Location`. Bởi vì tỷ lệ giá trị thiếu nhỏ, và các cột dữ liệu dạng chữ khó có thể fill một cách khách quan, sát thực tế, mình quyết định loại bỏ các hàng chứa giá trị missing value.

In [97]:
gas_df = gas_df.dropna()
df_isnull = gas_df.isnull()
print(df_isnull.any())

Development Name        False
Borough                 False
Location                False
Funding Source          False
Vendor Name             False
Revenue Month           False
Service Start Date      False
Service End Date        False
# days                  False
Current Charges         False
Consumption (Therms)    False
dtype: bool


##### Tiếp theo, bắt đầu xử lý kiểu dữ liệu chưa phù hợp. Chạy hàm `info()` để bạn có thể tổng quan về dữ liệu của mình.

In [98]:
print(gas_df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 92199 entries, 1 to 214625
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Development Name      92199 non-null  object 
 1   Borough               92199 non-null  object 
 2   Location              92199 non-null  object 
 3   Funding Source        92199 non-null  object 
 4   Vendor Name           92199 non-null  object 
 5   Revenue Month         92199 non-null  object 
 6   Service Start Date    92199 non-null  object 
 7   Service End Date      92199 non-null  object 
 8   # days                92199 non-null  float64
 9   Current Charges       92199 non-null  float64
 10  Consumption (Therms)  92199 non-null  float64
dtypes: float64(3), object(8)
memory usage: 8.4+ MB
None


Quan sát các cột `Revenue Month`, `Service Start Date`, `Service End Date` đang ở định dạng object. Tuy nhiên, chúng thực ra phải ở dạng ngày-tháng-năm. Do đó, mình phải chuyển chúng về kiểu datetime.

In [99]:
gas_df['Revenue Month'] = pd.to_datetime(gas_df['Revenue Month'], format="%Y-%m")
gas_df['Service Start Date'] = gas_df['Service Start Date'].astype("datetime64")
gas_df['Service End Date'] = gas_df['Service End Date'].astype("datetime64")

Cột dữ liệu `# days` nên ở dạng số nguyên thay vì số thực.

In [100]:
gas_df['# days'] = gas_df['# days'].astype("int64")

Kiểm tra xem cột `# days` có bằng với hiệu của `Service End Date` và `Service Start Date` không?

In [101]:
def check_days_column_equality(df):
    mask = df['Service End Date'].notnull() & df['Service Start Date'].notnull()  
    check = df.loc[mask, '# days'] == (df.loc[mask, 'Service End Date'] - df.loc[mask, 'Service Start Date']).dt.days
    return check.all()
         
check_days_column_equality(gas_df)

True

Kết quả cho đúng nghĩa là số ngày tiêu dùng gas bằng hiệu thời gian kết thúc hoá đơn và thời gian bắt đầu hoá đơn

##### Sau khi chạy lệnh .info(), các kiểu dữ liệu của các cột đã hợp lý hơn.

In [102]:
print(gas_df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 92199 entries, 1 to 214625
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Development Name      92199 non-null  object        
 1   Borough               92199 non-null  object        
 2   Location              92199 non-null  object        
 3   Funding Source        92199 non-null  object        
 4   Vendor Name           92199 non-null  object        
 5   Revenue Month         92199 non-null  datetime64[ns]
 6   Service Start Date    92199 non-null  datetime64[ns]
 7   Service End Date      92199 non-null  datetime64[ns]
 8   # days                92199 non-null  int64         
 9   Current Charges       92199 non-null  float64       
 10  Consumption (Therms)  92199 non-null  float64       
dtypes: datetime64[ns](3), float64(2), int64(1), object(5)
memory usage: 8.4+ MB
None


### Với mỗi cột có các kiểu dữ liệu numeric, các giá trị được phân bổ như thế nào?

Đối với các cột có các kiểu dữ liệu numeric, tính:
- Giá trị nhỏ nhất (min)
- Tứ phân vị dưới (phân vị 25)
- Trung vị (phân vị 50)
- Tứ phân vị trên (phân vị 75)
- Giá trị lớn nhất (max)

Mình sẽ lưu kết quả vào DataFrame `numeric_col_gas_profile`, trong đó:
- Tên các cột là tên các cột số trong `gas_df`
- Tên các hàng:  “min”, “low_quartile”, “median”, “upper_quartile”, “max”

In [103]:
numeric_col_df =  gas_df.select_dtypes (include = ['int64', 'float64'])

numeric_col_gas_profile = numeric_col_df.quantile([0, 0.25, 0.5, 0.75, 1])
numeric_col_gas_profile.index = ['min', '25%', '50%', '75%', 'max']
numeric_col_gas_profile

Unnamed: 0,# days,Current Charges,Consumption (Therms)
min,1.0,0.27,0.2
25%,29.0,439.08,795.0
50%,30.0,1341.85,2405.0
75%,32.0,6341.27,14441.125
max,624.0,928530.45,2351667.0


### Với mỗi cột có các kiểu dữ liệu non-numeric, các giá trị được phân bổ như thế nào?

Ở cột `Funding Source`, có xuất hiện 2 đối tượng khác tên nhau (do lỗi viết thường/ in hoa) nhưng thực ra là một?

In [104]:
frequencies = collections.Counter(gas_df['Funding Source'].to_list())
print('Funding Source', ": numbers of unique values: ", len(frequencies.keys()), ", including: ", frequencies)

Funding Source : numbers of unique values:  6 , including:  Counter({'FEDERAL': 82779, 'MIXED FINANCE/LLC1': 7781, 'MIXED FINANCE/LLC2': 975, 'NON-DEVELOPMENT': 507, 'FEDERAL-COOP': 84, 'Federal': 73})


- 'FEDERAL', 'Federal' là 2 đối tượng khác nhau nhưng thực ra là một.
- Như vậy, ta cần phải thống nhất, chuẩn hóa các cột dữ liệu non-numeric về một kiểu chữ duy nhất, chọn chữ in hoa.

In [105]:
for col in gas_df.columns:
    if gas_df[col].dtype in ['object', 'category']:
        gas_df[col] = gas_df[col].map(str.upper)

Đối với các cột có kiểu dữ liệu object, tính:
- Số lượng chuỗi ký tự khác biệt (không xét đến các giá trị bị thiếu)
- Số lần xuất hiện của mỗi chuỗi được sắp xếp theo chiều giảm dần :  dùng collection để lưu trữ, key là chuỗi, giá trị là số lần xuất hiện tương ứng. Với cột tương ứng với từng loại, cách thực hiện tương tự như trên.

Lưu kết quả vào DataFrame `cat_col_info_gas_df`, trong đó:
- Tên các cột có các kiểu 'object', 'category' trong `gas_df`
- Tên các dòng là: “num_values”, “distribution”

In [106]:
cat_col_info_gas = gas_df.select_dtypes (include = ['object', 'category'])
cat_col_info_gas_df = pd.DataFrame(columns= cat_col_info_gas.columns)

for column in cat_col_info_gas.columns:
    frequencies = collections.Counter(cat_col_info_gas[column].to_list())
    print(column, ": numbers of unique values: ", len(frequencies.keys()), ", including: ", frequencies)
    cat_col_info_gas_df[column] = list([len(frequencies.keys()), frequencies])

cat_col_info_gas_df.index = ['num_diff_vals', 'distribution']
cat_col_info_gas_df

Development Name : numbers of unique values:  371 , including:  Counter({'SAMUEL (CITY)': 5371, 'BUSHWICK II (GROUPS B & D)': 3605, 'BUSHWICK II (GROUPS A & C)': 3466, 'FENIMORE-LEFFERTS': 2511, 'TAPSCOTT STREET REHAB': 2108, 'BORINQUEN PLAZA I': 1232, 'CLAREMONT REHAB (GROUP 4)': 1170, 'HOWARD AVENUE-PARK PLACE': 1118, 'EAST NEW YORK CITY LINE': 1116, 'FHA REPOSSESSED HOUSES (GROUP IX)': 1071, 'SACK WERN': 1028, 'BORINQUEN PLAZA II': 978, 'STERLING PLACE REHABS (STERLING-BUFFALO)': 978, 'UNION AVENUE-EAST 166TH STREET': 799, 'LENOX ROAD-ROCKAWAY PARKWAY': 749, 'HOWARD AVENUE': 700, 'REHAB PROGRAM (DOUGLASS REHABS)': 693, 'REHAB PROGRAM (TAFT REHABS)': 686, 'WILLIAMSBURG': 680, 'STERLING PLACE REHABS (SAINT JOHNS-STERLING)': 679, 'BUSHWICK II CDA (GROUP E)': 678, 'HUNTS POINT AVENUE REHAB': 674, 'EAST 165TH STREET-BRYANT AVENUE': 672, 'LOWER EAST SIDE II': 672, 'CLAREMONT REHAB (GROUP 3)': 665, 'CLAREMONT REHAB (GROUP 2)': 657, 'LOWER EAST SIDE I INFILL': 651, 'RUTGERS': 635, 'SAMUEL (

Unnamed: 0,Development Name,Borough,Location,Funding Source,Vendor Name
num_diff_vals,371,7,123,5,4
distribution,"{'ADAMS': 129, 'ALBANY/ALBANY II': 84, 'AMSTER...","{'BRONX': 22597, 'BROOKLYN': 38437, 'MANHATTAN...","{'BLD 04': 7988, 'ALBANY BLD 04': 242, 'BLD 02...","{'FEDERAL': 82852, 'MIXED FINANCE/LLC1': 7781,...","{'CONSOLIDATED EDISON COMPANY OF NY': 48298, '..."


Đối với các cột có kiểu dữ liệu datetime, tính:
- Số lượng tháng-năm khác biệt (không xét đến các giá trị bị thiếu)
- Số lần xuất hiện của mỗi tháng-năm được sắp xếp theo chiều giảm dần : dùng collection để lưu trữ, key là tháng-năm, giá trị là số lần xuất hiện tương ứng. Với cột tương ứng với từng loại, cách thực hiện tương tự như trên.

Lưu kết quả vào DataFrame `date_col_info_gas_df`, trong đó:
- Tên các cột có các kiểu dữ liệu 'datetime64[ns]' trong `gas_df`
- Tên các dòng là: “num_values”, “distribution”

In [107]:
date_col_info_gas = gas_df.select_dtypes (include = ['datetime64[ns]'])
date_col_info_gas_df = pd.DataFrame(columns= date_col_info_gas.columns)

for column in date_col_info_gas.columns:
    # Trích xuất tháng và năm
    month_year = date_col_info_gas[column].dt.strftime("%Y-%m")
    frequencies = collections.Counter(month_year.to_list())
    frequencies = sorted(frequencies.items(), key=lambda x: x[0], reverse= True)
    print(column, ": numbers of unique values: ", len(frequencies), ", including: ", frequencies)
    date_col_info_gas_df[column] = list([len(frequencies), frequencies])

date_col_info_gas_df.index = ['num_diff_vals', 'distribution']
date_col_info_gas_df

Revenue Month : numbers of unique values:  134 , including:  [('2022-02', 238), ('2022-01', 567), ('2021-12', 591), ('2021-11', 577), ('2021-10', 568), ('2021-09', 560), ('2021-08', 570), ('2021-07', 559), ('2021-06', 563), ('2021-05', 582), ('2021-04', 597), ('2021-03', 590), ('2021-02', 927), ('2021-01', 908), ('2020-12', 609), ('2020-11', 679), ('2020-10', 623), ('2020-09', 628), ('2020-08', 609), ('2020-07', 525), ('2020-06', 899), ('2020-05', 650), ('2020-04', 1025), ('2020-03', 1008), ('2020-02', 967), ('2020-01', 963), ('2019-12', 651), ('2019-11', 644), ('2019-10', 641), ('2019-09', 606), ('2019-08', 599), ('2019-07', 597), ('2019-06', 616), ('2019-05', 636), ('2019-04', 654), ('2019-03', 649), ('2019-02', 643), ('2019-01', 656), ('2018-12', 652), ('2018-11', 683), ('2018-10', 719), ('2018-09', 658), ('2018-08', 650), ('2018-07', 656), ('2018-06', 995), ('2018-05', 695), ('2018-04', 702), ('2018-03', 693), ('2018-02', 694), ('2018-01', 700), ('2017-12', 707), ('2017-11', 708), 

Unnamed: 0,Revenue Month,Service Start Date,Service End Date
num_diff_vals,134,140,136
distribution,"[(2022-02, 238), (2022-01, 567), (2021-12, 591...","[(2022-02, 1), (2022-01, 249), (2021-12, 579),...","[(2022-03, 1), (2022-02, 247), (2022-01, 576),..."


## 3. Lưu dữ liệu đã tiền xử lý 

Vậy là đã hoàn thành các bước tiền xử lý cơ bản, ta nên lưu `gas_df` vào dataframe mới tên `processed_gas_df`

In [108]:
processed_gas_df = gas_df.copy().reset_index(drop=True)
processed_gas_df

Unnamed: 0,Development Name,Borough,Location,Funding Source,Vendor Name,Revenue Month,Service Start Date,Service End Date,# days,Current Charges,Consumption (Therms)
0,ADAMS,BRONX,BLD 04,FEDERAL,CONSOLIDATED EDISON COMPANY OF NY,2010-01-01,2009-12-24,2010-01-26,33,78292.97,136632.00
1,ALBANY/ALBANY II,BROOKLYN,ALBANY BLD 04,FEDERAL,NATIONAL GRID NYC,2010-01-01,2009-12-29,2010-01-28,30,44335.21,153899.18
2,ALBANY/ALBANY II,BROOKLYN,ALBANY BLD 04,FEDERAL,NATIONAL GRID NYC,2010-01-01,2009-12-29,2010-01-28,30,22034.86,76488.82
3,AMSTERDAM,MANHATTAN,BLD 02,FEDERAL,CONSOLIDATED EDISON COMPANY OF NY,2010-01-01,2009-12-24,2010-01-26,33,95456.57,169137.00
4,AMSTERDAM AVENUE,MANHATTAN,BLD 01,FEDERAL,CONSOLIDATED EDISON COMPANY OF NY,2010-01-01,2009-12-24,2010-01-26,33,14607.73,26301.00
...,...,...,...,...,...,...,...,...,...,...,...
92194,WYCKOFF GARDENS,BROOKLYN,BLD 03,FEDERAL,NATIONAL GRID NYC,2021-06-01,2021-05-25,2021-06-25,31,1419.26,3615.00
92195,WYCKOFF GARDENS,BROOKLYN,BLD 03,FEDERAL,NATIONAL GRID NYC,2021-10-01,2021-09-24,2021-10-29,35,1036.26,1619.00
92196,WYCKOFF GARDENS,BROOKLYN,BLD 03,FEDERAL,NATIONAL GRID NYC,2021-11-01,2021-10-29,2021-12-01,33,2505.80,6768.00
92197,WYCKOFF GARDENS,BROOKLYN,BLD 03,FEDERAL,NATIONAL GRID NYC,2021-12-01,2021-12-21,2022-01-06,16,20992.58,50105.00


#### Lưu vào folder\file là `PROCESSED_heating-gas-consumption-and-cost.csv`

In [109]:
save_name =  "PROCESSED_heating-gas-consumption-and-cost.csv"
processed_gas_df.to_csv("Data/" + save_name, index=False)