In [1]:
import numpy as np
import pandas as pd


### Read raw data from file

In [2]:
# Lấy đại 1 bảng để đánh giá kiểu dữ liệu từng cột
raw_df = pd.read_csv('./Pre_Processing/DaNang.csv')
raw_df.head()

Unnamed: 0,Address,Datetime,DatetimeEpoch,Tempmax,Tempmin,Temp,Dew,Humidity,Precip,Precipprob,...,Windgust,Windspeed,Winddir,Pressure,Cloudcover,Visibility,Solarradiation,Solarenergy,Uvindex,Moonphase
0,Da Nang,2019-01-01,1546275600,21.2,18.0,20.1,17.6,85.8,0.462,100.0,...,37.1,22.3,351.0,1022.0,83.9,7.8,25.9,2.3,1.0,0.83
1,Da Nang,2019-01-02,1546362000,20.0,18.0,19.0,18.1,94.1,2.03,100.0,...,32.8,9.4,314.5,1020.9,76.1,5.9,37.7,3.1,2.0,0.87
2,Da Nang,2019-01-03,1546448400,23.0,19.0,20.4,18.3,88.2,2.553,100.0,...,29.9,7.6,304.4,1020.2,78.8,8.0,34.5,3.1,1.0,0.9
3,Da Nang,2019-01-04,1546534800,25.0,19.4,22.0,19.1,84.3,0.134,100.0,...,25.9,11.1,310.5,1019.6,74.0,8.7,63.9,5.6,3.0,0.94
4,Da Nang,2019-01-05,1546621200,26.6,21.0,23.1,20.4,85.3,0.408,100.0,...,25.6,12.9,349.3,1018.3,69.3,9.4,84.9,7.1,3.0,0.97


### How many rows and how many columns does the raw data have? 

In [3]:
shape = raw_df.shape
print('Current shape: ', shape)

Current shape:  (1827, 22)


### What does each line mean? Does it matter if the lines have different meanings?


- Mỗi dòng trong dữ liệu cung cấp các phép đo khí tượng khác nhau cho một vị trí cụ thể  và một ngày cụ thể (từ 01/01/2019 đến 01/01/2024)
- Có, nếu mỗi dòng có ý nghĩa khác nhau thì sẽ đem đến ảnh hưởng tiêu cực rất lớn. Mỗi dòng biểu thị một quan sát riêng biệt và sự không nhất quán trong ý nghĩa của các cột có thể dẫn đến phân tích và diễn giải không chính xác.

### Does the raw data have duplicate rows? 

In [4]:
num_duplicated_rows = raw_df.duplicated().sum()

if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Your raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

Your raw data have no duplicated line.!


### What does each column mean?


| **Thuộc tính**     | **Mô tả**                                                   | **Đơn vị**            |
|--------------------|-------------------------------------------------------------|-----------------------|
| Address            | Tỉnh, Thành phố nơi dữ liệu được thu thập                   |                       |
| Datetime           | Ngày thực hiện phép đo                                      | Ngày, Tháng, Năm      |
| DatetimeEpoch      | Số giây kể từ 01/01/1970 theo giờ UTC                       | Giây                  |
| Tempmax            | Nhiệt độ tối đa trong ngày                                  | °C                    |
| Tempmin            | Nhiệt độ tối thiểu trong ngày                               | °C                    |
| Temp               | Nhiệt độ trung bình                                         | °C                    |
| Dew                | Nhiệt độ điểm sương                                         | °C                    |
| Humidity           | Độ ẩm tương đối                                             | %                     |
| Precip             | Lượng mưa                                                   | mm                    |
| Precipprob         | Xác suất mưa                                                | %                     |
| Precipcover        | Phần trăm ngày có mưa                                       | %                     |
| Preciptype         | Loại mưa (mưa, tuyết, ...)                                  |                       |
| Windgust           | Tốc độ gió mạnh nhất trong ngày                             | km/h                  |
| Windspeed          | Tốc độ gió trung bình                                       | km/h                  |
| Winddir            | Hướng gió                                                   | Độ                    |
| Pressure           | Áp suất khí quyển                                           | hPa                   |
| Cloudcover         | Độ che phủ mây                                              | %                     |
| Visibility         | Tầm nhìn xa                                                 | km                    |
| Solarradiation     | Bức xạ mặt trời                                             | W/m²                  |
| Solarenergy        | Năng lượng mặt trời thu được                                | MJ/m²                 |
| Uvindex            | Chỉ số UV                                                   |                       |
| Moonphase          | Pha mặt trăng                                               |                       |

Mô tả chi tiết về giá trị của thuộc tính Moonphase
- **0** – Trăng mới (New Moon)
- **0 đến 0.25** – Trăng lưỡi liềm đầu tháng (Waxing Crescent)
- **0.25** – Trăng bán nguyệt đầu tháng (First Quarter)
- **0.25 đến 0.5** – Trăng khuyết đầu tháng (Waxing Gibbous)
- **0.5** – Trăng tròn (Full Moon)
- **0.5 đến 0.75** – Trăng khuyết cuối tháng (Waning Gibbous)
- **0.75** – Trăng bán nguyệt cuối tháng (Last Quarter)
- **0.75 đến 1** – Trăng lưỡi liềm cuối tháng (Waning Crescent)                     


### What data type does each column currently have? Are there any columns whose data types are not suitable for further processing?

In [5]:
raw_df.dtypes

Address            object
Datetime           object
DatetimeEpoch       int64
Tempmax           float64
Tempmin           float64
Temp              float64
Dew               float64
Humidity          float64
Precip            float64
Precipprob        float64
Precipcover       float64
Preciptype         object
Windgust          float64
Windspeed         float64
Winddir           float64
Pressure          float64
Cloudcover        float64
Visibility        float64
Solarradiation    float64
Solarenergy       float64
Uvindex           float64
Moonphase         float64
dtype: object

In [9]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1827 entries, 0 to 1826
Data columns (total 22 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Address         1827 non-null   object 
 1   Datetime        1827 non-null   object 
 2   DatetimeEpoch   1827 non-null   int64  
 3   Tempmax         1827 non-null   float64
 4   Tempmin         1827 non-null   float64
 5   Temp            1827 non-null   float64
 6   Dew             1827 non-null   float64
 7   Humidity        1827 non-null   float64
 8   Precip          1827 non-null   float64
 9   Precipprob      1827 non-null   float64
 10  Precipcover     1827 non-null   float64
 11  Preciptype      1070 non-null   object 
 12  Windgust        1827 non-null   float64
 13  Windspeed       1827 non-null   float64
 14  Winddir         1827 non-null   float64
 15  Pressure        1827 non-null   float64
 16  Cloudcover      1827 non-null   float64
 17  Visibility      1827 non-null   f

### Đánh giá kiểu dữ liệu của từng cột có phù hợp không


| Cột                | Kiểu Dữ Liệu Hiện Tại | Đánh Giá      |
|--------------------|-----------------------|---------------|
| **Address**        | `object`  | Phù hợp. Cột này lưu tên địa chỉ (tỉnh, thành phố) và nên là kiểu `object`.                               |
| **Datetime**       | `object`              | Không hoàn toàn phù hợp. Để tiện thao tác, nên chuyển sang kiểu `datetime64[ns]`.                         |
| **DatetimeEpoch**  | `int64`               | Phù hợp. Cột này lưu giá trị thời gian tính bằng giây, nên kiểu số nguyên là hợp lý.                     |
| **Tempmax**        | `float64`             | Phù hợp. Nhiệt độ tối đa có thể có giá trị thập phân, nên kiểu `float64` là phù hợp.                      |
| **Tempmin**        | `float64`             | Phù hợp. Nhiệt độ tối thiểu nên là kiểu `float64` để lưu các giá trị thập phân.                           |
| **Temp**           | `float64`             | Phù hợp. Nhiệt độ trung bình cũng nên là kiểu `float64`.                                                  |
| **Dew**            | `float64`             | Phù hợp. Điểm sương cũng là nhiệt độ và nên ở kiểu `float64`.                                             |
| **Humidity**       | `float64`             | Phù hợp. Độ ẩm là phần trăm và có thể có giá trị thập phân, nên `float64` là phù hợp.                     |
| **Precip**         | `float64`             | Phù hợp. Lượng mưa có thể có giá trị thập phân (mm), nên `float64` là hợp lý.                             |
| **Precipprob**     | `float64`             | Phù hợp. Xác suất mưa là phần trăm, nên có thể lưu dạng `float64`.                                        |
| **Precipcover**    | `float64`             | Phù hợp. Độ che phủ mưa cũng là phần trăm, `float64` là phù hợp.                                          |
| **Preciptype**     | `object`              | Phù hợp. Kiểu mưa (ví dụ: "rain", "snow") là chuỗi, nên `object` là phù hợp.                              |
| **Windgust**       | `float64`             | Phù hợp. Tốc độ gió lớn nhất thường có giá trị thập phân, nên kiểu `float64` là hợp lý.                   |
| **Windspeed**      | `float64`             | Phù hợp. Tốc độ gió trung bình cũng nên là kiểu `float64`.                                                |
| **Winddir**        | `float64`             | Phù hợp. Hướng gió là giá trị góc (độ), nên `float64` là phù hợp.                                         |
| **Pressure**       | `float64`             | Phù hợp. Áp suất có thể có giá trị thập phân, nên `float64` là hợp lý.                                    |
| **Cloudcover**     | `float64`             | Phù hợp. Độ che phủ mây là phần trăm và có thể có giá trị thập phân, nên `float64` là phù hợp.            |
| **Visibility**     | `float64`             | Phù hợp. Tầm nhìn có thể có giá trị thập phân (km), nên `float64` là hợp lý.                              |
| **Solarradiation** | `float64`             | Phù hợp. Bức xạ mặt trời có giá trị thập phân, nên `float64` là phù hợp.                                  |
| **Solarenergy**    | `float64`             | Phù hợp. Năng lượng mặt trời cũng có giá trị thập phân, nên `float64` là hợp lý.                          |
| **Uvindex**        | `float64`             | Phù hợp. Chỉ số UV là số nguyên dương, nhưng `float64` vẫn phù hợp để phòng ngừa dữ liệu thập phân.       |
| **Moonphase**      | `float64`             | Phù hợp. Pha mặt trăng là một giá trị thập phân từ 0 đến 1, nên `float64` là hợp lý.                      |

### Kết luận:
- **Datetime:** Nên chuyển sang kiểu `datetime64[ns]` để dễ dàng thao tác với dữ liệu ngày.
- Các cột còn lại đều phù hợp với kiểu dữ liệu hiện tại và không cần thay đổi thêm.

In [10]:
pd.options.display.float_format = '{:.2f}'.format
raw_df.describe(include='number').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
DatetimeEpoch,1827.0,1625158800.0,45580647.35,1546275600.0,1585717200.0,1625158800.0,1664600400.0,1704042000.0
Tempmax,1827.0,30.7,4.38,16.1,27.4,31.0,34.0,40.0
Tempmin,1827.0,23.92,2.86,13.0,22.0,24.7,26.0,31.0
Temp,1827.0,26.92,3.33,15.8,24.6,27.2,29.6,34.5
Dew,1827.0,22.46,2.53,10.2,21.2,23.5,24.3,26.1
Humidity,1827.0,77.92,7.8,45.8,73.4,78.5,83.0,97.5
Precip,1827.0,7.17,25.89,0.0,0.0,0.0,1.26,299.19
Precipprob,1827.0,52.65,49.94,0.0,0.0,100.0,100.0,100.0
Precipcover,1827.0,4.53,5.6,0.0,0.0,4.17,8.33,33.33
Windgust,1827.0,27.4,9.82,7.2,21.2,25.9,31.15,110.5
