## 1. Import

In [1]:
import numpy as np 
import pandas as pd
import matplotlib as plt
import datetime as dt
import collections

## 2. Tiền xử lý dữ liệu

### Đọc dữ liệu thô từ file trong folder ./data/

In [2]:
df = pd.read_csv("Crimes1.csv")
df

Unnamed: 0,ID,Case Number,Date,Block,IUCR,Primary Type,Description,Location Description,Arrest,Domestic,...,Ward,Community Area,FBI Code,X Coordinate,Y Coordinate,Year,Updated On,Latitude,Longitude,Location
0,12329132,JE185820,03/31/2021 07:00:00 PM,033XX N PULASKI RD,2825,OTHER OFFENSE,HARASSMENT BY TELEPHONE,RESIDENCE,False,True,...,30.0,21.0,26,1149137.0,1921951.0,2021.0,04/07/2021 03:40:57 PM,41.941762,-87.727267,"(41.941762494, -87.727267038)"
1,12813034,JF379127,09/01/2022 07:00:00 AM,007XX W WAYMAN ST,0820,THEFT,$500 AND UNDER,PARKING LOT / GARAGE (NON RESIDENTIAL),False,False,...,42.0,28.0,06,1171358.0,1902334.0,2022.0,01/03/2023 03:40:27 PM,41.887472,-87.646174,"(41.887472275, -87.646173514)"
2,12912192,JF497936,12/04/2022 03:00:00 PM,106XX S RIDGEWAY AVE,0460,BATTERY,SIMPLE,DRIVEWAY - RESIDENTIAL,False,False,...,19.0,74.0,08B,1153233.0,1833736.0,2022.0,01/03/2023 03:40:27 PM,41.699608,-87.714547,"(41.699608315, -87.714547408)"
3,12690514,JF231805,05/05/2022 12:50:00 PM,081XX S COTTAGE GROVE AVE,0560,ASSAULT,SIMPLE,RESIDENCE,False,False,...,8.0,44.0,08A,1182972.0,1851219.0,2022.0,01/03/2023 03:40:27 PM,41.746946,-87.605115,"(41.746945834, -87.605114755)"
4,12555760,JE462959,12/01/2021 09:20:00 PM,003XX S WHIPPLE ST,1153,DECEPTIVE PRACTICE,FINANCIAL IDENTITY THEFT OVER $ 300,STREET,False,False,...,28.0,27.0,11,1156097.0,1898367.0,2021.0,12/08/2021 03:44:18 PM,41.876908,-87.702324,"(41.876908113, -87.702323689)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,12449440,JE333209,08/10/2021 08:00:00 PM,056XX W IOWA ST,0560,ASSAULT,SIMPLE,APARTMENT,False,False,...,29.0,25.0,08A,1138423.0,1905439.0,2021.0,08/17/2021 03:41:37 PM,41.896653,-87.767047,"(41.89665282, -87.767046737)"
2996,12687960,JF228706,05/03/2022 10:00:00 AM,087XX S ASHLAND AVE,0560,ASSAULT,SIMPLE,COMMERCIAL / BUSINESS OFFICE,False,False,...,21.0,71.0,08A,1167194.0,1846860.0,2022.0,01/03/2023 03:40:27 PM,41.735336,-87.663054,"(41.735335992, -87.663053811)"
2997,12025738,JD204255,04/07/2020 06:45:00 PM,061XX S COTTAGE GROVE AVE,051A,ASSAULT,AGGRAVATED - HANDGUN,STREET,False,True,...,20.0,42.0,04A,1182617.0,1864574.0,2020.0,09/07/2021 03:41:02 PM,41.783602,-87.606002,"(41.783601519, -87.606001759)"
2998,12582627,JF100933,01/01/2022 11:46:00 PM,038XX W ARTHINGTON ST,0486,BATTERY,DOMESTIC BATTERY SIMPLE,APARTMENT,False,True,...,24.0,26.0,08B,1150855.0,1895759.0,2022.0,01/03/2023 03:40:27 PM,41.869856,-87.721639,"(41.86985561, -87.721639097)"


### Dữ liệu thô có bao nhiêu hàng và bao nhiêu cột?

In [3]:
shape = df.shape
print("Số dòng:", df.shape[0])
print("Số dòng:", df.shape[1])
if shape[0] > 1000:
    print(f"Your data good!.")
else:
    print(f"Your raw data absolutely small. Please choose larger year interval.!")

Số dòng: 3000
Số dòng: 22
Your data good!.


### Mỗi hàng có ý nghĩa gì? Có vấn đề gì nếu các hàng có ý nghĩa khác nhau?

- Mỗi hàng đại diện cho một bản ghi dữ liệu riêng biệt. Các bản ghi này chứa thông tin về một đối tượng hoặc thực thể cụ thể, được xác định bởi các giá trị trong các cột tương ứng: `ID`, `Case Number`, ...

- Có các hàng có ý nghĩa khác nhau trong một dataframe phụ thuộc vào mục đích sử dụng của nó. Ví dụ, trong một khung dữ liệu chứa thông tin về quốc gia, có thể có các hàng đại diện cho mã số sự cố (vụ án), loại vụ án, ngày, địa chỉ, ... Trong trường hợp này, các hàng sẽ có ý nghĩa khác nhau, vì các thông tin được lưu trữ cho các sự cố, ngày, địa chỉ, ... sẽ khác nhau.

### Dữ liệu thô có hàng trùng lặp không?

Tính số hàng có trùng lặp toàn bộ thông tin và lưu nó vào biến `num_duplicate_rows`

In [4]:
num_duplicated_rows = df.duplicated().sum()
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Your raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

Your raw data have no duplicated line.!


In [5]:
# De-deduplicate raw data
# (Optional)
df = df.drop_duplicates()
# RETEST
num_duplicated_rows = df.duplicated().sum()
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")

Your raw data have no duplicated line.!


### Mỗi cột có ý nghĩa gì?

In [6]:
print(df.columns)

Index(['ID', 'Case Number', 'Date', 'Block', 'IUCR', 'Primary Type',
       'Description', 'Location Description', 'Arrest', 'Domestic', 'Beat',
       'District', 'Ward', 'Community Area', 'FBI Code', 'X Coordinate',
       'Y Coordinate', 'Year', 'Updated On', 'Latitude', 'Longitude',
       'Location'],
      dtype='object')


**Ý nghĩa các cột dữ liệu:**

- `ID`: Mã định danh.
- `Case Number`: Mã số vụ án.
- `Date`: Ngày và giờ của vụ án.
- `Block`: Địa chỉ nơi sự cố xảy ra.
- `IUCR`: Mã báo cáo loại tội phạm đồng nhất Illinois.
- `Primary Type`: Mô tả chính về loại tội phạm.
- `Description`: Mô tả cụ thể về tội phạm.
- `Location Description`: Mô tả cụ thể nơi xảy ra sự cố.
- `Arrest`: Cho biết liệu có bắt giữ nghi phạm hay không (Đúng/Sai).
- `Domestic`: Cho biết liệu vụ việc có liên quan đến vấn đề nội tâm gia đình hay không (Đúng/Sai).
- `Beat`: Khu vực quản lý của cảnh sát nơi sự cố xảy ra.
- `District`: Mã quận cảnh sát nơi sự cố xảy ra.
- `Ward`: Mã phường xảy ra sự cố.
- `Community Area`: Mã khu cộng đồng xảy ra sự cố.
- `FBI Code`: Mã từ hệ thống phân loại tội phạm của FBI.
- `X Coordinate`: Tọa độ x của vị trí xảy ra sự cố trong phép chiếu State Plane Illinois East NAD 1983
- `Y Coordinate`: Tọa độ y của vị trí xảy ra sự cố trong phép chiếu State Plane Illinois East NAD 1983
- `Year`: Năm của sự kiện.
- `Updated On`: Ngày và giờ khi bản ghi được cập nhật lần cuối.
- `Latitude`: Vĩ độ của địa điểm xảy ra sự cố
- `Longitude`: Kinh độ của địa điểm xảy ra sự cố
- `Location`: Vị trí xảy ra sự cố ở định dạng cho phép tạo bản đồ và các hoạt động địa lý khác trên cổng dữ liệu.

Để bảo vệ quyền riêng tư của nạn nhân tội phạm, địa chỉ chỉ được hiển thị ở cấp khối và các địa điểm cụ thể không được xác định.

### Mỗi cột hiện có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu không phù hợp để xử lý tiếp không?

In [7]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID                    3000 non-null   int64  
 1   Case Number           3000 non-null   object 
 2   Date                  3000 non-null   object 
 3   Block                 3000 non-null   object 
 4   IUCR                  3000 non-null   object 
 5   Primary Type          3000 non-null   object 
 6   Description           3000 non-null   object 
 7   Location Description  2985 non-null   object 
 8   Arrest                3000 non-null   bool   
 9   Domestic              3000 non-null   bool   
 10  Beat                  3000 non-null   float64
 11  District              3000 non-null   float64
 12  Ward                  3000 non-null   float64
 13  Community Area        3000 non-null   float64
 14  FBI Code              3000 non-null   object 
 15  X Coordinate         

- Bởi vì cột `X Coordinate` và `Y Coordinate` cần được loại bỏ vì có ý nghĩa tương đồng với `Latitude` và `Longitude`
- Cột `Latitude` và `Longitude` loại bỏ vì đã được tích hợp vào `Location`

In [8]:
del df['X Coordinate']
del df['Y Coordinate']
del df['Latitude']
del df['Longitude']

- Cột `Year` loại bỏ vì đã có trong `Date`

In [9]:
del df['Year']

Kiểm tra lại dữ liệu

In [10]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID                    3000 non-null   int64  
 1   Case Number           3000 non-null   object 
 2   Date                  3000 non-null   object 
 3   Block                 3000 non-null   object 
 4   IUCR                  3000 non-null   object 
 5   Primary Type          3000 non-null   object 
 6   Description           3000 non-null   object 
 7   Location Description  2985 non-null   object 
 8   Arrest                3000 non-null   bool   
 9   Domestic              3000 non-null   bool   
 10  Beat                  3000 non-null   float64
 11  District              3000 non-null   float64
 12  Ward                  3000 non-null   float64
 13  Community Area        3000 non-null   float64
 14  FBI Code              3000 non-null   object 
 15  Updated On           

### Chuyển đổi kiểu dữ liệu

- Cột `Date` có định dạng month/day/year hour:minute:second (AM hoặc PM) cần chuyển sang `datatime`

In [11]:
df['Date'] = pd.to_datetime(df['Date'], format='%m/%d/%Y %I:%M:%S %p')

### Dữ liệu thu thập được có hợp lý không?

Các mã `ID`, `Case Number` có đảm bảo duy nhất hay không?

In [12]:
assert df['ID'].nunique() == len(df)
assert df['Case Number'].nunique() == len(df)


### Xử lý dữ liệu bị thiếu & Chuyển đổi kiểu dữ liệu

##### Mình bắt đầu xử lý dữ liệu bị thiếu. Chạy hàm `isnull()` để bạn có thể tổng quan về dữ liệu của mình có giá trị thiếu hay không, và tính tỷ lệ dữ liệu missing của mỗi cột.

In [13]:
missing_ratio = df.isna().sum() / df.shape[0]
missing_ratio

ID                      0.000000
Case Number             0.000000
Date                    0.000000
Block                   0.000000
IUCR                    0.000000
Primary Type            0.000000
Description             0.000000
Location Description    0.005000
Arrest                  0.000000
Domestic                0.000000
Beat                    0.000000
District                0.000000
Ward                    0.000000
Community Area          0.000000
FBI Code                0.000000
Updated On              0.000000
Location                0.026333
dtype: float64

In [14]:
df_isnull = df.isnull()
print(df_isnull.any())

ID                      False
Case Number             False
Date                    False
Block                   False
IUCR                    False
Primary Type            False
Description             False
Location Description     True
Arrest                  False
Domestic                False
Beat                    False
District                False
Ward                    False
Community Area          False
FBI Code                False
Updated On              False
Location                 True
dtype: bool


Dataframe có một tỷ lệ nhỏ missing vale ở 2 cột là `Location Description` và `Location`. Bởi vì tỷ lệ giá trị thiếu nhỏ, và các cột dữ liệu dạng chữ khó có thể fill một cách khách quan, sát thực tế, về mặt ý nghĩa:
- `Location Description`: mô tả về nơi xảy ra sự cố ví dụ: street, apartment,... cách giải quyết tính xác suất xảy ra của mỗi loại và điền ngẫu nhiên vào chỗ bị thiếu theo xác suất đã tính.
- `Location`: vị trí theo toạ độ theo kinh độ vĩ độ. Có ý nghĩa vẽ biểu đồ phân bố hơn nên dữ liệu thiếu ít ảnh hưởng nhiều đến việc phân tích

In [15]:
value_counts = df['Location Description'].value_counts()

total_count = len(df)
missing_indices = df[df['Location Description'].isnull()].index
probabilities = value_counts / (total_count - len(missing_indices))

for idx in missing_indices:
    random_prob = np.random.rand()
    cumulative_prob = 0
    for loc, prob in probabilities.items():
        cumulative_prob += prob
        if random_prob <= cumulative_prob:
            df.at[idx, 'Location Description'] = loc
            break

#TEST
assert df['Location Description'].isna().sum() == 0

##### Tiếp theo, bắt đầu xử lý kiểu dữ liệu chưa phù hợp. Chạy hàm `info()` để bạn có thể tổng quan về dữ liệu của mình.

In [16]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   ID                    3000 non-null   int64         
 1   Case Number           3000 non-null   object        
 2   Date                  3000 non-null   datetime64[ns]
 3   Block                 3000 non-null   object        
 4   IUCR                  3000 non-null   object        
 5   Primary Type          3000 non-null   object        
 6   Description           3000 non-null   object        
 7   Location Description  3000 non-null   object        
 8   Arrest                3000 non-null   bool          
 9   Domestic              3000 non-null   bool          
 10  Beat                  3000 non-null   float64       
 11  District              3000 non-null   float64       
 12  Ward                  3000 non-null   float64       
 13  Community Area    

### Với mỗi cột có các kiểu dữ liệu non-numeric, các giá trị được phân bổ như thế nào?

Đối với các cột có kiểu dữ liệu object, tính:
- Số lượng chuỗi ký tự khác biệt (không xét đến các giá trị bị thiếu)
- Số lần xuất hiện của mỗi chuỗi được sắp xếp theo chiều giảm dần :  dùng collection để lưu trữ, key là chuỗi, giá trị là số lần xuất hiện tương ứng. Với cột tương ứng với từng loại, cách thực hiện tương tự như trên.

Lưu kết quả vào DataFrame `cat_col_info_df`, trong đó:
- Tên các cột có các kiểu 'object', 'category' trong `df` và những cột có nhiều loại dữ liệu hoặc cột có dữ liệu là duy nhất là: `IUCR`, `Primary Type`, `Description`, `Location Description`, `Arrest`, `Domestic`, `FBI Code`
- Tên các dòng là: “num_values”, “distribution”

In [17]:
cat_col_info = df[['IUCR', 'Primary Type', 'Description', 'Location Description', 'Arrest', 'Domestic', 'FBI Code']]
cat_col_info_df = pd.DataFrame(columns= cat_col_info.columns)

for column in cat_col_info.columns:
    frequencies = collections.Counter(cat_col_info[column].to_list())
    print(column, ": numbers of unique values: ", len(frequencies.keys()), ", including: ", frequencies)
    cat_col_info_df[column] = list([len(frequencies.keys()), frequencies])

cat_col_info_df.index = ['num_diff_vals', 'distribution']
cat_col_info_df

IUCR : numbers of unique values:  165 , including:  Counter({'0486': 269, '0820': 238, '0810': 234, '0560': 193, '0910': 172, '1310': 169, '1320': 163, '0460': 154, '143A': 82, '0860': 79, '1154': 75, '0890': 57, '051A': 56, '0620': 50, '1153': 48, '2820': 48, '0610': 40, '031A': 39, '1477': 38, '1150': 37, '041A': 30, '2825': 29, '1330': 29, '1130': 27, '2826': 25, '0520': 24, '0430': 24, '0320': 23, '0920': 17, '0281': 16, '0326': 16, '4387': 15, '1365': 15, '0930': 14, '1152': 14, '0870': 14, '1120': 13, '2024': 13, '1750': 12, '1812': 11, '0330': 11, '0420': 11, '0497': 10, '0498': 10, '0530': 10, '1305': 9, '2093': 9, '502P': 9, '2027': 8, '2014': 8, '0454': 7, '1110': 6, '0850': 6, '2250': 6, '1020': 6, '0325': 6, '1210': 6, '1345': 5, '141B': 5, '1350': 5, '1780': 5, '141A': 5, '502R': 5, '0917': 5, '1822': 5, '0630': 5, '033A': 5, '5002': 5, '5000': 5, '1563': 4, '0484': 4, '0340': 4, '1581': 4, '1220': 4, '1360': 4, '0495': 4, '1821': 3, '5110': 3, '0440': 3, '2022': 3, '4386'

Unnamed: 0,IUCR,Primary Type,Description,Location Description,Arrest,Domestic,FBI Code
num_diff_vals,165,23,157,76,2,2,21
distribution,"{'2825': 29, '0820': 238, '0460': 154, '0560':...","{'OTHER OFFENSE': 163, 'THEFT': 631, 'BATTERY'...","{'HARASSMENT BY TELEPHONE': 29, '$500 AND UNDE...","{'RESIDENCE': 457, 'PARKING LOT / GARAGE (NON ...","{False: 2618, True: 382}","{True: 638, False: 2362}","{'26': 172, '06': 631, '08B': 449, '08A': 247,..."


Đối với các cột có kiểu dữ liệu datetime, tính:
- Số lượng tháng-năm khác biệt (không xét đến các giá trị bị thiếu)
- Số lần xuất hiện của mỗi tháng-năm được sắp xếp theo chiều giảm dần : dùng collection để lưu trữ, key là tháng-năm, giá trị là số lần xuất hiện tương ứng. Với cột tương ứng với từng loại, cách thực hiện tương tự như trên.

Lưu kết quả vào DataFrame `date_col_info_df`, trong đó:
- Tên các cột có các kiểu dữ liệu 'datetime64[ns]' trong `df`
- Tên các dòng là: “num_values”, “distribution”

In [18]:
date_col_info = df.select_dtypes (include = ['datetime64[ns]'])
date_col_info_df = pd.DataFrame(columns= date_col_info.columns)

for column in date_col_info.columns:
    # Trích xuất tháng và năm
    month_year = date_col_info[column].dt.strftime("%Y-%m")
    frequencies = collections.Counter(month_year.to_list())
    frequencies = sorted(frequencies.items(), key=lambda x: x[0], reverse= True)
    print(column, ": numbers of unique values: ", len(frequencies), ", including: ", frequencies)
    date_col_info_df[column] = list([len(frequencies), frequencies])

date_col_info_df.index = ['num_diff_vals', 'distribution']
date_col_info_df

Date : numbers of unique values:  36 , including:  [('2022-12', 100), ('2022-11', 122), ('2022-10', 117), ('2022-09', 135), ('2022-08', 139), ('2022-07', 137), ('2022-06', 122), ('2022-05', 125), ('2022-04', 107), ('2022-03', 111), ('2022-02', 81), ('2022-01', 76), ('2021-12', 96), ('2021-11', 108), ('2021-10', 115), ('2021-09', 104), ('2021-08', 112), ('2021-07', 107), ('2021-06', 110), ('2021-05', 102), ('2021-04', 69), ('2021-03', 94), ('2021-02', 67), ('2021-01', 98), ('2020-12', 125), ('2020-11', 90), ('2020-10', 47), ('2020-09', 32), ('2020-08', 32), ('2020-07', 26), ('2020-06', 24), ('2020-05', 28), ('2020-04', 14), ('2020-03', 22), ('2020-02', 2), ('2020-01', 4)]


Unnamed: 0,Date
num_diff_vals,36
distribution,"[(2022-12, 100), (2022-11, 122), (2022-10, 117..."


## 3. Lưu dữ liệu đã tiền xử lý 

Vậy là đã hoàn thành các bước tiền xử lý cơ bản, ta nên lưu `df` vào dataframe mới tên `processed_df`

In [19]:
processed_df = df.copy().reset_index(drop=True)
processed_df

Unnamed: 0,ID,Case Number,Date,Block,IUCR,Primary Type,Description,Location Description,Arrest,Domestic,Beat,District,Ward,Community Area,FBI Code,Updated On,Location
0,12329132,JE185820,2021-03-31 19:00:00,033XX N PULASKI RD,2825,OTHER OFFENSE,HARASSMENT BY TELEPHONE,RESIDENCE,False,True,1732.0,17.0,30.0,21.0,26,04/07/2021 03:40:57 PM,"(41.941762494, -87.727267038)"
1,12813034,JF379127,2022-09-01 07:00:00,007XX W WAYMAN ST,0820,THEFT,$500 AND UNDER,PARKING LOT / GARAGE (NON RESIDENTIAL),False,False,1214.0,12.0,42.0,28.0,06,01/03/2023 03:40:27 PM,"(41.887472275, -87.646173514)"
2,12912192,JF497936,2022-12-04 15:00:00,106XX S RIDGEWAY AVE,0460,BATTERY,SIMPLE,DRIVEWAY - RESIDENTIAL,False,False,2211.0,22.0,19.0,74.0,08B,01/03/2023 03:40:27 PM,"(41.699608315, -87.714547408)"
3,12690514,JF231805,2022-05-05 12:50:00,081XX S COTTAGE GROVE AVE,0560,ASSAULT,SIMPLE,RESIDENCE,False,False,631.0,6.0,8.0,44.0,08A,01/03/2023 03:40:27 PM,"(41.746945834, -87.605114755)"
4,12555760,JE462959,2021-12-01 21:20:00,003XX S WHIPPLE ST,1153,DECEPTIVE PRACTICE,FINANCIAL IDENTITY THEFT OVER $ 300,STREET,False,False,1124.0,11.0,28.0,27.0,11,12/08/2021 03:44:18 PM,"(41.876908113, -87.702323689)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,12449440,JE333209,2021-08-10 20:00:00,056XX W IOWA ST,0560,ASSAULT,SIMPLE,APARTMENT,False,False,1511.0,15.0,29.0,25.0,08A,08/17/2021 03:41:37 PM,"(41.89665282, -87.767046737)"
2996,12687960,JF228706,2022-05-03 10:00:00,087XX S ASHLAND AVE,0560,ASSAULT,SIMPLE,COMMERCIAL / BUSINESS OFFICE,False,False,2221.0,22.0,21.0,71.0,08A,01/03/2023 03:40:27 PM,"(41.735335992, -87.663053811)"
2997,12025738,JD204255,2020-04-07 18:45:00,061XX S COTTAGE GROVE AVE,051A,ASSAULT,AGGRAVATED - HANDGUN,STREET,False,True,313.0,3.0,20.0,42.0,04A,09/07/2021 03:41:02 PM,"(41.783601519, -87.606001759)"
2998,12582627,JF100933,2022-01-01 23:46:00,038XX W ARTHINGTON ST,0486,BATTERY,DOMESTIC BATTERY SIMPLE,APARTMENT,False,True,1133.0,11.0,24.0,26.0,08B,01/03/2023 03:40:27 PM,"(41.86985561, -87.721639097)"


#### Lưu vào folder\file là `Cleaned_Crimes.csv`

In [20]:
processed_df.to_csv('Cleaned_Crimes.csv', index=False)