## Collect and preprocess data

# 1. Set-up environment

In [1]:
#Necessary Packages
import time
import requests
import numpy as np
import pandas as pd 
from bs4 import BeautifulSoup
import xmltodict
import re

# 2. Collect data from a website 

**1. Trang web tiến hành thu thập:** https://data.gov/ là trang web dữ liệu mở của chính phủ Hoa Kỳ. Nó cung cấp quyền truy cập vào các bộ dữ liệu được xuất bản bởi các cơ quan trong chính phủ liên bang. Trang web nhằm mục đích cung cấp quyền truy cập vào dữ liệu mở của chính phủ cho công chúng, đạt được các sứ mệnh của cơ quan, thúc đẩy đổi mới, thúc đẩy hoạt động kinh tế và duy trì lý tưởng về một chính phủ cởi mở và minh bạch.

**2. Chủ đề thực hiện: Crimes**
- Crimes - 2001 to Present: Tập dữ liệu này phản ánh các vụ tội phạm được báo cáo (ngoại trừ các vụ giết người có dữ liệu về từng nạn nhân) xảy ra ở Thành phố Chicago từ năm 2001 đến nay. Dữ liệu được trích xuất từ hệ thống CLEAR (Phân tích và Báo cáo Thực thi Pháp luật Công dân) của Sở Cảnh sát Chicago.
- Link: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-Present/ijzp-q8t2/data_preview

**Dưới đây là bảng dữ liệu với các thuộc tính tương ứng:**

- `ID`: Mã định danh.
- `Case Number`: Mã số vụ án.
- `Date`: Ngày và giờ của vụ án.
- `Block`: Địa chỉ nơi sự cố xảy ra.
- `IUCR`: Mã báo cáo loại tội phạm đồng nhất Illinois.
- `Primary Type`: Mô tả chính về loại tội phạm.
- `Description`: Mô tả cụ thể về tội phạm.
- `Location Description`: Mô tả cụ thể nơi xảy ra sự cố.
- `Arrest`: Cho biết liệu có bắt giữ nghi phạm hay không (Đúng/Sai).
- `Domestic`: Cho biết liệu vụ việc có liên quan đến vấn đề nội tâm gia đình hay không (Đúng/Sai).
- `Beat`: Khu vực quản lý của cảnh sát nơi sự cố xảy ra.
- `District`: Mã quận cảnh sát nơi sự cố xảy ra.
- `Ward`: Mã phường xảy ra sự cố.
- `Community Area`: Mã khu cộng đồng xảy ra sự cố.
- `FBI Code`: Mã từ hệ thống phân loại tội phạm của FBI.
- `X Coordinate`: Tọa độ x của vị trí xảy ra sự cố trong phép chiếu State Plane Illinois East NAD 1983
- `Y Coordinate`: Tọa độ y của vị trí xảy ra sự cố trong phép chiếu State Plane Illinois East NAD 1983
- `Year`: Năm của sự kiện.
- `Updated On`: Ngày và giờ khi bản ghi được cập nhật lần cuối.
- `Latitude`: Vĩ độ của địa điểm xảy ra sự cố
- `Longitude`: Kinh độ của địa điểm xảy ra sự cố
- `Location`: Vị trí xảy ra sự cố ở định dạng cho phép tạo bản đồ và các hoạt động địa lý khác trên cổng dữ liệu.

Để bảo vệ quyền riêng tư của nạn nhân tội phạm, địa chỉ chỉ được hiển thị ở cấp khối và các địa điểm cụ thể không được xác định.

In [2]:
url = 'https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-Present/ijzp-q8t2/data_preview'

response = requests.get(url)
html_content = response.content

### Viết hàm Crawl_col để truy xuất vào phần tử HTML

In [3]:
soup = BeautifulSoup(html_content, 'html.parser')

def Crawl_Col(target_col):
    attribute = []
    target_cells = soup.find_all('div', {'col-id': target_col})
    if target_cells:
        for data in target_cells:
            data = data.find('div').text.strip()
            attribute.append(data)
    else:
        attribute.append('NaN')

    return attribute

### Tiến hành thu thập dữ liệu

In [4]:
ID = []
Case_Number = []
Block = []
Date = []
IUCR = []
Primary_Type = []
Description = []
Location_Description = []
Arrest = []
Domestic = []
Beat = []
District = []
Ward = []
Community_Area = []
FBI_Code = []
X_Coordinate = []
Y_Coordinate = []
Year = []
Updated_On = []
Latitude = []
Longitude = []
Location = []
    
ID = Crawl_Col('id')
Case_Number = Crawl_Col('case_number')
Block = Crawl_Col('block')
Date = Crawl_Col('date')
IUCR = Crawl_Col('iucr')
Primary_Type = Crawl_Col('primary_type')
Description = Crawl_Col('description')
Location_Description = Crawl_Col('location_description')
Arrest = Crawl_Col('arrest')
Domestic = Crawl_Col('domestic')
Beat = Crawl_Col('beat')
District = Crawl_Col('district')
Ward = Crawl_Col('ward')
Community_Area = Crawl_Col('community_area')
FBI_Code = Crawl_Col('fbi_code')
X_Coordinate = Crawl_Col('x_coordinate')
Y_Coordinate = Crawl_Col('y_coordinate')
Year = Crawl_Col('year')
Updated_On = Crawl_Col('updated_on')
Latitude = Crawl_Col('latitude')
Longitude = Crawl_Col('longitude')
Location = Crawl_Col('location')
    
data = pd.DataFrame({"ID": ID,
                     "Case Number": Case_Number,
                     "Date": Date,
                     "Block": Block,
                     "IUCR": IUCR,
                     "Primary Type": Primary_Type,
                     "Description": Description,
                     "Location Description": Location_Description,
                     "Arrest": Arrest,
                     "Domestic": Domestic,
                     "Beat": Beat,
                     "District": District,
                     "Ward": Ward,
                     "Community Area": Community_Area,
                     "FBI Code": FBI_Code,
                     "X Coordinate": X_Coordinate,
                     "Y Coordinate": Y_Coordinate,
                     "Year": Year,
                     "Updated On": Updated_On,
                     "Latitude": Latitude,
                     "Longitude": Longitude,
                     "Location": Location})
data

Unnamed: 0,ID,Case Number,Date,Block,IUCR,Primary Type,Description,Location Description,Arrest,Domestic,...,Ward,Community Area,FBI Code,X Coordinate,Y Coordinate,Year,Updated On,Latitude,Longitude,Location
0,11961567,JD127781,01/01/2020 12:00:00 AM,076XX S SAGINAW AVE,0266,CRIM SEXUAL ASSAULT,PREDATORY,DAY CARE CENTER,False,False,...,7,43,02,1195249,1854870,2020,2020 Feb 14 03:40:03 PM,41.756670534,-87.560009165,"(41.756670534°, -87.560009165°)"
1,11963384,JD130208,01/02/2020 07:00:00 PM,005XX W 46TH PL,0810,THEFT,OVER $500,RESIDENCE,False,True,...,11,61,06,1173480,1874080,2020,2020 Jan 30 03:41:29 PM,41.809894177,-87.639219598,"(41.809894177°, -87.639219598°)"
2,11940612,JD103042,01/03/2020 02:10:00 PM,094XX S LAFAYETTE AVE,0820,THEFT,$500 AND UNDER,STREET,False,False,...,21,49,06,1177595,1842507,2020,2020 Jan 10 03:40:53 PM,41.723162201,-87.625080049,"(41.723162201°, -87.625080049°)"
3,11940588,JD103091,01/03/2020 03:29:00 PM,039XX W ROOSEVELT RD,2092,NARCOTICS,SOLICIT NARCOTICS ON PUBLICWAY,SIDEWALK,True,False,...,24,29,18,1150483,1894425,2020,2020 Jan 10 03:40:53 PM,41.866202226,-87.723039647,"(41.866202226°, -87.723039647°)"
4,11949130,JD112563,01/05/2020 12:01:00 AM,021XX N LINCOLN PARK WEST,0820,THEFT,$500 AND UNDER,APARTMENT,False,False,...,43,7,06,1173912,1914587,2020,2020 Jan 15 03:40:41 PM,41.921038627,-87.636428982,"(41.921038627°, -87.636428982°)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,12936580,JF527061,12/30/2022 12:48:00 AM,105XX S WENTWORTH AVE,0486,BATTERY,DOMESTIC BATTERY SIMPLE,RESIDENCE,False,True,...,34,49,08B,1176814,1835095,2022,2023 Jan 06 03:40:48 PM,41.702840251,-87.628163116,"(41.702840251°, -87.628163116°)"
2996,12936648,JF527215,12/29/2022 07:00:00 PM,031XX N MONTICELLO AVE,0910,MOTOR VEHICLE THEFT,AUTOMOBILE,STREET,False,False,...,30,21,07,1151523,1920535,2022,2023 Jan 05 03:42:58 PM,41.937830252,-87.718534755,"(41.937830252°, -87.718534755°)"
2997,12938176,JF528818,12/30/2022 02:30:00 PM,020XX W FARGO AVE,0810,THEFT,OVER $500,ALLEY,False,False,...,49,1,06,1161216,1949268,2022,2023 Jan 06 03:40:48 PM,42.016478531,-87.682108268,"(42.016478531°, -87.682108268°)"
2998,12938116,JF528728,12/31/2022 07:15:00 AM,063XX S CAMPBELL AVE,1320,CRIMINAL DAMAGE,TO VEHICLE,STREET,False,False,...,16,66,14,1160796,1862470,2022,2023 Jan 07 03:41:08 PM,41.778306511,-87.686063382,"(41.778306511°, -87.686063382°)"


### Lưu data vào file csv

In [7]:
data.to_csv('Crimes.csv', index=False)