# Programming for Data Science - 21KHDL1
# Final Project
# Topic:

## Student Information 
| MSSV     | Họ tên          |
| -------- | --------------- |
| 21120570 | Đặng Nguyễn Thanh Tín |
| 21120574 | Nguyễn Minh Trí |
| 21120580 | Trần Thị Kim Trinh |

## Table of contents
- [Overview](#overview)
- [Data Collection](#data-collection)
- [Data Pre-processing and Exploration](#data-pre-processing-and-exploration)
- [Quick view of Data](#quick-view-of-data)
- [Questions](#questions)
- [Reflection](#reflection)
- [References](#references)


# Overview

The Kaggle dataset on drug-related deaths from 2012-2018 provides comprehensive health-related information, encompassing various factors such as drug categories, demographics including gender and age, and the geographical context of fatalities. Despite its age, this data serves as a crucial resource for comprehending the drug issue and proposing preventative measures. Analyzing the dataset can pinpoint trends and factors contributing to fatalities, supporting prevention and treatment efforts. This presents an opportunity to address the public health challenge and formulate effective anti-drug strategies.

Libraries used

In [None]:
#import những gì bạn cần ở đây
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
import seaborn as sns
import geopandas as gpd
import folium
from folium.plugins import MarkerCluster

# 1. Data Collection

- **Data about:** **The Connecticut Deaths due to Drugs Dataset** contains information about **5105** people who died due to drug overdose between **2012 and 2018** in Connecticut, US.

    The dataset includes data related to the age, race, gender, place of residence of the victims as well as the drugs they overdosed on. This information can be used to understand if drug use is prevalent in a specific area or city, drug use by individuals of different age groups and races as well as the popularity of different types of drugs.

    The dataset has **41 columns** and **5105 rows**. The file have the following columns:
    1. `ID`: ID of Patient
    2. `Date`: The time which Patient died 
    3. `DateType`: Type of Date in Column 2 [Date of Reporting or Date of Death]
    4. `Age`: Age of Patient
    5. `Sex`: Sex of Patient
    6. `Race`: Race of Patient
    7. `ResidenceCity`: City of Residence
    8. `ResidenceCounty`: County of Residence
    9. `ResidenceState`: State of Residence
    10. `DeathCity`: City of Death
    11. `DeathCounty`: County of Death
    12. `Location`: Location of Death [Hospital or Residence]
    13. `LocationifOther`: Location of Death if Not Hospital or Residence
    14. `DescriptionofInjury`: Cause of Death
    15. `InjuryPlace`: Place of Event that caused Death
    16. `InjuryCity`: City of Event that caused Death
    17. `InjuryCounty`: County of Event that caused Death
    18. `InjuryState`: State of Event that caused Death
    19. `COD`: Detailed Cause of Death
    20. `OtherSignifican`: Other Significant Injuries that may have lead to Death
    21. `Heroin`: Drug Found in Body [Y/N] liệu heroin đã được phát hiện trong mẫu từ những trường hợp tử vong hay không?
    22. `Cocaine`: Drug Found in Body [Y/N]
    23. `Fentanyl`: Drug Found in Body [Y/N]
    24. `FentanylAnalogue`: Drug Found in Body [Y/N]
    25. `Oxycodone`: Drug Found in Body [Y/N]
    26. `Oxymorphone`: Drug Found in Body [Y/N]
    27. `Ethanol`: Drug Found in Body [Y/N]
    28. `Hydrocodone`: Drug Found in Body [Y/N]
    29. `Benzodiazepine`: Drug Found in Body [Y/N]
    30. `Methadone`: Drug Found in Body [Y/N]
    31. `Amphet`: Drug Found in Body [Y/N]
    32. `Tramad`: Drug Found in Body [Y/N]
    33. `Morphine_NotHeroin`: Drug Found in Body [Y/N]
    34. `Hydromorphone`: Drug Found in Body [Y/N]
    35. `Other`: Drug Found in Body [Y/N]
    36. `OpiateNOS`: Drug Found in Body [Y/N]
    37. `AnyOpioid`: Drug Found in Body [Y/N]
    38. `MannerofDeath`: Manner of Death
    39. `DeathCityGeo`: City of Death
    40. `ResidenceCityGeo`: City of Residence
    41. `InjuryCityGeo`: City of Injury

- **Source:** From `Data Science Dojo`

- **Collect data and License:** This data set has been sourced from `the US Government's 
Open Data Initiative Accidental Drug Related Deaths Dataset`.
The Open Data Initiative page mentions the following as the original source of the
data set:
Local Government, Connecticut

# 2. Data Pre-processing

## 2.0 Take a quick view of our data

 **Read Data**

In [None]:
# Đọc dữ liệu từ ./Accidental Drug Related Deaths in Connecticut-2012-2018 và lưu vào DrugDeath_df
DrugDeath_df = pd.read_csv('./Data/Accidental_Drug_Related_Deaths_2012-2022.csv')

DrugDeath_df.head(5)

**How many rows and how many columns?**

In [None]:
# Lưu số dòng của DrugDeath_df vào n_rows và số cột của DrugDeath_df vào n_cols
n_rows, n_cols = DrugDeath_df.shape

# In ra màn hình số dòng và số cột của DrugDeath_df
print(f'({n_rows}, {n_cols})')

**What is the meaning of each row?**


Each row in this dataset contains information about an individual who has passed away due to a drug overdose. Specifically:

- `Demographic Information:` This includes details about the person such as age, gender, race, and residential address.

- `Death Information:` This encompasses the date, location, specific cause, and manner of death (for example, intentional or accidental).

- `Drug-related Information:` It provides details about specific drugs found in the individual's body at the time of death.

Each row in this data isn't just a set of numbers; it represents a story of an unnecessary loss of an individual. It combines personal information, the context of the death, and the impact of drugs on this heartbreaking departure. A deeper understanding of these factors could help prevent and reduce similar cases in the future.

**What is the meaning of each column?**

- The data columns is crucial for effective analysis. By carefully examining the column titles and their respective data entries, we can decipher the information they encapsulate. Given the extensive length of the column titles, renaming them for easier handling and analysis becomes essential.

- Through a thorough review of the column titles and their contents, aligned with the context of the survey questionnaire, we can gain a comprehensive understanding of the dataset. This process will enable us to effectively rename the columns, simplifying them for easier manipulation and analysis in subsequent steps.

- The columns in this dataset provide information about emergency cases due to drug overdoses.

**What is the meaning of each column?**

- The data columns is crucial for effective analysis. By carefully examining the column titles and their respective data entries, we can decipher the information they encapsulate. Given the extensive length of the column titles, renaming them for easier handling and analysis becomes essential.

- Through a thorough review of the column titles and their contents, aligned with the context of the survey questionnaire, we can gain a comprehensive understanding of the dataset. This process will enable us to effectively rename the columns, simplifying them for easier manipulation and analysis in subsequent steps.

- The columns in this dataset provide information about emergency cases due to drug overdoses.

Chọn ra các cột sẽ dùng + giải thích lí do

In [None]:
DrugDeath_df.columns

In [None]:
DrugDeath_df = DrugDeath_df[['Date', 'Age', 'Sex', 'Race',
        'Location', 'Cause of Death', 'Heroin', 'Cocaine',
       'Fentanyl', 'Fentanyl Analogue', 'Oxycodone', 'Oxymorphone', 'Ethanol',
       'Hydrocodone', 'Benzodiazepine', 'Methadone', 'Meth/Amphetamine',
       'Amphet', 'Tramad', 'Hydromorphone', 'Morphine (Not Heroin)',
       'Xylazine', 'Gabapentin', 'Opiate NOS', 'Heroin/Morph/Codeine', 'ResidenceCityGeo',
       'DeathCityGeo']]

## 2.1 Are there duplicated rows?

In [None]:
# Kiểm tra các dòng bị trùng lặp
duplicate_rows = DrugDeath_df[DrugDeath_df.duplicated()]

# Hiển thị nếu có dòng bị trùng lặp
if duplicate_rows.shape[0] > 0:
    print("There are duplicated rows.")
    # Xóa các dòng trùng lặp
    DrugDeath_df.drop_duplicates(inplace=True)
    print("Duplicates removed.")
else:
    print("There are no duplicated rows.")

**Conclusion:** We can see that the dataset doesn't have duplicated rows.

## 2.2 Data type & missing values

### 2.2.1 Datatype

In [None]:
# Kiểm tra kiểu dữ liệu hiện tại của các cột
print(DrugDeath_df.info())

Most columns have the correct data types, with a few exceptions:

- The **Date** column should have the data type of Datetime.
- **Age** should have the data type of int instead of float.
- Columns such as **Heroin, Cocaine, Fentanyl, etc.,** which confirm the presence or absence of each toxic substance, should have a data type of bool instead of object.

In [None]:
#Chuyển cột Date thành datetime
DrugDeath_df['Date'] = pd.to_datetime(DrugDeath_df['Date'], format='%m/%d/%Y')

Ta sẽ xem xét các cột nên có kiểu dữ liệu boolean

In [None]:
#Xem các giá trị có trong các cột
drugs = ['Heroin', 'Cocaine',
       'Fentanyl', 'Fentanyl Analogue', 'Oxycodone', 'Oxymorphone', 'Ethanol',
       'Hydrocodone', 'Benzodiazepine', 'Methadone', 'Meth/Amphetamine',
       'Amphet', 'Tramad', 'Hydromorphone', 'Morphine (Not Heroin)',
       'Xylazine', 'Gabapentin', 'Opiate NOS', 'Heroin/Morph/Codeine']

for col in drugs: 
    print(col)
    print(DrugDeath_df[col].unique())

In this context, treating `NaN` and `N` as equivalent is justified since there is no evidence indicating the presence of the tested substance in the victim's body. Consequently, we can replace occurrences of `NaN` with `N` in these columns.

Before converting these columns to a boolean type, special values need to be addressed. Specifically, we need to handle values other than True (Y) and False (N or NaN) in these columns. The majority of columns exhibit a standard pattern with only 'Y', 'N', and 'NaN', but there are a few exceptions.

- **Other Opioid:** Includes values [nan 'Buprenorphine' 'MDMA, Buprenorphine' 'Mitragynine' 'ketamine' 'PCP' 'Difluro' 'pcp' 'Y']. Since this column represents the presence of other addictive substances, we can treat answers like 'Buprenorphine' 'MDMA, Buprenorphine', ... as 'Y'.

- **Morphine (Not Heroin):** [nan 'Y' 'PCP NEG' 'NO RX BUT STRAWS' 'STOLE MEDS']. Firstly, let's examine the meaning of special values:
    - `PCP NEG`: Indicates a negative result for PCP, unrelated to Heroin. Treat as 'Y'.
    - `NO RX BUT STRAWS`: Indicates the absence of a prescription but presence of straws, likely unrelated to Heroin. Treat as 'Y'.
    - `STOLE MEDS`: Indicates stolen medication, unrelated to Heroin. Treat as 'Y'. 
    --> Therefore, this column can be considered 'Y' for these special cases.

- **Fentanyl:** [nan 'Y' 'Y (PTCH)' 'Y POPS']
    - `Y PTCH`: Fentanyl detected in patch form.
    - `Y POPS`: Fentanyl detected in candy form.
    Treat these values as 'Y'.

In conclusion, a common approach for all columns can be formulated as follows:

In [None]:
#chuyển thành kiểu boolean (null hoặc 'N' là False, còn lại là True)
for col in drugs: 
    DrugDeath_df[col] = DrugDeath_df[col].notnull() & (DrugDeath_df[col] != 'N')

### 2.2.3 Handle missing value

- With each column, how are missing values distributed?
- What is the percentage of missing values?
- How many different values? Are they abnormal?

#### Firstly, let's examine the number of missing values in each column.

In [None]:
missing_values = DrugDeath_df.isnull().sum().sort_values(ascending=True)

fig = go.Figure(data=[go.Bar(
    y=missing_values.index,
    x=missing_values.values,
    orientation='h',
    marker_color='#1f77b4'
)])

fig.update_layout(
    title_text='Số lượng giá trị bị thiếu của mỗi cột',
    xaxis_title='Số lượng giá trị bị thiếu',
    yaxis_title='Tên cột',
    yaxis={'autorange': 'reversed'},
    height=800
)

fig.show()


#### Secondly, handle them

- In this process, i will use **Imputation**.
    - For categorical data, mode (the most frequent value) is often used. 
    - For numerical data, mean or median can be used depending on the data distribution.

In [None]:
categorical_cols = DrugDeath_df.select_dtypes(include=['object', 'category']).columns
numerical_cols = DrugDeath_df.select_dtypes(include=['int64', 'float64']).columns

missing_categorical_cols = [col for col in categorical_cols if DrugDeath_df[col].isnull().any()]
missing_numerical_cols = [col for col in numerical_cols if DrugDeath_df[col].isnull().any()]

print("Categorical columns with missing values:")
print(missing_categorical_cols)

print("\nNumerical columns with missing values:")
print(missing_numerical_cols)

In [None]:
#Xử lí Age, Sex, Location, Race bằng cách điền median và mode
# For numerical columns
DrugDeath_df['Age'] = DrugDeath_df['Age'].fillna(DrugDeath_df['Age'].median())
DrugDeath_df['Age'] = DrugDeath_df['Age'].astype(int)

# For categorical columns
for col in missing_categorical_cols:
    DrugDeath_df[col] = DrugDeath_df[col].fillna(DrugDeath_df[col].mode()[0])

Let's double-check to see if there are any remaining columns with missing values.

In [None]:
missing_cols = DrugDeath_df.columns[DrugDeath_df.isnull().any()].tolist()

print("Columns with missing values:")
print(missing_cols)

### 2.2.4 Handle abnormal value 

- In the column `Cause of Death`, there are values like: 
    - **Acetyl Fentanyl**, those values belong to `Fentanyl Analogue` column.
    - **Tramadol** belongs to the `Tramad` column, and there are some abnormal cases like that.
- For example: with the value `"Acute Intoxication due to the Combined Effects of Fentanyl, Xylazine, Cocaine and Tramadol"` , i will turn it into
`"Fentanyl, Xylazine, Cocaine, Tramadol"`.

- How i solve this issue?
    - Step 1: remove unwanted words, like: "Acute Intoxication due to the Combined Effects of" , "and", etc.
    - Step 2: create a new column `Details Cause` from drugs' name in the `Cause of Death` to help out later work easier.
        - For example: with the value `"Acute Intoxication due to the Combined Effects of Fentanyl, Xylazine, Cocaine and Tramadol"` , i will turn it into `"Fentanyl, Xylazine, Cocaine, Tramadol"`.





In [None]:
DrugDeath_df.columns

#### Step 1: Remove unnecessary words.

In [None]:
# rename 'Cause of Death' into COD for more convienient

DrugDeath_df = DrugDeath_df.rename(columns={'Cause of Death': 'COD'})

#Tạo cột mới chứa ds các thuốc là nguyên nhân trục tiếp gây tử vong
# Đổi tên cột 'Cause of Death' thành 'COD'
DrugDeath_df['COD'] = DrugDeath_df['COD'].str.lower()

# Loại bỏ các từ không mong muốn
unwanted_words = ['from the','ination', 'combination', 'pharmaceutical','with','use','by','complications','toxic', 'abuse' ,' of ', 'toxicity associated with', 'intoxiation', 'multidrug', 'toxicity' ,'including', 'chronic substance abuse'
    'acute intoxication by the combined effects of','while using' 'recent','effects','ity' ,'toxicities','combined','intoxication', 'acute', 'due to' ,'the', 'combined effects of', 'combined drug toxicity', 'multi-drug', 'following','chronic substance use','(',')']
for word in unwanted_words:
    DrugDeath_df['COD'] = DrugDeath_df['COD'].str.replace(word, '')

# Thay thế 'and' bằng ','
DrugDeath_df['COD'] = DrugDeath_df['COD'].str.replace('and', ',')
DrugDeath_df['COD'] = DrugDeath_df['COD'].str.replace('  ', ',')
DrugDeath_df['COD'] = DrugDeath_df['COD'].str.replace('/', ',')

#### Step 2: Create column `Details Cause` 

- First, find column name that match with the drug in `COD`.

In [None]:
# Lấy các giá trị duy nhất từ cột 'COD'
drug_column = DrugDeath_df.columns[8:-3]
drug_column

Create a new column from COD , to categorize value in COD to match with the drug columns

In [None]:
#Hợp cột Fetanyl và Fentanyl Analogue thành cột Fentanyl & Analogue có giá trị True nếu có ít nhất 1 trong 2 cột trên có giá trị True
DrugDeath_df['Fentanyl & Analogue'] = DrugDeath_df['Fentanyl'] | DrugDeath_df['Fentanyl Analogue']
#Bỏ cột Fentanyl và Fentanyl Analogue
DrugDeath_df.drop(columns=['Fentanyl', 'Fentanyl Analogue'], inplace=True)

In [None]:
import pandas as pd
import numpy as np

# List of drugs
drugs = ['Heroin', 'Cocaine',
       'Fentanyl & Analogue', 'Oxycodone', 'Oxymorphone', 'Ethanol',
       'Hydrocodone', 'Benzodiazepine', 'Methadone','Amphetamine',
       'Tramadol', 'Hydromorphone', 'Morphine',
       'Xylazine', 'Gabapentin', 'Opiate NOS', 'Heroin','Codeine']

def remove_dup(df, column):
    df[column] = df[column].apply(lambda x: ', '.join(sorted(set(str(x).strip() for x in str(x).split(', ')))))
    return df

#Function to find drugs in 'COD' and add them to 'Details Cause'
def find_drugs(row):
    global all_stripped_words
    a = []
    details_cause = []
    for drug in drugs:
        if drug.lower() in row['COD'].lower() or (drug.lower() + 's') in row['COD'].lower():
            details_cause.append(drug)
    if 'alcohol' in row['COD'].lower():
        details_cause.append('Ethanol')

    if 'fentanyl' in row['COD'].lower():
        details_cause.append('Fentanyl & Analogue')

    if 'opiates' in row['COD'].lower() or 'opiate' in row['COD'].lower() :
        details_cause.append('Opiate NOS')

    if not details_cause:
        details_cause.append('Other')
        return ''.join(details_cause)
    return ', '.join(details_cause)

# Apply the function to the 'COD' column
DrugDeath_df['Details Cause'] = DrugDeath_df.apply(find_drugs, axis=1)
DrugDeath_df = remove_dup(DrugDeath_df, 'Details Cause')

In [None]:
DrugDeath_df['Details Cause'].str.get_dummies(sep=', ').columns

# 3. Data Exploration

## 3.1 How are values distributed? 

### 3.1.1 With number columns, how are values distributed?

In [None]:
DrugDeath_df['Age'].describe()

In [None]:
num_bins = int(np.sqrt((DrugDeath_df['Age'].nunique())))

plt.figure(figsize=(10,6))
plt.hist(DrugDeath_df['Age'],bins=range(0, 101, 10), edgecolor='black')
plt.title('Distribution of Age')
plt.xlabel('Age')
plt.xticks(range(0, 101, 10))
plt.ylabel('Frequency')
plt.show()


### 3.1.2 With categorical columns, how are values distributed?

For the columns Sex, and Race, let's create pie charts to visualize the distribution of values.

In [None]:
# Đếm số lượng nam và nữ
sex_counts = DrugDeath_df['Sex'].value_counts()

# Vẽ biểu đồ tròn
plt.figure(figsize=(6, 6))
plt.pie(sex_counts, labels=sex_counts.index, autopct='%1.1f%%', colors=['blue', 'pink'])
plt.title('Tỉ lệ tử vong nam và nữ')
plt.show()

We will calculate the ratio of males to females in the data to gain a more objective perspective.

In [None]:
# Tính tỷ lệ tử vong giữa nam và nữ
male_deaths = sex_counts['Male']
female_deaths = sex_counts['Female']
death_ratio = male_deaths / female_deaths
print(f"The male-to-female death ratio.: {death_ratio:.2f}")

We will create a bar chart to visualize the frequency of each drug found in the bodies of the victims.

In [None]:
import plotly.express as px
drug_column = ['Heroin', 'Cocaine',
       'Oxycodone', 'Oxymorphone', 'Ethanol', 'Hydrocodone', 'Benzodiazepine',
       'Methadone', 'Meth/Amphetamine', 'Amphet', 'Tramad', 'Hydromorphone',
       'Morphine (Not Heroin)', 'Xylazine', 'Gabapentin', 'Opiate NOS',
       'Heroin/Morph/Codeine', 'Fentanyl & Analogue']

#LẶp qua tất cả các cột thuốc, vì đây là boolean nên chỉ cần dùng .sum() để đếm số lượng True
drugs_found = DrugDeath_df.copy()
drugs_found = drugs_found[drug_column].sum().sort_values(ascending=False)
drugs_found 

# Chuyển đổi Series thành DataFrame để vẽ biểu đồ
drugs_found_df = drugs_found.reset_index()
drugs_found_df.columns = ['Drug', 'Count']

# Vẽ biểu đồ cột
fig = px.bar(drugs_found_df, x='Drug', y='Count', title='Số lượng bệnh nhân', color_discrete_sequence=['steelblue'])
fig.show()

For the column indicating the cause of death, we will examine how many victims were directly related to each type of drug.

In [None]:
# value count for each name of drug in each row

def count_drug_frequency(df, column):
    # Split the column into separate drugs
    df[column] = df[column].str.split(',')

    # Expand the lists into separate rows
    df = df.explode(column)

    # Strip leading/trailing whitespace
    df[column] = df[column].str.strip()

    # Count the frequency of each drug
    drug_counts = df[column].value_counts()

    return drug_counts

drug_counts = count_drug_frequency(DrugDeath_df.copy(), 'Details Cause')

# Chuyển đổi Series thành DataFrame để vẽ biểu đồ
drug_counts_df = drug_counts.reset_index()
drug_counts_df.columns = ['Drug', 'Count']

# Vẽ biểu đồ cột
fig = px.bar(drug_counts_df, x='Drug', y='Count', title='Tần suất xuất hiện của từng loại thuốc', color_discrete_sequence=['steelblue'])
fig.show()




## 3.2 The correlation between "Age" and "Types of drugs"

### Step 1: Calculating correlation coefficients

In [None]:
# Sao lưu một bản sao của DataFrame gốc
df_copy = DrugDeath_df.copy()

# Tạo một dictionary để lưu trữ hệ số tương quan giữa 'Age' và các thuốc
correlations = {}

# Lặp qua từng cột thuốc và tính toán tương quan
for column in df_copy.columns:
    if df_copy[column].dtype == bool:  # Chỉ xem xét các cột dạng boolean
        correlation = df_copy['Age'].corr(df_copy[column].astype(int), method='pearson')
        correlations[column] = correlation

# In ra các hệ số tương quan
for drug, correlation in correlations.items():
    print(f"Correlation between Age and {drug}: {correlation}")


### Step 2: Visualize by heatmap

In [None]:
# Chuyển đổi dictionary thành DataFrame để vẽ biểu đồ
correlation_df = pd.DataFrame(list(correlations.items()), columns=['Drug', 'Correlation'])

# Sắp xếp DataFrame theo giá trị tăng dần của hệ số tương quan
correlation_df = correlation_df.sort_values(by='Correlation')

# Tạo DataFrame có chỉ số là tên thuốc và cột là 'Age' và giá trị là hệ số tương quan
heatmap_data = correlation_df.set_index('Drug').T
plt.figure(figsize=(10, 6))
sns.heatmap(heatmap_data, annot=False, cmap='coolwarm')
plt.title('Correlation Heatmap between Age and Drugs')
plt.xlabel('Drug')
plt.ylabel('Age')
plt.show()

**Nhận xét:**
- Ma túy có mức tương quan tiêu cực nhẹ hơn (màu xanh nhạt) bao gồm: Amphet và Meth/Amphetamine.
- Gabapentin có mức tương quan tích cực mạnh nhất với tuổi tác (màu đỏ sẫm), có nghĩa là loại ma túy này có thể được sử dụng nhiều hơn bởi những người lớn tuổi.
- Các loại ma túy khác như Cocaine, Methadone, và Hydrocodone cũng cho thấy một mức độ tương quan tích cực nhẹ hơn (màu đỏ nhạt).

## 3.3 Which are the top 5 cities with the highest number of deaths?

### Step 1: Top 5 cities with the highest death counts

In [None]:
# Tạo bản sao dataframe
DrugDeath_df_copy = DrugDeath_df.copy()

top_cities = DrugDeath_df_copy['DeathCityGeo'].value_counts()

### Step 2: Visualize

In [None]:
# Lọc dữ liệu cho 5 thành phố có số lượng tử vong cao nhất
top_cities_data = DrugDeath_df_copy[DrugDeath_df_copy['DeathCityGeo'].isin(top_cities.index)]

# Tách dữ liệu về vĩ độ (latitude) và kinh độ (longitude) từ cột 'DeathCityGeo'
lat_lon = top_cities_data['DeathCityGeo'].str.extract(r'\(([-+]?\d+\.\d+), ([-+]?\d+\.\d+)\)')

# Xử lý ngoại lệ: Nếu không tìm thấy tên thành phố, đặt là 'Noname'
top_cities_data['City'] = top_cities_data['DeathCityGeo'].str.extract(r'\s(.*),').fillna('Noname')

top_cities_data['Latitude'] = lat_lon[0].astype(float)
top_cities_data['Longitude'] = lat_lon[1].astype(float)

# Tạo một bản đồ được căn chỉnh vào tọa độ trung bình (median coordinates)
map_center = list(top_cities_data[['Latitude', 'Longitude']].median())
m = folium.Map(location=map_center, zoom_start=5)

# Thêm các đánh dấu cho các thành phố hàng đầu
mc = MarkerCluster()
for idx, row in top_cities_data.iterrows():
    if row['City'] == 'Noname':
        popup_text = 'Noname'
    else:
        popup_text = f"{row['City']}"
    mc.add_child(folium.Marker([row['Latitude'], row['Longitude']], popup=popup_text))

m.add_child(mc)

m


**Nhận xét:**
- Thành phố không rõ tên (có tọa độ 41.573507300003, -72.738509097997) dẫn đầu với số lượng tử vong vượt quá 1400.
- Hartford, CT (với tọa độ 41.765775, -72.673356) tiếp theo với số lượng tử vong hơn 800.
- New Haven, CT (tọa độ 41.308252, -72.924161) với số lượng tử vong hơn 600.
- Waterbury, CT (tọa độ 41.554261, -73.043069) có số lượng tử vong hơn 400.
- Bridgeport, CT (tọa độ 41.179195, -73.189476) với số lượng tử vong gần 400.

## 3.4 Top 5 most common details of death causes?

### Step 1: Counting occurrences of each death cause detail. Then selecting the top 5

In [None]:
# Sao lưu một bản sao của DataFrame gốc
df_copy = DrugDeath_df.copy()

# Counting occurrences of each death cause detail and selecting the top 5
top_5_death_causes = df_copy['Details Cause'].value_counts().head(5)

# Displaying the top 5 most common death cause details
print("Top 5 Most Common Death Cause Details:")
print(top_5_death_causes)

### Step 2: Visualize by bar chart

In [None]:
# Vẽ biểu đồ cho 5 nguyên nhân gây tử vong phổ biến nhất
plt.figure(figsize=(10, 6))
top_5_death_causes.plot(kind='barh', color='steelblue')
plt.title('Top 5 Most Common Death Cause Details')
plt.xlabel('Number of Occurrences')
plt.ylabel('Death Cause Details')
plt.show()

**Nhận xét:**
- Các nguyên nhân từ cao xuống thấp là:
    - Fentanyl, Fentanyl Analog, Heroin
    - Ethanol, Fentanyl, Fentanyl Analog
    - Heroin
    - Cocaine, Fentanyl, Fentanyl Analog
    - Fentanyl, Fentanyl Analog
- Nguyên nhân hàng đầu gây tử vong là sự kết hợp của Fentanyl, Fentanyl Analog và Heroin với số lần xuất hiện gần 1400 lần. Các nguyên nhân khác cũng chứa Fentanyl và các chất analog của nó, cho thấy rằng Fentanyl là một vấn đề lớn trong các trường hợp tử vong liên quan đến ma túy.
- Heroin và Ethanol cũng được nhắc đến như là các nguyên nhân chính

# 4. Meaningful Questions

## 4.1 Question 1: Tìm các thuốc(Cause) có tỉ lệ tử vong cao nhất , với các thuốc dó thì xu hướng sử dụng, xu hướng tử vong qua mỗi năm thay đổi như thế nào?

- Benefit:
    - Giúp chính phủ có biện pháp hạn chế phù hợp đối với việc sử dụng các chất trên.
    - Đưa ra cảnh báo cho người dân.


In [None]:
cause_info = cause_count = DrugDeath_df.copy()
cause_count['Details Cause'] = cause_info['Details Cause'].str.split(', ').copy()
# Sử dụng .stack() để chuyển đổi dữ liệu thành dạng stack
stacked_values = cause_count['Details Cause'].apply(pd.Series).stack()

# Đếm số lần xuất hiện của mỗi giá trị
top_5_values = stacked_values.value_counts().nlargest(5)

print(top_5_values)

In [None]:
import matplotlib.pyplot as plt

# Tạo một cột mới 'Year' bằng cách trích xuất năm từ cột 'Date'
cause_info['Year'] = cause_info['Date'].dt.year

# Tạo DataFrame mới để lưu trữ số lần xuất hiện của từng giá trị theo năm
yearly_counts = pd.DataFrame()

# Vòng lặp qua top 5 giá trị
for value in top_5_values.index:
    # Tạo một mask boolean cho từng giá trị
    mask = cause_info['Details Cause'].apply(lambda x: value in x)
    # Đếm số lần xuất hiện của giá trị trong mỗi năm
    yearly_count = cause_info[mask].groupby('Year').size()
    # Thêm số lần xuất hiện vào DataFrame
    yearly_counts[value] = yearly_count

# Vẽ biểu đồ đường
%matplotlib inline 
plt.figure(figsize=(6, 6))
yearly_counts.plot(kind='line')
plt.title('Số lần xuất hiện của từng giá trị hàng đầu theo năm')
plt.xlabel('Năm')
# plt.xticks(range(2012, 2023))
plt.ylabel('Số ca tuvong liên quan')
# Điều chỉnh chiều rộng của trục x
plt.show()


Nhận xét:
- Chúng ta có thể thấy với hai chất `Fentanyl` và `Fentanyl Analogue`, Số ca tử vong có liên quan tới hai chất này tăng mạnh qua hàng năm và đạt đỉnh ở năm 2021 (hơn 1200 ca). Tuy nhiên  2021 trở đi, có sự giảm thiểu về số ca mà hai chất này có liên quan. 
- Với hai chất `Cocaine và Ethanol`, số ca có tử vong liên quan tới hai chất này nhìn chung luôn tăng đều. Tuy nhiên vào năm 2021, có sự suy giảm ở số lượng ca có liên quan tới `Ethanol`.
- Với `Heroin`, Số ca tử vong liên quan tới chất này đạt đỉnh ở năm 2016 với khoảng 500 ca và giảm dần cho tới năm 2022. Có thể thấy chất này được quản lí tốt.


## 4.3 Question 3: Liệu có sự khác biệt về loại ma tuý được sử dụng ở các chủng tộc/ nhóm tuổi hay không?

Lợi ích: giúp chúng ta hiểu rõ hơn về mô hình sử dụng ma tuý trong cộng đồng, xác định được những nhóm có nguy cơ cao nhất. Từ đó chúng ta có thể phát triển các chiến lược can thiệp và phòng ngừa ma tuý hiệu quả hơn, dựa trên nhu cầu cụ thể của từng nhóm

In [None]:
df = DrugDeath_df.copy()

drugs = ['Heroin', 'Cocaine', 'Fentanyl & Analogue', 'Oxycodone', 'Oxymorphone', 'Ethanol',
         'Hydrocodone', 'Benzodiazepine', 'Methadone', 'Meth/Amphetamine', 'Amphet', 'Tramad', 
         'Hydromorphone', 'Morphine (Not Heroin)', 'Xylazine', 'Gabapentin', 'Opiate NOS', 
         'Heroin/Morph/Codeine']

race_groups = {
    "White Group": ["White"],
    "Black Group": ["Black", "Black or African American"],
    "Asian Group": ["Asian, Other", "Asian Indian", "Other Asian", "Chinese", "Korean"],
    "Unknown/Other Group": ["Unknown", "Other", "American Indian or Alaska Native", "Hawaiian", "Native American, Other"]
}

bins = [0, 25, 60, 100]
labels = ["Young", "Middle", "Old"]
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels)
df['RaceGroup'] = df['Race'].apply(lambda race: next((group for group, races in race_groups.items() if race in races), "Unknown/Other Group"))

# Heatmap 1
df_drug_usage = df.groupby(['AgeGroup', 'RaceGroup'], observed = False)[drugs].sum().reset_index().melt(id_vars=['AgeGroup', 'RaceGroup'], value_vars=drugs, var_name='Drug', value_name='Count')

plt.figure(figsize=(10, 8))
sns.heatmap(df_drug_usage.pivot_table(index='Drug', columns=['AgeGroup', 'RaceGroup'], values='Count'), cmap='YlGnBu')
plt.title('Drug Usage by Age Group and Race Group')
plt.show()

# Heatmap 2
drugs = ['Amphetamine', 'Benzodiazepine', 'Cocaine', 'Codeine', 'Ethanol',
       'Fentanyl & Analogue', 'Gabapentin', 'Heroin', 'Hydrocodone',
       'Hydromorphone', 'Methadone', 'Morphine', 'Opiate NOS',
       'Oxycodone', 'Oxymorphone', 'Tramadol', 'Xylazine']

df = df[['AgeGroup', 'RaceGroup', 'Details Cause']].join(df['Details Cause'].str.get_dummies(sep=', '))
df_drug_usage = df.groupby(['AgeGroup', 'RaceGroup'],  observed = False)[drugs].sum().reset_index().melt(id_vars=['AgeGroup', 'RaceGroup'], var_name='Drug', value_name='Count')

plt.figure(figsize=(10, 8))
sns.heatmap(df_drug_usage.pivot_table(index='Drug', columns=['AgeGroup', 'RaceGroup'], values='Count'), cmap='YlGnBu')
plt.title('Drug Related Deaths by Age Group and Race Group')
plt.show()


Nhận xét: 
- 3 nhóm người sử dụng nhiều ma tuý nhất là Middle-White, Middle-Black và Young-White.
- Độ tuổi dùng thuốc tập trung chủ yếu ở Young và Middle
- Nhóm dân Châu Á ít sử dụng thuốc nhất, nhóm White dùng nhiều nhất.
- Ở các nhóm dùng ma tuý nhiều, có xu hướng chung: sử dụng nhiều nhất là Fetanyl, Cocain, Heroin, Ethanol
- Với biểu đồ về loại thuốc liên quan trục tiếp đến cái chết của nạn nhân, có thể thấy rằng Fentanyl, Cocaine, Heroin, Ethanol là những loại thuốc gây ra nhiều cái chết nhất, tương tự như biểu đồ về loại thuốc sử dụng
- Có sự tương đồng giữa số nạn nhân sử dụng một loại thuốc và số nạn nhân có nguyên nhân tử vong do loại thuốc đó gây ra, 2 thông số này gàn như suýt soát nhau, điều này có thể chứng minh rắng các loại thuốc này rất độc, tỉ lệ tử vong khá cao

## 4.4 Question 4: Liệu độ tuổi sử dụng các chất kích thích có bị trẻ hóa?
Như trong phần EDA, ta có thể thấy số lượng ca tử vong liên quan tới các chất tăng dần qua hàng năm. Liệu xu hướng đó có trẻ hóa?
- Lợi ích: 
    - Giúp chính quyền đưa ra các chính sách quản lý và răn đe phù hợp.
    - Giúp người dân nâng cao ý thức cảnh giác.
    - Hạn chế tệ nạn xã hội, giúp nâng cao chất lượng con  người.

In [None]:
df = DrugDeath_df.copy()
df['Date'] = pd.to_datetime(df['Date'])
# Tạo cột 'Year' từ 'Date'
df['Year'] = df['Date'].dt.year

df[["Age","Year"]]

# Tạo 3 nhóm tuổi
df['Age_Group'] = pd.cut(df['Age'], bins=[0, 25, 50, np.inf], labels=['<=25', '25-50', '>50'])

# Tính số lượng người trong mỗi nhóm tuổi qua từng năm
age_group_counts = df.groupby(['Year', 'Age_Group']).size().unstack()

# Vẽ line chart
plt.figure(figsize=(10, 6))
for column in age_group_counts.columns:
    plt.plot(age_group_counts.index, age_group_counts[column], marker='', linewidth=2, label=column)

plt.title('Số ca tử vong theo nhóm tuổi qua hằng năm')
plt.xlabel('Year')
plt.ylabel('Số ca')
plt.legend()
plt.show()



## 4.2 Question 2: Các thuốc gây nguyên nhân tử vong cao nhất cho từng nhóm tuổi và sự chuyển biến của nó theo độ tuổi?

- Lợi ích của câu hỏi:
    - Có cái nhìn sâu hơn về các vấn đề sức khỏe và nguyên nhân gây tử vong ở mỗi nhóm độ tuổi cụ thể.
    - Hỗ trợ việc đưa ra các chính sách y tế cụ thể nhằm giảm thiểu nguy cơ tử vong, tăng cường giám sát và cải thiện chăm sóc sức khỏe cho từng nhóm tuổi.
    - Phát hiện ra những đặc điểm, xu hướng đặc trưng của từng nhóm tuổi trong việc sử dụng và ảnh hưởng của các loại thuốc khác nhau.

In [None]:
DrugDeath_df_copy = DrugDeath_df.copy()
DrugDeath_df_copy = DrugDeath_df_copy.explode('Details Cause')

### Step 1: Phân loại cột "Age" thành các nhóm độ tuổi theo quy định quốc tế

In [None]:
# Phân loại độ tuổi thành 3 nhóm
def classify_age_group(age):
    if age > 55:
        return 'Người già'
    elif 35 <= age <= 55:
        return 'Người trung niên'
    elif 18 <= age <= 34:
        return 'Người thanh niên'
    elif 14 <= age <= 17:
        return 'Người vị thành niên'
    else:
        return 'Người thiếu nhi'

DrugDeath_df_copy['Age Group'] = DrugDeath_df_copy['Age'].apply(classify_age_group)

### Step 2: Tìm mỗi loại thuốc gây tử vong cao nhất ở mỗi độ tuổi

In [None]:
# Nhóm theo Age Group và Details Death, đếm số lần xuất hiện của mỗi loại thuốc
top_drugs_by_age = DrugDeath_df_copy.groupby(['Age Group', 'Details Cause']).size().reset_index(name='count')

# Tìm loại thuốc gây tử vong nhiều nhất trong mỗi nhóm tuổi
top_drugs_by_age = top_drugs_by_age.loc[top_drugs_by_age.groupby('Age Group')['count'].idxmax()]

# Đổi tên cột 'Details Cause' thành 'Name of Drug'
top_drugs_by_age = top_drugs_by_age.rename(columns={'Details Cause': 'Name of Drug'})

print(top_drugs_by_age)

- Ta thấy, ở tất cả 5 nhóm độ tuổi, loại thuốc gây tử vong cao nhất đều là `Fentanyl Analogue`. Do đó ta không cần phải vẽ mỗi loại thuốc gây tử vong cao nhất cho từng độ tuổi để minh họa sự chuyển biến của loại thuốc đó lên các độ tuổi còn lại. Mà ta chỉ cần vẽ một đồ thị để minh họa tác động của loại thuốc `Fentanyl Analogue` lên 5 nhóm tuổi mà ta đã phân loại trước đó.

### Step 3: Minh họa bằng biểu đồ đường

In [None]:
age_groups = ['Người thiếu nhi', 'Người vị thành niên', 'Người thanh niên', 'Người trung niên', 'Người già']

# Lấy dữ liệu cho biểu đồ
deaths_by_age_group = [top_drugs_by_age[top_drugs_by_age['Age Group'] == age]['count'].values[0] for age in age_groups]
# Vẽ biểu đồ đường
plt.figure(figsize=(8, 6))
plt.plot(age_groups, deaths_by_age_group, marker='o', linestyle='-', color='red')
plt.xlabel('Age Group')
plt.ylabel('Number of Deaths')
plt.title('Number of Deaths by Fentanyl Analogue in Different Age Groups')
plt.xticks(rotation=45)

# Thêm chú thích số lên mỗi điểm
for i, txt in enumerate(deaths_by_age_group):
    plt.text(age_groups[i], txt, str(txt), ha='center', va='bottom')

plt.tight_layout()
plt.show()


- Nhận xét:
    - Ta thấy mặc dù ở mỗi nhóm tuổi khác nhau, thì loại thuốc `Fentanyl Analogue` đều gây tử vong nhiều nhất.
    - Tuy nhiên, ta cũng có thể nhìn thấy được, ở nhóm tuổi `Người Trung Niên` có mức độ tử vong cao nhất gây ra bởi loại thuốc `Fentanyl Analogue` so với các nhóm tuổi khác.
    - Ở các nhóm tuổi có sức lao động cao lại có xu hướng dễ bị tử vong vì sốc thuốc.
    - Ở đây, ta thêm vào nhóm tuổi là thiếu nhi chỉ mang tính chất tượng trưng, tuy nhiên, ở trong dữ liệu này cũng đã xuất hiện có một ca tử vong. Và có thể xu hướng này có thể tăng thêm nữa.  

## Q5. Liệu có sự khác biệt về tình hình sử dụng ma tuý giữa 3 thành phố có nhiều nạn nhân nhất hay không?

Nếu tồn tại sự khác biệt đáng kể về tình hình sử dụng ma tuý giữa các thành phố, điều này sẽ yêu cầu chính phủ phải thực hiện các chính sách và biện pháp can thiệp riêng biệt, phù hợp với từng địa phương để kiểm soát tình hình. 

Do đó, em muốn tiến hành phân tích để xác định xem có sự khác biệt nào giữa các thành phố hay không, nhằm cung cấp một cái nhìn chi tiết và rõ ràng về tình hình sử dụng ma tuý tại các thành phố khác nhau

In [None]:
#Chọn ra 3 thành phố xuất hiện nhiều nhất trong dữ liệu
top_cities = DrugDeath_df['DeathCityGeo'].value_counts().head(10)
#Bỏ giá trị đầu
top_cities = top_cities[1:]

In [None]:
df = DrugDeath_df.copy()
df['Age Group'] = pd.cut(df['Age'], bins=[0, 25, 60, 100], labels=['Young', 'Middle', 'Old'])
df['Year'] = pd.DatetimeIndex(df['Date']).year

#chọn ra 3 thành phố có nhiều nạn nhân nhất (trừ giá trị đầu, vì nó là chir ghi chung chung Connecticut)
top_cities = df['DeathCityGeo'].value_counts().head(4)
# Bỏ giá trị đầu
top_cities = top_cities[1:]

city_stats = df[DrugDeath_df['DeathCityGeo'].isin(top_cities.index)].groupby('DeathCityGeo').apply(lambda city_data: pd.Series({
    'Death Count': len(city_data),
    'Average Age': city_data['Age'].mean(),
    'Growth Rate': city_data['Year'].value_counts().sort_index().pct_change().mean(),
    'Old Percentage': (city_data['Age Group'] == 'Old').mean() * 100,
    'Middle Percentage': (city_data['Age Group'] == 'Middle').mean() * 100,
    'Young Percentage': (city_data['Age Group'] == 'Young').mean() * 100
})).reset_index()

city_stats

In [None]:
df = city_stats.set_index('DeathCityGeo')

# Scale dữ liệu theo từng cột bằng cách lấy giá trị trong từng cột chia cho max
for col in df.columns:
    df[col] = df[col] / df[col].max()

df_scaled = df

fig = go.Figure()

for i in range(len(df_scaled)):
    fig.add_trace(go.Scatterpolar(
        r=df_scaled.loc[df_scaled.index[i], :].tolist(),
        theta=df_scaled.columns.tolist(),
        fill='toself',
        name=df_scaled.index[i]
    ))

# Cập nhật layout
fig.update_layout(
    polar=dict(
        radialaxis=dict(
            visible=True,
            range=[0, 1]
        )),
    showlegend=True
)

fig.show()


Nhận xét:
- Tuổi thọ trung bình của nạn nhân ở các thành phố là như nhau, khoảng 44 tuổi
- Tỉ lệ nạn nhân tử vong ở độ tuổi trung niên của các thành phố cũng tương đương nhau, khoảng 80%
- Ở thành phố Hartford, đây là thành phố đứng đầu về số nạn nhân tử vong. Tỉ lệ tăng trưởng trung bình ở đây cũng là cao nhất trong các thành phố. Tỉ lệ lớp trẻ dùng ma tuý ở đây cũng cao hơn so với các thành phố khác.
- Ở thành phố New Heaven, tỉ lệ tăng trưởng trung bình ở đây cao hơn so với thành phố Waterbury, và thấp hơn Hartford. Tỉ lệ lớp trẻ dùng ma tuý ở đây cũng gần như tương tự Hartford. Bên cạnh đó, tỉ lệ lớp lớn tuổi tử vong vì ma tuý ở đây cao nhất trong 3 thành phố.
- Đứng thứ 3 trong danh sách là thành phố Waterbury, tỉ lệ tăng trưởng trung bình ở đây thấp nhất trong 3 thành phố. Tỉ lệ lớp trẻ dùng ma tuý ở đây cũng thấp hơn hẳn so với Hartford và New Heaven, chỉ bằng khoảng 1 nửa các thành phố này.

Từ đó, ta thấy được rằng, tình hình sử dụng ma tuý ở thành phố Hartford và New Heaven là tồi tệ nhất, có xu hướng trẻ hoá. Ở thành phố Waterbury, tình hình sử dụng ma tuý tương đối khả quan hơn nhiều, chứng tỏ các biện pháp kiểm soát tại đây đã có hiệu quả hơn so với các thành phố khác.

# 5. Reflection

## 5.1 Những khó khăn gặp phải


### Khó khăn khi tìm bộ dữ liệu

Giữa muôn vàng dataset để lựa chọn, chúng em phân vân không biết nên chọn dataset nào cho đồ án lần này.

### Khó khăn khi xử lí các giá trị tên thuốc.

- Ở bước xử lí cho cột `Details Cause`, chúng em gặp phải một vấn đề rất lớn đó là đưa các tên thuốc vào cột này.
Trong khi các giá trị trong cột `Cause of Death` (Nguyên nhân chính gây tử vong) sẽ có các giá trị như `Tramadol` hay `Amphetamine`. Thì các cột tên thuốc lại là giá trị viết tắt
như `Tramad`, `Amphet`. Có rất nhiều các giá trị như vậy nên chúng em khó có thể tìm kiếm và xử lí chúng.
- Hơn nữa, các giá trị tên thuốc trong cột `Cause of Death` thường đi với những từ ngữ khác, ví dụ như `due to the combined of`, `and`,... Nên để loại bỏ những từ rác và lấy những tên thuốc quan trọng cũng là một điều khó khăn.

### Khó khăn khi suy nghĩ câu hỏi hữu ích.

- Do đặc thù của dataset này có rất nhiều cột tên thuốc có kiểu boolean, có nhiều cột có tỉ lệ missing value cao và bắt buộc phải loại bỏ. Nên số lượng các cột hữu ích còn lại là khá khiêm tốn, khiến việc đặt câu hỏi hữu ích khá khó khăn.

## 5.2 Chúng em sẽ làm gì nếu có nhiều thời gian hơn?

### Xử lí hoàn hảo hơn cho các cột tên thuốc

Chúng em sẽ tiến hành tìm tất cả các tên thuốc trong cột `Cause of Death`, sau đó đổi những tên cột được viết tắt(hay đặt tên khác) thành những tên cột tương ứng với Cause of Death để tận dụng được các cột này.

### Sử dụng mô hình học máy để trả lời những câu hỏi hữu ích.

Do đặc thù của bộ dữ liệu, chúng em không biết để áp dụng học máy vào bộ dữ liệu này như thế nào. Hồi quy cái gì? Phân loại những gì? Khi mà câu hỏi đặt ra sẽ có những điểm không hợp lí. Ví dụ như:
- Phân loại nhóm người nào sử dụng những chất nào: Bài toán này khá nhạy cảm, khi nó có thể liên quan đến phân biệt chủng tộc.


# References