### Import các thư viện sử dụng

In [1]:
import os
import sys

module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Đọc dữ liệu thô từ file

In [2]:
raw_df = pd.read_csv('Data\\Youth_Tobacco_Survey__YTS__Data.csv')
raw_df.head()

Unnamed: 0,YEAR,LocationAbbr,LocationDesc,TopicType,TopicDesc,MeasureDesc,DataSource,Response,Data_Value_Unit,Data_Value_Type,...,GeoLocation,TopicTypeId,TopicId,MeasureId,StratificationID1,StratificationID2,StratificationID3,StratificationID4,SubMeasureID,DisplayOrder
0,2008,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS08,8
1,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS09,9
2,2002,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,2EDU,YTS06,6
3,2012,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,2EDU,YTS05,5
4,2004,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,2GEN,8AGE,6RAC,1EDU,YTS11,11


### Kiểm tra chất lượng dữ liệu

In [3]:
print(f"Kích thước dữ liệu: {raw_df.shape}")

if raw_df.shape[0] > 1000:
    print(f"Dữ liệu tốt.")
else:
    print(f"Dữ liệu chưa tốt. Cần kiểm tra lại.")

Kích thước dữ liệu: (10600, 31)
Dữ liệu tốt.


### Kiểm tra các dòng dữ liệu
#### Ý nghĩa của các dòng dữ liệu
Trong tập dữ liệu này, mỗi dòng sẽ đại diện cho một mẫu khảo sát tại một bang ở một thời điểm nhất định (tính theo năm). Các thông tin quan trọng cần lưu ý trong mỗi dòng là: năm khảo sát (YEAR), địa điểm (LocationDesc), mô tả chủ đề khảo sát (TopicDesc), mô tả đơn vị đo lường (MeasureDesc), Phản hồi của người khảo sát (Response), Giá trị dữ liệu (Data_Value), Kí hiệu cước chú (Data_Value_Footnote_Symbol), Cước chú (Data_Value_Footnote), Độ lệch chuẩn của giá trị (Data_Value_Std_Err), Giới hạn thấp của độ tin cậy (Low_Confidence_Limit), Giới hạn cao của độ tin cậy (High_Confidence_Limit), Kích thước mẫu (Sample_Size), Giới tính (Gender), Trình độ giáo dục (Education). Không có các dòng có ý nghĩa khác nhau.

**TODO**: Give your obervation here

cessation -> percent (1(overall), 2(male), 3(female)), quit attemp (4(overall), 5(male), 6(female))
cigar use -> smoke status (7 (current), 8(ever), 9(freq))
smokeless -> user status (10 (current), 11(ever), 12(freq))

#### Kiểm tra số dòng dữ liệu trùng lắp

In [4]:
num_duplicated_rows = sum(raw_df.duplicated())
if num_duplicated_rows == 0:
    print(f"Dữ liệu thô không có dòng trùng lắp.")
else:
    print(f"Dữ liệu thô có {num_duplicated_rows} dòng trùng lắp. Cần loại bỏ các dòng này.")

Dữ liệu thô không có dòng trùng lắp.


### Kiểm tra các cột dữ liệu
#### Kiểu dữ liệu của từng cột

In [5]:
dtypes = raw_df.dtypes
dtypes

YEAR                            int64
LocationAbbr                   object
LocationDesc                   object
TopicType                      object
TopicDesc                      object
MeasureDesc                    object
DataSource                     object
Response                       object
Data_Value_Unit                object
Data_Value_Type                object
Data_Value                    float64
Data_Value_Footnote_Symbol     object
Data_Value_Footnote            object
Data_Value_Std_Err            float64
Low_Confidence_Limit          float64
High_Confidence_Limit         float64
Sample_Size                   float64
Gender                         object
Race                           object
Age                            object
Education                      object
GeoLocation                    object
TopicTypeId                    object
TopicId                        object
MeasureId                      object
StratificationID1              object
Stratificati

Cột dữ liệu YEAR đang có kiểu dạng số, ta cần đưa nó về dạng phân loại

In [6]:
raw_df['YEAR'] = raw_df['YEAR'].astype('object')
dtypes = raw_df.dtypes
float_cols = set(dtypes[(dtypes==np.float32) | (dtypes==np.float64)].index)
object_cols = set(dtypes[dtypes == object].index)
dtypes

YEAR                           object
LocationAbbr                   object
LocationDesc                   object
TopicType                      object
TopicDesc                      object
MeasureDesc                    object
DataSource                     object
Response                       object
Data_Value_Unit                object
Data_Value_Type                object
Data_Value                    float64
Data_Value_Footnote_Symbol     object
Data_Value_Footnote            object
Data_Value_Std_Err            float64
Low_Confidence_Limit          float64
High_Confidence_Limit         float64
Sample_Size                   float64
Gender                         object
Race                           object
Age                            object
Education                      object
GeoLocation                    object
TopicTypeId                    object
TopicId                        object
MeasureId                      object
StratificationID1              object
Stratificati

#### Ý nghĩa của các cột dữ liệu
YEAR: năm khảo sát <br>
LocationAbbr: kí hiệu viết tắt của bang <br>
LocationDesc: tên bang <br>
TopicType: kiểu chủ đề khảo sát <br>
TopicDesc: mô tả chủ đề khảo sát <br>
MeasureDesc: mô tả đơn vị đo lường <br>
DataSource: nguồn dữ liệu <br>
Response: phản hồi khảo sát <br>
Data_Value_Unit: đơn vị của giá trị dữ liệu <br>
Data_Value_Type: kiểu của giá trị dữ liệu <br>
Data_Value: giá trị dữ liệu <br>
Data_Value_Footnote_Symbol: kí hiệu cước chú <br>
Data_Value_Footnote: cước chú <br>
Data_Value_Std_Err: độ lệch chuẩn của giá trị dữ liệu <br>
Low_Confidence_Limit: giới hạn thấp của độ tin cậy <br>
High_Confidence_Limit: giới hạn cao của độ tin cậy <br>
Sample_Size: kích thước mẫu <br>
Gender: giới tính <br>
Race: chủng tộc <br>
Age: độ tuổi <br>
Education: trình độ học vấn <br>
GeoLocation: vị trí địa lí <br>
TopicTypeId: mã định danh của kiểu chủ đề <br>
TopicId: mã định danh của chủ đề <br>
MeasureId: mã định danh của độ đo lường <br>
StratificationID1: mã định danh của sự phân tầng 1 (phân tầng theo giới tính) <br>
StratificationID2: mã định danh của sự phân tầng 2 (phân tầng theo độ tuổi) <br>
StratificationID3: mã định danh của sự phân tầng 3 (phân tầng theo chủng tộc) <br>
StratificationID4: mã định danh của sự phân tầng 4 (phân tầng theo trình độ học vấn) <br>
SubMeasureID: mã định danh đơn vị đo lường phụ (đo lường theo tần suất, nếu không thì theo giới tính) <br>
DisplayOrder: mức độ hiển thị ưu tiên <br>

#### Sự phân bố giá trị của các cột dữ liệu kiểu số

In [7]:
num_col_info_df = raw_df.select_dtypes(exclude='object')
def missing_ratio(df: pd.DataFrame):
    ratio = df.isnull().sum()/float(len(df)) *100
    return ratio.round(1)

def lower_quartile(df: pd.DataFrame):
    return df.quantile(0.25).round(1)


def median(df: pd.DataFrame):
    return df.quantile(0.5).round(1)


def upper_quartile(df: pd.DataFrame):
    return df.quantile(0.75).round(1)



num_col_info_df = num_col_info_df.agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"])

Tỉ lệ mất mát của mỗi cột dữ liệu kiểu số

In [8]:
dict(num_col_info_df.iloc[0])

{'Data_Value': 4.9,
 'Data_Value_Std_Err': 4.9,
 'Low_Confidence_Limit': 4.9,
 'High_Confidence_Limit': 4.9,
 'Sample_Size': 4.9,
 'DisplayOrder': 0.0}

Giá trị nhỏ nhất của mỗi cột dữ liệu kiểu số

In [9]:
dict(num_col_info_df.iloc[1])

{'Data_Value': 0.0,
 'Data_Value_Std_Err': 0.0,
 'Low_Confidence_Limit': 0.0,
 'High_Confidence_Limit': 0.0,
 'Sample_Size': 50.0,
 'DisplayOrder': 1.0}

Tứ phân vị thứ nhất của mỗi cột dữ liệu kiểu số

In [10]:
dict(num_col_info_df.iloc[2])

{'Data_Value': 3.0,
 'Data_Value_Std_Err': 0.6,
 'Low_Confidence_Limit': 1.7,
 'High_Confidence_Limit': 4.3,
 'Sample_Size': 671.0,
 'DisplayOrder': 7.0}

Trung vị của mỗi cột dữ liệu kiểu số

In [11]:
dict(num_col_info_df.iloc[3])

{'Data_Value': 10.6,
 'Data_Value_Std_Err': 1.3,
 'Low_Confidence_Limit': 7.9,
 'High_Confidence_Limit': 13.2,
 'Sample_Size': 1001.0,
 'DisplayOrder': 9.0}

Tứ phân vị thứ ba của mỗi cột dữ liệu kiểu số

In [12]:
dict(num_col_info_df.iloc[4])

{'Data_Value': 36.4,
 'Data_Value_Std_Err': 2.4,
 'Low_Confidence_Limit': 29.6,
 'High_Confidence_Limit': 42.5,
 'Sample_Size': 1642.0,
 'DisplayOrder': 11.0}

Giá trị lớn nhất của mỗi cột dữ liệu kiểu số

In [13]:
dict(num_col_info_df.iloc[2])

{'Data_Value': 3.0,
 'Data_Value_Std_Err': 0.6,
 'Low_Confidence_Limit': 1.7,
 'High_Confidence_Limit': 4.3,
 'Sample_Size': 671.0,
 'DisplayOrder': 7.0}

### Loại bỏ cột, dòng dữ liệu
Trong các cột dữ liệu có các cột cước chú và kí hiệu cước chú. Trước tiên, ta cần xem các dữ liệu chứa kí hiệu cước chú:

In [14]:
temp_df = raw_df[raw_df['Data_Value_Footnote_Symbol'] == '*']
temp_df

Unnamed: 0,YEAR,LocationAbbr,LocationDesc,TopicType,TopicDesc,MeasureDesc,DataSource,Response,Data_Value_Unit,Data_Value_Type,...,GeoLocation,TopicTypeId,TopicId,MeasureId,StratificationID1,StratificationID2,StratificationID3,StratificationID4,SubMeasureID,DisplayOrder
8,2010,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,1EDU,YTS03,3
35,2012,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,1EDU,YTS06,6
38,2010,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,1EDU,YTS06,6
106,2014,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,2GEN,8AGE,6RAC,1EDU,YTS02,2
110,2014,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,1EDU,YTS05,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10229,2015,WV,West Virginia,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(38.665510202, -80.712640135)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,1EDU,YTS03,3
10467,2015,WV,West Virginia,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(38.665510202, -80.712640135)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,1EDU,YTS06,6
10500,2015,WV,West Virginia,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(38.665510202, -80.712640135)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,1EDU,YTS05,5
10518,2017,WV,West Virginia,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(38.665510202, -80.712640135)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,1EDU,YTS05,5


Danh sách các cước chú:

In [15]:
reason = temp_df['Data_Value_Footnote'].unique()
print(reason)

['Data in these cells have been suppressed because of a small sample size']


Có thể thấy, các dòng dữ liệu này bị loại bỏ vì kích thước mẫu nhỏ. Do đó, ta sẽ tiến hành loại các dòng dữ liệu này ra khỏi tập dữ liệu:

In [16]:
idx_drop_list = raw_df[raw_df['Data_Value_Footnote_Symbol'] == '*'].index
raw_df = raw_df.drop(axis='index', index = idx_drop_list)
raw_df = raw_df.reset_index(drop=True)
raw_df[:20]

Unnamed: 0,YEAR,LocationAbbr,LocationDesc,TopicType,TopicDesc,MeasureDesc,DataSource,Response,Data_Value_Unit,Data_Value_Type,...,GeoLocation,TopicTypeId,TopicId,MeasureId,StratificationID1,StratificationID2,StratificationID3,StratificationID4,SubMeasureID,DisplayOrder
0,2008,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS08,8
1,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS09,9
2,2002,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,2EDU,YTS06,6
3,2012,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,2EDU,YTS05,5
4,2004,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,2GEN,8AGE,6RAC,1EDU,YTS11,11
5,2000,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,2EDU,YTS03,3
6,2014,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,1GEN,8AGE,6RAC,1EDU,YTS12,12
7,2014,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,1GEN,8AGE,6RAC,2EDU,YTS01,1
8,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,1EDU,YTS08,8
9,2006,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,2EDU,YTS03,3


Sau khi đã loại bỏ các dòng dữ liệu, ta sẽ tiến hành loại bỏ hai cột Data_Value_Footnote_Symbol và Data_Value_Footnote do lúc này hai cột này đã không còn dữ liệu

In [17]:
raw_df.drop(['Data_Value_Footnote_Symbol','Data_Value_Footnote'], axis=1, inplace=True)
raw_df.head()

Unnamed: 0,YEAR,LocationAbbr,LocationDesc,TopicType,TopicDesc,MeasureDesc,DataSource,Response,Data_Value_Unit,Data_Value_Type,...,GeoLocation,TopicTypeId,TopicId,MeasureId,StratificationID1,StratificationID2,StratificationID3,StratificationID4,SubMeasureID,DisplayOrder
0,2008,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS08,8
1,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS09,9
2,2002,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,2EDU,YTS06,6
3,2012,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,2EDU,YTS05,5
4,2004,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,2GEN,8AGE,6RAC,1EDU,YTS11,11


Kế tiếp, vài dòng dữ liệu sẽ không chứa giá trị ở cột Response do mục đích của khảo sát không sử dụng đến cột dữ liệu này. Do tỉ lệ mất mát của dòng không quá nhiều nên ta sẽ tiến hành điền None vào các chỗ trống này.

In [18]:
raw_df['Response'].fillna('None', inplace=True)
raw_df['Response'].unique()



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  raw_df['Response'].fillna('None', inplace=True)


array(['Ever', 'Frequent', 'None', 'Current'], dtype=object)

Ta kiểm tra lại dữ liệu và các số liệu thống kê. Lúc này, tập dữ liệu đã có thể được sử dụng để trực quan hóa.

In [19]:
raw_df.head(15)

Unnamed: 0,YEAR,LocationAbbr,LocationDesc,TopicType,TopicDesc,MeasureDesc,DataSource,Response,Data_Value_Unit,Data_Value_Type,...,GeoLocation,TopicTypeId,TopicId,MeasureId,StratificationID1,StratificationID2,StratificationID3,StratificationID4,SubMeasureID,DisplayOrder
0,2008,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS08,8
1,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,2EDU,YTS09,9
2,2002,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,3GEN,8AGE,6RAC,2EDU,YTS06,6
3,2012,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Quit Attempt in Past Year Among Current Cigare...,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,169QUA,2GEN,8AGE,6RAC,2EDU,YTS05,5
4,2004,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,2GEN,8AGE,6RAC,1EDU,YTS11,11
5,2000,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,2EDU,YTS03,3
6,2014,AL,Alabama,Tobacco Use – Survey Data,Smokeless Tobacco Use (Youth),User Status,YTS,Frequent,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,151BEH,169USS,1GEN,8AGE,6RAC,1EDU,YTS12,12
7,2014,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,1GEN,8AGE,6RAC,2EDU,YTS01,1
8,2010,AL,Alabama,Tobacco Use – Survey Data,Cigarette Use (Youth),Smoking Status,YTS,Ever,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,106BEH,166SSA,3GEN,8AGE,6RAC,1EDU,YTS08,8
9,2006,AL,Alabama,Tobacco Use – Survey Data,Cessation (Youth),Percent of Current Smokers Who Want to Quit,YTS,,%,Percentage,...,"(32.840571122, -86.631860762)",BEH,105BEH,170CES,3GEN,8AGE,6RAC,2EDU,YTS03,3


In [20]:
raw_df.select_dtypes(exclude='object').agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"])

Unnamed: 0,Data_Value,Data_Value_Std_Err,Low_Confidence_Limit,High_Confidence_Limit,Sample_Size,DisplayOrder
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0
min,0.0,0.0,0.0,0.0,50.0,1.0
lower_quartile,3.0,0.6,1.7,4.3,671.0,7.0
median,10.6,1.3,7.9,13.2,1001.0,9.0
upper_quartile,36.4,2.4,29.6,42.5,1642.0,11.0
max,98.0,16.1,97.6,98.4,36910.0,12.0


### Ghi tập dữ liệu vào tập tin
Ta kiểm tra lại các cột dữ liệu trước khi tiến hành ghi:

In [21]:
print(f"Total number of features: {raw_df.shape[1]}")
raw_df.dtypes

Total number of features: 29


YEAR                      object
LocationAbbr              object
LocationDesc              object
TopicType                 object
TopicDesc                 object
MeasureDesc               object
DataSource                object
Response                  object
Data_Value_Unit           object
Data_Value_Type           object
Data_Value               float64
Data_Value_Std_Err       float64
Low_Confidence_Limit     float64
High_Confidence_Limit    float64
Sample_Size              float64
Gender                    object
Race                      object
Age                       object
Education                 object
GeoLocation               object
TopicTypeId               object
TopicId                   object
MeasureId                 object
StratificationID1         object
StratificationID2         object
StratificationID3         object
StratificationID4         object
SubMeasureID              object
DisplayOrder               int64
dtype: object

Ghi tập dữ liệu vào tập tin

In [22]:
raw_df.to_csv('Data\\processed_data_tobacco.csv', index=False)