## <img src ='Pic\logo.jpg' width='500px'>


<div align="center">

# KHÓA HỌC: LẬP TRÌNH PYTHON CƠ BẢN

</div>


---

Bài 7 - Phân tích và xử lý dữ liệu với Pandas - Phần 02
----
Giảng Viên: Đặng Văn Nam

Email: namdv@aiacademy.edu.vn

# Nội dung bài học
---
1. Xóa cột/hàng trong Dataframe
2. Xử lý hàng trùng lặp (Duplicate rows)
3. Sắp xếp trong DataFrame
4. Nhóm các hàng trong DataFrame dựa vào giá trị (Groupby)
5. Áp dụng hàm cho các phần tử trong một cột (Apply)
6. Trộn các DataFrame (Merging)
7. Ghép nối các DataFrame (Concatenating)
8. Phát hiện và xử lý dữ liệu khuyết thiếu (missing)
9. Phát hiện và xử lý dữ liệu ngoại lai (outliers)
10.Phân tích dữ liệu bán hàng (Tiếp cận từ bài toán thực tế)

# 1) Xóa cột/hàng trong DataFrame
---

In [None]:
#Khai báo sử dụng thư viện
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#Đọc dữ liệu mẫu được lưu trữ trong file csv
path='Data_Excercise\csv_Data_Loan.csv'
df_loan=pd.read_csv(path)
df_loan.head()

In [None]:
#Quan sát dữ liệu biến DataFrame
df_loan.info()

<img src='Pic/axis.png' width=400px>

* cột axis=1 | axis = "columns"
* hàng axis = 0 | axis = "rows" (Default)

In [None]:
#Xử dụng .drop(axis=1|columns) để xóa cột
#Xóa một số cột trong df_loan
df_loan1 = df_loan.drop(['annual_inc',
                         'dti','delinq_2yrs',
                         'revol_util',
                         'longest_credit_length',
                         'verification_status'], axis=1)
df_loan1.info()

In [None]:
df_loan1.head()

In [None]:
#Xóa cột trong một DataFrame sử dụng chỉ số cột
df_loan2 = df_loan.drop(df_loan.columns[[5,8,9,10,13,14]], 
                        axis='columns')
df_loan2.info()

In [None]:
df_loan2.head(10)

In [None]:
#Xóa hàng trong một DataFrame
#Xóa hàng có index: 3,9
df_loan2.drop(df_loan.columns[[3]],
              axis=1,
              inplace=True)
df_loan2.head(10)

In [None]:
df_loan2.drop([6,8], inplace=True)


In [None]:
df_loan2.head(10)

In [None]:
df_loan2.reset_index(inplace=True)
df_loan2.head(10)

In [None]:
#Loại bỏ tất cả các dòng dữ liệu có addr_state = CA
df_loan3 = df_loan1[df_loan1.addr_state!='CA']
df_loan3

## 2) Xử lý hàng trùng lặp trong DataFrame
---
<img src="Pic/drop_duplicate.png">

In [None]:
#Tạo DataFrame mẫu
import numpy as np
import pandas as pd
d = { 
    'Name':['Alisa','raghu','jodha','jodha','raghu','Cathrine', 'Alisa','Bobby','Bobby','Alisa','raghu','Cathrine'],
     'Age':[26,23,23,23,23,24,26,24,22,26,23,24], 
     'Score':[85,31,55,55,31,77,85,63,42,85,31,np.nan]}

df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

In [None]:
#Kiểm tra các dòng dữ liệu trùng lặp
df.duplicated()

In [None]:
#Liệt kê các bản ghi trùng lặp
df.loc[df.duplicated()==True]


In [None]:
#Trường hợp 1:
#Sử dụng df.drop_duplicates() với các tham số mặc định
#--> giữ lại hàng trùng lặp đầu tiên
df1 = df.drop_duplicates()
df1

In [None]:
#Trường hợp 2:
#Sử dụng df.drop_duplicates()
#với các tham số keep='last'
#Giữ lại các hàng trùng lặp cuối cùng
df2=df.drop_duplicates(keep='last')
df2

In [None]:
#Trường hợp 3:
#Sử dụng df.drop_duplicates()
#với các tham số keep=False
#Xóa hết các hàng trùng lặp khỏi df
df3=df.drop_duplicates(keep=False)
df3

In [None]:
#Trường hợp 4:
#Sử dụng df.drop_duplicates()
#Loại bỏ các hàng trùng nhau theo cột Name
df4=df.drop_duplicates(['Name'],keep='first')
df4

In [None]:
#Trường hợp 5:
#Sử dụng df.drop_duplicates()
#Loại bỏ các hàng trùng nhau theo cột Name, Age
df5=df.drop_duplicates(['Name','Age'],
                       keep='first')
df5

## 3) Sắp xếp dữ liệu trong Pandas
---
* df.sort_values(): sắp xếp dữ liệu trong DataFrame theo giá trị của các cột, tăng dần (ascending = True)-default hoặc giảm dần (ascending=False)

* df.sort_index(): sắp xếp dữ liệu trong DataFrame theo index
<img src="Pic/pandas_sort.png" width=500px>

In [None]:
#Tạo dữ liệu mẫu
d = {'Name':pd.Series(['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David','Andrew','Ajay','Teresa','Madonna']),
   'Age':pd.Series([26,27,25,24,31,27,25,33,42,32,51,47,38]),
   'Score':pd.Series([89,87,67,55,47,72,76,79,44,92,99,69,73])}
#Create a DataFrame
df = pd.DataFrame(d)
df


In [None]:
#Trường hợp 1:
#Sắp xếp dữ liệu Dataframe theo cột Score
#Mặc định là sắp xếp tăng dần
df.sort_values(by='Name')

In [None]:
#Trường hợp 2:
#Sắp xếp dữ liệu Dataframe theo cột Score
#Giá trị giảm dần
df.sort_values(by='Score',ascending=False)

In [None]:
#Trường hợp 3:
#Sắp xếp dữ liệu Dataframe theo cột Name, Score
#Giá trị tăng dần
df.sort_values(by=['Name','Score'])

In [None]:
#Trường hợp 4:
#Sắp xếp dữ liệu Dataframe theo cột Name, Score
#Giá trị cột Name tăng dần
#Giá trị cột Score giảm dần
df.sort_values(by=['Name','Score'],
               ascending=[True,False])

In [None]:
#Trường hợp 4:
#Sắp xếp dữ liệu Dataframe theo cột Name, Score
df.sort_values(by=['Age','Score'],
               ascending=[True,True])

In [None]:
#Trường hợp 5:
#Sắp xếp dữ liệu Dataframe theo cột Age, Score tăng dần
df.sort_values(by=['Age','Score'],
               ascending=[True,False])

## 4) Nhóm dữ liệu (groupby)
---

In [None]:
#Tạo dữ liệu mẫu
d = {'Name':['Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine'],
    'Exam':['Semester 1','Semester 1','Semester 1','Semester 1','Semester 1','Semester 1','Semester 2','Semester 2','Semester 2','Semester 2','Semester 2','Semester 2'],
    'Subject':['Mathematics','Mathematics','Mathematics','Science','Science','Science','Mathematics','Mathematics','Mathematics','Science','Science','Science'],
    'Score':[62,47,55,74,31,77,85,63,42,67,89,81]}
df = pd.DataFrame(d,columns=['Name','Exam','Subject','Score'])
df

In [None]:
#Trường hợp 1:
#Nhóm theo tên sinh viên (Name)
#Thực hiện tính điểm trung bình Score
df['Score'].groupby([df['Name']]).mean()

In [None]:
(67+74+85+62)/4

In [None]:
#Trường hợp 2:
#Nhóm dữ liệu theo tên sinh viên (Name)
#và Bài kiểm tra (Exam)
#sau đó thực hiện tính tổng
df['Score'].groupby([df['Name'],
                     df['Exam']]).sum()

In [None]:
df['Score'].groupby([df['Name'],
                     df['Exam']]).mean()

In [None]:
#Trường hợp 3:
#Nhóm dữ liệu theo Subject và Exam
#Thực hiện tính tổng Score
df.groupby(['Subject', 'Exam']).mean()

## THỰC HÀNH 1
---
**Yêu cầu 1.1:**
Đọc dữ liệu từ file Data_Patient.csv vào biến kiểu dataframe: df_patient với cột id là cột chỉ số (index_col); Hiển thị 10 dòng dữ liệu đầu tiên

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






### **Yêu cầu 1.2:**
Xóa cột dữ liệu có tên ‘Thalassemia’ và áp dụng thay đổi lên chính df_patient.

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





### **Yêu cầu 1.3:**
A) Tạo df_patient1 bằng cách loại bỏ đi 100 dòng dữ liệu đầu tiên từ df_patient.

B) Tạo df_patient2 bằng cách loại bỏ đi các dòng dữ liệu có thuộc tính Type = ‘Non-anginal pain’ và nhip tim > 187 từ df_patient.

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





### **Yêu cầu 1.4:**
---

A) Sắp xếp lại dữ liệu cho df_patient theo chiều giảm dần của index, áp dụng thay đổi trực tiếp lên DataFrame này.

B) Tạo df_patient3 bằng cách sắp xếp dữ liệu theo thuộc tính Gender tăng dần, Nếu trùng giá trị Gender thì sắp xếp theo thuộc tính Age giảm dần.

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





### **Yêu cầu 1.5:**
A) Nhóm bệnh nhân theo thuộc tính Gender và tìm tuổi lớn nhất, nhỏ nhất, trung bình của bệnh nhân theo giới tính.


In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





**B) Nhóm bệnh nhân theo thuộc tính Gender và Type và tìm tuổi lớn nhất, nhỏ nhất, trung bình của bệnh nhân theo giới tính và loại đau ngực.**

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





### Yêu cầu 1.6:
---
Thực hiện xóa các bệnh nhân có index trùng nhau, giữ lại bệnh nhân có index trùng nhau đầu tiên, áp dụng cho chính dataframe hiện tại.

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}





## 5) Apply(function)
---
* df.apply(func): Thực hiện thao tác func áp dụng cho từng cột riêng lẻ trong DataFrame, hoặc cho nhiều cột

In [None]:
#Tạo dữ liệu mẫu
d = {'Name':pd.Series(['william','Mason','ella','jackson','lincoln','aubrey','Hudson','christian','Sawyer','silas','Bennett','kingston']),
    'Score_Math':pd.Series([66,57,75,44,31,67,85,33,42,62,51,47]),
    'Score_Science':pd.Series([89,87,67,55,47,72,76,79,44,92,93,69])}
df = pd.DataFrame(d)
df

In [None]:
##ÁP DỤNG HÀM CHO TỪNG CỘT RIÊNG LẺ
#-----------------------------------------------------------

In [None]:
#Thực hiện: Viết hoa tên học sinh
#Cách 1:
def upcase(x):
    return x.upper()

df['Name2'] = df['Name'].apply(upcase)
df

In [None]:
#Cách 2: 
df['Name'] = df['Name'].apply(lambda x:x.upper())
df

In [None]:
#Cách 3:
df['Name'] = df['Name'].str.upper()
df

In [None]:
#Điểm trung bình = (score_math*2 + score_science)/3
#Viết hàm tính điểm trung bình
def mean_point(point1,point2):
    return round((point1*2+point2)/3,1)

In [None]:
#Tạo một cột Point tính điểm của từng học sinh
df['Point'] = df.apply(lambda row: mean_point(row['Score_Math'],row['Score_Science']), axis=1)
df

In [None]:
#.apply(func) áp dụng một hàm cho dataframe theo hàng hoặc cột
#.apply(func) áp dụng một hàm cho dataframe theo hàng hoặc cột
df['Mean'] = df[['Score_Math','Score_Science']].apply(np.mean,axis=1)
df

**Áp dụng .appply() Xử lý dữ liệu file csv_Data_BMI**

In [None]:
### Áp dụng .appply() Xử lý dữ liệu file csv_Data_BMI
#-----------------------------------------------------
path = 'Data_Excercise\csv_Data_BMI.csv'
df_bmi = pd.read_csv(path,index_col=0)
df_bmi.info()

In [None]:
df_bmi.head()

In [None]:
#Tạo thêm một cột 'Height_m' đổi dữ liệu Height từ cm --> m
df_bmi['Height_m'] = df_bmi['Height_cm']/100
df_bmi.head()

In [None]:
#Viết hàm tính chỉ số BMI dựa và Height (cm), Weight (kg)
def bmi(h,w):
    h = h/100
    bmi = round(w/(h**2),1)
    return bmi

In [None]:
#Áp dụng hàm tính BMI cho các hàng dữ liệu của DF
df_bmi['BMI'] = df_bmi.apply(lambda row: bmi(row['Height_cm'],row['Weight_kg']), axis=1)
df_bmi.head()

In [None]:
#Dựa vào chỉ số xác định mức béo phì
#---
def check_bmi(x):
    if (x<18.5):
        return 'UNDERWEIGHT'
    elif (18.5 <= x <= 24.9):
        return 'NORMAL'
    elif (25.0 <= x <= 29.9):
        return 'OVERWEIGHT'
    elif (30.0 <= x <= 34.9):
        return 'OBESE'
    else:
        return 'EXTREMELY OBESE'

In [None]:
df_bmi['Type'] = df_bmi['BMI'].apply(lambda x: check_bmi(x))
df_bmi.head()

In [None]:
#Group dữ liệu theo Type
df_bmi.groupby(['Type']).count()

In [None]:
#Group dữ liệu theo giới tính và loại
df_bmi.groupby(['Gender','Type']).count()

In [None]:
#Lọc dữ liệu: Danh sách những người béo phì
df_EX = df_bmi[df_bmi.Type=='EXTREMELY OBESE']
df_EX

In [None]:
df_EX.to_csv('List_EX.csv')

In [None]:
#Lọc dữ liệu: Danh sách những người béo phì
df_bmi[(df_bmi.Gender =='Male') & (df_bmi.Type=='EXTREMELY OBESE')]

## 6. Trộn dữ liệu giữa các DataFrame (merge)
---
* pd.merge(left_df,right_df, on=‘key’, how=‘left’ | ‘right’ | ‘inner’ | ‘outer’): Thực hiện trộn 2 DataFrame lại với nhau.
    * Left_df: DataFrame 1
    * Right_df: DataFrame2
    * On: Tên cột dùng để nối dữ liệu giữa 2 DataFrame  (tên cột phải có ở trong cả 2 DataFrame 1, 2)
    * How: Cách thức trộn dữ liệu [left, right, outer, inner (default)]

<img src='Pic/merge.png' width=500px>

### A) Ví dụ về việc trộn các dataset trong Pandas

In [None]:
import pandas as pd
import numpy as np

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [None]:
#File state-population.csv lưu trữ dân số của các bang của Mỹ [1990-2013]
#Bao gồm tổng số dân | số dân dưới 18 tuổi
pop = pd.read_csv('Data_Excercise/state-population.csv')
pop.info()

In [None]:
#File state-areas.csv lưu trữ diện tích của các bang [dặm vuông]
areas = pd.read_csv('Data_Excercise/state-areas.csv')
areas.info()

In [None]:
#File stae-abbrevs.csv lưu trữ tên và ký hiệu của các bang
abbrevs = pd.read_csv('Data_Excercise/state-abbrevs.csv')
abbrevs.info()

### Yêu cầu bài toán:
---
**Thực hiện xếp hạng các tiểu bang và vùng lãnh thổ của Hoa kỳ theo mật độ dân số năm 2010**

Để thực hiện yêu cầu này bắt buộc phải kết hợp các dữ liệu từ 3 file lại với nhau

In [None]:
display('pop.head()', 'areas.head()', 'abbrevs.head()')

In [None]:
#Bước 1: kết hợp dữ liệu file state-population với state-abbrevs 
#để lấy được tên đầy đủ của các bang 
merged = pd.merge(pop, abbrevs, 
                  how='outer',
                  left_on='state/region', 
                  right_on='abbreviation')

merged.head()

In [None]:
#Xóa cột abbreviation vì trùng lặp với state/region
merged = merged.drop('abbreviation', 1)
merged.head()

In [None]:
#Bước 2: Kết hợp dữ liệu merged với dữ liệu state-areas.csv
#Việc kết hợp dựa vào cột state
display('merged.head()','areas.head()')

In [None]:
#Kết hợp hai DataFrame dựa vào cột state
final = pd.merge(merged, areas, on='state', how='left')
final.head()

In [None]:
final.info()

In [None]:
#Đến đây chúng ta đã có tất cả dữ liệu chúng ta cần cho bài toán, 
#Các dữ liệu liên quan từ 3 file khác nhau đã được kết hợp lại.

In [None]:
final.head()

In [None]:
#Bước 3: Truy vấn dữ liệu cần cho yêu cầu
#-------------------------------
#Yêu cầu: Tỷ lệ dân số năm 2010 --> Dữ liệu năm 2010 | Tổng số dân
data2010 = final.query("year==2010 & ages=='total'")
data2010.info()

In [None]:
data2010

In [None]:
# chỉ lấy dữ liệu của các cột [state, population, area (sq. mi)]
data_ok = data2010[['state','population','area (sq. mi)']]
#Thiết lập cột state làm index
#data_ok.set_index('state', inplace=True)
data_ok.head()

In [None]:
data_ok['density'] = data_ok['population'] / data_ok['area (sq. mi)']
data_ok.head()

In [None]:
#Sắp xếp lại dữ liệu theo chiều giảm dần của density
data_ok.sort_values(by=['density'],ascending=False,inplace=True)
data_ok

In [None]:
plt.figure(figsize=(16,3))
data_ok.loc[:,'density'].plot(kind='bar')
plt.grid(True)

In [None]:
data_ok.to_csv('Density_USA_2010.csv')

### Trộn dữ liệu giữa các DataFrame (merge)
---

In [None]:
#Tạo dữ liệu mẫu
#DataFrame1:
d1 = {'Customer_id':pd.Series([1,2,3,4,5,6]),
      'Product':pd.Series(['Oven','Oven','Oven','Television','Television','Television'])}
df1 = pd.DataFrame(d1)

#DataFrame2:
d2 = {'Customer_id':pd.Series([2,4,6,7,8]),
    'State':pd.Series(['California','California','Texas','New York','Indiana'])}
df2 = pd.DataFrame(d2)

display('df1.head(10)','df2.head(10)')

In [None]:
#Trường hợp 1:
#Inner join DataFrame
inner_join_df= pd.merge(df1, df2, 
                        on='Customer_id', 
                        how='inner')
inner_join_df

In [None]:
#Trường hợp 2:
#Outer join DataFrame
inner_join_df= pd.merge(df1, df2, 
                        on='Customer_id', 
                        how='outer')
inner_join_df

In [None]:
#Trường hợp 3:
#Left join DataFrame
inner_join_df= pd.merge(df1, df2, 
                        on='Customer_id', 
                        how='left')
inner_join_df

In [None]:
#Trường hợp 4:
#Right join DataFrame
inner_join_df= pd.merge(df1, df2, 
                        on='Customer_id', 
                        how='right')
inner_join_df

### 7) Nối  các DataFrame
---

### a) Kết nối các dataframe theo cột [concat(axis=1)]
---

In [None]:
#Tạo dữ liệu mẫu
d = {'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine','Rahul','David'],
    'Score1':[62,47,55,74,31,77,85,63,42],
    'Score2':[89,87,67,55,47,72,76,79,44]}
df1 = pd.DataFrame(d)
df1


In [None]:
d = {'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine'],
    'Score3':[56,86,77,45,73,62,74]}
df2 = pd.DataFrame(d)
df2


In [None]:
#Trường hợp 1:
#Mặc định join='outer'
df_concat1 = pd.concat([df1, df2], axis=1)
df_concat1

In [None]:
#Trường hợp 2:
#Tham số join='inner'
df_concat2 = pd.concat([df1, df2], 
                       axis=1, 
                       join='inner')
df_concat2

In [None]:
#Trường hợp 3:
#Tham số ignore_index=True
#(Không sử dụng tên cột, đánh lại nhãn 0, 1...)
df_concat3 = pd.concat([df1, df2], 
                       axis=1, 
                       join='inner',
                       ignore_index=True)
df_concat3

### b) Nối các Dataframe theo hàng
---
concat() | append()

In [None]:
#Tạo dữ liệu mẫu:
d1 = {'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky'],
   'Score1':[62,47,55,74,31],
   'Score2':[89,87,67,55,47],
   'Score3':[56,86,77,45,73]}
df1 = pd.DataFrame(d1)

d2 = {'Name':['Andrew','Ajay','Teresa'],
     'Score1':[32,71,57],
     'Score2':[92,99,69],
     'Score3':[67,97,68]}
df2 = pd.DataFrame(d2)

display('df1.head()','df2.head()')

In [None]:
#Trường hợp 1: sử dụng concat
df_row = pd.concat([df1,df2],ignore_index=True)
df_row

In [None]:
#Trường hợp 1: Sử dụng append()
df_row2 = df1.append(df2)
df_row2

In [None]:
#Trường hợp các cột khác tên nối vào nhau
d = {'Name':['Jack','danny','vishwa'],
   'Score1':[32,71,70],
   'Score4':[72,91,89],
   'Score5':[57,72,78]}
df3 = pd.DataFrame(d)
display('df1.head()','df3.head()')


In [None]:
#Trường hợp các cột khác tên
pd.concat([df1,df3])

In [None]:
#sử dụng tham số join='inner'
pd.concat([df1,df3], join ='inner')

In [None]:
#Trường hợp 2
pd.concat([df1,df3], keys=['df1','df3'])

## THỰC HÀNH 2
---
**Yêu cầu 2.1:**
Đọc dữ liệu từ file Data_Point.xlsx vào biến kiểu dataframe: 
    * df_lop1 dữ liệu điểm sheet 0 (4080130_01)
    * df_lop2 dữ liệu điểm sheet 1 (4080130_02)
    * df_lop3 dữ liệu điểm sheet 2 (4080130_03)

*THAM KHẢO LẠI BÀI HỌC SỐ 06 ĐỂ ĐỌC DỮ LIỆU TỪ FILE EXCEL*


In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






### **Yêu cầu 2.2:**
---
Nối 3 DataFrame df_lop1, df_lop2, df_lop3 thành một DataFrame df_full chứa tất cả danh sách bảng điểm của 3 lớp 

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






### **Yêu cầu 2.3:**
---
Trong df_full: Tạo một cột Diem_he10 được tính dựa vào các cột tương ứng của từng hàng dữ liệu, theo công thức sau:

**Diem_he10 = 0.6 * A + 0.3 * ((B1+B2)/2) + 0.1 * ((C1+C2)/2)**
    
Làm tròn đến 1 số sau dấu phẩy

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






### **Yêu cầu 2.4:**
---
Từ cột Diem_he10 trong df_full tạo một cột Diem_chu, Diem_so theo quy đổi:

    * Điểm hệ 10 Từ 9.0 đến 10.0  ----> Điểm chữ: A+  ----> Điểm số: 4.0
    * Điểm hệ 10 Từ 8.5 đến 8.9  ----> Điểm chữ: A    ----> Điểm số: 3.7
    * Điểm hệ 10 Từ 8.0 đến 8.4  ----> Điểm chữ: B+   ----> Điểm số: 3.5   
    * Điểm hệ 10 Từ 7.0 đến 7.9  ----> Điểm chữ: B    ----> Điểm số: 3.0
    * Điểm hệ 10 Từ 6.5 đến 6.9  ----> Điểm chữ: C+   ----> Điểm số: 2.5  
    * Điểm hệ 10 Từ 5.5 đến 6.4  ----> Điểm chữ: C    ----> Điểm số: 2.0     
    * Điểm hệ 10 Từ 5.0 đến 5.4  ----> Điểm chữ: D+   ----> Điểm số: 1.5 
    * Điểm hệ 10 Từ 4.0 đến 4.9  ----> Điểm chữ: D    ----> Điểm số: 1.0  
    * Điểm hệ 10 Từ 0.0 đến 3.9  ----> Điểm chữ: F    ----> Điểm số: 0.0 


In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






### **Yêu cầu 2.5:**
---
Tạo một DataFrame df_diem_ok chỉ lấy dữ liệu các cột [‘Code’, ‘Diem_he10’, ‘Diem_chu’, ‘Diem_so’] từ df_full

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






###  **Yêu cầu 2.6:**
---
1. Đọc dữ liệu trong sheet: code của file excel Data_point vào DataFrame df_code.
2. Trộn (merge) dữ liệu của df_code và df_diem_ok để ghép phách cho bảng điểm và lưu và df_finaly.
3. Lưu dữ liệu trong DataFrame df_finaly ra file excel: Diem_4080130.xlsx

In [None]:
#{HỌC VIÊN VIẾT CODE VÀO ĐÂY}






## 8. Phát hiện và xử lý dữ liệu khuyết thiếu
---
* Vì nhiều lý do, dữ liệu có thể bị lỗi hoặc bị thiếu ở một số vị trí của một số feature.

* Hầu hết các thuật toán học máy không xử lý với dữ liệu bị thiếu, do đó cần phải được xử lý ở bước tiền xử lý dữ liệu.


### 8.1 Phát hiện dữ liệu missing

In [None]:
#Đọc file dữ liệu chứa missing
#Khai báo sử dụng thư viện Pandas
import pandas as pd
#Xác định đường dẫn tới file dữ liệu missing
path ='Data_Excercise/Data_Temp_missing.csv'
#Đọc file dữ liệu csv với pandas
data_temp = pd.read_csv(path)
data_temp.info()

In [None]:
data_temp.head()

In [None]:
#Thống kê số liệu missing trong Data frame
#Theo từng cột
print('Số lượng missing data trong file dữ liệu:')
print(data_temp.isnull().sum())

In [None]:
#Xây dựng hàm thống kê dữ liệu missing trong dataframe:
#-----------------------------------------------------
#Đầu vào của hàm là 1 biến Dataframe
#Đầu ra bao gồm các thông số:
#Tổng số cột của file dữ liệu
#Tổng số cột có chứa dữ liệu missing
#Danh sách các cột chứa dữ liệu missing với 2 thống số:
#Tổng số giá trị missing tương ứng với cột đó
#Tỷ lệ % dữ liệu missing trên tổng số dữ liệu của cột
def missing_values(df):
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Số giá trị Missing', 1 : 'Tỷ lệ % missing'})
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        'Tỷ lệ % missing', ascending=False).round(1)
        print ("File dữ liệu bao gồm có: " + str(df.shape[1]) + " cột.\n"      
            "Có " + str(mis_val_table_ren_columns.shape[0]) +
              " cột chứa missing values.")
        return mis_val_table_ren_columns

#Check dữ liệu missing trong DataFrame: data_temp
missing_values(data_temp)

In [None]:
#Trực quan hóa dữ liệu
import matplotlib.pyplot as plt
import numpy as np
x = np.arange(0,24)
plt.rcParams["figure.figsize"] = (12,5)
data_temp.iloc[:,1:5].plot(style='-o')
plt.xticks(x)
plt.xlabel('Thời gian (h)')
plt.ylabel('Nhiệt độ (oC)')
plt.grid(True)
plt.show()

In [None]:
#Liệt kê các dòng dữ liệu missing 
#1. Liệt kê các dòng missing của tất cả các features:
data_temp[data_temp.isnull().any(axis=1)]

In [None]:
#Liệt kê các dòng dữ liệu missing 
#2. Liệt kê theo từng features:
data_temp[pd.isnull(data_temp['Ha Noi'])]

In [None]:
data_temp[pd.isnull(data_temp['Nha Trang'])]

### 8.2) Xử lý dữ liệu Missing
---
Có 2 nhóm phương pháp được sử dụng để xử lý dữ liệu missing
* Loại bỏ các dữ liệu missing (Row, Column)
* Thay thế dữ liệu missing bằng giá trị khác
<img src='pic/handling_missing.jpg' width='500px'>

In [None]:
data_temp

In [None]:
#1) Phương pháp 1:Loại bỏ các dữ liệu missing (Deletion)

#Xóa toàn bộ các hàng chứa missing data: axis=0 -> xóa hàng | how = any (all) chỉ cần hàng có feature chứa missing
data_new = data_temp.dropna(axis=0,how='any')
#Kết quả sau khi loại bỏ các row chứa missing
print(data_new)

In [None]:
#1) Phương pháp 1:Loại bỏ các dữ liệu missing (Deletion)

#Xóa toàn bộ các cột chứa missing data: axis=1 -> xóa cột
data_new = data_temp.dropna(axis=1,how='any')
#Kết quả sau khi loại bỏ các cột chứa missing
print(data_new)

In [None]:
#PHƯƠNG PHÁP 2: Thay thế (Imputation)
#2.1) Thay thế các dữ liệu mất mát bằng một hằng số cố định
value = 25.0
#thay thế các giá trị missing bằng một giá trị cố định Value
data_new = data_temp.fillna(value)
print(data_new)

In [None]:
#Sử dụng giá trị trung bình, trung vị để thay thế
data_temp.mean()

In [None]:
#PHƯƠNG PHÁP 2: Thay thế (Imputation)
#2.2)Thay thế các dữ liệu mất mát bằng giá trị liền trước của nó
data_new2 = data_temp.fillna(method='pad')
print(data_new2)

In [None]:
#PHƯƠNG PHÁP 2: Thay thế (Imputation)
#2.3)Thay thế các dữ liệu mất mát bằng giá trị liền sau của nó
data_new3 = data_temp.fillna(method='bfill')
print(data_new3)

In [None]:
#PHƯƠNG PHÁP 2: Thay thế (Imputation)
#2.4)Thay thế bằng giá trị trung bình
#Sử dụng hàm interpolate để thay thế giá trị missing với tham số:
#Thuật toán nội suy: Tuyến tính (linear)
#Hướng nội suy: Tiến lên (forward)
data_new4 = data_temp.interpolate(method='linear', limit_direction ='forward')
print(data_new4)

## 9. Phát hiện và xử lý ngoại lai (Outliers)
---
Một điểm ngoại lai là một điểm dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu. Ta thường xem các giá trị ngoại lai như là các mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu

* Hệ thống phát hiện xâm nhập (Intrusion detection systems)
* Phát hiện gian lận tín dụng (Credit card fraud)
* Trong chuẩn đoán y tế (Medical diagnosis)
* Trong thực thi pháp luật (Law enforcement)
* Trong khoa học trái đất (Earth science)

<img src='pic/outliers.jpg'>



### a Phát hiện ngoại lai sử dụng biểu đồ
---
<img src='pic/handling_outlier.jpg'>


**1. Sử dụng biểu đồ Boxplot:**

Biểu đồ Box-plot được sử dụng để đo khuynh hướng phân tán và xác định các giá trị ngoại lai của tập dữ liệu
* Giá trị bé nhất (Minimum) của tập dữ liệu được xác định bằng Q1 – 1.5 * IQR; 
* Tứ phân vị thứ nhất (Q1) của tập dữ liệu
* Tứ phân vị thứ hai (Q2) chính là giá trị trung vị (Median) của tập dữ liệu
* Tứ phân vị thứ ba (Q3) của tập dữ liệu
* Giá trị lớn nhất (Maximum) của tập dữ liệu có giá trị bằng Q3 + 1.5* IQR

In [None]:
#Đọc dữ liệu file
path_outlier = 'Data_Excercise/Data_Temp_Outlier.csv'
data_outlier = pd.read_csv(path_outlier)
data_outlier.info()

In [None]:
#Sử dụng biểu đồ Boxplot phát hiện ngoại lai
data_outlier.boxplot()

In [None]:
data_outlier[['Nha Trang']].boxplot()

In [None]:
data_outlier[['Nha Trang']].plot(style='-*', color='red')
plt.grid(True)

In [None]:
data_outlier.loc[:10,['Nha Trang']]

In [None]:
data_outlier[['Ho Chi Minh']].boxplot()

In [None]:
data_outlier[['Ho Chi Minh']].plot(style='--o')
plt.grid(True)

In [None]:
data_outlier.loc[10:15,['Ho Chi Minh']]

In [None]:
#Sử dụng biểu đồ histogram phát hiện ngoại lai cực trị
#data_outlier[['Nha Trang']].plot.hist(bins=20)
data_outlier.plot.hist(bins=20)
plt.grid(True)

### b) Xử lý outliers
---
 Không có một phương pháp, cách thức xử lý ngoại lai chung nào áp dụng cho tất cả các bài toán, các kiểu dữ liệu khác nhau.Để lựa chọn được phương pháp phù hợp cần có những hiểu biết sâu sắc về tập dữ liệu, về bài toán đang giải quyết, có thể sử dụng chỉ một phương pháp xử lý ngoại lai và/hoặc kết hợp cả 3 nhóm phương pháp đã chỉ ra ở trên để xử lý ngoại lai cho cùng một tập dữ liệu.

In [None]:
#Tạo một bản sao dữ liệu
data_handling_outlier =data_outlier.copy()

In [None]:
data_handling_outlier

In [None]:
#Với giá trị ngoại lai trạm Nha trang
#Xử lý bằng cách thay thế giá trị: 2.51 --> 25.1
x = np.arange(0,24)
plt.rcParams["figure.figsize"] = (10,3)
data_handling_outlier.loc[6,'Nha Trang'] = 25.10
data_handling_outlier[['Nha Trang']].plot(style='-*', color='red')
plt.xticks(x)
plt.xlabel('Thời gian (h)')
plt.ylabel('Nhiệt độ (oC)')
plt.grid(True)
plt.show()

In [None]:
#Với giá trị ngoại lai trạm Hồ Chí Minh
#Xử lý bằng cách chuyển về giá trị Null - Coi như giá trị missing
data_handling_outlier.loc[13,'Ho Chi Minh'] = np.NaN
data_handling_outlier[['Ho Chi Minh']].plot(style='-*', color='red')
plt.xticks(x)
plt.xlabel('Thời gian (h)')
plt.ylabel('Nhiệt độ (oC)')
plt.grid(True)
plt.show()

### TRƯỜNG HỢP: Ngoại lai không phải là giá trị cực trị

In [None]:
#Check ngoại lai trạm Hà Nội
data_outlier[['Ha Noi']].plot(style='--d', color='green')
plt.xticks(x)
plt.xlabel('Thời gian (h)')
plt.ylabel('Nhiệt độ (oC)')
plt.grid(True)
plt.grid(True)
print(data_outlier.loc[:10,['Ha Noi']])

In [None]:
data_outlier.loc[:10,['time','Ha Noi']]

## THỰC HÀNH SỐ 3
---
* Đọc dữ liệu từ file Data_Patient.csv vào biến kiểu dataframe

**Yêu cầu 3.1:** Cho biết các cột chứa giá trị khuyết thiếu, xác định các vị trí thiếu dữ liệu và đề xuất phương án xử lý giá trị thiếu.

**Yêu cầu 3.2:** Phát hiện giá trị ngoại lai và xử lý trong dữ liệu (nếu có)


In [None]:
#{HỌC VIÊN VIẾT CODE XỬ LÝ Ở ĐÂY}



