# Section 7 : Working with Text Data

##### 7.1 Intro to the working with Text Data Section 

In [2]:
import pandas as pd 

In [3]:
chicago = pd.read_csv("chicago.csv")
chicago.head(3)

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$90744.00
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$84450.00
2,"AARON, KARINA",POLICE OFFICER,POLICE,$84450.00


In [4]:
chicago.info()
#1002.1+ KB สูงที่สุดที่เรียนมาในcourseนี้
#มี null 1 row 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32063 entries, 0 to 32062
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Name                    32062 non-null  object
 1   Position Title          32062 non-null  object
 2   Department              32062 non-null  object
 3   Employee Annual Salary  32062 non-null  object
dtypes: object(4)
memory usage: 1002.1+ KB


In [5]:
chicago["Department"].nunique()


35

In [6]:
chicago.nunique()
#Department columns ใน chicago dataframe มี unique values น้อยที่สุด เหมาะต่อการจัด category เพื่อลด memory usage

Name                      31776
Position Title             1093
Department                   35
Employee Annual Salary     1156
dtype: int64

In [7]:
chicago["Department"] = chicago["Department"].astype("category")
chicago.info()
#from memory usage: 1002.1+ KB to memory usage: 784.2+ KB 
#ลดลงไป

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32063 entries, 0 to 32062
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   Name                    32062 non-null  object  
 1   Position Title          32062 non-null  object  
 2   Department              32062 non-null  category
 3   Employee Annual Salary  32062 non-null  object  
dtypes: category(1), object(3)
memory usage: 784.2+ KB


In [8]:
chicago.tail(3) 
#ลบบรรทัดสุดท้ายได้ 

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
32060,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$87384.00
32061,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$113664.00
32062,,,,


In [9]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
32059,"ZYMANTAS, MARK E",POLICE OFFICER,POLICE,$84450.00
32060,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$87384.00
32061,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$113664.00


##### 7.2 Common String Methods - .lower() .upper() .title() .len()

In [10]:
chicago = pd.read_csv("chicago.csv")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
32060,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$87384.00
32061,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$113664.00
32062,,,,


In [11]:
"Hello World".lower()
"Hello World".upper()

'HELLO WORLD'

In [12]:
chicago["Name"].title() #ไม่ดู้ยยย

AttributeError: 'Series' object has no attribute 'title'

In [None]:
chicago["Name"].str.title() #ดู้ยยย

In [None]:
chicago["Name"].str.title().lower() #ไม่ดู้ยยย

In [None]:
chicago["Name"].str.title().str.lower() #ดู้ยยย

In [None]:
chicago["Position Title"] = chicago["Position Title"].str.title()

In [None]:
chicago

In [None]:
len(chicago["Department"]) #len ของ column หรือ จำนวน rows ทั้งหมดของ column

In [None]:
chicago["Department"].str.len() #len ของ value ในแต่ละ column

##### 7.3 Use the str.replace method to replace all occurrences of character with another

In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

In [None]:
"Hello World".replace("l","!") #  (เปลี่ยนอันนี้, เป็นอันนี้)

In [None]:
chicago["Department"] = chicago["Department"].str.replace('MGMNT','MANAGEMENT') #อย่าลืม str 
chicago.head(3)

In [None]:
chicago["Employee Annual Salary"] = chicago["Employee Annual Salary"].str.replace('$', '').astype(float)

In [None]:
chicago.head(3)

In [None]:
chicago.info()

In [None]:
chicago["Employee Annual Salary"].sum()

In [None]:
chicago["Employee Annual Salary"].std()

In [None]:
chicago["Employee Annual Salary"].nlargest(10)

##### 7.4 Filter a DataFrame's Rows with String Methods (.contains() Method)

In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

In [None]:
mask = chicago["Position Title"].str.lower().str.contains("water")
mask

In [None]:
chicago[mask]

In [None]:
mask2 = chicago["Position Title"].str.lower().str.startswith("water")
chicago[mask2]

In [None]:
mask3 = chicago["Position Title"].str.lower().str.endswith("ist")
chicago[mask3]

##### 7.5 More DataFrame String Methods - strip, lstrip, and rstrip

In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

In [None]:
"     hello world    ".lstrip()

In [None]:
"     hello world    ".rstrip()

In [None]:
"     hello world    ".strip()

In [None]:
chicago["Name"] = chicago["Name"].str.rstrip().str.lstrip()

In [None]:
chicago["Position Title"] = chicago["Position Title"].str.strip()

##### 7.6  Invoke String Methods on DataFrame Index and Columns
- แก้ไข Index ที่เป็น str dtype

In [None]:
chicago = pd.read_csv("chicago.csv", index_col = "Name").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

In [None]:
chicago.index = chicago.index.str.strip().str.title()
chicago.head(3)

In [None]:
chicago["Employee Annual Salary"] = chicago["Employee Annual Salary"].str.replace("$","").astype("float")
chicago.head(3)

In [None]:
chicago.columns = chicago.columns.str.upper()
chicago.head(3)

##### 7.7 Split Strings by Characters with the str.split Method


In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.tail(3)

In [None]:
"Hello my name is Boris".split(" ") # split str โดยใช้ " " จะได้ list ออกมาตามด้านล่าง 

In [None]:
chicago["Name"]

In [None]:
chicago["Name"].str.split(",") # split str โดยใช้ "," จะได้ list ออกมาตามด้านล่าง 

In [None]:
chicago["Name"].str.split(",").str.get(0).str.title().value_counts() 
# .str.split(",") str โดยใช้ "," จะได้ list ออกมาตามด้านล่าง 
# .str.get(0) คือเลือก index 0 ใน values ของ "Name" column ที่ถูก split แล้ว [AARON,   ELVIA J] หรือก็คือ AARON ซึ่งเป็น First name
# .str.title()คือ First letter จะตัวใหญ่ 
# .str.value_counts() นับค่าใน "Name" column (***ที่ถูกกระทำการ split get title มาแล้ว) ว่ามีค่าอะไรเกิดขึ้นบ้าง และเกิดขึ้นกี่ครั้ง 


#มีคนชื่อ Williams 293 คน

In [None]:
chicago["Name"].str.split(",").str.get(1).str.title()

In [None]:
chicago["Position Title"].str.split(" ").str.get(0).value_counts()

##### 7.8 More Practice with the str.split method on a Series

In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.head(3)

In [None]:
chicago["Name"].str.split(",").str.get(0).str.title().value_counts().head(3)
# .str.split(",") str โดยใช้ "," จะได้ list ออกมาตามด้านล่าง 
# .str.get(0) คือเลือก index 0 ใน values ของ "Name" column ที่ถูก split แล้ว [AARON,   ELVIA J] หรือก็คือ AARON ซึ่งเป็น first name 
# .str.title()คือ First letter จะตัวใหญ่ 
# .str.value_counts() นับค่าใน "Name" column (***ที่ถูกกระทำการ split get title มาแล้ว) ว่ามีค่าอะไรเกิดขึ้นบ้าง และเกิดขึ้นกี่ครั้ง 


#มีคนชื่อ Williams 293 คน

In [None]:
chicago["Name"].str.split(",").str.get(1).str.title().value_counts().head(3)

# .str.split(",") str โดยใช้ "," จะได้ list ออกมาตามด้านล่าง 
# .str.get(1) คือเลือก index 1 ใน values ของ "Name" column ที่ถูก split แล้ว [AARON,   ELVIA J] หรือก็คือ ELVIA J ซึ่งเป็น last name
# .str.title()คือ First letter จะตัวใหญ่ 
# .str.value_counts() นับค่าใน "Name" column (***ที่ถูกกระทำการ split get title มาแล้ว) ว่ามีค่าอะไรเกิดขึ้นบ้าง และเกิดขึ้นกี่ครั้ง 


#มีคนชื่อ Williams 293 คน

In [None]:
chicago["Name"].str.split(",").str.get(1).str.title().str.split(" ")
# จะเห็นได้ว่ามีการ row แรกของ Name column มี  value เป็น AARON, ELVIA J จะเห็นได้ว่าระหว่าง "," กับ "ELVIA J" จะมี space อยู่ตรงกลาง 
# ทำให้ถ้าเราอยากได้แค่ "ELVIA" ล่ะ ไม่เอา "J" มาด้วย เพราะเราอยากได้ Actual last Name 
# ให้ใช้ .str.split(" ") อีกครั้ง เพื่อแยก Elvia กับ J ออกจากกัน 
# แต่   .str.split(" ") มันจะทำให้เกิดการดึง values มาใส่ list แบบแปลกๆ เช่น [, , Elvia, J]
# !!!! ดังนั้นเราควรทำการ strip ก่อนให้ไม่มีช่องว่าง ระหว่าง "," กับ "ELVIA J"

In [None]:
chicago["Name"].str.split(",").str.get(1).str.title().str.strip().str.split(" ")
#เย่ we got what we expected แต่ยังไม่สุด 

In [None]:
chicago["Name"].str.split(",").str.get(1).str.title().str.strip().str.split(" ").str.get(0)
#ได้ series ที่เป็น First name เพียวๆละ 
chicago["Name"].str.split(",").str.get(1).str.title().str.strip().str.split(" ").str.get(0).value_counts().head() 
#นับว่ามีคนชื่ออะไรเยอะที่สุด

##### 7.9 Exploring the expand and n Parameters of the str.split Method

In [None]:
chicago = pd.read_csv("chicago.csv").dropna(how = "all")
chicago["Department"] = chicago["Department"].astype("category")
chicago.head(3)

In [None]:
chicago["Name"].str.split(",")
#chicago["Name"].str.split(",",  expand = False)

In [None]:
chicago["Name"].str.split(",",  expand = True)
# by default, expand = False : ได้ข้อมูลเป็น series 1 column โดยมีค่าในแต่ละ row เป็น list ของคำที่ทำการ split
# manual, expand = True : จะทำให้ได้ข้อมูลออกมาเป็น DataFrame ที่มี multiple columns แบ่งตามคำที่ทำการ split 

In [None]:
chicago[["First name","Last Name"]] = chicago["Name"].str.split(",",  expand = True)

In [None]:
chicago.head(3)

In [None]:
# พอลองทำที่ "Position Title" column จะทำให้ได้ ผลลัพธ์แปลกๆ 
# เนื่องจากแต่ละ rows มีการเว้นวรรค ไม่เท่ากัน บางอันมี 1 เว้นวรรค บางอันมี 2 เว้นวรรค บางอันมี 3 เป็นต้น  
chicago["Position Title"].str.split(" ", expand = True)

In [None]:
#แก้ปัญหาด้วยการใช้ n parameter โดยมี argument เป็นค่า 1 (n=1) เพื่อให้แบ่งคำเมื่อ เจอ " " ตัวที่ 1 เท่านั้น  
chicago["Position Title"].str.split(" ", expand = True, n = 1)

In [None]:
chicago[["First Title Word","Remaining Words"]] = chicago["Position Title"].str.split(" ", expand = True, n = 1)

In [None]:
chicago.head(3)

# Section 8 :  Multi-Index 

##### 8.1 Intro to the MultiIndex Module

In [None]:
import pandas as pd 

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"])
bigmac.head(3)

In [None]:
bigmac.info()

###### 8.2 Create a MultiIndex with the .set_index() Method 

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"])
bigmac.head(3)

In [None]:
# column with smallest number of unique values should be 1st Index layer
bigmac.nunique() 

In [None]:
# 2 layer of indexes # 1st layer - Date (level = 0), 2nd layer Country (level =1)
bigmac.set_index(keys = ["Date","Country"],inplace = True)



#อยากรู้ว่าแต่ละประเทศมีค่าเงินแข็งแรงน้อยลงมากขึ้นแค่ไหนตามเวลาที่เปลี่ยนไป 
#bigmac.set_index(keys = ["Country","Date"]).sort_index() 
# sort 1st layer in ascending order ("Country") then sort 2nd layer in ascending order ("Date") 

In [None]:
# sort 1st layer (level = 0) in ascending order ("Date") then sort 2nd layer (level = 1) in ascending order ("Country") 
bigmac.sort_index(inplace = True)

In [None]:
bigmac.head(3)

In [None]:
bigmac.index # 2-level index layers contain tuple of two values

In [None]:
bigmac.index.names # ได้ชื่อ index layer names  

In [None]:
type(bigmac.index)

In [None]:
bigmac.index[0]

In [None]:
bigmac.index[1]

In [None]:
bigmac.index[2]

In [None]:
bigmac.index[0][0]

In [None]:
bigmac.index[0][1]

##### 8.3 Extract Index Level Values with the .get_level_values() Method

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"]).sort_index()
bigmac.head(3)

In [None]:
bigmac.index.get_level_values("Date") # values ของ "Date" index ซึ่งเป็น 1st level index layer 
bigmac.index.get_level_values(0)# values ของ index layer[0] หรือก็คือ 1st level index layer ซึ่งก็คือ "Date" index 

In [None]:
bigmac.index.get_level_values("Country") # values ของ "Country" index ซึ่งเป็น 2nd level index layer 
bigmac.index.get_level_values(1)# values ของ index layer[1] หรือก็คือ 2nd level index layer ซึ่งก็คือ "Country" index 

##### 8.4 Change Index Level Name with the .set_names() Method

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"]).sort_index()
bigmac.head(3)

In [None]:
bigmac.index.set_names(names = ["Day", "Location"], inplace = True)

In [None]:
bigmac.head(3)

In [None]:
bigmac.index.set_names(names = "Date", level = 0)
#same as 
bigmac.index.set_names(names = "Date", level = "Day")
#--------------------------------------------------------------------
bigmac.index.set_names(names = "Date", level = "Day", inplace = True)

In [None]:
bigmac.head(3)

##### 8.5 The .sort_index() Method on a MultiIndex DataFrame

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"])
bigmac.head(3)

In [None]:
# by default ascending = True 
# sort 1st layer (level = 0) in ascending order ("Date") then sort 2nd layer (level = 1) in ascending order ("Country") 
bigmac.sort_index() 
#same as 
bigmac.sort_index(ascending=True) 

In [None]:
bigmac.sort_index(ascending=False) 

In [None]:
# sort 1st layer (level = 0) in ascending order ("Date") then sort 2nd layer (level = 1) in descending order ("Country") 
bigmac.sort_index(ascending=[True,False])  
# sort 1st layer (level = 0) in descending order ("Date") then sort 2nd layer (level = 1) in ascending order ("Country") 
bigmac.sort_index(ascending=[False,True],inplace = True)  

In [None]:
bigmac.head()

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"])
bigmac.sort_index(level = 0)#or bigmac.sort_index(level = "Date") #sort ascending แค่ "Date" column ส่วน "Country" column ช่างแม่ง 
bigmac.sort_index(level = 1)#or bigmac.sort_index(level = "Country") #sort ascending แค่ "Country" column ส่วน "Date" column ช่างแม่ง 
#-----------------------------

bigmac.sort_index(level = 1,ascending=False) #or bigmac.sort_index(level = "Country") #sort descending แค่ "Country" column ส่วน "Date" column ช่างแม่ง 

##### 8.5 Extract rows from a MultiIndex DataFrame

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"])
bigmac.sort_index(inplace = True)
bigmac.head()

In [None]:
bigmac.loc["2010-01-01"]

In [None]:
bigmac.loc["2010-01-01","Argentina"]
# ปกติ second argument ควรจะเป็น ชื่อ column ที่เราต้องการจะ Extract ออกมา 
# แต่ว่าพอเป็น multiIndex แล้วเราใช้ second argument มันจะเป็น second index layer แทน
# ถ้าเราอยากจะ ให้ second argument เป็น ชื่อ column ที่เราต้องการจะ Extract ออกมาเหมือนเดิม 
# ให้เราใส่ tuple ครอบ index layer 
bigmac.loc[("2010-01-01","Argentina")]

In [None]:
bigmac.loc[("2010-01-01","Argentina"),"Price in US Dollars"]

## ทำให้เป็นนิสัย โดยการใช้ tuple กับ indexes และ list กับ columns

In [None]:
bigmac.loc[("2016-01-01","Argentina"),"Price in US Dollars"]

In [None]:
bigmac.loc[("2010-01-01",),"Price in US Dollars"]

In [None]:
bigmac.loc[("2010-01-01","Thailand"):("2010-07-01","China"),["Price in US Dollars"]]

In [None]:
bigmac.iloc[0]

In [None]:
bigmac.iloc[10]

In [None]:
bigmac.iloc[[10,20,30]]

In [None]:
bigmac.iloc[[10,20,30,250]]

##### 8.6  The transpose Method on a MultiIndex DataFrame

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"])
bigmac.sort_index(inplace = True)
bigmac.head()

In [None]:
bigmac = bigmac.transpose()
bigmac.head(3)

In [None]:
bigmac.loc[("Price in US Dollars",)]

In [None]:
bigmac.loc[("Price in US Dollars",),('2016-01-01','Thailand')]
#สังเกตว่าเราจะใช้ tuple กับ '2016-01-01' และ 'Thailand'ด้วย เพราะว่ามันเป็น 1st layer และ 2nd ของ column multiIndex ตามลำดับ 

bigmac.loc[("Price in US Dollars",),('2015-07-01','Thailand'):('2016-01-01',"Argentina")]
#Slicing ไปเลยจ้าาาา

##### 8.7 The .swaplevel() Method

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], index_col = ["Date","Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

In [None]:
bigmac.swaplevel().head(3)

In [None]:
bigmac.swaplevel("Date","Country").head(3)
#same as 
bigmac.swaplevel("Country","Date").head(3)
#ทั้งสองอันให้ผลลัพธ์เหมือนกันเนื่องจาก order ในวงเล็บไม่มีผลอะไร


bigmac.swaplevel(0,1).head(3)
#same as 
bigmac.swaplevel(1,0).head(3)
#ทั้งสองอันให้ผลลัพธ์เหมือนกันเนื่องจาก order ในวงเล็บไม่มีผลอะไร

# 0 และ 1 คือ Level ของ Index layer (level 0 = 1stlayer = outest layer) (level 1 = 2ndlayer = inner layer เข้ามา)

In [None]:
bigmac = bigmac.swaplevel(1,0)

In [None]:
bigmac.head(3)

##### 8.8 The .stack() Method

In [None]:
world = pd.read_csv("worldstats.csv", index_col = ["country","year"])
world.head(3)

In [None]:
world.stack() 
# .stack() method มันจะเอา columns-based index ทุกตัว (ก็คือ Population และ GDP ) มาแปลงเป็น rows-based index และแสดงผลตามรูป 
# มันจะมีลักษณะเหมือน MultiIndex ที่มี 3 layers (1st = country, 2nd = year, 3rd = พวก population และ GDP )ที่มี column values เป็นค่าตัวเลขตามที่เห็น
# อย่างไรก็ตาม, python มันจะมองผลลัพธ์นี้เป็น series เนื่องจากมันจะเป็น 1 dimensional (ที่มี 3 multiIndex with 1** column)

In [None]:
type(world.stack())

In [None]:
world.stack().to_frame()
#ใช้ .to_frame() ในการเปลี่ยนแปลง dtype จาก series เป็น DataFrame

In [None]:
type(world.stack().to_frame())

In [None]:
world = world.stack().to_frame().rename(columns = {0:'Values'})

In [None]:
world.index.set_names(names = ['Country','Year','PPL_GDP'],inplace = True)

In [None]:
world

##### 8.9 The .unstack() Method, Part1

In [None]:
world = pd.read_csv("worldstats.csv", index_col = ["country","year"])
world.head(3)

In [None]:
s = world.stack()
s.head(3)

In [None]:
#หลักการคือ เอา the innerest index (index ด้านในสุด หรือ level สูงสุด) of row-based multindex เปลี่ยนเป็น Column-based index  
s1 = s.unstack()
s2 = s1.unstack()
s3 = s2.unstack()
s4 = s3.unstack()
s5 = s4.unstack()
s6 = s5.unstack()
s7 = s6.unstack()
s8 = s7.unstack()

In [None]:
#index ด้านในสุด of row-based multindex ของ s คือ population and GDP 
#จะถูกเปลี่ยนเป็น column-based index
s1

In [None]:
#index ด้านในสุด of row-based multindex ของ s1 คือ year 
#จะถูกเปลี่ยนเป็น column-based index
s2

In [None]:
#index ด้านในสุด of row-based multindex ของ s2 คือ country
#จะถูกเปลี่ยนเป็น column-based index
#!!!! เมื่อไม่มี row-based index เหลืออยู่แล้วจะทำให้ กลายเป็น series ไป   
#!!!! โดยมันจะ มองว่า level0 column-based multiIndex (outest, ด้านนอกสุด) หรือก็คือ Population และ GDP   เป็น row-based multiIndex level 0 
#!!!! โดยมันจะ มองว่า level1 column-based multiIndex หรือก็คือ year เป็น row-based multiIndex level 1
#!!!! โดยมันจะ มองว่า level2 column-based multiIndex (innerest, ด้านในสุด) หรือก็คือ country เป็น row-based multiIndex level 2 

s3

In [None]:
#index ด้านในสุด of row-based multindex ของ s3 คือ country
#จะถูกเปลี่ยนเป็น column-based index
s4

In [None]:
#index ด้านในสุด of row-based multindex ของ s4 คือ year
#จะถูกเปลี่ยนเป็น column-based index
s5

In [None]:
#index ด้านในสุด of row-based multindex ของ s5 คือ Population and GDP
#จะถูกเปลี่ยนเป็น column-based index
#!!!! เมื่อไม่มี row-based index เหลืออยู่แล้วจะทำให้ กลายเป็น series ไป   
#!!!! โดยมันจะ มองว่า level0 column-based multiIndex (outest, ด้านนอกสุด) หรือก็คือ country เป็น row-based multiIndex level 0 
#!!!! โดยมันจะ มองว่า level1 column-based multiIndex หรือก็คือ year เป็น row-based multiIndex level 1
#!!!! โดยมันจะ มองว่า level2 column-based multiIndex (innerest, ด้านในสุด) หรือก็คือ population and GDP เป็น row-based multiIndex level 2 

s6

In [None]:
s7

In [None]:
s8

##### 8.10 The .unstack() Method, Part2

In [None]:
world = pd.read_csv("worldstats.csv", index_col = ["country","year"])
world.head(3)

In [None]:
#level 0 = country
#level 1 = year
#level 2 = population and gdp 
s= world.stack()
s.head(3)

In [None]:
# 2 means level2 =>> จะทำให้ row-based multiIndex level ที่ 2  หรือก็คือ population and gdp จะถูกเปลี่ยนให้เป็น column-based index 
s1 = s.unstack(2) #same as 
s1 = s.unstack(-1)
s1

In [None]:
# 1 means level1 =>> จะทำให้ row-based multiIndex level ที่ 1  หรือก็คือ year จะถูกเปลี่ยนให้เป็น column-based index 
s2 = s.unstack(1) #same as 
s2 = s.unstack(-2)
s2

In [None]:
# 0 means level0 =>> จะทำให้ row-based multiIndex level ที่ 0  หรือก็คือ country จะถูกเปลี่ยนให้เป็น column-based index 
s3 = s.unstack(0) #same as 
s3 = s.unstack(-3)
s3

In [None]:
s4 = s.unstack("country") #specify specific row-based multiIndex เองเลย 
s4

##### 8.11 The .unstack() Method, Part3

In [None]:
world = pd.read_csv("worldstats.csv", index_col = ["country","year"])
world.head(3)

In [None]:
s = world.stack()
s.head(3)
# 0 และ 1 คือ Level ของ Index layer (level 0 = 1stlayer = outest layer) (level 1 = 2ndlayer = inner layer เข้ามา)

#outest #level 0 = country
#level 1 = year
#innerest #level 2 = Population and GDP

In [None]:
s.unstack(level = [0,1]) #จะ move level0  ("country") ไปเป็น column based index ตามด้วย level1 ("year") 
#level1 ("year") ที่ไปทีหลัง จะเป็น  column based index ชั้นในกว่า level0  ("country") ที่เข้าไปก่อน 


In [None]:
s.unstack(level = [1,0]) #จะ move level1  ("year") ไปเป็น column based index ตามด้วย level0 ("country") 
#level0 ("country) ที่ไปทีหลัง จะเป็น  column based index ชั้นในกว่า level1  ("year") ที่เข้าไปก่อน 

In [None]:
s.unstack(level = ["year",2])

In [None]:
s.unstack(level = ["year","country"])

In [None]:
s.unstack("year")

In [None]:
s.unstack("year",fill_value = 0) 

##### 8.12 The .pivot() Method

In [None]:
sales = pd.read_csv("salesmen.csv", parse_dates=["Date"])
sales.head(3)

In [None]:
sales.info()

In [None]:
sales.Salesman.value_counts()
#sames as sales["Salesman"].value_counts()

In [None]:
sales.nunique()

In [None]:
sales.Salesman = sales["Salesman"].astype("category")
#ทวนความจำว่า sales.Salesman = sales["Salesman"]

In [None]:
sales.info()
#memory usage ลดลงและ 

In [None]:
sales.head(5)

In [None]:
## เนื่องจากว่า "Salesman" มีจำนวน unique values น้อยมากๆๆ เพียง 5 ตัว จึงสามารถ pivot 5 values นั้นเป็น columns ได้อย่างสวยงามและอ่านง่าย 
## โดยจะให้ index label เป็น "Date" ไป โดยเอา Revenue เป็นค่า ในของ 5 new columns ที่มาจาก "Salesman" 
## ถ้าอ่านแล้วงง ก็เทียบก่อนกับหลัง ใช้ .pivot() ไปจบจบ
sales.pivot(index = "Date",columns="Salesman", values="Revenue").head(5)

In [None]:
len(sales)

In [None]:
len(sales.pivot(index = "Date",columns="Salesman", values="Revenue"))
#เหลือ 366 แถวเอง 
#easier to analysis 
#แต่อย่างไรก็ตาม, ก็ขึ้นอยู่กับ Original data ในcsv ด้วยว่ามันมี unique values ในแถวไหน 
#เยอะน้อยแค่ไหน และถึงช้อมูลจะมี unique values นั้นจะมีน้อย แล้วมันมี impact ต่อการคิดวิเคราะห์ต่อไปหรือเปล่า
#ไม่ใช่แค่เฉพาะ เนื้อหาส่วนนี้นะ แต่หมายถึงทุกๆเนื้อหาก่อน เราควรพยายาม scan เบื้องต้นก่อนว่าข้อมูลที่เราได้รับมา มีเนื้อหาประมาณไหน

##### 8.13 Use the .pivot_table() method to create an aggregate summary of a DataFrame 
- Useful มีประโยชน์

In [None]:
foods = pd.read_csv("foods.csv")
foods.head(3)

In [None]:
foods.pivot_table(values= "Spend",index = "Gender")
#SAME AS
#foods.pivot_table(values= "Spend",index = "Gender",aggfunc='mean')

In [None]:
foods.pivot_table(values= "Spend",index = ["Gender","City"])
#sameas 
#foods.pivot_table(values= "Spend",index = ["Gender","City"], aggfunc = 'mean')
#By default, ค่าในช่อง Spend จะเป็น ค่า aggfunc = 'mean' หรือ ค่าเฉลี่ย 

In [None]:
#ต้องการ ค่า total ใช้ sum  
#รวมค่าใช้จ่ายของผู้ชายและผู้หญิงในแต่ละเมือง
#sum
foods.pivot_table(values= "Spend",index = ["Gender","City"],aggfunc='sum')

In [None]:
foods.pivot_table(values= "Spend",index = ["Gender","Item"],aggfunc='sum')

In [None]:
foods.pivot_table(values= "Spend",index =["Gender","Item"],columns= "City",aggfunc='sum')

In [None]:
foods.pivot_table(values= "Spend",index =["Gender","Item"],columns= ["Frequency" ,"City"],aggfunc='sum')

In [None]:
foods.pivot_table(values= "Spend",index =["Gender","Item"],columns= ["City"],aggfunc='count')

In [None]:
foods.pivot_table(values= "Spend",index =["Gender","Item"],columns= ["City"],aggfunc='max')

In [None]:
foods.pivot_table(values= "Spend",index =["Gender","Item"],columns= ["City"],aggfunc='min')

In [None]:
pd.pivot_table(data = foods ,values= "Spend",index =["Gender","Item"],columns= ["City"],aggfunc='min')

##### 8.14 The pd.melt() Method 

In [None]:
sales = pd.read_csv("quarters.csv")
sales

In [None]:
pd.melt(sales, id_vars = "Salesman")

##### 8.15 Use the pd.melt() Method to create a narrow dataset from a wide one 
- เปลี่ยน dataframe ที่ multiple columns ในแนวกว้าง ให้มีไม่กี่ columns ในแนวลึกแทน
- อธิบายยาก ไปดูเอาละกัน

In [None]:
sales = pd.read_csv("quarters.csv")
sales

In [None]:
#1st parameter = variable ที่เก็บ dataframe ที่เราต้องการจะทำการ melt 
#2nd parameter (id_vars) คือ column ที่เราต้องการให้อยู่ที่เดิม หรือไม่ไปยุ่งอะไรกับมัน
# จะเห็นได้ว่า รายการ columns ทั้งหมด ***ยกเว้น "Salesman" column  ที่เราไม่ต้องการที่จะยุ่งกับมัน 
# จะถูกบรรจุลง New column ที่มี ชื่อว่า variable และ values ใน old columns จะถูกบรรจุลง New column ที่มี ชื่อว่า values 
pd.melt(sales,id_vars="Salesman")

In [None]:
#3rd parameter (var_name) คือการเปลี่ยนชื่อ New column ที่มี ชื่อว่า variable
#4th parameter (value_name) คือการเปลี่ยนชื่อ New column ที่มี ชื่อว่า values 
pd.melt(sales,id_vars="Salesman",var_name="Quarter",value_name="Revenue")

# Section 9: The Group By Object

##### 9.1 Intro to the GroupBy Module

In [None]:
import pandas as pd 

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune.head(3)

In [None]:
fortune.info()

In [None]:
fortune.nunique()

In [None]:
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")
fortune.info()

In [None]:
fortune.groupby("Sector")

In [None]:
sectors = fortune.groupby("Sector")

In [None]:
type(fortune)

In [None]:
type(sectors)

In [None]:
sectors

##### 9.2 The .groupby() method

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby("Sector")
fortune.head(3)

In [None]:
len(fortune) # the number of rows 

In [None]:
len(sectors) # the number of groups seperated by sectors 

In [None]:
fortune.nunique() # number of unique ;Sector = 21

In [None]:
#exact same thing in term of values as fortune["Sector"].value_counts() 
#values from fortune["Sector"].value_counts() are sorted descending order 
#values from sectors.size() are sorted in ascending order by groupby name (A to Z)

sectors.size() # number of rows on each groups

In [None]:
#exact same thing in term of values as sectors.size() 
#values from fortune["Sector"].value_counts() are sorted descending order 
#values from sectors.size() are sorted in ascending order by groupby name 
fortune["Sector"].value_counts() 

In [None]:
sectors.first()
# .first() จะreturn แถวแรก ใน group group นั้นออกมา
# first row of each groups

In [None]:
fortune.head(3)

In [None]:
sectors.last()
# .last() จะ return แถวสุดท้าย ใน group group นั้นออกมา
# a last row of each groups

In [None]:
fortune.tail(3)

In [None]:
sectors.groups
#{key : values pair}
#key = group name that seperated by sector 
#values = ค่าของ index label ที่เป็นสมาชิกของ group group นั้น  #Note: ไม่ใช่ index position นะ มันเป็น index label ที่เราแทนค่า index_col = "Rank" ไป 

##### 9.3 Retrieve a group from a GroupBy object with the .get_group() Method

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby("Sector")
fortune.head(3)

In [None]:
sectors.get_group("Energy").head(3)

In [None]:
sectors.get_group("Technology").head(3)

In [None]:
sectors.get_group("Apparel").head(3)

In [None]:
fortune[fortune["Sector"] == "Apparel"].head(3)

#จะเห็นได้ว่า ใช้ .get_group() กับ sectors ที่เป็น groupby object จะง่ายกว่า 

##### 9.4 Methods on the Groupby Object and DataFrame Columns

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby("Sector")
fortune.head(3)

##### 
- .max() 
- .min()
- .sum() #จะกระทำต่อ numeric column ที่เป็น int, float ที่คำนวณได้เท่านั้น
- .mean()#จะกระทำต่อ numeric column ที่เป็น int, float ที่คำนวณได้เท่านั้น

In [None]:
sectors.max().head(3)
#จะ return rows ออกมาเป็น last alphabeticalใน "company" column ของแต่ละ group
#ควรระบุเป็นชื่อ column ไปดีกว่า 

In [None]:
sectors.min().head(3)

In [None]:
sectors.sum().head(3)

In [None]:
sectors.get_group("Apparel")["Revenue"].sum()

In [None]:
sectors.get_group("Apparel")["Profits"].sum()

In [None]:
sectors.get_group("Apparel")["Employees"].sum()

In [None]:
sectors.mean().head(3)

In [None]:
sectors.get_group("Apparel")["Revenue"].mean()
sectors.get_group("Apparel")["Profits"].mean()
sectors.get_group("Apparel")["Employees"].mean()

In [None]:
sectors["Revenue"].sum()

In [None]:
sectors[["Revenue","Profits"]].sum().head(3)

In [None]:
sectors["Employees"].sum()

In [None]:
sectors["Profits"].max()

In [None]:
sectors["Profits"].min()

In [None]:
sectors["Employees"].mean()

In [None]:
sectors[["Employees","Profits"]].mean().head(3)

##### 9.5 Grouping by Multiple Columns

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby(["Sector","Industry"])
fortune.head(3)

In [None]:
sectors.size() ## multiIndex of sectors which is groupby dataframe object.
##จะได้ additional layers ใน group by 
##group by ซ้อน group by 
##มีประโยชน์ โดยจะช่วยทำให้เราจัดกลุ่ม หา insight ของข้อมูลได้ลึกขึ้น เข้าใจง่ายขึ้น

In [None]:
sectors.sum()

In [None]:
sectors.sum(["Revenue","Profits","Employees"])

In [None]:
sectors.["Revenue"].sum()

In [None]:
sectors["Employees"].mean()

In [None]:
sectors.get_group(("Business Services","Education")).sum()

##### 9.6 The .agg() Method

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby(["Sector","Industry"])
fortune.head(3)

In [None]:
#.agg() ช่วยให้เราสามารถคำนวณ หลายๆ columns ใน group by พร้อมๆกัน โดยaggregate สามารถแตกต่างกันได้ ในแต่ละ columns
sectors.agg({"Revenue":"sum",
            "Profits":"max",
            "Employees":"mean"})

In [None]:
sectors.agg(["size","sum","mean"])

In [None]:
sectors.agg({"Revenue":["sum","mean"],
            "Profits":["max","min"],
            "Employees":"mean"})

##### 9.7 Iterating through Groups

In [None]:
fortune = pd.read_csv("fortune1000.csv", index_col=["Rank"])
fortune["Sector"] = fortune["Sector"].astype("category")
fortune["Industry"] = fortune["Industry"].astype("category")

sectors = fortune.groupby(["Sector"])
fortune.head(3)

In [None]:
sectors["Profits"].max()
#ผลลัพธ์จะออกมาแค่ตัวเลข profit ที่มีค่าสูงสุด ของแต่ละ group 
#การที่เราอยากจะให้โชว์ column อื่นๆด้วย เราจะต้องใช้ iterating  

In [None]:
df = pd.DataFrame(columns=fortune.columns)
df

In [None]:
#sector                ...        Data 
#Aerospace & Defense              7608
#Apparel                          3273

for sector, data in sectors :
    highest_revenue_company_in_group = data.nlargest(1, "Revenue") 
    ## เมื่อใช้ nlargest ใน Grouby object มันจะหาข้อมูลที่มีค่าสูงสุดในแต่ละ group มาให้เรา
    df = df.append(highest_revenue_company_in_group)
    ## บันทึกข้อมูลลง df variable 

In [None]:
df

In [None]:
cities = fortune.groupby("Location")
df = pd.DataFrame(columns=fortune.columns)
df

In [None]:
for city, data in cities:
    highest_revenue_in_city = data.nlargest(1,"Revenue")
    df = df.append(highest_revenue_in_city)

In [None]:
df
# ได้ Revenue ที่สูงที่สุด ของแต่ละ Location 

In [None]:
fortune["Location"].nunique()

# Section 10 : Merging Joining and Concatenating DataFrames

#####  10.1 Intro to Merging Joining and Concatenating Section

In [None]:
import pandas as pd 

In [None]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

##### 10.2 The pd.concat Method, Part 1

In [None]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [None]:
week1.head(3) #note week1 มี 250 rows

In [None]:
week2.head(3) #note week2 มี 250 rows

In [None]:
pd.concat(objs = [week1,week2])
# sames as 
# pd.concat(objs = [week1,week2],ignore_index=False)
# index เป็น 0-249 จาก week1 และ ก็ 0-249 จาก week2 รวม 500 rows

In [None]:
pd.concat(objs = [week1,week2],ignore_index=True)

In [None]:
week1.append(other = week2)
# same as 
# week1.append(other = week2, ignore_index=False)

In [None]:
week1.append(other = week2, ignore_index=True)

##### 10.3 The pd.concat Method, Part 2

In [None]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [None]:
pd.concat(objs = [week1,week2],keys=["Week 1","Week 2"])

In [None]:
sales = pd.concat(objs = [week1,week2],keys=["Week 1","Week 2"])
sales.head(3)

In [None]:
sales.loc[("Week 1",)] # note : tuple with row-based multiIndex
sales.loc[("Week 2",)] # note : tuple with row-based multiIndex

sales.loc[("Week 1",240)] # note : tuple with row-based multiIndex
sales.loc[("Week 2",158)] # note : tuple with row-based multiIndex

sales.loc[("Week 1",240),"Customer ID"] # note : tuple with row-based multiIndex
sales.loc[("Week 2",158),"Food ID"] # note : tuple with row-based multiIndex

In [None]:
sales.loc[("Week 1",)] # note : tuple with row-based multiIndex

In [None]:
sales.loc[("Week 2",)] # note : tuple with row-based multiIndex

In [None]:
sales.loc[("Week 1",240)]

In [None]:
sales.loc[("Week 2",158)]

In [None]:
sales.loc[("Week 1",240),"Customer ID"]

In [None]:
sales.loc[("Week 2",158),"Food ID"]

##### 10.4 Inner Joins, Part 1

In [None]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [None]:
week1.head(2)

In [None]:
week2.head(2)

In [None]:
pd.merge(left = week1,right= week2, how = "inner", on = "Customer ID").head(4)
#Food ID_x represent week1
#Food ID_y represent week2 

## inner joion ไม่ remove duplicate นาจา

In [None]:
week1[week1["Customer ID"] == 155]

In [None]:
week2[week2["Customer ID"] == 155]

In [None]:
#python ไม่รู้ว่าจะต้อง match row ที่มี customer id 155 ของ week2 นี้ ใน rows ที่มี customer id 155 ไหนของ week1
#ทำให้มัน match ทั้งสองตัวเลยย 
#	Customer ID  	Food ID_x 	Food ID_y
#1      155           	9        	3
#2      155           	1        	3


In [None]:
pd.merge(left = week1,right= week2, 
         how = "inner", 
         on = "Customer ID",
         suffixes= (" Week 1"," Week 2")).head(4)
#from 
#	Customer ID  	Food ID_x       	Food ID_y
#to 
#	Customer ID  	Food ID Week 1  	Food ID Week2

##### 10.5 Inner Joins, Part 2

In [None]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [None]:
week1.head(2)

In [None]:
week2.head(2)

In [None]:
week1.merge(week2, how = "inner", on = ["Customer ID","Food ID"] )
## inner joion ไม่ remove duplicate นาจา

In [None]:
week1[week1["Customer ID"] == 21]
#ใน week ที่ 1 ลูกค้าที่มี Customer ID = 21 ทำการซื้ออาหาร ที่มี Food ID = 4 ซ้ำสองครั้ง

In [None]:
week2[week2["Customer ID"] == 21]

In [None]:
week1[week1["Customer ID"] == 578]

In [None]:
week2[week2["Customer ID"] == 578]
#ใน week ที่ 2 ลูกค้าที่มี Customer ID = 578 ทำการซื้ออาหาร ที่มี Food ID = 5 ซ้ำสองครั้ง

##### 10.6 Outer joins 
- Both + left + right

In [14]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [16]:
week1.head(2)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4


In [17]:
week2.head(2)

Unnamed: 0,Customer ID,Food ID
0,688,10
1,813,7


In [18]:
pd.merge(week1,week2, how = "outer" , on = "Customer ID", suffixes= (" Week1"," Week 2"))

Unnamed: 0,Customer ID,Food ID Week1,Food ID Week 2
0,537,9.0,5.0
1,97,4.0,
2,658,1.0,
3,202,2.0,
4,155,9.0,3.0
...,...,...,...
449,855,,4.0
450,559,,10.0
451,276,,4.0
452,556,,10.0


In [32]:
pd.merge(week1,week2, how = "outer" , on = "Customer ID", suffixes= (" Week1"," Week 2"), indicator = True)

Unnamed: 0,Customer ID,Food ID Week1,Food ID Week 2,_merge
0,537,9.0,5.0,both
1,97,4.0,,left_only
2,658,1.0,,left_only
3,202,2.0,,left_only
4,155,9.0,3.0,both
...,...,...,...,...
449,855,,4.0,right_only
450,559,,10.0,right_only
451,276,,4.0,right_only
452,556,,10.0,right_only


In [33]:
merged = pd.merge(week1,week2, how = "outer" , on = "Customer ID", suffixes= (" Week1"," Week 2"), indicator = True)
merged["_merge"].value_counts()

right_only    197
left_only     195
both           62
Name: _merge, dtype: int64

In [34]:
#ได้ลูกค้าที่มาซื้อแค่สัปดาห์แรก หรือ มาซื้อแค่สัปดาห์ที่สองแน้ววว 
merged[merged["_merge"] != "both"]
#or 
mask = merged["_merge"].isin(["left_only","right_only"])
merged[mask]

Unnamed: 0,Customer ID,Food ID Week1,Food ID Week 2,_merge
1,97,4.0,,left_only
2,658,1.0,,left_only
3,202,2.0,,left_only
6,213,8.0,,left_only
7,600,1.0,,left_only
...,...,...,...,...
449,855,,4.0,right_only
450,559,,10.0,right_only
451,276,,4.0,right_only
452,556,,10.0,right_only


##### 10.7 Left Joins
Both + left

In [35]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [42]:
week1.head(3)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4
2,658,1


In [61]:
foods

Unnamed: 0,Food ID,Food Item,Price
0,1,Sushi,3.99
1,2,Burrito,9.99
2,3,Taco,2.99
3,4,Quesadilla,4.25
4,5,Pizza,2.49
5,6,Pasta,13.99
6,7,Steak,24.99
7,8,Salad,11.25
8,9,Donut,0.99
9,10,Drink,1.75


In [54]:
merged_week1_foods = pd.merge(week1,foods, how = "left" , on = "Food ID", indicator = True)
merged_week1_foods.head(3)

Unnamed: 0,Customer ID,Food ID,Food Item,Price,_merge
0,537,9,Donut,0.99,both
1,97,4,Quesadilla,4.25,both
2,658,1,Sushi,3.99,both


In [63]:
merged_week1_foods = pd.merge(week1,foods, how = "left" , on = "Food ID", indicator = True,sort = True)
## sort = True ; means sort the matching column "Food ID" in ascending order 
merged_week1_foods

Unnamed: 0,Customer ID,Food ID,Food Item,Price,_merge
0,658,1,Sushi,3.99,both
1,600,1,Sushi,3.99,both
2,155,1,Sushi,3.99,both
3,341,1,Sushi,3.99,both
4,20,1,Sushi,3.99,both
...,...,...,...,...,...
245,809,10,Drink,1.75,both
246,584,10,Drink,1.75,both
247,274,10,Drink,1.75,both
248,151,10,Drink,1.75,both


##### 10.7 The left_on and right_on Parameters
- เมื่อ ชื่อ column ของ 2 dataframes มีชื่อไม่เหมือน  จะใช้ on ไม่ได้ 
- จะต้องระบุว่าจะ join ที่ 
    - column ไหน ของ left dataframe และ 
    - column ไหน ของ right dataframe

In [64]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [65]:
week2.head(3)

Unnamed: 0,Customer ID,Food ID
0,688,10
1,813,7
2,495,10


In [66]:
customers.head(3)

Unnamed: 0,ID,First Name,Last Name,Gender,Company,Occupation
0,1,Joseph,Perkins,Male,Dynazzy,Community Outreach Specialist
1,2,Jennifer,Alvarez,Female,DabZ,Senior Quality Engineer
2,3,Roger,Black,Male,Tagfeed,Account Executive


In [75]:
merged_week2_customers = pd.merge(week2,customers, 
                                  how = "left",
                                  left_on = "Customer ID",
                                  right_on = "ID",
                                  sort = True)

## matching columns เกิดขึ้น คือ 
    ## ทั้ง "Customer ID" จาก week2 
    ## และ "ID"         จาก customers
merged_week2_customers

Unnamed: 0,Customer ID,Food ID,ID,First Name,Last Name,Gender,Company,Occupation
0,8,6,8,Frances,Adams,Female,Dabshots,Developer III
1,13,2,13,Ruth,Alvarez,Female,Twitterlist,Mechanical Systems Engineer
2,21,4,21,Albert,Burns,Male,Rhynoodle,Junior Executive
3,24,8,24,Donna,Thomas,Female,Jaxbean,Chief Design Engineer
4,27,4,27,Jessica,Bennett,Female,Twitternation,Account Executive
...,...,...,...,...,...,...,...,...
245,968,4,968,Teresa,Reynolds,Female,Flashdog,Budget/Accounting Analyst IV
246,969,3,969,Marie,Ortiz,Female,Meejo,Research Associate
247,977,7,977,Cynthia,Dixon,Female,Skalith,Automation Specialist II
248,994,2,994,Clarence,Morgan,Male,Edgewire,Geologist II


In [74]:
merged_week2_customers = pd.merge(week2,customers, 
                                  how = "left",
                                  left_on = "Customer ID",
                                  right_on = "ID",
                                  sort = True).drop("ID", axis = "columns")
merged_week2_customers

Unnamed: 0,Customer ID,Food ID,First Name,Last Name,Gender,Company,Occupation
0,8,6,Frances,Adams,Female,Dabshots,Developer III
1,13,2,Ruth,Alvarez,Female,Twitterlist,Mechanical Systems Engineer
2,21,4,Albert,Burns,Male,Rhynoodle,Junior Executive
3,24,8,Donna,Thomas,Female,Jaxbean,Chief Design Engineer
4,27,4,Jessica,Bennett,Female,Twitternation,Account Executive
...,...,...,...,...,...,...,...
245,968,4,Teresa,Reynolds,Female,Flashdog,Budget/Accounting Analyst IV
246,969,3,Marie,Ortiz,Female,Meejo,Research Associate
247,977,7,Cynthia,Dixon,Female,Skalith,Automation Specialist II
248,994,2,Clarence,Morgan,Male,Edgewire,Geologist II


##### 10.8 Merging by Indexes with the left_index and right_index Parameters

In [86]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

In [87]:
customers.head()

Unnamed: 0,ID,First Name,Last Name,Gender,Company,Occupation
0,1,Joseph,Perkins,Male,Dynazzy,Community Outreach Specialist
1,2,Jennifer,Alvarez,Female,DabZ,Senior Quality Engineer
2,3,Roger,Black,Male,Tagfeed,Account Executive
3,4,Steven,Evans,Male,Fatz,Registered Nurse
4,5,Judy,Morrison,Female,Demivee,Legal Assistant


In [88]:
customers = pd.read_csv("Restaurant - Customers.csv", index_col = "ID")
customers.head(3)

Unnamed: 0_level_0,First Name,Last Name,Gender,Company,Occupation
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Joseph,Perkins,Male,Dynazzy,Community Outreach Specialist
2,Jennifer,Alvarez,Female,DabZ,Senior Quality Engineer
3,Roger,Black,Male,Tagfeed,Account Executive


In [105]:
foods = pd.read_csv("Restaurant - Foods.csv", index_col = "Food ID")
foods.head(2)

Unnamed: 0_level_0,Food Item,Price
Food ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Sushi,3.99
2,Burrito,9.99


In [106]:
week1.head(2)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4


In [143]:
#ต้องการจะ join; week1 ที่มี "Customer ID" column กับ "ID" index เข้าด้วยกัน โดย left join
# left_on = "Customer ID",
# right_index = True

## one advantage ในการใช้ index ในการ merge คือ มันจะ remove column ที่มาจาก Index ให้เรา  
## ซึ่ง ปกติต้องใช้ .drop() ลบเอง ->> ดูข้อ 10.7
sales_on_week1 = week1.merge(customers, how= "left", left_on="Customer ID", right_index= True, sort = True)
# or 
# sales_on_week1 = pd.merge(week1, customers, how= "left", left_on="Customer ID", right_index= True, sort = True)
# เหมือนกัน 
sales_on_week1.head(3)

Unnamed: 0,Customer ID,Food ID,ID,First Name,Last Name,Gender,Company,Occupation
96,3,2,4.0,Steven,Evans,Male,Fatz,Registered Nurse
143,10,2,11.0,Michael,Reynolds,Male,Meevee,Dental Hygienist
31,20,1,21.0,Albert,Burns,Male,Rhynoodle,Junior Executive


In [142]:
sales_on_week1_with_foods_info = sales_on_week1.merge(foods, how = "left" , left_on = "Food ID", right_index = True)
sales_on_week1_with_foods_info.head(3)

Unnamed: 0,Customer ID,Food ID_x,ID,First Name,Last Name,Gender,Company,Occupation,Food ID_y,Food Item,Price
96,3,2,4.0,Steven,Evans,Male,Fatz,Registered Nurse,3.0,Taco,2.99
143,10,2,11.0,Michael,Reynolds,Male,Meevee,Dental Hygienist,3.0,Taco,2.99
31,20,1,21.0,Albert,Burns,Male,Rhynoodle,Junior Executive,2.0,Burrito,9.99


In [114]:
week1.head(3)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4
2,658,1


In [115]:
week2.head(3)

Unnamed: 0,Customer ID,Food ID
0,688,10
1,813,7
2,495,10


In [122]:
pd.merge(week1,week2, how = "left", left_index=True, right_index=True,suffixes=[" Week1"," Week2"])

Unnamed: 0,Customer ID Week1,Food ID Week1,Customer ID Week2,Food ID Week2
0,537,9,688,10
1,97,4,813,7
2,658,1,495,10
3,202,2,189,5
4,155,9,267,3
...,...,...,...,...
245,413,9,783,10
246,926,6,556,10
247,134,3,547,9
248,396,6,252,9


##### 10.9 The .join() Method

In [125]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")

week1_satisfaction = pd.read_csv("Restaurant - Week 1 Satisfaction.csv")

In [126]:
week1.head(3)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4
2,658,1


In [127]:
week1_satisfaction.head(3)

Unnamed: 0,Satisfaction Rating
0,2
1,7
2,3


In [130]:
week1.merge(week1_satisfaction, how = "left", left_index = True, right_index = True).head()

Unnamed: 0,Customer ID,Food ID,Satisfaction Rating
0,537,9,2
1,97,4,7
2,658,1,3
3,202,2,7
4,155,9,10


In [133]:
week1.join(week1_satisfaction).head()
#join index between 2 dataframes by defaulabst

Unnamed: 0,Customer ID,Food ID,Satisfaction Rating
0,537,9,2
1,97,4,7
2,658,1,3
3,202,2,7
4,155,9,10


##### 10.10 The pd.merge() Method

In [134]:
#primary key and foreign key relation 
week1 = pd.read_csv("Restaurant - Week 1 Sales.csv")
week2 = pd.read_csv("Restaurant - Week 2 Sales.csv")
customers = pd.read_csv("Restaurant - Customers.csv")
foods = pd.read_csv("Restaurant - Foods.csv")
week1_satisfaction = pd.read_csv("Restaurant - Week 1 Satisfaction.csv")

In [135]:
week1.head(3)

Unnamed: 0,Customer ID,Food ID
0,537,9
1,97,4
2,658,1


In [136]:
customers.head(3)

Unnamed: 0,ID,First Name,Last Name,Gender,Company,Occupation
0,1,Joseph,Perkins,Male,Dynazzy,Community Outreach Specialist
1,2,Jennifer,Alvarez,Female,DabZ,Senior Quality Engineer
2,3,Roger,Black,Male,Tagfeed,Account Executive


In [138]:
pd.merge(week1,customers,how = "left", left_on = "Customer ID", right_on= "ID")

Unnamed: 0,Customer ID,Food ID,ID,First Name,Last Name,Gender,Company,Occupation
0,537,9,537,Cheryl,Carroll,Female,Zoombeat,Registered Nurse
1,97,4,97,Amanda,Watkins,Female,Ozu,Account Coordinator
2,658,1,658,Patrick,Webb,Male,Browsebug,Community Outreach Specialist
3,202,2,202,Louis,Campbell,Male,Rhynoodle,Account Representative III
4,155,9,155,Carolyn,Diaz,Female,Gigazoom,Database Administrator III
...,...,...,...,...,...,...,...,...
245,413,9,413,Diane,Bailey,Female,Wikibox,Technical Writer
246,926,6,926,Anne,Wagner,Female,Skyba,Legal Assistant
247,134,3,134,Diana,Hall,Female,Quinu,Financial Advisor
248,396,6,396,Juan,Romero,Male,Zoonder,Analyst Programmer
