# **pandas**

ย่อมาจากคำว่า “panel data”

https://pypi.org/project/pandas/

ความสามารถของตัว pandas จัดการข้อมูลที่อยู่รูปแบบ tabular หรือในรูปแบบตาราง

pandas เป็น library ที่เสริมความสามารถของ numpy ให้มากขึ้น

เราได้เข้าใจพื้นฐานของ array มาจาก numpy มาแล้ว

pandas อาจจะยังไม่ถูกติดตั้งมาพร้อม Python ดังนั้นจำเป็นจะต้องติดตั้งลงเครื่องก่อน เช่น
```
pip install pandas
```

import numpy as np

import pandas as pd

In [1]:
import numpy as np
import pandas as pd

##Series และ DataFrame

Series (1D) - labeled, homogenous array of immutable size

DataFrames (2D) - labeled, heterogeneously typed, size-mutable tabular data structures

Series และ DataFrame เป็นเหมือนที่บรรจุข้อมูลเพื่อนำมาวิเคราะห์ในงาน data science

Series หรือ อนุกรม คือชุดข้อมูลที่เรียงต่อกัน และเราจะอาศัยพื้นฐานความสามารถของ numpy

DataFrame คือตารางของข้อมูล ซึ่งประกอบขึ้นจากหลาย ๆ Series

ต่อไปเราจะใช้ประโยชน์จาก DataFrame

###Creating a Series

**Creating an empty Series**

In [2]:
myseries = pd.Series() # The Series() function creates a new Series
print(myseries)
type(myseries)

Series([], dtype: object)


pandas.core.series.Series

In [3]:
myseries1 = pd.Series(['สุดา','กันยา','สมพร','Ann','Pimpa'])
print(myseries1)
print(pd.Series([1,2,9,3])) #print ซีรีส์ออกมาจะอยู่ในรูปที่ดูเป็นระเบียบดูง่าย

0     สุดา
1    กันยา
2     สมพร
3      Ann
4    Pimpa
dtype: object
0    1
1    2
2    9
3    3
dtype: int64


dtype คือชนิดของข้อมูล เช่นเดียวกับในอาเรย์ของ numpy

ชนิดข้อมูลสามารถระบุได้ตอนสร้างโดยเพิ่มคีย์เวิร์ด dtype

In [4]:
print(pd.Series([1,2,'9',3.1],dtype='float64')) # หรือ dtype=float

0    1.0
1    2.0
2    9.0
3    3.1
dtype: float64


**Creating a series from an ndarray**

In [5]:
# Note that indexes are a assigned automatically if not specifies
arr = np.array([10,20,30,40,50])
series1 = pd.Series(arr)
print(series1)
print(series1.index)

0    10
1    20
2    30
3    40
4    50
dtype: int64
RangeIndex(start=0, stop=5, step=1)


**Creating a series from a Python dict**

In [6]:
# Note that the keys of the dictionary are used to assign indexes during conversion
data = {'a':10, 'b':20, 'c':30}
series2 = pd.Series(data)
print(series2)
print(series2.index)

a    10
b    20
c    30
dtype: int64
Index(['a', 'b', 'c'], dtype='object')


index เป็นได้ทั้งตัวเลข หรือตัวอักษร

###**Retrieving a part of the series**

In [7]:
print(series1[1:4])

1    20
2    30
3    40
dtype: int64


ข้อมูลภายในสามารถเข้าถึงได้โดยอาศัยดัชนีซึ่งอยู่ทางซ้าย

เช่น

###การวิเคราะห์ข้อมูลใน Series

In [8]:
stu = pd.Series(
    [15.0,19.9,54.4,10.8,12.43,19.15],
    index=['หมูน้อย','มานพ','สุดา','สิทธา','สามจอม','วันดี']
)
print(stu.sum())
print(stu.mean())
print(stu.max())
print(stu.argmax())
print(stu.min())
print(stu.argmin())
print(stu.std())
print(stu)

131.68
21.94666666666667
54.4
2
10.8
3
16.299081773727828
หมูน้อย    15.00
มานพ       19.90
สุดา       54.40
สิทธา      10.80
สามจอม     12.43
วันดี      19.15
dtype: float64


###การเพิ่มและแก้ไขข้อมูล

In [9]:
stu['มิตติ'] = 31.8 #การเพิ่ม
stu['พาวา'] = 23.57 #การเพิ่ม
stu['หมูน้อย'] = 30 #แก้ไขข้อมูล
print(stu)

หมูน้อย    30.00
มานพ       19.90
สุดา       54.40
สิทธา      10.80
สามจอม     12.43
วันดี      19.15
มิตติ      31.80
พาวา       23.57
dtype: float64


Series เป็นแค่แถวของข้อมูลซึ่งมีเพียงมิติเดียว

ถ้าเรามีข้อมูลหลายชุด จำเป็นจะต้องสร้าง Series หลายอัน

Series หลายอันจะมารวมเข้าเป็นตาราง

ตารางข้อมูลที่เกิดจากการรวมนั้นก็คือ DataFrames

Series อาจเทียบได้กับ array 1 มิติ

DataFrames อาจเทียบได้กับ array 2 มิติ

##**DataFrames**
1. A DataFrame is a 2D data structure in which data is aligned in a tabular fashion consisting of rows & columns
2. A DataFrame can be created using the following constructor - pandas.DataFrame(data, index, dtype, copy)
3. Data can be of multiple data types such as ndarray, list, constants, series, dict etc.
4. Index Row and column labels of the dataframe; defaults to np.arrange(n) if no index is passed
5. Data type of each column
6. Creates a deep copy of the data, set to false as default

###**Creating a DataFrame**

DataFrame สามารถถูกสร้างขึ้นได้โดยใช้
```
pd.DataFrame()
```
วิธีการสร้างนั้นมีหลายวิธี

**Converting a list into a DataFrame**

In [10]:
list1 = [10, 20, 30, 40]
print(list1[0])
print(list1[2])
table = pd.DataFrame(list1)
print(table)


10
30
    0
0  10
1  20
2  30
3  40


ตัวอย่าง สร้างตารางข้อมูลของนักเรียน ซึ่งข้อมูลประกอบไปด้วยชื่อ, เพศ, ส่วนสูง และน้ำหนัก ข้อมูลแต่ละอย่างใส่ในคนละคอลัมน์ และหนึ่งแถวคือนักเรียนหนึ่งคน

In [11]:
s = [['สุดา','ญ',150,64],
     ['มานพ','ช',160,55],
     ['ยานี','ญ',157,65]]
print(s[0])
print(s[2])
stu = pd.DataFrame(s)
print(stu)

['สุดา', 'ญ', 150, 64]
['ยานี', 'ญ', 157, 65]
      0  1    2   3
0  สุดา  ญ  150  64
1  มานพ  ช  160  55
2  ยานี  ญ  157  65


In [12]:
stu

Unnamed: 0,0,1,2,3
0,สุดา,ญ,150,64
1,มานพ,ช,160,55
2,ยานี,ญ,157,65


In [13]:
# The append() function can be used to add more rows to the DataFrame
data2 = {'one':pd.Series([1,2,3], index = ['a', 'b', 'c']),
        'two':pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])}
table5 = pd.DataFrame(data2)
print(table5)
table5['three'] = pd.Series([10,20,30], index = ['a', 'b', 'c'])
row = pd.DataFrame([[11,13],[17,19]], columns = ['two', 'three'])

table6 = pd.concat([table5, row], ignore_index=True)
table6


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


Unnamed: 0,one,two,three
0,1.0,1,10.0
1,2.0,2,20.0
2,3.0,3,30.0
3,,4,
4,,11,13.0
5,,17,19.0


In [14]:
# The append() function can be used to add more rows to the DataFrame
data2 = {'doc':pd.Series([9,8,7,6], index = ['a', 'b', 'c','d']),
        'cat':pd.Series([5,4,3,2,1], index = ['a', 'b', 'c', 'd','e'])}
table5 = pd.DataFrame(data2)
table5['bear'] = pd.Series([10,20], index = ['a', 'b'])
table5

Unnamed: 0,doc,cat,bear
a,9.0,5,10.0
b,8.0,4,20.0
c,7.0,3,
d,6.0,2,
e,,1,


In [15]:
# The drop() function can be used to drop rows whose labels are provided
table7 = table6.drop(0)
table7

Unnamed: 0,one,two,three
1,2.0,2,20.0
2,3.0,3,30.0
3,,4,
4,,11,13.0
5,,17,19.0


In [16]:
table7 = table6.drop(['three'], axis=1)
table7

Unnamed: 0,one,two
0,1.0,1
1,2.0,2
2,3.0,3
3,,4
4,,11
5,,17


##แบบฝึกหัด WS#2.1
ขอให้นักศึกษานำข้อมูลจาก Wine dataset มาทำการคำนวณค่าทาง statistics
โดยแสดงค่าต่อไปนี้
ค่า sum
ค่า mean
ค่า max
ค่า sd
ของแต่ละแอททริบิวต์ และแสดงผลลัพธ์ออกมาทางจอภาพ



In [17]:
# from google.colab import drive
# drive.mount('/content/drive') #ระวังเครื่องหมาย ‘ กับ ' ต่างกันนะคะ

In [18]:
import pandas as pd
path = './data/wine_data.csv'
myfiledata = pd.read_csv(path) ## Dataset is now stored in a Pandas Dataframe
myfiledata

Unnamed: 0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,.28,2.29,5.64,1.04,3.92,1065
0,1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
1,1,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
2,1,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
3,1,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
4,1,14.20,1.76,2.45,15.2,112,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
173,3,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
174,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
175,3,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


In [19]:
features = ["Cultivator", "Alchol", "Malic_Acid", "Ash", "Alcalinity_of_Ash", "Magnesium", "Total_phenols", "Falvanoids", "Nonflavanoid_phenols", "Proanthocyanins", "Color_intensity", "Hue", "OD280", "Proline"]
winedata = pd.read_csv(path, names = features) #ถ้าอ่านจาก drive ให้ใช้ ตัวแปร path
#winedata = pd.read_csv('wine_data.csv', names = features) #้ถ้าอ่านจาก local ให้ระบุชื่อไฟล์ได้เลย
winedata.tail(10)

Unnamed: 0,Cultivator,Alchol,Malic_Acid,Ash,Alcalinity_of_Ash,Magnesium,Total_phenols,Falvanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280,Proline
168,3,13.58,2.58,2.69,24.5,105,1.55,0.84,0.39,1.54,8.66,0.74,1.8,750
169,3,13.4,4.6,2.86,25.0,112,1.98,0.96,0.27,1.11,8.5,0.67,1.92,630
170,3,12.2,3.03,2.32,19.0,96,1.25,0.49,0.4,0.73,5.5,0.66,1.83,510
171,3,12.77,2.39,2.28,19.5,86,1.39,0.51,0.48,0.64,9.899999,0.57,1.63,470
172,3,14.16,2.51,2.48,20.0,91,1.68,0.7,0.44,1.24,9.7,0.62,1.71,660
173,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.7,0.64,1.74,740
174,3,13.4,3.91,2.48,23.0,102,1.8,0.75,0.43,1.41,7.3,0.7,1.56,750
175,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.2,0.59,1.56,835
176,3,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.3,0.6,1.62,840
177,3,14.13,4.1,2.74,24.5,96,2.05,0.76,0.56,1.35,9.2,0.61,1.6,560


In [20]:
winedata = winedata.drop(['Cultivator'], axis=1)
winedata

Unnamed: 0,Alchol,Malic_Acid,Ash,Alcalinity_of_Ash,Magnesium,Total_phenols,Falvanoids,Nonflavanoid_phenols,Proanthocyanins,Color_intensity,Hue,OD280,Proline
0,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


**แบบฝึกหัด**

จงหาค่า sum ค่า mean ค่า max ค่า sd ของแต่ละแอททริบิวต์ และแสดงผลลัพธ์ออกมาทางจอภาพ

ตัวอย่างค่า sum

Alchol                    2314.110000

Malic_Acid                 415.870000

Ash                        421.240000

Alcalinity_of_Ash         3470.100000

Magnesium                17754.000000

Total_phenols              408.530000

Falvanoids                 361.210000

Nonflavanoid_phenols        64.410000

Proanthocyanins            283.180000

Color_intensity            900.339999

Hue                        170.426000

OD280                      464.880000

Proline                 132947.000000

dtype: float64

In [25]:
# เขียน code ตรงนี้
col = winedata.columns.tolist()

for i in col:
    print(winedata[i].describe())

count    178.000000
mean      13.000618
std        0.811827
min       11.030000
25%       12.362500
50%       13.050000
75%       13.677500
max       14.830000
Name: Alchol, dtype: float64
count    178.000000
mean       2.336348
std        1.117146
min        0.740000
25%        1.602500
50%        1.865000
75%        3.082500
max        5.800000
Name: Malic_Acid, dtype: float64
count    178.000000
mean       2.366517
std        0.274344
min        1.360000
25%        2.210000
50%        2.360000
75%        2.557500
max        3.230000
Name: Ash, dtype: float64
count    178.000000
mean      19.494944
std        3.339564
min       10.600000
25%       17.200000
50%       19.500000
75%       21.500000
max       30.000000
Name: Alcalinity_of_Ash, dtype: float64
count    178.000000
mean      99.741573
std       14.282484
min       70.000000
25%       88.000000
50%       98.000000
75%      107.000000
max      162.000000
Name: Magnesium, dtype: float64
count    178.000000
mean       2.295112


**จงแปลงผลลัพธ์ที่ได้ให้อยู่ในรูปแบบ DataFrame**

In [None]:
#เขียน code ต่อจากตรงนี้



In [None]:
#ตัวอย่างผลลัพธ์

# แบบฝึกหัด DataFrame ชุดข้อมูล Sport Car Price

1. Copy file to "csv" folder then mount drive
This dataset download from [kaggle](https://www.kaggle.com/datasets/rkiattisak/sports-car-prices-dataset?resource=download)

In [None]:
# from google.colab import drive
import pandas as pd

# Mount Google Drive
# drive.mount('/content/drive')

# Path to the CSV file in your Google Drive
file_path = './data/Sport_car_price.csv'

# Read the CSV file into a pandas DataFrame
car = pd.read_csv(file_path)

Inspecting a DataFrame

2. .**head**() returns the first few rows (the “head” of the DataFrame).





In [None]:
# Display the first few rows of the dataframe
# Print the head of the sport_car_price data
car.head(10)

3. .**info**() shows information on each of the columns, such as the data type and number of missing values.


In [None]:
# Display the first few rows of the dataframe
# Print information about `sport_car_price`
car.info()

4. .**shape** returns the number of rows and columns of the DataFrame.


In [None]:
car.shape

5. .**describe**() calculates a few summary statistics for each column.

In [None]:
car.describe()

In [None]:
car['Price (in USD)'].describe()

In [None]:
car['Price (in USD)']

In [None]:
try:
    car['Price (in USD)'] = car['Price (in USD)'].str.replace(',', '').astype(int)
except Exception as e:
    print(f"An error occurred: {e}")
pd.options.display.float_format = '{:,.0f}'.format
car['Price (in USD)'].describe()

6. Parts of a DataFrame

*   .**values**: A two-dimensional NumPy array of values.
*   .**columns**: An index of columns: the column names.
*   .**index**: An index for the rows: either row numbers or row names.

In [None]:
# Print the values of sport_car_price
print(car.values,"\n")

# Print the column index of sport_car_price
print(car.columns,"\n")

# Print the row index of sport_car_price
print(car.index)

7. Sorting rows : use .**sort_values**()

In [None]:
# Convert 'Price (in USD)' to numeric, removing commas
try:
    car['Price (in USD)'] = car['Price (in USD)'].str.replace(',', '').astype(int)
except Exception as e:
    print(f"An error occurred: {e}")

# Sort sport_car_price by individuals
sport_car_price_size = car.sort_values("Price (in USD)")

# Print the top few rows
sport_car_price_size.head(10)

8. Sorting rows : use .**sort_values**() : define ascending

In [None]:
# Sort sport_car_price by 'Price (in USD)'
sport_car_price_size = car.sort_values("Price (in USD)", ascending=False)

# Print the top few rows
sport_car_price_size.head(10)

9. Sorting rows : use .**sort_values**() : define two value to sort

In [None]:
# Sort sport_car_price by 'Car Make', then descending 'Price (in USD)'
sport_car_price_make_price = car.sort_values(["Car Make", "Price (in USD)"], ascending=[True, False])

# Print the top few rows
sport_car_price_make_price.head(50)

10. Subsetting columns

In [None]:
# Select the 'Car Make' and 'Price (in USD)' columns
make_price = car[["Car Make", "Price (in USD)"]]

# Print the head of the result
make_price.head(10)

11. Example of subsetting rows

In [None]:
# Filter for rows where Price (in USD) is greater than 3000000
price_gt_3000k = car[car["Price (in USD)"] > 3000000]

price_gt_3000k_sorted = price_gt_3000k.sort_values(by="Price (in USD)")

# See the result
price_gt_3000k_sorted.head(10)

12. Example of subsetting rows

In [None]:
# Filter for rows where 'Car Make' is 'Audi'
audi_make = car[car["Car Make"] == "Audi"]

audi_make_sorted = audi_make.sort_values(by="Price (in USD)", ascending=False)

# See the result
audi_make_sorted.head(10)

13. Example of subsetting rows

In [None]:
# Filter for rows where 'Price (in USD)' is more than 120000
# and 'Car Make' is 'Audi'
price_120k_make = car[(car["Price (in USD)"] > 120000) & (car["Car Make"] == "Audi")]

price_120k_make

14. Example of subsetting rows

In [None]:
# Subset for rows in 'Audi' or 'BMW' car make
audi_bmw = car[(car["Car Make"] == "Audi") | (car["Car Make"] == "BMW")]

# See the result
audi_bmw

15. Example of subsetting rows : use isin()

In [None]:
# The Car Make
car_m = ["Audi", "BMW", "Ford", "Porsche"]

# Filter for rows in the Car Make
car_m_sport_car_price = car[car["Car Make"].isin(car_m)]

# See the result
car_m_sport_car_price

16. Adding new columns

In [None]:
# Add interest col (1.79%)
car["Interest 1.79%"] =  car["Price (in USD)"] * 1.79  / 100

# Add total col (Price (in USD)+Interest 1.79%)
car["Total price (in USD)"] =  car["Price (in USD)"] + car["Interest 1.79%"]

# See the result
car

16. **Summary statistics**
*   .**mean**()
*   .**median**()
*   .**max**()
*   .**min**()

In [None]:
print(car["Price (in USD)"].mean())
print(car["Price (in USD)"].median())
print(car["Price (in USD)"].max())
print(car["Price (in USD)"].min())

18.   .**agg**(): to apply one or more aggregation functions to one or more columns of a DataFrame.

In [None]:
# Aggregating the mean and max of the "Price (in USD)" column
agg_price = car["Price (in USD)"].agg(["min", "max"])
print(agg_price)

# Custom function to find the range (max - min)
def range_func(x):
    return x.max() - x.min()

# Aggregating with a custom function
agg_custom = car["Price (in USD)"].agg(["median", "mean", range_func])
agg_custom


# แบบฝึกหัด
1. จงสร้าง subset  ชื่อ subset_year  เพื่อแสดงข้อมูลรถที่ผลิตในปี 2022 เท่านั้น

In [None]:
#เขียน code ตรงนี้


In [None]:
#ตัวอย่างผลลัพธ์

2. จงสร้าง subset_price  ที่นำ subset_year มากรองเฉพาะรถที่มีแรงม้ามากกว่า 400 และมีราคาต่ำกว่า 60000


In [None]:
#เขียน code ตรงนี้
#


In [None]:
#ตัวอย่าง output


3. จาก subset_price ให้สร้าง subset_brand เพื่อกรองเฉพาะข้อมูลรถยี่ห้อฟอร์ด และแสดงเฉพาะ 4 แอททริบิวต์ตามตัวอย่าง

In [None]:
#เขียน code ตรงนี้


In [None]:
# ตัวอย่างผลลัพธ์