# Pandas Basics

#Thư viện Pandas được xây dựng trên NumPy và cung cấp các cấu trúc dữ liệu dễ sử dụng và các công cụ phân tích dữ liệu cho ngôn ngữ lập trình Python

In [16]:
import pandas as pd

# 1. Pandas cấu trúc dữ liệu

# 1.1 Series

#Một mảng có nhãn một chiều có khả năng chứa bất kỳ kiểu dữ liệu nào

In [17]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])

# 1.2 Khung dữ liệu

#Cấu trúc dữ liệu được gắn nhãn hai chiều với các cột chứa dữ liệu khác nhau

In [18]:
data = {'Country': ['Belgium', 'India', 'Brazil'], 
 'Capital': ['Brussels', 'New Delhi', 'Brasília'],
 'Population': [11190846, 1303171035, 207847528]}

In [21]:
df = pd.DataFrame(data, 
 columns=['Country', 'Capital', 'Population'])
print(df)

   Country    Capital  Population
0  Belgium   Brussels    11190846
1    India  New Delhi  1303171035
2   Brazil   Brasília   207847528


# 2. I/O

# 2.1 Đọc và ghi vào CSV

In [6]:
pd.read_csv('file.csv', header=None, nrows=5)

Unnamed: 0,0,1,2,3
0,,Country,Capital,Population
1,0.0,Belgium,Brussels,11190846
2,1.0,India,New Delhi,1303171035
3,2.0,Brazil,Brasília,207847528


In [7]:
 #df.to_csv('myDataFrame1.csv')

# 2.2 Read and Write to Excel

In [8]:
pd.read_excel('file.xlsx')

Unnamed: 0,1,4
0,2,5
1,3,6


In [40]:
#pd.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1')

#Đọc nhiều trang tính từ cùng một tệp

In [9]:
xlsx = pd.ExcelFile('Book1.xlsx')
df = pd.read_excel(xlsx, 'Sheet1')

#Đọc và ghi vào SQL querry hoặc bảng cơ sở dữ liệu

In [10]:
#from sqlalchemy import create_engine
#engine = create_engine('sqlite:///:memory:')
#pd.read_sql("SELECT * FROM my_table;", engine)
#pd.read_sql_table('my_table', engine)
#pd.read_sql_query("SELECT * FROM my_table;", engine)

#read_sql()is a convenience wrapper around read_sql_table() and 
read_sql_query()

In [11]:
#pd.to_sql('myDf', engine)

# Asking For Help

In [13]:
#help(pd.Series.loc)

# 3. Selection

# 3.1 Getting 

In [22]:
s['b']            #Lấy 1 phần tử
#5

df[1:]                     #Lấy tập hợp con của DataFrame, từ index 1 trở xuống
#Country Capital Population
#1 India New Delhi 1303171035
#2 Brazil Brasília 207847528


Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528


# 3.2 Selecting, Boolean Indexing & Setting

# 3.2.1 Selecting, Boolean Indexing & Setting

#By Position

In [23]:
df.iloc[[0],[0]]           #Chọn giá trị đơn lẻ theo hàng & cột
#'Belgium' column
#df.at([0],[0])
# 'Belgium'

Unnamed: 0,Country
0,Belgium


#By Label

In [25]:
df.loc[[0], ['Country']]        #Chọn giá trị đơn lẻ theo hàng & nhãn cột, hàng 0 có nhãn là Country
#'Belgium' column labels
#df.at([0], ['Country'])
#'Belgium'

Unnamed: 0,Country
0,Belgium


#By Label/Position

In [26]:
#df.ix[2] #Chọn một hàng duy nhất của tập hợp con các hàng
#Country Brazil 
#Capital Brasília 
#Population 207847528

In [27]:
#df.ix[:,'Capital'] #Chọn một cột duy nhất của tập hợp con các cột 
#0 Brussels 
#1 New Delhi
#2 Brasília 

In [28]:
#df.ix[1,'Capital'] #Chọn hàng và cột
#'New Delhi' 

#Boolean Indexing

In [40]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
s[~(s > 1)]                             #Chuỗi s trong đó giá trị không> 1
s[(s < -1) | (s > 2)]                   #s trong đó giá trị là <-1 hoặc> 2
df[df['Population']>1200000000]          #Sử dụng bộ lọc để điều chỉnh DataFrame

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035


#Setting

In [41]:
s['a'] = 6 #Đặt chỉ mục a của Chuỗi s thành 6
s

a    6
b   -5
c    7
d    4
dtype: int64

# 4. Dropping

In [46]:
s.drop(['a', 'c'])                  #Drop giá trị từ các hàng
df.drop('Country', axis=1)           #Drop giá trị từ cột

Unnamed: 0,Capital,Population
0,Brussels,11190846
1,New Delhi,1303171035
2,Brasília,207847528


# 5. Sắp xếp và xếp hạng

In [50]:
df.sort_index()               #Sắp xếp theo nhãn dọc theo trục
df.sort_values(by='Country') #Sắp xếp theo các giá trị dọc theo trục
df.rank()                    #Chỉ định cấp bậc cho các mục nhập

Unnamed: 0,Country,Capital,Population
0,1.0,2.0,1.0
1,3.0,3.0,3.0
2,2.0,1.0,2.0


# 6. Truy xuất thông tin về chuỗi và thông tin Dataframe

# 6.1 Basic Information

In [58]:
df.shape      #(rows,columns) 
df.index       #Mô tả chỉ mục
df.columns    #Mô tả các cột DataFrame
df.info()      #Thông tin về DataFrame
df.count()    #Số lượng giá trị có sẵn 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Country     3 non-null      object
 1   Capital     3 non-null      object
 2   Population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


Country       3
Capital       3
Population    3
dtype: int64

# 6.2 Summary

In [77]:
df.sum()                        #Tổng các giá trị 
df.cumsum()                     #Tổng tích lũy của các giá trị 
df.describe()                    #Tóm tắt thống kê
df.mean()                  #Giá trị trung bình, hệ 16
df.median()                   #Giá trị trung bình viết ở hệ 10

Population    207847528.0
dtype: float64

# 7. Áp dụng các function

In [82]:
f = lambda x: x*2
df.apply(f)                #Apply function
df.applymap(f)             #Apply function element-wise

Unnamed: 0,Country,Capital,Population
0,BelgiumBelgium,BrusselsBrussels,22381692
1,IndiaIndia,New DelhiNew Delhi,2606342070
2,BrazilBrazil,BrasíliaBrasília,415695056


# 8. Căn chỉnh dữ liệu

# 8.1 Căn chỉnh dữ liệu nội bộ

#Giá trị NA được giới thiệu trong các chỉ số không trùng lặp:

In [85]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
s3 = pd.Series([7, -2, 3], index=['a', 'c', 'd'])
s + s3
#a 10.0
#b NaN
#c 5.0
#d 7.0

a    10.0
b     NaN
c     5.0
d     7.0
dtype: float64

# 8.2 Các phép toán số học với các phương thức điền

#Bạn cũng có thể tự mình căn chỉnh dữ liệu nội bộ với sự trợ giúp của các phương pháp điền:

In [97]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
s3 = pd.Series([7, -2, 3], index=['a', 'c', 'd'])
#s.add(s3, fill_value=0)
#a 10.0
#b -5.0
#c 5.0
#d 7.0
#s.sub(s3, fill_value=2)                   #trừ
s.mul(s3, fill_value=3)

a    21.0
b   -15.0
c   -14.0
d    12.0
dtype: float64