### A Data frame is a two-dimensional data structure, i.e., data is aligned in a tabular fashion in rows and columns.

# Syntax:
# pandas.DataFrame( data, index, columns, dtype, copy)
### data: dữ liệu (list, dict, series, ndarray, dataframe)
### index: danh sách các dòng;  index = ['tên dòng 1', 'tên dòng 2']
### comlumns: danh sách các cột; columns = ['tên cột 1', 'tên cột 2']
### dtype: kiểu dữ liệu của các cột
### copy: copy dữ liệu hay không, mặc định là False

In [1]:
import pandas as pd
import numpy as np

In [2]:
df1 = pd.DataFrame()
print(df1)

Empty DataFrame
Columns: []
Index: []


In [3]:
# Create a DataFrame from Lists
lst = [1,2,3,4,5]
df1 = pd.DataFrame(lst)
print(df1)

   0
0  1
1  2
2  3
3  4
4  5


In [4]:
lst2 = [['Bibi',7],['Xuxu',5],['Kent',10]]
df2 = pd.DataFrame(lst2,columns=['Name','Age'])
print(df2)

   Name  Age
0  Bibi    7
1  Xuxu    5
2  Kent   10


In [5]:
data = [['Alex',23],['Bob',32],['Clarke',27]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print(df)

     Name   Age
0    Alex  23.0
1     Bob  32.0
2  Clarke  27.0


In [6]:
#Create a DataFrame from Dict of ndarrays / Lists
dic1= {'Name':['Bibi', 'Xuxu', 'Kent', 'Mickey'],'Age':[7,5,10,3]}
df3 = pd.DataFrame(dic1, index=['sv1','sv2','sv3','sv4'], columns=['Name','Age'])
print(df3)

       Name  Age
sv1    Bibi    7
sv2    Xuxu    5
sv3    Kent   10
sv4  Mickey    3


In [7]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['row1','row2','row3','row4'])
print(df)

       Name  Age
row1    Tom   28
row2   Jack   34
row3  Steve   29
row4  Ricky   42


In [8]:
# Create a DataFrame from List of Dicts
data = [{'Ten': 'An', 'Tuoi': 12, 'Diem': 8.5},{'Ten': 'Hoa', 'Tuoi': 12, 'Diem': 7.5},
        {'Ten': 'An', 'Tuoi': 12} ]
df = pd.DataFrame(data, index = ['st1', 'st2', 'st3'])
print(df)

     Diem  Ten  Tuoi
st1   8.5   An    12
st2   7.5  Hoa    12
st3   NaN   An    12


In [9]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
# 2 cột, tên cột là tên key của dictionary
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

# 2 cột, tên một cột là tên key của dictionary, tên một cột khác
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print(df2)

        a   b
first   1   2
second  5  10
        a  b1
first   1 NaN
second  5 NaN


In [10]:
# Create a DataFrame from Dict of Series
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
      'three' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    }

df5 = pd.DataFrame(d, columns = ['one', 'two', 'three'])
print(df5)

   one  two  three
a  1.0    1    1.0
b  2.0    2    2.0
c  3.0    3    3.0
d  NaN    4    NaN


### Thao tác trên cột: lấy dữ liệu, thêm cột, xóa cột

In [11]:
# lấy dữ liệu theo cột
print(df5)
print("Lấy cột 'one':")
print(df5['one'])

   one  two  three
a  1.0    1    1.0
b  2.0    2    2.0
c  3.0    3    3.0
d  NaN    4    NaN
Lấy cột 'one':
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


In [12]:
# Thêm cột mới
df5['four']=pd.Series([10,20,30, 40],
                      index=['a','b','c','d'])
print(df5)

   one  two  three  four
a  1.0    1    1.0    10
b  2.0    2    2.0    20
c  3.0    3    3.0    30
d  NaN    4    NaN    40


In [13]:
# using del function
print ("Dùng del:")
del df5['three']
print(df5)

Dùng del:
   one  two  four
a  1.0    1    10
b  2.0    2    20
c  3.0    3    30
d  NaN    4    40


In [14]:
# using pop function
print ("Dùng pop")
df5.pop('one')
print(df5)

Dùng pop
   two  four
a    1    10
b    2    20
c    3    30
d    4    40


# Thao tác trên dòng: lấy dữ liệu, thêm dòng, xóa dòng

In [15]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [16]:
# lấy dữ liệu trên dòng 'b'
print(df.loc['b'])

one    2.0
two    2.0
Name: b, dtype: float64


In [17]:
# dùng index
df = pd.DataFrame(d)
print(df.iloc[1])

one    2.0
two    2.0
Name: b, dtype: float64


In [18]:
# chọn nhiều dòng
print(df[2:4])

   one  two
c  3.0    3
d  NaN    4


In [19]:
# thêm dòng dùng append()
df2 = pd.DataFrame([{'one': 1, 'two': 2},{'one': 5, 'two': 10}], index = ['e','f'])

df = df.append(df2)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
e  1.0    2
f  5.0   10


In [20]:
# xóa dòng theo label
df = df.drop(['a','b'])
print(df)

   one  two
c  3.0    3
d  NaN    4
e  1.0    2
f  5.0   10


In [21]:
print(df2)

   one  two
e    1    2
f    5   10


In [22]:
data = [['Alex',23],['Jack',27],['Clarke',32]]
df = pd.DataFrame(data,index=[2,0,1], columns=['Name','Age'],dtype=float)
print(df)

     Name   Age
2    Alex  23.0
0    Jack  27.0
1  Clarke  32.0


In [23]:
print(df.sort_index())

     Name   Age
0    Jack  27.0
1  Clarke  32.0
2    Alex  23.0


In [24]:
print(df.sort_values(by='Name'))

     Name   Age
2    Alex  23.0
1  Clarke  32.0
0    Jack  27.0


In [25]:
print(df.rank())

   Name  Age
2   1.0  1.0
0   3.0  2.0
1   2.0  3.0


In [26]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 2 to 1
Data columns (total 2 columns):
Name    3 non-null object
Age     3 non-null float64
dtypes: float64(1), object(1)
memory usage: 60.0+ bytes
None


In [27]:
print(df.columns)

Index(['Name', 'Age'], dtype='object')


In [28]:
df

Unnamed: 0,Name,Age
2,Alex,23.0
0,Jack,27.0
1,Clarke,32.0


In [29]:
# Cập nhật tuổi của dòng 1 thành 29
df.loc[1, 'Age'] = 29
df

Unnamed: 0,Name,Age
2,Alex,23.0
0,Jack,27.0
1,Clarke,29.0
