DataFrame là loại cấu trúc dữ liệu 2 chiều (dòng x cột). Dữ liệu được sắp xếp theo hàng và cột (rows and columns) dưới dạng table. Để dễ hiểu, chúng ta có thể hình dung DataFrame giống như table trong Excel.

Đặc điểm của DataFrame:

    - Loại dữ liệu ở các cột là khác nhau.
    - Kích thước và giá trị trong bảng có thể thay đổi được.
    - Các trục được gán nhãn bằng hàng và cột (rows and columns)
    - Có thể thực hiện các phép toán số học trong các hàng và cột.

DataFrame được tạo bằng cấu trúc như sau:

    pandas.DataFrame( data, index, columns, dtype, copy)

Trong đó:

    - data: có thể là array, list, dict, series
    - index: dùng cho hàng.
    - columns: label của cột.
    - dtype: loại dữ liệu của mỗi cột.

DataFrame có thể được tạo từ các dữ liệu khác như: List, dictionary, ndarray, series, dataframe khác.


# Create an Empty DataFrame

In [8]:
# Tạo một dataframe rỗng
import pandas as pd

df = pd.DataFrame()

print (df)

Empty DataFrame
Columns: []
Index: []


# Create a DataFrame from ndarray

In [1]:
import pandas as pd
import numpy as np

arr = np.array([1,2,3,4,5])

df = pd.DataFrame(arr) # Tạo một dataframe từ ndarray 'arr'

print (df)

   0
0  1
1  2
2  3
3  4
4  5


In [19]:
type(df)

pandas.core.frame.DataFrame

# Create a DataFrame from Lists

In [18]:
import pandas as pd

data = [1,2,3,4,5]
df = pd.DataFrame(data) # Tạo một dataframe từ list data

print (df)

   0
0  1
1  2
2  3
3  4
4  5


# Create a DataFrame from List of List

In [22]:
import pandas as pd
# List chứa các list dữ liệu
data = [['Thanh',10],['Tâm',12],['Bình',13]] 
# Tạo dataframe từ list với 2 columns 'Tên' và 'Tuổi'
df = pd.DataFrame(data,columns=['Tên','Tuổi']) 

print (df)

     Tên  Tuổi
0  Thanh    10
1    Tâm    12
2   Bình    13


# Create a DataFrame from List of Dicts

In [30]:
# Ví dụ 1: Tạo Dataframe từ list chức các dictionary
import pandas as pd

data = [{'a': 1, 'b': 2, 'c':10}, {'a': 5, 'b': 10, 'c': 20}] # list chức 2 dictionary

df = pd.DataFrame(data)

print (df)

   a   b   c
0  1   2  10
1  5  10  20


In [33]:
# Ví dụ 2: 
import pandas as pd

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

# Giống ví dụ 1 nhưng có thêm tham số index,nếu kg có tham số index thì mặc định là 0, 1, 2
df = pd.DataFrame(data, index=['first', 'second'])

print (df)

        a   b     c
first   1   2   NaN
second  5  10  20.0


# Create a DataFrame from Dict of ndarrays / Lists

In [25]:
import pandas as pd

# Dictionary chứa cặp key:value
# Trong đó value là list các giá trị
data = {'Name':['Thành', 'Trung', 'Hưng', 'Phong'],
        'Age':[28,34,29,42]}

df = pd.DataFrame(data)

print (df)

    Name  Age
0  Thành   28
1  Trung   34
2   Hưng   29
3  Phong   42


In [None]:
# Ví dụ 2
import pandas as pd

data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}

df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4']) # Giống ví dụ 1, nhưng thêm tham số index

print (df)


# Create a DataFrame from Dict of Series

In [23]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd']),
    'three' : pd.Series([9, 10, 11, 12], index=['a', 'b', 'c', 'd']),
    'four' : pd.Series([13, 14, 15, 16], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df)

   one  two  three  four
a  1.0    5      9    13
b  2.0    6     10    14
c  3.0    7     11    15
d  NaN    8     12    16


In [10]:
# Lấy 2 columns ở dataframe 'df' để tạo thành 1 dataframe mới
new_df = pd.DataFrame(df, columns = ['one','three'])


# Create a DataFrame from another DataFrame

In [13]:
# Cách đơn giản
# Lấy 2 columns ở dataframe 'df' để tạo thành 1 dataframe mới

new = df[['one','three']]

In [14]:
print (new)

   one  three
a  1.0      9
b  2.0     10
c  3.0     11
d  NaN     12


# Insert columns to DataFrame


In [9]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
   'two' : pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd']),
    'three' : pd.Series([9, 10, 11, 12], index=['a', 'b', 'c', 'd']),
    'four' : pd.Series([13, 14, 15, 16], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df)

   one  two  three  four
a  1.0    5      9    13
b  2.0    6     10    14
c  3.0    7     11    15
d  NaN    8     12    16


In [15]:
# Giả sử ta đang có 1 DataFrame 4 columns như trên
# Ta thêm 1 columns thứ 5 vào với giá trị là list a

a = ['3','5','7','8']

df['five'] = a

In [11]:
# Thêm 1 columns với giá trị = cột 4 * 2
df['five'] = df['four'] * 2
