<h1>Introducing Pandas Objects<h1>
<blockquote><h4> Pandas objects can be thought as enhanced version of NumPy structured arrays 
in which the rows and columns are identified with labels rather than simple integer indices.
Three fundamental Pandas data structures: Series, DataFrame and Index.<h4> <blockquote>

In [1]:
import numpy as np
import pandas as pd

<h3> 1. The Pandas Series Object <h3>

 > A Pandas Series is a one-dimensional array of indexed data. It can be created from a list or array as follows:

In [4]:
# Khai báo ngầm định tự động index
# Truyền giá trị, Index là ngầm định (0 -> N-1)
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
# Trả về mảng gồm các giá trị của nó
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
data[1]

0.5

In [8]:
# slicing
data[1:3]

1    0.50
2    0.75
dtype: float64

<h4> Explicitly defined index of the Series associated with the values. <h4>

    Note: 
    Index là 1 tham số Optional
    Khác với List - index ngầm định số tự động từ 0 đến N-1, 
    Series đc khai báo rõ ràng, index là kiểu dữ liệu bất kì, có thể bằng chữ hoặc số (nếu là số có thể không liên tục, không nhất thiết bắt đầu từ 0)

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['b']

0.5

In [11]:
data['b': 'd']

b    0.50
c    0.75
d    1.00
dtype: float64

<h6> Even use noncontiguous or nonsequential indices <h6>

In [12]:
#Even use noncontiguous or nonsequential indices
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2,5,3,7])
data


2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [14]:
data[7]

1.0

<h6> Series as specialized dictionary <h6>

In [18]:
# Series as specialized dictionary
population_dict = {'California': 38332521,'Texas': 26448193,'New York': 19651127,'Florida': 19552860,'Illinois': 12882135}
population = pd.Series(population_dict)
population


California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [16]:
population['California']

38332521

In [17]:
# lấy string sẽ lấy hết còn int - 1
population['California': 'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

<h4> Construsting Seris object <code> pd.Series(data, index=index) </code> <h4>

In [19]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [33]:
# Construsting Seris object pd.Series(data, index=index)
# index có thể string/int/bool
pd.Series(5, index =[100,200,300])

100    5
200    5
300    5
dtype: int64

    Note: Lưu ý ví dụ bên dưới
    Trong trường hợp index có sẵn thì nó sẽ bám theo giá trị tương ứng và trả về, còn trường hợp không có, nó sẽ drop...

In [20]:
# Get index có, không có, và trùng
pd.Series({2:'a', 1:'b', 3: 'c', 6: 'c'}, index=[3,2,9,2])


3      c
2      a
9    NaN
2      a
dtype: object

<h3> 2. The Pandas DataFrame Object <h3>

> DataFrame as a sequence of aligned Series objects

In [22]:
area_dict = {'Cali': 423967, 'Texas': 695662, 'New York': 141297,'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Cali        423967
Texas       695662
New York    141297
Florida     170312
Illinois    149995
dtype: int64

In [24]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
Cali,383.0,423967
Florida,101.0,170312
Illinois,,149995
New York,196.0,141297
Texas,264.0,695662


In [25]:
states.index

Index(['Cali', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [26]:
states.columns

Index(['population', 'area'], dtype='object')

In [36]:
states.values

array([[3.83000e+02, 4.23967e+05],
       [1.01000e+02, 1.70312e+05],
       [        nan, 1.49995e+05],
       [1.96000e+02, 1.41297e+05],
       [2.64000e+02, 6.95662e+05]])

<h3> DataFrame as specialized dictionary <h3>

In [35]:
states['area']

Cali        423967
Florida     170312
Illinois    149995
New York    141297
Texas       695662
Name: area, dtype: int64

In [34]:
states['population']

Cali        383.0
Florida     101.0
Illinois      NaN
New York    196.0
Texas       264.0
Name: population, dtype: float64

<h3> Constructing DataFrame Object<h3>
<blockquote>A Pandas DataFrame can be constructed in a variety of ways<blockquote>

From a single Series object

In [37]:
pd.DataFrame(population)

Unnamed: 0,0
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


From a list of dicts

In [38]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
data
#pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [39]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [41]:
# Pandas with NaN values
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


From a dictionary of Series objects

In [42]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
Cali,,423967.0
California,38332521.0,
Florida,19552860.0,170312.0
Illinois,12882135.0,149995.0
New York,19651127.0,141297.0
Texas,26448193.0,695662.0


From a two-dimensional Numpy array

In [46]:
import numpy as np
# Truyền vào đúng giá trị như đã nêu, không sẽ lỗi shape
matrix = np.random.rand(3,2)
pd.DataFrame(matrix, columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.461826,0.565182
b,0.381656,0.805718
c,0.029402,0.719565


From a NumPy structured array

In [48]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])

In [49]:
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [50]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


<h3> 3. The Pandas Index Object <h3>

> The Series and DataFrame objects contain an explicit index and it can be through of either as an immutabble array or as an ordered set

In [52]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [53]:
ind[1]

3

In [54]:
# 2: step
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [55]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [61]:
ind[1]= 0 # because its immutabble array

TypeError: Index does not support mutable operations

In [59]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

In [57]:
indA

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [60]:
indB

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [62]:
indA & indB # intersection

  indA & indB # intersection


Int64Index([3, 5, 7], dtype='int64')

In [63]:
indA.intersection(indA) # lấy những giá trị chung

Int64Index([1, 3, 5, 7, 9], dtype='int64')

In [64]:
indA | indB #union

  indA | indB #union


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [65]:
indA.union(indB) # lấy hợp giá trị

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [66]:
indA ^ indB # symmetric difference

  indA ^ indB # symmetric difference


Int64Index([1, 2, 9, 11], dtype='int64')

In [67]:
indA.symmetric_difference(indB) # lấy giá trị khác nhau

Int64Index([1, 2, 9, 11], dtype='int64')

Data Indexing and Selection

    Data Selection In Series

In [70]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [69]:
# Chỉ số tường minh (explicit)
data['b']

0.5

In [71]:
# Chỉ số ngầm định (implicit)
data[1]

0.5

In [72]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [73]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [74]:
# Extend
data['e'] = 1.25

In [75]:
# Mở rộng series hay thêm giá trị mới cho series
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [76]:
# slicing by explicit index
data['a': 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [77]:
# slicing by implicit index
data[0:2]

a    0.25
b    0.50
dtype: float64

In [78]:
# masking (thao tác mặt nạ để lọc dữ liệu)
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [79]:
# fancy indexing (một trong những đặc trưng của numpy và pandas, có thể truyền vào 1 list)
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Indexers: loc, iloc

In [22]:
data = pd.Series(['a', 'b', 'c'], index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [None]:
# khi nào dùng ngầm định khi nào dùng tường minh? > using loc/iloc

In [82]:
# explicit index when indexing
data[1]

'a'

In [83]:
# implicit index when slicting
data[1:3]

3    b
5    c
dtype: object

In [84]:
data

1    a
3    b
5    c
dtype: object

In [85]:
data.loc[1] # tường minh

'a'

In [86]:
data.loc[1:3]

1    a
3    b
dtype: object

In [23]:
data.iloc[1]

'b'

In [24]:
data.loc[1]

'a'

In [87]:
data.iloc[1] #ngầm định

'b'

In [25]:
data.iloc[1:3]

3    b
5    c
dtype: object

<h3> Data Selection in DataFrame <h3>

In [27]:
area = pd.Series({'Cali': 423967, 'Texas': 695662, 'New York': 141297,'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521,'Texas': 26448193,'New York': 19651127,'Florida': 19552860,'Illinois': 12882135})
data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
Cali,423967.0,
California,,38332521.0
Florida,170312.0,19552860.0
Illinois,149995.0,12882135.0
New York,141297.0,19651127.0
Texas,695662.0,26448193.0


In [28]:
data['area'] # same way: data.area

Cali          423967.0
California         NaN
Florida       170312.0
Illinois      149995.0
New York      141297.0
Texas         695662.0
Name: area, dtype: float64

In [30]:
data.area

Cali          423967.0
California         NaN
Florida       170312.0
Illinois      149995.0
New York      141297.0
Texas         695662.0
Name: area, dtype: float64

In [29]:
data.area is data['area']

True

In [31]:
# Ưu tiên gọi tên method nếu trùng tên attribute > nên truy cập theo kiểu data['pop']
# The DataFrame has a pop() method, so data.pop will point to this rather than
data.pop is data['pop']

False

In [32]:
data['pop']

Cali                 NaN
California    38332521.0
Florida       19552860.0
Illinois      12882135.0
New York      19651127.0
Texas         26448193.0
Name: pop, dtype: float64

In [33]:
# Ngoài ra, chúng ta có thể tính toán dữ liệu trên cái DataFrame đó, sau đó, tạo cột mới lưu bổ sung DataFrame.
# Mật độ dân số = dữ liệu dân số / dữ liệu khu vực
# Ưu điểm Pandas: tính toán nhanh, tính toán trên nhiều dòng dữ liệu và đưa ra kết quả nhanh gọn
data['density'] = data['pop'] /data['area']
data

Unnamed: 0,area,pop,density
Cali,423967.0,,
California,,38332521.0,
Florida,170312.0,19552860.0,114.806121
Illinois,149995.0,12882135.0,85.883763
New York,141297.0,19651127.0,139.076746
Texas,695662.0,26448193.0,38.01874


In [34]:
# DataFrame as two-dimensional array
data.values

array([[4.23967000e+05,            nan,            nan],
       [           nan, 3.83325210e+07,            nan],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01]])

In [35]:
# đổi cột thành hành/ hàng thành cột nhanh chóng
# transpose the full DataFrame to swap rows and columns
data.T

Unnamed: 0,Cali,California,Florida,Illinois,New York,Texas
area,423967.0,,170312.0,149995.0,141297.0,695662.0
pop,,38332521.0,19552860.0,12882140.0,19651130.0,26448190.0
density,,,114.8061,85.88376,139.0767,38.01874


In [36]:
data.values[0]

array([423967.,     nan,     nan])

In [37]:
# loc, iloc, indexes
data.iloc[:3, :2] # > 3 dòng, 2 cột


Unnamed: 0,area,pop
Cali,423967.0,
California,,38332521.0
Florida,170312.0,19552860.0


In [38]:
data.loc[:'Florida', :'pop']

Unnamed: 0,area,pop
Cali,423967.0,
California,,38332521.0
Florida,170312.0,19552860.0


In [41]:
data

Unnamed: 0,area,pop,density
Cali,423967.0,,
California,,38332521.0,
Florida,170312.0,19552860.0,114.806121
Illinois,149995.0,12882135.0,85.883763
New York,141297.0,19651127.0,139.076746
Texas,695662.0,26448193.0,38.01874


In [40]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
Florida,19552860.0,114.806121
New York,19651127.0,139.076746


In [42]:
# update values...
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density
Cali,423967.0,,90.0
California,,38332521.0,
Florida,170312.0,19552860.0,114.806121
Illinois,149995.0,12882135.0,85.883763
New York,141297.0,19651127.0,139.076746
Texas,695662.0,26448193.0,38.01874


In [43]:
import random


In [47]:
numbers = [i for i in range(100)]


data = pd.Series([random.choice(numbers) for _ in range(100)])

data.values

array([ 8, 54, 93, 22, 55, 67, 12, 34,  8, 37, 89, 70, 95, 72, 43, 45, 21,
       81, 90, 29,  8,  3,  7, 56,  5, 83, 14, 42, 65, 67, 26, 23, 69,  7,
       73, 43, 60, 21, 39, 75, 19, 26, 78, 43, 90, 50, 27, 76, 49, 46, 19,
       23, 63, 41, 16, 91, 41, 30, 57, 93, 93, 72, 27, 41, 76, 82, 26, 58,
       36, 86, 61, 60,  7, 87, 56, 82, 76, 39, 29, 29, 65,  4, 81, 87, 60,
       43, 85,  6, 35, 61, 93, 36,  7, 63, 84, 69, 43, 52, 31, 95],
      dtype=int64)

In [63]:
data

0      8
1     54
2     93
3     22
4     55
      ..
95    69
96    43
97    52
98    31
99    95
Length: 100, dtype: int64

Thực hiện các yêu cầu sau:
    Tìm số lớn nhất?
    Tìm số bé nhất?
    Số lượng số nhỏ hơn giá trị trung bình?
    Số lượng số lớn hơn giá trị trung bình?
    Số lần xuất hiện của các số trong Series?
    Tính số lượng số chẵn?
    Tính số lượng số lẻ?
    Tính số lượng số âm, số dương?

In [66]:
# Tìm số lớn nhất
max_number = data[0]

for num in data:
    if num > max_number:
        max_number = num
        
print("Số lớn nhất là:",max_number)

Số lớn nhất là: 95


In [67]:
# Tìm số bé nhất
min_number = data[0]

for num in data:
    if data[num] < min_number:
        min_number = data[num]
        
print("Số nhỏ nhất là:", min_number)
    

Số nhỏ nhất là: 3


In [57]:
# Số lượng số nhỏ hơn giá trị trung bình?
sum = 0
for i in data:
    sum += data[i]
    
avg = sum/len(data)
    
print("Gía trị trung bình là", avg)


48.81


In [61]:
# Số lần xuất hiện của các số trong Series?
count = pd.Series(data).value_counts()
print("Số lần xuất hiện của các số trong Series",count)

43    5
7     4
93    4
76    3
41    3
60    3
26    3
29    3
8     3
82    2
56    2
27    2
19    2
39    2
67    2
69    2
23    2
65    2
87    2
36    2
63    2
95    2
90    2
81    2
21    2
72    2
61    2
46    1
91    1
52    1
84    1
16    1
30    1
85    1
86    1
35    1
57    1
6     1
58    1
4     1
73    1
49    1
45    1
22    1
55    1
12    1
34    1
37    1
89    1
70    1
3     1
50    1
5     1
83    1
14    1
42    1
54    1
75    1
78    1
31    1
dtype: int64


In [62]:
# Tính số lượng số chẵn?
# Tính số lượng số lẻ?
even_count, odd_count = 0,0

for num in data:
    if num % 2 == 0:
        even_count +=1
    else:
        odd_count += 1
print("Số chẵn:", even_count)
print("Số lẽ:", odd_count)

Số chẵn: 40
Số lẽ: 60


In [69]:
data.values

array([ 8, 54, 93, 22, 55, 67, 12, 34,  8, 37, 89, 70, 95, 72, 43, 45, 21,
       81, 90, 29,  8,  3,  7, 56,  5, 83, 14, 42, 65, 67, 26, 23, 69,  7,
       73, 43, 60, 21, 39, 75, 19, 26, 78, 43, 90, 50, 27, 76, 49, 46, 19,
       23, 63, 41, 16, 91, 41, 30, 57, 93, 93, 72, 27, 41, 76, 82, 26, 58,
       36, 86, 61, 60,  7, 87, 56, 82, 76, 39, 29, 29, 65,  4, 81, 87, 60,
       43, 85,  6, 35, 61, 93, 36,  7, 63, 84, 69, 43, 52, 31, 95],
      dtype=int64)

In [68]:
max_val = data.loc[0]
min_val = data.loc[0]

for i in data.values:
    if max_val < i:
        max_val = i
    if min_val > i:
        min_val = i
print(max_val, min_val)

95 3


In [70]:
data.index

RangeIndex(start=0, stop=100, step=1)

In [75]:
max_val = data.loc[0]
min_val = data.loc[0]

for index, val in list(data.items()):
    if max_val < val:
        max_val = val
    if min_val > val:
        min_val = val
        
print(max_val, min_val)

95 3


In [109]:
max_val = data.iloc[0]
min_val = data.iloc[0]

for i in list(data.index):
    if max_val < i:
        max_val = i
    if min_val > i:
        min_val = i
print(max_val, min_val)

99 0


In [108]:
max_val = data.loc[0]
min_val = data.loc[0]

for index, val in list(data.items()):
    if max_val < val:
        max_val = val
    if min_val > val:
        min_val = val
print(max_val, min_val)

95 3


In [113]:
max_val = data.loc[0]
min_val = data.loc[0]

for i in range(data.count()):
    if max_val < data.iloc[i]:
        max_val = data.iloc[i]
    if min_val > data.iloc[i]:
        min_val = data.iloc[i]
    
print(max_val, min_val)

95 3


In [78]:
data.min()

3

In [79]:
data.max()

95

In [80]:
print(max(data))
print(min(data))

95
3


In [81]:
# Gía trị trung bình
data.mean()

50.12

In [83]:
above_mean = 0
below_mean = 0
mean_val = data.mean()

for i in range(data.count()):
    if data.iloc[i] > mean_val:
        above_mean += 1
    else:
        below_mean += 1
print(above_mean, below_mean)

49 51


In [92]:
# Tìm tần số xuất hiện của các phần tử trong Series
dicts= {i: 0 for i in range(100)}

for i in range(data.count()):
    if data.iloc[i] in dicts.keys():
        dicts[data.iloc[i]] += 1
result = sorted(dicts.items(),key=lambda x: x[1], reverse=True)
result = dict(result)
result

{43: 5,
 7: 4,
 93: 4,
 8: 3,
 26: 3,
 29: 3,
 41: 3,
 60: 3,
 76: 3,
 19: 2,
 21: 2,
 23: 2,
 27: 2,
 36: 2,
 39: 2,
 56: 2,
 61: 2,
 63: 2,
 65: 2,
 67: 2,
 69: 2,
 72: 2,
 81: 2,
 82: 2,
 87: 2,
 90: 2,
 95: 2,
 3: 1,
 4: 1,
 5: 1,
 6: 1,
 12: 1,
 14: 1,
 16: 1,
 22: 1,
 30: 1,
 31: 1,
 34: 1,
 35: 1,
 37: 1,
 42: 1,
 45: 1,
 46: 1,
 49: 1,
 50: 1,
 52: 1,
 54: 1,
 55: 1,
 57: 1,
 58: 1,
 70: 1,
 73: 1,
 75: 1,
 78: 1,
 83: 1,
 84: 1,
 85: 1,
 86: 1,
 89: 1,
 91: 1,
 0: 0,
 1: 0,
 2: 0,
 9: 0,
 10: 0,
 11: 0,
 13: 0,
 15: 0,
 17: 0,
 18: 0,
 20: 0,
 24: 0,
 25: 0,
 28: 0,
 32: 0,
 33: 0,
 38: 0,
 40: 0,
 44: 0,
 47: 0,
 48: 0,
 51: 0,
 53: 0,
 59: 0,
 62: 0,
 64: 0,
 66: 0,
 68: 0,
 71: 0,
 74: 0,
 77: 0,
 79: 0,
 80: 0,
 88: 0,
 92: 0,
 94: 0,
 96: 0,
 97: 0,
 98: 0,
 99: 0}

In [93]:
df = pd.read_excel('students.xlsx')

In [94]:
df

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
0,20205210,Nguyễn Đức Bình,2000-03-10,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5
1,20205211,Lê Minh Hoàng,2001-02-11,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0
2,20205212,Trần Trang Nhung,2002-07-05,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5
3,20205213,Nguyễn Thị Linh,2000-12-17,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0
4,20205214,Đặng Ngọc Sơn,2000-01-25,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8
5,20205215,Hà Trung Kiên,2000-04-03,Hà Nội,5.6,7.0,5.6,5.0,6.4,3.8,8.0,4.9
6,20205216,Võ Hoàng Yến,2000-06-21,Nam Định,6.7,6.8,7.3,6.0,6.7,8.0,9.5,7.6
7,20205217,Hoàng Trung Sơn,2000-08-27,Bắc Ninh,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5
8,20205218,Nguyễn Văn Thành,2000-05-20,Hà Nội,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8
9,20205219,Nguyễn Thanh Oai,2000-05-25,Hà Nội,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5


In [102]:
df.head()

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
0,20205210,Nguyễn Đức Bình,2000-03-10,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5
1,20205211,Lê Minh Hoàng,2001-02-11,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0
2,20205212,Trần Trang Nhung,2002-07-05,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5
3,20205213,Nguyễn Thị Linh,2000-12-17,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0
4,20205214,Đặng Ngọc Sơn,2000-01-25,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8


In [97]:
# Số lượng dòng và cột của bộ dữ liệu
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Mã học sinh  10 non-null     int64         
 1   Họ tên       10 non-null     object        
 2   Ngày sinh    10 non-null     datetime64[ns]
 3   Quê quán     10 non-null     object        
 4   Toán         10 non-null     float64       
 5   Lý           10 non-null     float64       
 6   Hoá          10 non-null     float64       
 7   Sinh         10 non-null     float64       
 8   Văn          10 non-null     float64       
 9   Sử           10 non-null     float64       
 10  Địa          10 non-null     float64       
 11  Tiếng Anh    10 non-null     float64       
dtypes: datetime64[ns](1), float64(8), int64(1), object(2)
memory usage: 1.1+ KB


In [101]:
df.shape

(10, 12)

In [103]:
df.head(5)

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
0,20205210,Nguyễn Đức Bình,2000-03-10,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5
1,20205211,Lê Minh Hoàng,2001-02-11,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0
2,20205212,Trần Trang Nhung,2002-07-05,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5
3,20205213,Nguyễn Thị Linh,2000-12-17,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0
4,20205214,Đặng Ngọc Sơn,2000-01-25,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8


In [104]:
# hiển thị 5 dữ liệu đầu
df.head()

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
0,20205210,Nguyễn Đức Bình,2000-03-10,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5
1,20205211,Lê Minh Hoàng,2001-02-11,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0
2,20205212,Trần Trang Nhung,2002-07-05,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5
3,20205213,Nguyễn Thị Linh,2000-12-17,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0
4,20205214,Đặng Ngọc Sơn,2000-01-25,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8


In [105]:
# hiển thị 5 dữ liệu cuối
df.tail()

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
5,20205215,Hà Trung Kiên,2000-04-03,Hà Nội,5.6,7.0,5.6,5.0,6.4,3.8,8.0,4.9
6,20205216,Võ Hoàng Yến,2000-06-21,Nam Định,6.7,6.8,7.3,6.0,6.7,8.0,9.5,7.6
7,20205217,Hoàng Trung Sơn,2000-08-27,Bắc Ninh,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5
8,20205218,Nguyễn Văn Thành,2000-05-20,Hà Nội,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8
9,20205219,Nguyễn Thanh Oai,2000-05-25,Hà Nội,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5


In [106]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Mã học sinh  10 non-null     int64         
 1   Họ tên       10 non-null     object        
 2   Ngày sinh    10 non-null     datetime64[ns]
 3   Quê quán     10 non-null     object        
 4   Toán         10 non-null     float64       
 5   Lý           10 non-null     float64       
 6   Hoá          10 non-null     float64       
 7   Sinh         10 non-null     float64       
 8   Văn          10 non-null     float64       
 9   Sử           10 non-null     float64       
 10  Địa          10 non-null     float64       
 11  Tiếng Anh    10 non-null     float64       
dtypes: datetime64[ns](1), float64(8), int64(1), object(2)
memory usage: 1.1+ KB


    Note: 
    Bộ dữ liệu chuẩn, không thiếu hụt (non-null)
    Dữ liệu thấp
    Các kiểu dữ liệu (int64, object, datetime64, float64

In [107]:
# trả về dataframe mới nhưng bỏ đi các thông tin Object
df.describe()

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,20205210.0,6.91,7.08,6.92,6.18,6.31,5.75,6.44,6.51
std,3.02765,1.481328,1.015218,1.180207,1.966836,1.323673,2.147996,1.992319,1.674946
min,20205210.0,4.2,5.6,5.4,2.0,4.0,2.0,3.4,3.8
25%,20205210.0,5.875,6.575,6.1,5.25,5.5,4.525,5.0,5.5
50%,20205210.0,7.0,7.0,6.75,6.65,6.5,5.7,6.3,6.25
75%,20205220.0,7.875,7.625,7.45,7.0,6.925,7.25,7.95,7.75
max,20205220.0,9.3,9.0,8.8,9.0,8.5,9.2,9.5,9.0


Note:
    mean (giá trị trung bình): có xu hướng học Lý tốt, Anh dở
    std: độ lệch chuẩn > không chênh lệch nhiều với giá trị trung bình
    min:
    max: các môn đều gần gần giống nhau, sàn sàn 9, chỉ có 2 môn dưới 9, max nhất là Địa.
    