In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [3]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [4]:
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [5]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
Name: count, dtype: int64

In [6]:
# isin performs a vectorized set membership check and can be useful in filtering a dataset
#  down to a subset of values in a Series or column in a DataFrame:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [7]:
# the Index.get_indexer method, which gives you an index array
# from an array of possibly non-distinct values into another array of distinct values:

to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

### In some cases, you may want to compute a histogram on multiple related columns in a DataFrame.
 Here’s an example:

In [8]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [10]:
data.apply(pd.value_counts)
# đếm theo tất cả các giá trị có trong data, ở đây là từ 1 đến 5 (theo nhãn index),
# thì vd Qu1 giá trị 2 và 5 ko có nên sẽ hiển thị NaN

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [9]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Here, the row labels in the result are the distinct values occurring in all of the col‐
umns. The values are the respective counts of these values in each column.
nó đếm giá trị trong dataframe dựa vào index, vd:

- vs index nhãn số 1 thì trong Qu1 xuất hiện bao nhiêu 1 lần, Qu2 xh 1 lần
- vs index tên nhãn là 5 thì trong Qu1 ko có số 5 nên là 0, Qu2 cũng vậy