# Table of Contents

* [Table of Contents](table_of_contents)

In [1]:
import pandas as pd
import numpy as np

# 5.1 Intro to pandas Data Structures

+ Pandas có 2 kiểu dữ liệu:
    - Series ~ giống một list của các datapoints
    - DataFrame ~ 

## Series
+ Kiểu dữ liệu 1-d (giống như array):
    - Gồm 1 chuỗi các giá trị
    - Mỗi giá trị lại có 1 index tương ứng (data labels) *index*
    - Index có thể tự khởi tạo, nếu k sẽ được đánh tự động bắt đầu từ 0 ->

In [2]:
#   Kiểu series đơn giản nhất
obj = pd.Series([1, 2, 3, 4])
obj

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
#   Cac gia tri cua Series
obj.values

array([1, 2, 3, 4], dtype=int64)

In [4]:
#   Show index cua Series
obj.index

RangeIndex(start=0, stop=4, step=1)

#### Cách tạo 1 series với giá trị & index tương ứng

In [5]:
obj1 = pd.Series([2, 3, 4, 5],
                 index=['a', 'b', 'c', 1])
obj1

a    2
b    3
c    4
1    5
dtype: int64

In [6]:
#   Show index
obj1.index

Index(['a', 'b', 'c', 1], dtype='object')

#### So với numpy, series co the su dung index de truy cap den gia tri


In [7]:
obj1['a']

2

In [8]:
obj1[[1, 'a']]

1    5
a    2
dtype: int64

#### Có thể sử dụng các hàm hoặc phép toán tương tự như numpy:
    - Output sẽ là cặp index-value

In [9]:
obj1[obj1 != 0]

a    2
b    3
c    4
1    5
dtype: int64

In [10]:
obj1*2

a     4
b     6
c     8
1    10
dtype: int64

In [11]:
np.exp(obj1)

a      7.389056
b     20.085537
c     54.598150
1    148.413159
dtype: float64

In [12]:
20 in obj1

False

#### Tạo series từ dictionary

In [13]:
dict1 = {"HaNoi": "Rainning", "Dallas": "Sunny", "Alatic": None}

In [14]:
obj2 = pd.Series(dict1)
obj2

HaNoi     Rainning
Dallas       Sunny
Alatic        None
dtype: object

#### Notes:
+ Khi chỉ đưa vào dict, các index (~ keys) sẽ được sắp xếp theo thứ tự trong dict.
+ Nếu bạn cố ý gán các lại các giá trị index, các index đã có sẽ được giữ kèm value. Với các index mới, giá trị tương ứng sẽ bị gán NaN

In [15]:
new_idx = ["HaNoi", "SaiGon"]
obj3 = pd.Series(dict1, index=new_idx)
#
obj3

HaNoi     Rainning
SaiGon         NaN
dtype: object

#### Check null/not null 

In [16]:
pd.isnull(obj3)

HaNoi     False
SaiGon     True
dtype: bool

In [17]:
pd.notnull(obj3)

HaNoi      True
SaiGon    False
dtype: bool

#### Series tự động thực hiện các phép toán cùng labels

+ Đối với các label không chung, giá trị sẽ được gán NaN

In [18]:
obj4 = pd.Series([1, 2, 3, 4, 5],
                 index=["A", "B", "C", "D", "E"])
#
obj4

A    1
B    2
C    3
D    4
E    5
dtype: int64

In [19]:
obj5 = pd.Series([2, 3, 4, 5],
                 index=["B", "C", "D", "E"])

In [20]:
obj4 + obj5

A     NaN
B     4.0
C     6.0
D     8.0
E    10.0
dtype: float64

#### Cả Series & index của nó đều có thể đặt tên:

In [21]:
obj6 = pd.Series([1, 2, 3],
                 index=['a', 'b', 'c'])
obj6

a    1
b    2
c    3
dtype: int64

In [22]:
obj6.name = "Object 6"
obj6.index.name = "Index"
#
obj6

Index
a    1
b    2
c    3
Name: Object 6, dtype: int64

## DataFrame

+ DF có thể coi như 1 bảng dữ liệu. Nó bao gồm nhiểu cột thông tin, được sắp xếp theo 1 thứ tự. Mỗi cột chứa nhiều kiểu dữ liệu khác nhau.
+ DF có cả chỉ số hàng & chỉ số cột. Từ đó, ta có thể truy cập đến địa chỉ cụ thể.

+ Có nhiều cách để định nghĩa một DataFrame. Trong đó, cách thông dụng nhất là sử dụng 1 dict:
    - Các keys ~ columns
    - list values ~ rows

+ Các chỉ số index cũng được tạo tự động như Series

In [23]:
data = {"Car": ["Vinfast", "BMW", "Honda", "Toyota", "Ford", "Mazda"],
        "Cost": [1.2, 2.0, 1.5, 1.3, 1.6, 1.8]}
df = pd.DataFrame(data)
#
df

Unnamed: 0,Car,Cost
0,Vinfast,1.2
1,BMW,2.0
2,Honda,1.5
3,Toyota,1.3
4,Ford,1.6
5,Mazda,1.8


In [24]:
#    Show 5 dòng đầu tiên
df.head()

Unnamed: 0,Car,Cost
0,Vinfast,1.2
1,BMW,2.0
2,Honda,1.5
3,Toyota,1.3
4,Ford,1.6


#### Bạn có thể sắp xếp lại thứ tự các cột bằng tên

In [25]:
pd.DataFrame(df, columns=['Cost', 'Car'])

Unnamed: 0,Cost,Car
0,1.2,Vinfast
1,2.0,BMW
2,1.5,Honda
3,1.3,Toyota
4,1.6,Ford
5,1.8,Mazda


#### Nếu truyền vào 1 column không tồn tại trong dict thì cột tương ứng với columns name đó sẽ chứa các giá trị NaN

In [26]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002, 2003],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}

In [27]:
frame1 = pd.DataFrame(data, columns=['year', 'pop', 'state', 'cost'])
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


#### Một column trong df có thể lấy lại như 1 Series bằng 2 cách

+ Cách 1: Tương tự như sử dụng key trong dict

In [28]:
frame1['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

+ Cách 2: Coi column như 1 attribute

In [29]:
frame1.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

#### Các hàng có thể lấy bởi vị trí hoặc tên với attribute *.loc*

+ df.loc[[index_row1, index_row2 ...]]

In [30]:
frame1.loc[[1, 2]]

Unnamed: 0,year,pop,state,cost
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,


#### Columns có thể được modified bởi việc gán giá trị cụ thể.

```
df[col_name] = values
```

In [31]:
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


In [32]:
frame1['Temp'] = 23
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23
1,2001,1.7,Ohio,,23
2,2002,3.6,Ohio,,23
3,2001,2.4,Nevada,,23
4,2002,2.9,Nevada,,23
5,2003,3.2,Nevada,,23


In [33]:
frame1["Temp"] = [23, 30, 31, 29, 20, 20]
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23
1,2001,1.7,Ohio,,30
2,2002,3.6,Ohio,,31
3,2001,2.4,Nevada,,29
4,2002,2.9,Nevada,,20
5,2003,3.2,Nevada,,20


#### Notes: 

+ Khi gán list/array cho 1 column, cần đảm bảo độ dài list/arr = độ dài cột trong dataframe

+ Nếu k, pandas sẽ tự gán giá trị NaN

In [34]:
ser_test = pd.Series([23, 30, 31, 29, 25], index=[0, 1, 2, 3, 4])
frame1["Temp"] = ser_test
frame1

Unnamed: 0,year,pop,state,cost,Temp
0,2000,1.5,Ohio,,23.0
1,2001,1.7,Ohio,,30.0
2,2002,3.6,Ohio,,31.0
3,2001,2.4,Nevada,,29.0
4,2002,2.9,Nevada,,25.0
5,2003,3.2,Nevada,,


#### Có thể xóa 1 cột dữ liệu

```
del df['column_name']
```

In [35]:
del frame1['Temp']
frame1

Unnamed: 0,year,pop,state,cost
0,2000,1.5,Ohio,
1,2001,1.7,Ohio,
2,2002,3.6,Ohio,
3,2001,2.4,Nevada,
4,2002,2.9,Nevada,
5,2003,3.2,Nevada,


## Index Objects

+ Các chỉ số trong Pandas được xác định bởi các nhãn trục & các thông tin khác như (tên trục)


In [36]:
obj = pd.Series([1, 2, 3], 
                index=['a', 'b', 'c'])
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [37]:
obj.index[:1]

Index(['a'], dtype='object')

+ Tính bất biến của df values giúp đảm bảo kính thước của index tương ứng.

In [38]:
labels = pd.Index(np.arange(3))
#
labels

Int64Index([0, 1, 2], dtype='int64')

In [39]:
obj1 = pd.Series([1, 2, 3], index=labels)
obj1

0    1
1    2
2    3
dtype: int64

In [40]:
obj1.index is labels

True

In [41]:
3 in obj1.index

False

#### Không như set trong python, trong pandas các index có thể giống nhau.

In [42]:
obj2 = pd.Series([1, 2, 3, 4],
                 index=['a', 'b', 'c', 'c'])
#
obj2

a    1
b    2
c    3
c    4
dtype: int64

# 5.2 Essential Functionality

+ Phần này sẽ làm quen với các phương pháp/cách thức cơ bản để tương tác với kiểu dữ liệu như Series/DataFrame đã nêu phần trên.

### Reindexing

+ *reindex()*: tạo một object mới với dữ liệu phù hợp thứ tự index mới.



In [43]:
obj = pd.Series([1, 2, 3, 4, 5],
                index=['a', 'b', 'c', 'd', 'e'])
#
obj

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### Cách 1

In [44]:
obj1 = obj.reindex(['b', 'c', 'd', 'e', 'a'])
obj1

b    2
c    3
d    4
e    5
a    1
dtype: int64

#### Cách 2

In [45]:
obj2 = pd.DataFrame(obj1, 
                    index=['b', 'c', 'd', 'e', 'a'])
obj2

Unnamed: 0,0
b,2
c,3
d,4
e,5
a,1


#### Muốn fill dữ liệu cho đầy vào các index

In [46]:
obj3 = pd.Series(['blue', 'yellow', 'black'], 
                 index=[1, 4, 7])
obj3

1      blue
4    yellow
7     black
dtype: object

In [47]:
obj3.reindex(range(8), method='ffill')

0       NaN
1      blue
2      blue
3      blue
4    yellow
5    yellow
6    yellow
7     black
dtype: object

In [48]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'b', 'c'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [49]:
frame1 = frame.reindex(['a', 'b', 'c', 'd'])
frame1

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


#### Hàm *reindex(columns=[col1, col2, col3, ...])*: sẽ thay thế danh sách columns cũ bằng danh sách columns mới vừa được gán.

+ df.reindex() -> new dataframe

In [50]:
new_cols = ['Ohio', 'Texas', 'California', 'New Yord']
new_df = frame.reindex(columns=new_cols)
new_df

Unnamed: 0,Ohio,Texas,California,New Yord
a,0,1,2,
b,3,4,5,
c,6,7,8,


### Xóa các mục trong 1 cột ~ Dropping entries from an axis

+ Việc xóa 1 hay nhiều mục trong một cột khi có danh sách chuỗi/list các mục cần giữ.
    - drop([entrie_1, entrie_2, ...]) : trả về một object mới với các mục còn 

In [51]:
obj = pd.Series(np.arange(5.), 
                index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [52]:
new_obj = obj.drop(['c', 'e'])
new_obj

a    0.0
b    1.0
d    3.0
dtype: float64

+ Ngoài sử dụng tên mục trong cột, Pandas có thể xóa các mục bởi chỉ số index *index values*
    - Xóa các giá trị của các cột khi sử dụng *axis=1* or *axis='columns'*:


```
obj.drop([column_name1, column_name2, ...], axis=1)
```

In [53]:
data = pd.DataFrame(np.arange(16).reshape(4, 4),
                    index=['HaNoi', "DaNang", "HCM", "CanTho"],
                    columns=[1, 2, 3, 4])
data

Unnamed: 0,1,2,3,4
HaNoi,0,1,2,3
DaNang,4,5,6,7
HCM,8,9,10,11
CanTho,12,13,14,15


In [54]:
new_data = data.drop([1, 4], axis='columns')
new_data

Unnamed: 0,2,3
HaNoi,1,2
DaNang,5,6
HCM,9,10
CanTho,13,14


### Index, Selection & Filtering

+ Chỉ số của Series tương tự như chỉ số trong Numpy array, ngoại trừ việc bạn có thể sử dụng chỉ số của Series thay vì chỉ dùng chỉ số là số nguyên (numpy array)

In [62]:
obj = pd.Series([10, 8, 12, 15],
                index=['a', 'b', 'c', 'd'])
obj

a    10
b     8
c    12
d    15
dtype: int64

In [63]:
obj['c']

12

In [64]:
# ~ 'c'
obj[2] 

12

In [65]:
obj[['a', 'c']]

a    10
c    12
dtype: int64

In [68]:
obj[obj < 10] 

b    8
dtype: int64

#### Slicing 
+ Khác với python [start, end), pandas sẽ lấy từ điểm đầu đến điểm cuối ~ [start, end]

In [69]:
obj['b':'d']

b     8
c    12
d    15
dtype: int64

+ Gán giá trị cho khoảng:

In [71]:
obj['b':'c'] = 20
obj

a    10
b    20
c    20
d    15
dtype: int64

#### việc sử dụng chỉ trong dataframe cho phép truy xuất một hay nhiều cột với một giá trị hoặc 1 chuỗi.

+ truy xuất cột:
```
dataframe[[col1, col2 ...]]
```

+ truy xuất hàng của tất cả cột:
```
dataframe[start_index:end_index]
```

In [84]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['HaGiang', 'ThanhHoa', "BinhDinh", "CaMau"],
                   columns=[1, 2, 3, 4])
data

Unnamed: 0,1,2,3,4
HaGiang,0,1,2,3
ThanhHoa,4,5,6,7
BinhDinh,8,9,10,11
CaMau,12,13,14,15


In [76]:
data[[1, 3]]

Unnamed: 0,1,3
HaGiang,0,2
ThanhHoa,4,6
BinhDinh,8,10
CaMau,12,14


In [77]:
data[:3]

Unnamed: 0,1,2,3,4
HaGiang,0,1,2,3
ThanhHoa,4,5,6,7
BinhDinh,8,9,10,11


In [78]:
data[data[1] > 5]

Unnamed: 0,1,2,3,4
BinhDinh,8,9,10,11
CaMau,12,13,14,15


In [79]:
data > 5

Unnamed: 0,1,2,3,4
HaGiang,False,False,False,False
ThanhHoa,False,False,True,True
BinhDinh,True,True,True,True
CaMau,True,True,True,True


In [81]:
data[data < 5] = 0
data

Unnamed: 0,1,2,3,4
HaGiang,0,0,0,0
ThanhHoa,0,5,6,7
BinhDinh,8,9,10,11
CaMau,12,13,14,15


#### Selection with loc & iloc

+ Phương pháp này giúp lấy ra tập nhỏ các hàng & các cột.
    - loc (~ labels)
    - iloc (~ integers)

+ loc:
```
dataframe.loc[[label_idx_1, label_idx_2, label_idx3..], [label_col1, label_col2, label_col3]]
```

+ iloc:
```
dataframe.iloc[[int_idx_1, int_idx_2, int_idx3..], [int_col1, int_col2, int_col3]]
```

In [86]:
data = pd.DataFrame(np.random.rand(4, 4),
                    index=['idx1', 'idx2', 'idx3', 'idx4'],
                    columns=['col1', 'col2', 'col3', 'col4'])
data

Unnamed: 0,col1,col2,col3,col4
idx1,0.22236,0.617309,0.617851,0.009633
idx2,0.314107,0.693878,0.125465,0.674052
idx3,0.297726,0.727895,0.65141,0.583044
idx4,0.021009,0.68741,0.982166,0.826906


In [95]:
data.loc[['idx2', 'idx4'],
         ['col1', 'col4']]

Unnamed: 0,col1,col4
idx2,0.314107,0.674052
idx4,0.021009,0.826906


In [96]:
data.loc[['idx2', 'idx4']]

Unnamed: 0,col1,col2,col3,col4
idx2,0.314107,0.693878,0.125465,0.674052
idx4,0.021009,0.68741,0.982166,0.826906


In [97]:
data.iloc[[0, 3],
          [1, 2]]

Unnamed: 0,col2,col3
idx1,0.617309,0.617851
idx4,0.68741,0.982166


In [98]:
data.iloc[:2, :]

Unnamed: 0,col1,col2,col3,col4
idx1,0.22236,0.617309,0.617851,0.009633
idx2,0.314107,0.693878,0.125465,0.674052


#### Integer indexes

+ Khác với list/tuple, các chỉ số trong pandas:
    - không thể sử dụng chỉ số âm
    - Chỉ sử dụng các index có trong object.    

In [100]:
ser = pd.Series(np.arange(3.0))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [103]:
try:
    ser[-1]
except:
    print("Error")

Error


+ **Notes**: để giữ sự nhất quán, hãy chỉ sử dụng *loc ~> labels* & *iloc ~> index*

####  Số học & chỉnh sửa dữ liệu ( Arithmetic & Data alignment)

+ Một đặc điểm quan trọng của pandas là khả năng tương tác về mặt số học giữa các objects có sự khác nhau về chỉ số.
    - Ví dụ: khi cộng 2 objects, chỉ các index chung thì được thực hiện việc tính toán.

In [105]:
s1 = pd.Series([1, 2, 3, 4, 5],
               index=['a', 's', 'd', 'f', 'g'])
s1

a    1
s    2
d    3
f    4
g    5
dtype: int64

In [106]:
s2 = pd.Series([6, 7, 8, 9, 10],
               index=['z', 's', 'x', 'd', 'c'])
s2

z     6
s     7
x     8
d     9
c    10
dtype: int64

In [107]:
s = s1 + s2
s

a     NaN
c     NaN
d    12.0
f     NaN
g     NaN
s     9.0
x     NaN
z     NaN
dtype: float64

In [111]:
df1 = pd.DataFrame(np.random.randint(10, size=(4, 4)),
                   columns=list('asdf'),
                   index=['HaNoi', 'DaNang', 'HCM', 'CanTho'])
df1

Unnamed: 0,a,s,d,f
HaNoi,7,3,3,8
DaNang,9,7,8,3
HCM,9,2,5,3
CanTho,3,1,1,6


In [115]:
df2 = pd.DataFrame(np.random.randint(20, size=(4, 4)),
                   columns=list('awse'),
                   index=['LaoCai', 'DaNang', 'Hue', 'DongNai'])
df2

Unnamed: 0,a,w,s,e
LaoCai,7,4,13,12
DaNang,3,0,5,9
Hue,7,2,5,2
DongNai,12,1,6,6


In [116]:
df3 = df1 + df2
df3

Unnamed: 0,a,d,e,f,s,w
CanTho,,,,,,
DaNang,12.0,,,,12.0,
DongNai,,,,,,
HCM,,,,,,
HaNoi,,,,,,
Hue,,,,,,
LaoCai,,,,,,


#### Các phép tính toán giữa DataFrame & Series (Operations between DataFrame & Series)

+ Xét ví dụ: một array 2-d & một hàng của array đó

In [9]:
import numpy as np
import pandas as pd

In [2]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [3]:
list = arr[0]
list

array([0., 1., 2., 3.])

In [8]:
new_arr = arr - list
new_arr

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

+ Các phép tính toán giữa 1 DataFrame & 1 Series tương tự

In [11]:
df = pd.DataFrame(np.arange(6).reshape((2, 3)),
                  columns=['First col', 'Second col', 'Third col'],
                  index=[1, 2])
df

Unnamed: 0,First col,Second col,Third col
1,0,1,2
2,3,4,5


In [13]:
ser = df.iloc[1]
ser

First col     3
Second col    4
Third col     5
Name: 2, dtype: int32

In [15]:
df - ser
# new_df

Unnamed: 0,First col,Second col,Third col
1,-3,-3,-3
2,0,0,0


#### Function application and mapping

In [18]:
frame = pd.DataFrame(np.random.randn(4, 3),
                     columns=['a', 'b', 'c'],
                     index=[1, 2, 3, 4])
frame

Unnamed: 0,a,b,c
1,-0.322176,0.945676,-0.651663
2,-1.087272,0.726269,-0.564213
3,-0.599467,-1.30459,0.7925
4,-1.27476,-0.089525,0.271228


In [19]:
np.abs(frame)

Unnamed: 0,a,b,c
1,0.322176,0.945676,0.651663
2,1.087272,0.726269,0.564213
3,0.599467,1.30459,0.7925
4,1.27476,0.089525,0.271228


#### Sorting and Ranking

+ Để sorting index về mặt từ vựng (alphabet) của hàng hay cột:
    - Với series/dataframe:
        ```
        series.sort_index()
        ```

+ Để sorting value:
    - Các giá trị NaN sẽ được xếp ở cuối.
    ```
    series.sort_values()
    # dataframe.sort_values()
    ```
    
    - Để sorting nhiều cột:
    ```
    frame.sort_values(by=['col1', 'col2'])
    ```


In [20]:
obj = pd.Series(range(4), 
                index=['b', 'a', 'd', 'c'])
obj

b    0
a    1
d    2
c    3
dtype: int64

In [21]:
obj.sort_index()

a    1
b    0
c    3
d    2
dtype: int64

In [28]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     columns=['b', 'd', 'a', 'c'],
                     index=['two', 'a'])
frame

Unnamed: 0,b,d,a,c
two,0,1,2,3
a,4,5,6,7


In [29]:
frame.sort_index()

Unnamed: 0,b,d,a,c
a,4,5,6,7
two,0,1,2,3


In [30]:
obj = pd.Series([-1, 0, np.nan, -7, 3])
obj

0   -1.0
1    0.0
2    NaN
3   -7.0
4    3.0
dtype: float64

In [32]:
obj.sort_values()

3   -7.0
0   -1.0
1    0.0
4    3.0
2    NaN
dtype: float64

+ **Ranking**: 

In [33]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

### Cột indexes với các labels trùng nhau

+ Check các index có bị trùng hay k:
    ```
    obj.index.is_unique -> bool:
    ```

In [34]:
obj = pd.Series(range(5),
                index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [36]:

obj.index.is_unique

False

In [37]:
df = pd.DataFrame(np.random.randn(4, 3),
                  index=['4', '3', '3', '4'])
df

Unnamed: 0,0,1,2
4,-1.653837,0.317658,0.859879
3,0.814172,0.720666,1.110872
3,-0.198696,0.536214,-0.037003
4,-0.31042,2.377654,-0.081251


# 5.3 Summarizing & computing descriptive statistics
(Tóm tắt & thông kê mô tả tính toán)

+ Pandas đã được trang bị các phương pháp tính toán & thống kê phổ biến.

+ Phần lớn 2 mảng: giảm bớt (?) & tóm lược thống kê:
    - các phương pháp này thường phân tích ra 1 giá trị (có thể là tổng or trung bình) của 1 Series hoặc nhiều giá trị Series (hàng/cột) của 1 dataframe.
    
```
obj.sum() # sum of each column

obj.sum(axis='columns') # sum across (ngang qua) các cột
```
    

In [38]:
df = pd.DataFrame([[1.4, np.nan], 
                   [7.1, -4.5], 
                   [np.nan, np.nan],
                   [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [39]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [41]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

+ Nếu trong hàng/cột có giá trị NaN mà bạn k muốn tính toán:

```
df.sum(skipna=False)
```

In [42]:
df.sum(axis='columns', skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

+ Muốn xác định index có giá trị lớn nhất/nhỏ nhất

In [43]:
df.idxmax()

one    b
two    d
dtype: object

+ Muốn biết các thông tin chi tiết:
```
df.describe()
```

In [44]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


#### Unique values, value counts & membership

In [45]:
obj = pd.Series(['a', 'c', 'd', 'a', 'b', 'd'])
obj

0    a
1    c
2    d
3    a
4    b
5    d
dtype: object

In [46]:
uniques_ser = obj.unique()
uniques_ser

array(['a', 'c', 'd', 'b'], dtype=object)

+ Sắp xếp các index theo thứ tự giảm dần số lần xuất hiện

In [47]:
obj.value_counts()

a    2
d    2
c    1
b    1
dtype: int64