# Pandas

Pandas is a newer package built on top of NumPy, and provides an efficient implementation of a DataFrame

## Installing and using Pandas

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.4.2'

## Introducing Pandas Objects

- Về mặt cơ bản thì Pandas được coi là phiên bản nâng cao của 1 Numpy structure, trong đó các row và column được xác định bằng nhãn thay vì các số nguyên chỉ số.
- Có 3 cấu trúc cơ bản là `Series`, `DataFrame`, and `Index`

### Series Object

Là mảng 1 chiều

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

`values` is Numpy array

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

`index`

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Accessing values

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

`Series` as generalized NumPy array

- Về cơ bản thì Series và mảng 1 chiều trong Numpy có thể dùng thay thế lẫn nhau, chỉ có 1 điểm khác duy nhất là trong Series có thêm "chỉ mục". Numpy thì các "chỉ mục" này được ngầm định là các số nguyên. Nhưng pandas thì lại có thể define các chỉ mục gắn với các giá trị tương ứng, không nhất thiết là số nguyên

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['a']

0.25

`Series` as specialized dictionary

- Nhìn vào index của Series thì thấy nó giống như 1 Dictionary trong trong Python. Nhưng có một điều quan trọng là Series được xây dựng mà phía sau nó là Numpy array, do đó nó được tối ưu và làm việc hiệu quả hơn so với Dictionary trong Python.


In [9]:
population_dict = {'California': 38332521,
                               'Texas': 26448193,
                               'New York': 19651127,
                               'Florida': 19552860,
                               'Illinois': 12882135}
population = pd.Series(population_dict)
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [10]:
population['California']

38332521

In [11]:
# Support Array style slicing 
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

In [12]:
# data can be scala, which repeated to fill tje specified index
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [13]:
# data with index default to the sorted dictionary keys
pd.Series({2: 'a', 1: 'b', 3: 'c'})

2    a
1    b
3    c
dtype: object

In [14]:
# Trong một số trường hợp Series chỉ được điền với các giá trị có key rõ ràng.
pd.Series({'a': 0.25, 'b': 0.5, 'c': 0.75, 'd': 1.0}, index=['d', 'b'])

d    1.0
b    0.5
dtype: float64

### DataFrame Object

- Cơ bản, DataFrame là một cấu trúc 2 chiều, mà các row, column có chung chỉ mục.

In [15]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}

In [16]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [17]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [18]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [19]:
states.columns

Index(['population', 'area'], dtype='object')

DataFrame as specialized dictionary

In [20]:
states['area']['California']

423967

DataFrame objects - From single Serial object

In [21]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [22]:
type(population)

pandas.core.series.Series

In [23]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


DataFrame objects - From List Dictionary

In [24]:
data = [{'a': i, 'b': 2 *i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [25]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [26]:
# trong trường hợp mà bị thiếu value
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


DataFrame objects - From dictionary of Series objects

In [27]:
series1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
series2 = pd.Series([11, 22, 33, 44], index=['a', 'b', 'c', 'd'])
pd.DataFrame({'series1': series1, 'series2': series2})

Unnamed: 0,series1,series2
a,1,11
b,2,22
c,3,33
d,4,44


DataFrame objects - From two-dimensional Numpy array

In [28]:
# create two-dimensional NumPy array
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [29]:
pd.DataFrame(data, columns=['a', 'b', 'c'], index=['one', 'two', 'three'])

Unnamed: 0,a,b,c
one,1,2,3
two,4,5,6
three,7,8,9


DataFrame objects - From Numpy structured array

In [30]:
# create a structured array with two fields (a, b) of type int and float respectively
# i8 means int8, f8 means float8
A = np.zeros(3, dtype=[('a', 'i8'), ('b', 'f8')]) 
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('a', '<i8'), ('b', '<f8')])

In [31]:
pd.DataFrame(A, index=['one', 'two', 'three'])

Unnamed: 0,a,b
one,0,0.0
two,0,0.0
three,0,0.0


### Pandas Index Objects

- Ta thấy Series và Dataframe đều có chỉ mục cho Index rõ ràng và được định nghĩa trước, cho phép reference hoặc dùng để modify dữ liệu
- Index như 1 mảng bất biến có thứ tự, và nó cũng có thể có trùng nhau

In [32]:
# tạo 1 đối tượng index:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

Index as immutable array

In [33]:
# ind[0] = 10 # TypeError: Index does not support mutable operations

In [34]:
ind[::2] #[start = 0, stop = end, step = 2]

Int64Index([2, 5, 11], dtype='int64')

Index as ordered set

In [35]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
indA.intersection(indB) # siminar indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [36]:
indA.union(indB) # Siminar indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [37]:
indA.symmetric_difference(indB) # Siminar indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')

>> Note: Sự khác biệt đối xứng của tập A và B là những phần tử trong A hoặc B, nhưng không phải trong cả A và B
>>
>> A ∆ B = (A ∪ B ) - (A ∩ B)

## Data indexing and selection

Tương tự Numpy, trong phần này sẽ đề cập đến các phương thức để truy cập cũng như sửa đổi data trong Pandas Series và Pandas DataFrame

### Pandas Selection in Series

Series as Dictionary

In [38]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [39]:
data['b']

0.5

In [40]:
'a' in data

True

In [41]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [42]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [43]:
# Thêm data mới
data['e'] = 1.25
data 

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Series as one-dimensional array

In [44]:
# Slicing by key
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [45]:
# Slicing by index
data[0:2]

a    0.25
b    0.50
dtype: float64

>> Note: Slicing by key thì lấy cả điểm đầu và cuối, ví dụ như data['a':'c'] sẽ lấy cả các điểm a, b, c, trong khi dùng index thì sẽ lấy trong đoạn [index đầu, index cuối) - trừ điểm cuối ra

In [46]:
# masking
data[data < 0.5]

a    0.25
dtype: float64

In [47]:
# fancy indexing
data[['a', 'c']]

a    0.25
c    0.75
dtype: float64

Indexers: loc, iloc, and ix

Trong trường hợp sử dụng index để truy cập data thì đôi khi có thể gây nhầm lẫn, ví dụ như khi tại vị trí đầu tiên, nhưng index lại bằng 1, thì việc dùng data[1] sẽ bị nhầm lẫn giưã phần tử có index= 1 và phần tử thứ 2 (python style)

In [48]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data


1    a
3    b
5    c
dtype: object

In [49]:
data[1] # có thể bị nhầm lẫn thành 'a' và 'b'

'a'

In [50]:
data[1:3]

3    b
5    c
dtype: object

In [51]:
# loc sinh ra để chỉ định rõ là phải dùng index trong index của Pandas chứ k phải index style python
data.loc[1]

'a'

In [52]:
data.loc[1:3]

1    a
3    b
dtype: object

In [53]:
data

1    a
3    b
5    c
dtype: object

In [54]:
# khác với loc, iloc sinh ra để chỉ định index theo python style
data.iloc[1]

'b'

In [55]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [56]:
# Thành phần thứ 3 là ix, nó dùng để kết hợp 2 thằng trên, sẽ thấy rõ hơn trong phần `Pandas selection in DataFrame`

### Pandas Selection in DataFrame

DataFrame as Dictionary

In [57]:
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135})
data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [58]:
type(data['area'])

pandas.core.series.Series

In [59]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [60]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

>> Note: cách truy cập này tuy rất tiện nhưng không phải lúc nào cũng đúng. Ví dụ trường hợp dưới đây, data.pop sẽ reference đến pop() method do đó data.pop sẽ không bằng với data['pop']

In [61]:
data.area is data['area']

True

In [62]:
data.pop is data['pop']

False

In [63]:
# Thêm cột mới:
data['density'] = data['pop'] / data['area'] # Mật độ bằng dân số chia diện tích
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


DataFrame as two-dimensional array


In [64]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [65]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [66]:
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [67]:
data['area']['California']

423967

In [68]:
# iloc và loc mang ý nghĩa như bên trên đã đề cập:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [69]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [70]:
data.loc[:'New York', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [71]:
# ix là kết hợp của cả 2 cái trên
# data.ix[:3, :'pop'] # 'DataFrame' object has no attribute 'ix'

#May quá, ix nó deprecated

In [72]:
data.loc[data['density'] > 100, ['area', 'pop']]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


In [73]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Additional indexing conventions


In [74]:
# indexing refers to columns, slicing refers to rows:
data['Florida': 'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [75]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


## Operating on Data in Pandas

### Ufuncs: Index Preservation - Bảo lưu chỉ mục

In [76]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [77]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


Nếu thực hiện Numpy UFuncs lên một trong 2 đối tượng trên thì sẽ được một đối tượng Pandas khác với cùng Index

In [78]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [79]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### UFuncs: Index Alignment

Khi thực hiện các phép toán, Pandas tự động căn chỉnh chỉ mục trong quá trình thao tác. Điều này rất có ích khi làm việc với các dữ liệu bị thiếu

Index alignment in Series

In [80]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
area

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

In [81]:
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')
population

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

In [82]:
population/area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [83]:
A = pd.Series([2, 4, 6], index=[0,1,2])
B = pd.Series([1, 3, 5], index=[1,2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [84]:
# Hoàn toàn có thể đặc tả với những case NaN thì làm gì, 
A.add(B, fill_value=0) # thêm 0 vào NaN của từng Series trước khi thực hiện phép cộng.

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

Index alignment in DataFrame

In [85]:
# Tương tự Series, nhưng DataFrame xử lý trên cả cột và dòng
A = pd.DataFrame(rng.randint(0, 20, (2,2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [86]:
B = pd.DataFrame(rng.randint(0, 10, (3,3)), columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [87]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [88]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,1.0,15.0,9.0
1,13.0,6.0,0.0
2,2.0,9.0,6.0


The following table lists Python operators and their equivalent Pandas object methods:

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

### Ufuncs: Operations Between DataFrame and Series

Operations between a DataFrame and a Series are similar to operations between a two-dimensional and one-dimensional NumPy array.

In [89]:
A = rng.randint(10, size=(3, 4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [90]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [91]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [92]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [93]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


>> Note: Cũng giống như phần trước, các phép toán cũng sẽ được tự động alignment chỉ mục

In [94]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int64

In [95]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


## Handle Missing Data

### Trade-Offs in Missing Data Conventions

### Missing Data in Pandas

None: Pythonic missing data

In [96]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

NaN: Missing numerical data

In [97]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

In [98]:
1 + np.nan

nan

In [99]:
0 *  np.nan

nan

NaN and None in Pandas

In [100]:
# Có thể chuyển đổi qua lại lẫn nhau khi thích hợp
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [101]:
x = pd.Series(range(2), dtype=int)
x


0    0
1    1
dtype: int64

In [102]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

The following table lists the upcasting conventions in Pandas when NA values are introduced:

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

Keep in mind that in Pandas, string data is always stored with an ``object`` dtype.

### Operating on Null Values

- ``isnull()``: Generate a boolean mask indicating missing values
- ``notnull()``: Opposite of ``isnull()``
- ``dropna()``: Return a filtered version of the data
- ``fillna()``: Return a copy of the data with missing values filled or imputed

Detecting null value

In [103]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [104]:
data[data.notnull()]


0        1
2    hello
dtype: object

Dropping null values

In [105]:
data.dropna()

0        1
2    hello
dtype: object

In [106]:
df = pd.DataFrame([[1,np.nan, 2],[2,3,5],[np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [107]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [108]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


>> Note: `dropna()` có thêm một thuộc tính nữa là how = "all" or how = "any", nếu là "all" thì sẽ xóa nếu "all" row/column đều null, nếu là "any" thì sẽ xóa những phần tử có giá trị null

In [109]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [110]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [111]:
# thresh: số lượng dữ liệu tối thiểu phải có trên dòng, dùng để clear dữ liệu nhỏ rất tốt.
# Như trong ví dụ này thì hàng đầu tiên và thứ 3 bị xoá, do chỉ còn 2 giá trị không phải NaN
df.dropna(axis='rows', thresh=3) 

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


Fill null values

- Đôi khi không xoá, thay vào đó điền những giá trị thích hợp vào null value

In [112]:
data = pd.Series([1, np.nan, 2, None, np.nan, 3], index=list('ABCDEF'))
data

A    1.0
B    NaN
C    2.0
D    NaN
E    NaN
F    3.0
dtype: float64

In [113]:
data.fillna(0)

A    1.0
B    0.0
C    2.0
D    0.0
E    0.0
F    3.0
dtype: float64

In [114]:
# forward fill: fill giá trị NaN trước đó
data.fillna(method='ffill')

A    1.0
B    1.0
C    2.0
D    2.0
E    2.0
F    3.0
dtype: float64

In [115]:
# backward fill: fill giá trị NaN sau đó
data.fillna(method='bfill')

A    1.0
B    2.0
C    2.0
D    3.0
E    3.0
F    3.0
dtype: float64

In [116]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [117]:
df.fillna(method='ffill', axis=1) # fill theo cột, với cột 0, không có cột nào bên trái do đó NaN vẫn giữ nguyên.

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


## Hierarchical Indexing

Mục này dùng để xử lý dữ liệu nhiều chiều hơn mà vẫn thông qua 2 đối tượng Series và DataFrame quen thuộc.

### A Multiply Indexed Series

Biểu diễn dữ liệu nhiều chiều bằng nhiều Series

In [118]:
# Suppose you would like to track data about states from two different years.
index = [('California', 2000), ('California', 2010), ('Texas', 2000), ('Texas', 2010), ('Ohio', 2000), ('Ohio', 2010)]
population = [33871648, 37253956, 26448193, 28211280, 11405128, 13254596]

In [119]:
# Bad way:
pop = pd.Series(population, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(Texas, 2000)         26448193
(Texas, 2010)         28211280
(Ohio, 2000)          11405128
(Ohio, 2010)          13254596
dtype: int64

In [120]:
# Better way:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010),
            (      'Ohio', 2000),
            (      'Ohio', 2010)],
           )

In [121]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
Texas       2000    26448193
            2010    28211280
Ohio        2000    11405128
            2010    13254596
dtype: int64

In [122]:
pop[:, 2010]

California    37253956
Texas         28211280
Ohio          13254596
dtype: int64

MultiIndex as extra dimension

In [123]:
# unstack() sẽ chuyển đổi 1 multi-index Series thành DataFrame.
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
Ohio,11405128,13254596
Texas,26448193,28211280


In [124]:
pop_df.stack()

California  2000    33871648
            2010    37253956
Ohio        2000    11405128
            2010    13254596
Texas       2000    26448193
            2010    28211280
dtype: int64

In [125]:
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
Ohio,11405128,13254596
Texas,26448193,28211280


In [126]:
# Hiện giờ dữ liệu như 2 chiều, giờ thêm 1 chiều nữa là dân số dưới 18 tuổi.
pop_df = pd.DataFrame({'total': pop, 'under18': [9267089, 9284094, 4687374, 4963140, 193115, 2763865]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
Texas,2000,26448193,4687374
Texas,2010,28211280,4963140
Ohio,2000,11405128,193115
Ohio,2010,13254596,2763865


In [127]:
# Tính toán tỉ lệ dân số dưới 18 tuổi so với dân số tổng
f_u18 = pop_df['under18'] / pop_df['total']
f_u18

California  2000    0.273594
            2010    0.249211
Texas       2000    0.177229
            2010    0.175928
Ohio        2000    0.016932
            2010    0.208521
dtype: float64

In [128]:
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
Ohio,0.016932,0.208521
Texas,0.177229,0.175928


### Methods of MultiIndex Creation

Cách đơn giản nhất là dùng mảng index 

In [129]:
df = pd.DataFrame(np.random.rand(4,2), index=[['a','a','b','b'], [1,2,1,2]], columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.243498,0.017568
a,2,0.94513,0.24303
b,1,0.144994,0.691131
b,2,0.745434,0.790335


MultiIndex constructors

In [130]:
pd.MultiIndex.from_arrays([['a','a', 'b','b'], [1,2,1,2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [131]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [132]:
pd.MultiIndex.from_product([['a','b'], [1,2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

MultiIndex level names

In [133]:
pop


California  2000    33871648
            2010    37253956
Texas       2000    26448193
            2010    28211280
Ohio        2000    11405128
            2010    13254596
dtype: int64

In [134]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
Texas       2000    26448193
            2010    28211280
Ohio        2000    11405128
            2010    13254596
dtype: int64

MultiIndex as a column

In [135]:
# Thứ bậc index và columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# Create a dataframe
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,62.0,35.8,25.0,36.3,31.0,34.7
2013,2,41.0,36.1,21.0,37.1,35.0,36.7
2014,1,37.0,35.7,42.0,36.5,25.0,38.8
2014,2,31.0,36.9,24.0,37.6,39.0,37.1


In [136]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,25.0,36.3
2013,2,21.0,37.1
2014,1,42.0,36.5
2014,2,24.0,37.6


### Indexing and Slicing a MultiIndex

Multiply indexed Series

In [137]:
pop

state       year
California  2000    33871648
            2010    37253956
Texas       2000    26448193
            2010    28211280
Ohio        2000    11405128
            2010    13254596
dtype: int64

In [138]:
pop['California',2000]

33871648

In [139]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [140]:
pop[:,2000]

state
California    33871648
Texas         26448193
Ohio          11405128
dtype: int64

Multiply indexed DataFrame

In [141]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,62.0,35.8,25.0,36.3,31.0,34.7
2013,2,41.0,36.1,21.0,37.1,35.0,36.7
2014,1,37.0,35.7,42.0,36.5,25.0,38.8
2014,2,31.0,36.9,24.0,37.6,39.0,37.1


In [142]:
health_data['Guido', 'HR']

year  visit
2013  1        25.0
      2        21.0
2014  1        42.0
      2        24.0
Name: (Guido, HR), dtype: float64

In [143]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,62.0,35.8
2013,2,41.0,36.1


In [144]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        62.0
      2        41.0
2014  1        37.0
      2        31.0
Name: (Bob, HR), dtype: float64

In [145]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,62.0,25.0,31.0
2014,1,37.0,42.0,25.0


### Rearranging Multi-Indices

Sorted and unsorted indices

Many of the MultiIndex slicing operations will fail if the index is not sorted. 

In [146]:
# Create an unsorted index
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]], names=['char', 'int'])
data = pd.Series(np.random.randn(6), index=index)
data

char  int
a     1     -0.297042
      2      0.968533
c     1     -2.090853
      2      0.969199
b     1      1.904399
      2      0.078037
dtype: float64

In [147]:
# data['a': 'b']  # UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [148]:
data = data.sort_index()
data

char  int
a     1     -0.297042
      2      0.968533
b     1      1.904399
      2      0.078037
c     1     -2.090853
      2      0.969199
dtype: float64

In [149]:
data['a': 'b']

char  int
a     1     -0.297042
      2      0.968533
b     1      1.904399
      2      0.078037
dtype: float64

Stacking and unstacking indices

Dùng để biến một dữ liệu chỉ mục nhiều lớp thành biểu diễn 2 chiều đơn giản:

In [150]:
pop

state       year
California  2000    33871648
            2010    37253956
Texas       2000    26448193
            2010    28211280
Ohio        2000    11405128
            2010    13254596
dtype: int64

In [151]:
pop.unstack(level=0)

state,California,Ohio,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,11405128,26448193
2010,37253956,13254596,28211280


In [152]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
Ohio,11405128,13254596
Texas,26448193,28211280


In [153]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
Ohio        2000    11405128
            2010    13254596
Texas       2000    26448193
            2010    28211280
dtype: int64

Index setting and resetting

Một cách khác để sắp xếp lại dữ liệu phân cấp là chuyển nhãn chỉ mục thành cột; điều này có thể được thực hiện bằng phương thức reset_index

In [154]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,Texas,2000,26448193
3,Texas,2010,28211280
4,Ohio,2000,11405128
5,Ohio,2010,13254596


In [155]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
Texas,2000,26448193
Texas,2010,28211280
Ohio,2000,11405128
Ohio,2010,13254596


### Data Aggregations on Multi-Indices

In [156]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,62.0,35.8,25.0,36.3,31.0,34.7
2013,2,41.0,36.1,21.0,37.1,35.0,36.7
2014,1,37.0,35.7,42.0,36.5,25.0,38.8
2014,2,31.0,36.9,24.0,37.6,39.0,37.1


In [157]:
data_mean = health_data.mean(level='year')
data_mean

  data_mean = health_data.mean(level='year')


subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,51.5,35.95,23.0,36.7,33.0,35.7
2014,34.0,36.3,33.0,37.05,32.0,37.95


In [158]:
data_mean = health_data.groupby(level='year').mean()
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,51.5,35.95,23.0,36.7,33.0,35.7
2014,34.0,36.3,33.0,37.05,32.0,37.95


In [159]:
data_mean.groupby(level='type', axis=1).mean()

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,35.833333,36.116667
2014,33.0,37.1


In [160]:
data_mean.mean(axis=1, level='type')

  data_mean.mean(axis=1, level='type')


type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,35.833333,36.116667
2014,33.0,37.1


## Combining Datasets: Concat and Append

Một số nghiên cứu thú vị nhất về dữ liệu đến từ việc kết hợp các nguồn dữ liệu khác nhau. Các hoạt động này có thể liên quan đến bất cứ điều gì, từ nối rất đơn giản của hai tập dữ liệu khác nhau, đến các phép kết hợp và hợp nhất kiểu cơ sở dữ liệu phức tạp hơn để xử lý chính xác bất kỳ sự chồng chéo nào giữa các tập dữ liệu. Series và DataFrames được xây dựng có lưu ý đến kiểu hoạt động này và Pandas bao gồm các chức năng và phương pháp giúp cho loại dữ liệu bao bọc này diễn ra nhanh chóng và đơn giản

In [161]:
def make_df(cols, ind) :
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

# example dataframe
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### Recall: Concatenation of NumPy Arrays

In [162]:
x = [1,2,3]
y = [4,5,6]
z = [7,8,9]
np.concatenate([x,y,z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [163]:
x = [[1,2],[3,4]]
np.concatenate([x,x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [164]:
np.concatenate([x,x], axis=0)

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

### Simple Concatenation with pd.concat

In [165]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1,2,3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4,5,6])
ser1

1    A
2    B
3    C
dtype: object

In [166]:
ser2

4    D
5    E
6    F
dtype: object

In [167]:
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [168]:
pd.concat([ser1, ser2], axis=1)

Unnamed: 0,0,1
1,A,
2,B,
3,C,
4,,D
5,,E
6,,F


In [169]:
df1 = make_df('AB', [1,2])
df2 = make_df('AB', [3,4])
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [170]:
df2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4


In [171]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [172]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
df3

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [173]:
df4

Unnamed: 0,C,D
0,C0,D0
1,C1,D1


In [174]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


Duplicate indices

In [175]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
x 

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [176]:
y

Unnamed: 0,A,B
2,A2,B2
3,A3,B3


In [177]:
y.index = x.index
pd.concat([x, y])

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


Catching the repeats as an error.

In [178]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e: 
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


Ignoring the index.

Đôi khi bản thân chỉ mục không quan trọng và bạn chỉ muốn bỏ qua nó. Bạn có thể chỉ định tùy chọn này bằng cách sử dụng cờ ignore_index. Với việc đặt này thành True, phép nối sẽ tạo ra một chỉ mục số nguyên mới cho kết quả

In [179]:
pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


Adding MultiIndex keys

In [180]:
pd.concat([x, y], keys=['x', 'y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


Concatenation with joins

Trong các ví dụ đơn giản mà chúng ta vừa xem xét, chúng ta chủ yếu nối các DataFrame với các tên cột được chia sẻ. Trong thực tế, dữ liệu từ các nguồn khác nhau có thể có các bộ tên cột khác nhau và pd.concat cung cấp một số tùy chọn trong trường hợp này.

In [181]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print(df5)
print(df6)
print(pd.concat([df5, df6]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


Theo mặc định, các mục nhập không có sẵn dữ liệu được điền bằng các giá trị NA. Để thay đổi điều này, chúng ta có thể chỉ định một trong một số tùy chọn cho tham số join

In [182]:
df5

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


In [183]:
df6

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


In [184]:
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


In [185]:
pd.concat([df5, df6], join='outer')

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [186]:
# pd.concat([df5, df6], join_axes=[df5.columns])

The append() method

In [187]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [188]:
df2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4


In [189]:
df1.append(df2)

  df1.append(df2)


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


## Combining Datasets: Merge and Join

### Relational Algebra - Đại số quan hệ

Hành vi được triển khai trong pd.merge () là một tập con của cái được gọi là đại số quan hệ, là một tập hợp các quy tắc chính thức để thao tác dữ liệu quan hệ và hình thành nền tảng khái niệm của các phép toán có sẵn trong hầu hết các cơ sở dữ liệu. Điểm mạnh của phương pháp đại số quan hệ là nó đề xuất một số phép toán nguyên thủy, những phép toán này trở thành nền tảng của các phép toán phức tạp hơn trên bất kỳ tập dữ liệu nào. Với từ vựng về các phép toán cơ bản này được triển khai hiệu quả trong cơ sở dữ liệu hoặc chương trình khác, một loạt các phép toán tổng hợp khá phức tạp có thể được thực hiện.
Pandas triển khai một số khối xây dựng cơ bản này trong hàm pd.merge () và phương thức join () liên quan của Series và DataFrames. Như chúng ta sẽ thấy, chúng cho phép bạn liên kết dữ liệu từ các nguồn khác nhau một cách hiệu quả.

### Categories of Joins

Hàm pd.merge () thực hiện một số kiểu nối: phép nối một-một, nhiều-một và nhiều-nhiều. Tất cả ba loại liên kết được truy cập thông qua một lệnh gọi giống hệt nhau đến giao diện pd.merge (); kiểu nối được thực hiện phụ thuộc vào dạng dữ liệu đầu vào. Ở đây chúng tôi sẽ đưa ra các ví dụ đơn giản về ba loại hợp nhất và thảo luận thêm về các tùy chọn chi tiết bên dưới.

One-to-one joins

In [190]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [191]:
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],'hire_date': [2004, 2008, 2012, 2014]})
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [192]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Many-to-one joins

In [193]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],'supervisor': ['Carly', 'Guido', 'Steve']})
df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [194]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


Many-to-many joins

In [195]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})
df5

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


In [196]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [197]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


### Specification of the Merge Key

The `on` keyword

In [198]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [199]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [200]:
pd.merge(df1, df2, on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


The `left_on` and `right_on` keywords

In [201]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'salary': [70000, 80000, 120000, 90000]})
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000


In [202]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [203]:
pd.merge(df1, df3, left_on='employee', right_on='name')

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [204]:
pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


The `left_index` and `right_index` keywords

In [205]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [206]:
df1a = df1.set_index('employee')
df1a

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR


In [207]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [208]:
df2a = df2.set_index('employee')
df2a

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014


In [209]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [210]:
df1a.join(df2a)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


### Specifying Set Arithmetic for Joins


In [211]:
df6 = pd.DataFrame({'name':['Peter', 'Paul', 'Mary'], 'food':['bacon', 'baked beans', 'beans']})
df6

Unnamed: 0,name,food
0,Peter,bacon
1,Paul,baked beans
2,Mary,beans


In [212]:
df7 = pd.DataFrame({'name':['Mary', 'Joseph'], 'drink':['wine', 'beer']})
df7

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


In [213]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,beans,wine


In [214]:
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Peter,bacon,
1,Paul,baked beans,
2,Mary,beans,wine
3,Joseph,,beer


In [215]:
pd.merge(df6, df7, how='left') # Chỉ lấy các bản ghi trong df6

Unnamed: 0,name,food,drink
0,Peter,bacon,
1,Paul,baked beans,
2,Mary,beans,wine


### Overlapping Column Names: The suffixes Keyword

Finally, you may end up in a case where your two input DataFrames have conflicting column names.

In [216]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [1, 2, 3, 4]})
df8

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


In [217]:
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [3, 1, 4, 2]})
df9

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


In [218]:
pd.merge(df8, df9, on='name')

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


Bởi vì đầu ra sẽ có hai tên cột xung đột, hàm hợp nhất sẽ tự động thêm hậu tố _x hoặc _y để làm cho các cột đầu ra là duy nhất

In [219]:
df8

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


In [220]:
df9

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


In [221]:
pd.merge(df8, df9, on='name', suffixes=['_df8', '_df9'])

Unnamed: 0,name,rank_df8,rank_df9
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


### Example: US States Data

In [222]:
pop = pd.read_csv('data/state-population.csv')
areas = pd.read_csv('data/state-areas.csv')
abrevs = pd.read_csv('data/state-abbrevs.csv') # Viết tắt

In [223]:
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [224]:
areas.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


In [225]:
abrevs.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


Đầu tiên, bắt đầu với many-to-one merge để có full state name, Sử dụng how = 'outer' để đảm bảo không bị mất giữ liệu.

In [226]:
merged = pd.merge(pop, abrevs, how='outer', left_on='state/region', right_on='abbreviation')
merged.head()


Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AL,under18,2012,1117489.0,Alabama,AL
1,AL,total,2012,4817528.0,Alabama,AL
2,AL,under18,2010,1130966.0,Alabama,AL
3,AL,total,2010,4785570.0,Alabama,AL
4,AL,under18,2011,1125763.0,Alabama,AL


In [227]:
merged = merged.drop(columns='abbreviation')
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [228]:
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

In [229]:
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,


Có vẻ như tất cả các giá trị dân số rỗng là từ Puerto Rico trước năm 2000; điều này có thể do dữ liệu này không có sẵn từ nguồn ban đầu.
Quan trọng hơn, chúng tôi cũng thấy rằng một số mục nhập trạng thái mới cũng rỗng, có nghĩa là không có mục nhập tương ứng trong khóa viết tắt!

In [230]:
merged.loc[(merged['state'].isnull()), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

Chúng tôi có thể nhanh chóng suy ra vấn đề: dữ liệu dân số của chúng tôi bao gồm các mục nhập cho Puerto Rico (PR) và Hoa Kỳ nói chung (Hoa Kỳ), trong khi các mục nhập này không xuất hiện trong khóa viết tắt của tiểu bang. Chúng tôi có thể khắc phục những vấn đề này một cách nhanh chóng bằng cách điền vào các mục nhập thích hợp:

In [231]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

In [232]:
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


In [233]:
areas.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


In [234]:
final = pd.merge(merged, areas, on='state',how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [235]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [236]:
final['state'][final['area (sq. mi)'].isnull()].unique()

array(['United States'], dtype=object)

In [237]:
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


In [238]:
final.isnull().any()

state/region     False
ages             False
year             False
population       False
state            False
area (sq. mi)    False
dtype: bool

Dùng hàm query để lấy dữ liệu năm 2010

In [239]:
data2000 = final.query("year == 2010 & ages == 'total'")
data2000.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


In [240]:
data2000.set_index('state', inplace=True)
data2000.head()

Unnamed: 0_level_0,state/region,ages,year,population,area (sq. mi)
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Alabama,AL,total,2010,4785570.0,52423.0
Alaska,AK,total,2010,713868.0,656425.0
Arizona,AZ,total,2010,6408790.0,114006.0
Arkansas,AR,total,2010,2922280.0,53182.0
California,CA,total,2010,37333601.0,163707.0


In [241]:
density = data2000['population'] / data2000['area (sq. mi)']
density.head()

state
Alabama        91.287603
Alaska          1.087509
Arizona        56.214497
Arkansas       54.948667
California    228.051342
dtype: float64

In [242]:
density.sort_values(ascending=True, inplace=True)
density.head()

state
Alaska           1.087509
Wyoming          5.768079
Montana          6.736171
North Dakota     9.537565
South Dakota    10.583512
dtype: float64

In [243]:
density.tail()

state
Connecticut              645.600649
Rhode Island             681.339159
New Jersey              1009.253268
Puerto Rico             1058.665149
District of Columbia    8898.897059
dtype: float64

## Aggregation and Grouping

Một phần thiết yếu của phân tích dữ liệu lớn là tóm tắt hiệu quả: tính toán các tổng hợp như sum (), mean (), median (), min () và max (), trong đó một số đơn lẻ cung cấp thông tin chi tiết về bản chất của một tập dữ liệu lớn tiềm năng. Trong phần này, chúng ta sẽ khám phá các tổng hợp trong Pandas, từ các phép toán đơn giản giống với những gì chúng ta đã thấy trên mảng NumPy, đến các phép toán phức tạp hơn dựa trên khái niệm nhóm.

### Planets Data

In [244]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

In [245]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


### Simple Aggregation in Pandas

In [246]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, size=5))
ser

0    6
1    3
2    7
3    4
4    6
dtype: int64

In [247]:
ser.sum()

26

In [248]:
ser.mean()

5.2

In [249]:
df = pd.DataFrame({'A': rng.rand(5),'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.445833,0.650888
1,0.099975,0.056412
2,0.459249,0.721999
3,0.333709,0.938553
4,0.142867,0.000779


In [250]:
df.mean()

A    0.296326
B    0.473726
dtype: float64

In [251]:
df.mean(axis=1)

0    0.548361
1    0.078193
2    0.590624
3    0.636131
4    0.071823
dtype: float64

In [252]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


The following table summarizes some other built-in Pandas aggregations:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

These are all methods of ``DataFrame`` and ``Series`` objects.

### GroupBy: Split, Apply, Combine

**Split, apply, combine**

Split, Apply, Combine

![](figures/03.08-split-apply-combine.png)

In [253]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [254]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x132cd3e50>

In [255]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


**Column indexing.**

In [256]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [257]:
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x132ce04f0>

In [258]:
planets['method'].unique()

array(['Radial Velocity', 'Imaging', 'Eclipse Timing Variations',
       'Transit', 'Astrometry', 'Transit Timing Variations',
       'Orbital Brightness Modulation', 'Microlensing', 'Pulsar Timing',
       'Pulsation Timing Variations'], dtype=object)

In [259]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

**Iteration over groups.**

In [260]:
for (method, group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)


**Dispatch methods.**

In [263]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


**Aggregate, filter, transform, apply**

aggregate: Tổng hợp lại

In [264]:
rng = np.random.RandomState(42)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data1': rng.rand(6), 'data2': rng.randint(0, 10, 6)}, columns=['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0.37454,7
1,B,0.950714,4
2,C,0.731994,3
3,A,0.598658,7
4,B,0.156019,7
5,C,0.155995,2


In [265]:
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0.37454,0.486599,0.598658,7,7.0,7
B,0.156019,0.553366,0.950714,4,5.5,7
C,0.155995,0.443994,0.731994,2,2.5,3


In [269]:
def filter_func(x):
    return x['data2'].std() > 0.4

df

Unnamed: 0,key,data1,data2
0,A,0.37454,7
1,B,0.950714,4
2,C,0.731994,3
3,A,0.598658,7
4,B,0.156019,7
5,C,0.155995,2


In [270]:
df.groupby('key').std()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0.158476,0.0
B,0.561935,2.12132
C,0.407293,0.707107


In [271]:
df.groupby('key').filter(filter_func)

Unnamed: 0,key,data1,data2
1,B,0.950714,4
2,C,0.731994,3
4,B,0.156019,7
5,C,0.155995,2


In [272]:
df.groupby('key').filter(lambda x: x['data2'].std() > 0.4)

Unnamed: 0,key,data1,data2
1,B,0.950714,4
2,C,0.731994,3
4,B,0.156019,7
5,C,0.155995,2


## Pivot Tables

Chúng tôi đã thấy cách trừu tượng hóa GroupBy cho phép chúng tôi khám phá các mối quan hệ trong một tập dữ liệu. Bảng tổng hợp là một thao tác tương tự thường thấy trong bảng tính và các chương trình khác hoạt động trên dữ liệu dạng bảng. Bảng tổng hợp lấy dữ liệu theo cột đơn giản làm đầu vào và nhóm các mục nhập vào một bảng hai chiều cung cấp một bản tóm tắt đa chiều về dữ liệu. Sự khác biệt giữa bảng tổng hợp và GroupBy đôi khi có thể gây nhầm lẫn; nó giúp tôi nghĩ về bảng tổng hợp về cơ bản là một phiên bản đa chiều của tập hợp GroupBy. Có nghĩa là, bạn tách-áp-dụng-kết hợp, nhưng cả tách và kết hợp xảy ra trên không phải chỉ mục một chiều, mà trên lưới hai chiều.

### Motivating Pivot Tables

In [273]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### Pivot Tables by Hand

In [274]:
titanic.groupby('sex')[['survived']].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [275]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


### Pivot Table Syntax

In [276]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


**Multilevel pivot tables**

In [277]:
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived',['sex', age], 'class')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


In [279]:
age

0      (18.0, 80.0]
1      (18.0, 80.0]
2      (18.0, 80.0]
3      (18.0, 80.0]
4      (18.0, 80.0]
           ...     
886    (18.0, 80.0]
887    (18.0, 80.0]
888             NaN
889    (18.0, 80.0]
890    (18.0, 80.0]
Name: age, Length: 891, dtype: category
Categories (2, interval[int64, right]): [(0, 18] < (18, 80]]

In [278]:
fare = pd.qcut(titanic['fare'],2)
fare

0       (-0.001, 14.454]
1      (14.454, 512.329]
2       (-0.001, 14.454]
3      (14.454, 512.329]
4       (-0.001, 14.454]
             ...        
886     (-0.001, 14.454]
887    (14.454, 512.329]
888    (14.454, 512.329]
889    (14.454, 512.329]
890     (-0.001, 14.454]
Name: fare, Length: 891, dtype: category
Categories (2, interval[float64, right]): [(-0.001, 14.454] < (14.454, 512.329]]

In [280]:
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

Unnamed: 0_level_0,fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,class,First,Second,Third,First,Second,Third
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


**Additional pivot table options**

In [282]:
titanic.pivot_table(index='sex', columns='class',aggfunc={'survived': sum, 'fare': 'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


In [283]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


### Example: Birthrate Data

In [286]:
births = pd.read_csv('data/births.csv')
births.head()

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548
