# Pandas 基礎

## 匯入 pandas 函式庫

In [1]:
import pandas as pd
pd.__version__

'0.23.4'

首先我們先介紹三個基本的 pandas 資料結構: Series、Dataframe、Index

## Pandas Series 物件

Pandas Series 是一個被索引資料的一維陣列，可以使用一個陣列來建立

Series 物件除了值之外，也包含一系列的索引

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
print(data[1],'\n')
print(data[0:3])

0.5 

0    0.25
1    0.50
2    0.75
dtype: float64


### 把 Series 當作是 Numpy array

Numpy array 預設是以 整數 作為索引來存取值，而 Series 則可以 **明確的定義** 和值相關聯的索引

In [7]:
data = pd.Series( [0.25, 0.5, 0.75, 1] ,
                  index = ['a','b','c','d'])

In [8]:
data['b']

0.5

### 把 Series 當作是 Dictionary

如上所見，整個結果很像 Pytohn 中的 dictionary，就是一個 key 和 value 的對應值

然而，Pandas 的型態資訊讓它比 Python 的字典更有效率

In [9]:
people_count = {'China':160000,
                'Taiwan':2300,
                'Japan':12000,
                'French':9000,
                'Russia':23000}

In [11]:
population = pd.Series(people_count)
population

China     160000
Taiwan      2300
Japan      12000
French      9000
Russia     23000
dtype: int64

In [12]:
population['Taiwan']

2300

然而並不像 Python 的 Dictionary，Pandas Series 可以去做陣列型式的操作

In [14]:
population['China':'French']

China     160000
Taiwan      2300
Japan      12000
French      9000
dtype: int64

### 創建 Series

基本的創建方式可以為先打我們的 data 陣列，再打  Index 陣列

In [15]:
pd.Series([2,3,4,6,7], index=[1,2,3,4,5])

1    2
2    3
3    4
4    6
5    7
dtype: int64

如果是純量，我們可以用 index 來定義它的多寡

In [16]:
pd.Series(3,index=[12,23,45])

12    3
23    3
45    3
dtype: int64

也可以用字典來建立，但關於 key 這方面，若 index 有指定次序，則以 index 為主

In [21]:
pd.Series( {'a':2, 'b':4, 'c':6} )

a    2
b    4
c    6
dtype: int64

In [22]:
pd.Series( {'a':2, 'b':4, 'c':6} , index = ['a','c'])

a    2
c    6
dtype: int64

## Pandas Dataframe 物件

若把 Series 當作是可以彈性設定索引的一維陣列，Dataframe 則可以當作是彈性設定索引的二維陣列

In [23]:
people_count = {'China':160000,
                'Taiwan':2300,
                'Japan':12000,
                'French':9000,
                'Russia':23000}
population = pd.Series(people_count)
population

China     160000
Taiwan      2300
Japan      12000
French      9000
Russia     23000
dtype: int64

In [24]:
death_raio = {'China':4,
              'Taiwan':2.1,
              'Japan':3,
              'French':2,
              'Russia':2.7}
death = pd.Series(death_raio)
death

China     4.0
Taiwan    2.1
Japan     3.0
French    2.0
Russia    2.7
dtype: float64

In [27]:
states = pd.DataFrame({'population':population, 'death':death})
states

Unnamed: 0,population,death
China,160000,4.0
Taiwan,2300,2.1
Japan,12000,3.0
French,9000,2.0
Russia,23000,2.7
