# 0 Import

In [1]:
import pandas as pd
import numpy as np

from my_pandas_extensions.database import collect_data

df = collect_data()

df.head()

Unnamed: 0,order_id,order_line,order_date,quantity,price,total_price,model,category_1,category_2,frame_material,bikeshop_name,city,state
0,1,1,2011-01-07,1,6070,6070,Jekyll Carbon 2,Mountain,Over Mountain,Carbon,Ithaca Mountain Climbers,Ithaca,NY
1,1,2,2011-01-07,1,5970,5970,Trigger Carbon 2,Mountain,Over Mountain,Carbon,Ithaca Mountain Climbers,Ithaca,NY
2,2,1,2011-01-10,1,2770,2770,Beast of the East 1,Mountain,Trail,Aluminum,Kansas City 29ers,Kansas City,KS
3,2,2,2011-01-10,1,5970,5970,Trigger Carbon 2,Mountain,Over Mountain,Carbon,Kansas City 29ers,Kansas City,KS
4,3,1,2011-01-10,1,10660,10660,Supersix Evo Hi-Mod Team,Road,Elite Road,Carbon,Louisville Race Equipment,Louisville,KY


# 1 Python 的 資料結構

## 1.1 萬物皆 Objects

* python 是物件導向的語言，所以所有你看到的東西，都是 object
* 舉例來說，我看一下剛剛讀到的 `df` 是什麼 type

In [2]:
type(df)

pandas.core.frame.DataFrame

* 顯示為 `pandas.core.frame.DataFrame`，他的意思是： pandas 底下的 `core` module，底下的 `frame` sub-module，底下的 `DataFrame` 這個 class  
* 如果我們用 `type(df).mro()`，那就可以 get the object's inheritance structure in the order that methods are searched for  
* 看看結果：

In [6]:
type(df).mro()

[pandas.core.frame.DataFrame,
 pandas.core.generic.NDFrame,
 pandas.core.base.PandasObject,
 pandas.core.accessor.DirNamesMixin,
 pandas.core.base.SelectionMixin,
 pandas.core.indexing.IndexingMixin,
 object]

* 可以看到，`pandas.core.frame.DataFrame` 這個 class，他是一路繼承下來。最源頭的叫做 object
* 再舉個例子，我們看看很單純的 string，他長怎樣：

In [4]:
print(type("my_string"))
print(type("my_string").mro())

<class 'str'>
[<class 'str'>, <class 'object'>]


* 可以看到，他的 type 是 string，但他也是從 object 繼承下來。  
* 那 object 的特色，就是他有 `attributes` 和 `methods`  
* 在 VSCode 中，你只要在一個 object 的後面加上 `.`，並按 `tab` 鍵後，就會看到對應的 attributes 和 methods：
  * attributes 會用 `板手` 的圖示  
  * methods 會用 `立方體` 的圖示  
* 舉例來說，剛剛的 `df` 是個 pandas 的 DataFrame 物件，他就有 `df.columns` 這個 attribute，以及 `df.to_csv()` 這個 method 

## 1.2 分析資料時會碰到的資料結構

* python 有許多資料結構，但我們在分析資料時，最常碰到的，就是 `Pandas Data Frame` -> `Pandas Series` -> `Numpy Array` 這三個 (同時階層關係也是這樣)  
* 舉例來說：
  * `numpy array` 就是單純的 array ，他有的 methods 都是 `.sum()`, `.mean()` 這些  
  * `pandas series` 是建立在 numpy array 之上的 class，他幫 numpy array 又加上了 `index` 和一些 `meta data`(例如 series name)，所以他有更豐富的 attributes 和 methods 可以用
  * `pandas DataFrame` 是 建立在 pandas series 之上的 class，因為一個 column 就是一個 pandas series。  
* 我們來看一下剛剛的 `df` 物件 (他是 `pandas DataFrame`)，一路把它拆解到 numpy array

In [11]:
print("---- df 的 type ----")
print(type(df))

print("---- 抽出 total price 這個 series ----")
print(df.total_price)
print("---- series 的 type ----")
print(type(df.total_price))

print("---- 從 series 中取出他的 value，就會是 numpy array ----")
print(df.total_price.values)
print("---- 看一下他的 type ----")
print(type(df.total_price.values))

---- df 的 type ----
<class 'pandas.core.frame.DataFrame'>
---- 抽出 total price 這個 series ----
0         6070
1         5970
2         2770
3         5970
4        10660
         ...  
15639     2660
15640     1350
15641     1680
15642     2880
15643     3200
Name: total_price, Length: 15644, dtype: int64
---- series 的 type ----
<class 'pandas.core.series.Series'>
---- 從 series 中取出他的 value，就會是 numpy array ----
[6070 5970 2770 ... 1680 2880 3200]
---- 看一下他的 type ----
<class 'numpy.ndarray'>


## 1.3 Python 原生的資料結構

* python 原生的 data types 和 data structure 包括：  
  * data structure: `dictionary`, `list`, `tuple`  
  * data types: `int`, `float`, `str`, `bool`

### 1.3.1 dictionary

In [15]:
d = {'a': 1, 'b': 2}
print(d)

{'a': 1, 'b': 2}


In [20]:
print(d.keys()) # 拿所有的 keys
print(d.values()) # 拿所有的 values
print(d.get("a")) # 拿指定的 key 所對應的 values

dict_keys(['a', 'b'])
dict_values([1, 2])
1


### 1.3.2 list

In [21]:
my_list = [1, "A", [2, "B"]]
print(my_list)

[1, 'A', [2, 'B']]


In [23]:
print(my_list[0]) # 取出 index = 0 的 element
print(list(d.values())) # 用 list() 將 dictionary 的 type 轉成 list

1
[1, 2]


### 1.3.3 tuple

In [25]:
my_tuple = (10, 20)
print(my_tuple)

(10, 20)


In [29]:
print(my_tuple[0]) # 取出 index = 0 的值
# my_tuple[0] = 33 # 會出現 error，因為 tuple 是不可更改的類型

10


### 1.3.4 base data types

In [31]:
print(type(1)) # 1 是 integer
print(type(1.3)) # 1.3 是 float
print(type("my_string")) # "my_string" 是字串
print(type(True)) # True 是 boolean

<class 'int'>
<class 'float'>
<class 'str'>
<class 'bool'>


## 1.4 casting (資料類別轉換)

### 1.4.1 數值 轉 字串

In [35]:
model = "Jekyll Carbon 2"
price = 6070

# model + price # 會出現 error，因為 type 不同
print(model + str(price)) # 用 str() 把 數值轉成字串，就 ok 了
print(f"The first model is: {model}, and the price is: {price}") # 這樣做更漂亮

Jekyll Carbon 26070
The first model is: Jekyll Carbon 2, and the price is: 6070


### 1.4.2 sequence to list, numpy array, series, dataframe

* sequence 的例子如 `seq = range(1,10)`，那他其實是個 generator，沒有真的做出來，那我們可以用：  
  * `list(seq)` 把他變成 list  
  * `np.array(seq)` 把他變成 numpy array  
  * `pd.Series(seq)` 把他變成 pandas series  
  * `pd.Series(seq).to_frame()` 把他變成 pandas DataFrame  
* 來看看效果：

In [36]:
seq = range(1, 10)
print(seq)

range(1, 10)


In [37]:
print(list(seq))
print(np.array(seq))
print(pd.Series(seq))
print(pd.Series(seq).to_frame())

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[1 2 3 4 5 6 7 8 9]
0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64
   0
0  1
1  2
2  3
3  4
4  5
5  6
6  7
7  8
8  9


### 1.4.3 pandas series 的 dtype 轉換

* pandas series 的 type，叫 dtype，看個例子：

In [38]:
df['order_date']

0       2011-01-07
1       2011-01-07
2       2011-01-10
3       2011-01-10
4       2011-01-10
           ...    
15639   2015-12-25
15640   2015-12-25
15641   2015-12-25
15642   2015-12-25
15643   2015-12-25
Name: order_date, Length: 15644, dtype: datetime64[ns]

* 可以看到，最後有寫 `dtype: datetime64[ns]`  
* 那如果我想把這個 column 的格式，轉成 string，我該怎麼做呢？
  * 錯誤做法： `str(df['order_date])` ，這樣做，他會把整個 series 的外面加個雙引號，變成只有一個 element 的大字串  
  * 正確做法： `df['order_date'].astype('str')`
* 來看看這兩種做法吧：

In [43]:
str(df['order_date']) # 變成只有一個 element 的大字串

'0       2011-01-07\n1       2011-01-07\n2       2011-01-10\n3       2011-01-10\n4       2011-01-10\n           ...    \n15639   2015-12-25\n15640   2015-12-25\n15641   2015-12-25\n15642   2015-12-25\n15643   2015-12-25\nName: order_date, Length: 15644, dtype: datetime64[ns]'

In [44]:
df['order_date'].astype('str')

0        2011-01-07
1        2011-01-07
2        2011-01-10
3        2011-01-10
4        2011-01-10
            ...    
15639    2015-12-25
15640    2015-12-25
15641    2015-12-25
15642    2015-12-25
15643    2015-12-25
Name: order_date, Length: 15644, dtype: object