In [None]:
#https://pandas.pydata.org/docs/reference/frame.html

In [None]:
import pandas as pd
import numpy as np
# DataFrame 是一個資料表，包含列與欄，兩者都有索引，各欄可以有不同的資料型態
data = {'城市':['台中', '台中', '台中', '高雄', '高雄', '高雄'],
        '年份':[2016, 2017, 2018, 2016, 2017, 2018],
        '人口數':[276, 278, 280, 277, 277, 277]}

In [None]:
df = pd.DataFrame(data)
df

In [None]:
print(df.dtypes)
df.select_dtypes(include='int64')

In [None]:
#產生 DataFrame 時一併提供欄位順序
df = pd.DataFrame(data, columns=['年份', '城市', '人口數'])
df

In [None]:
#欄位標籤：Index 物件
print(df.columns)
print('-----')
print(df.columns[2])
print('-----')
#索引值：類似 Python 的 range 物件
print(df.index)

In [None]:
#資料值：NumPy 的二維陣列結構
print(df.values)
print('-----')
print(df["城市"].values)

In [None]:
print('the number of axes / array dimensions:',df.ndim)
print('-----')
print(' the dimensionality of the DataFrame:',df.shape)
print('-----')
print(' the number of rows times number of columns:',df.size)
print('-----')
print(' row count:',len(df))


In [None]:
# 可設定欄位與索引標籤；如果標籤不存在，會新增欄位並顯示遺漏值
df2 = pd.DataFrame(data, columns=['年份', '城市', '人口數', '負債'],
                   index=['一', '二', '三', '四', '五', '六'])
df2

In [None]:
#以欄位標籤取出資料，結果之 Series 的索引與原 DataFrame 相同，且自動設定名稱
s = df2['年份']
print(type(s))
s

In [None]:
#以列索引標籤取出資料，結果之 Series 的欄位標籤與原 DataFrame 相同，且自動設定名稱
s = df2.loc['三']
print(s)
print('-----')
print(s['城市'],s['人口數'])
#Use at if you only need to get or set a single 
print('at:',s.at['人口數'])

In [None]:
#DataFrame.items
#returning a tuple with the column name and the content as a Series
print(df.items)
for label, content in df.items():
    print(f'label: {label}')
    print(f'content:\n {content}', sep='\n')

In [None]:
#DataFrame.pop ,drop column
df_copy=df2.copy()
print('-----')
df_copy.pop('城市')
df_copy

In [None]:
#pandas.DataFrame.filter
#Subset the dataframe rows or columns according to the specified index labels
print(df2.filter(items=['年份','人口數']))
print(df2[['年份','人口數']])

In [None]:
#pandas.DataFrame.where  Replace values where the condition is False
print(df_copy.where(df_copy['人口數']>=278, 100))
print('-----')
#pandas.DataFrame.mask  Replace values where the condition is True
print(df_copy.mask(df_copy['人口數']>=278, 0))
print('-----')
print(df_copy.iloc[np.where(df_copy['人口數']>=278)])
print('-----')
print(df_copy.loc[df_copy['人口數']>=278])
print('-----')
#pandas.DataFrame.query
print(df_copy.query('人口數>=277 & 年份==2018'))
print('-----')

In [None]:
#設定符合欄位標籤的資料值，可給純量或陣列
df2['負債'] = 10000
df2

In [None]:
df2['負債'] = np.arange(1000, 1600, 100)
df2

In [None]:
#新增欄位，其資料由原表之資料計算而得
df2['中部'] = (df2['城市']=='台中')
df2['地區'] = "xxx"
df2.loc[df2.城市 == '台中', '地區'] = '中部'
df2

In [None]:
df2['負債'] = df2['人口數'] * 100
print(df2)

In [None]:
#pandas.DataFrame.transform  
#Call func on self producing a DataFrame with transformed values
df2['count'] = df2.groupby('城市')['人口數'].transform(len)
df2['sum'] = df2.groupby('城市')['人口數'].transform(sum)
df2

In [None]:
#pandas.DataFrame.expanding
#DataFrame.expanding(min_periods=1, center=None, axis=0)
df2['人口數'].expanding(1).sum()

In [None]:
#pandas.DataFrame.cummax/cummin/cumprod/cumsum/diff
print(df2)
#每一列中找到最大值
print(df2.cummax())
#找到每行中的最大值 
df3=df2[['年份','人口數']]
print(df3.cummax(axis=1))
#the sum in each row
print(df3.cumsum(axis=1))
# difference with previous row
print(df3.diff())

In [None]:
#pandas.DataFrame.quantile
#DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpolation='linear')
print(df.quantile(0.5,numeric_only=True))
print(df.quantile(0.25,numeric_only=True))
#pandas.DataFrame.duplicated
print(df.loc[df['年份'].duplicated()])

In [None]:
#DataFrame 轉置
df2.T

In [None]:
#以 loc 與 iloc 選取 DataFrame 的列資料 by index
df2.loc[['三', '六']]

In [None]:
df2.loc['三':'六']
#df2.loc['三':'六',:'負債'] # 連續欄與列切片

In [None]:
#iloc：Integer location (整數位址)
df2.iloc[:2,1:3]

In [None]:
#DataFrame 重新索引
s2 = df2.reindex(['一', '三','五', '二', '四', '六'])
s2

In [None]:
s2['a']=np.where(s2['城市']=='台中',2,3)
s2

In [None]:
#pandas.DataFrame.reindex
#DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)
s3 = df2.reindex(columns=['年份','城市','中部','人口數','負債','aaa'])
print(s3)
#pandas.DataFrame.reindex_like
#DataFrame.reindex_like(other, method=None, copy=True, limit=None, tolerance=None)
print(df_copy)
df_copy.reindex_like(s3)

In [None]:
#刪除 DataFrame 資料
df3 = pd.DataFrame(np.arange(16).reshape(4, 4),
                  index=['台北', '台中', '台南', '高雄'],
                  columns=[1, 2, 3, 4])
df3

In [None]:
#刪除列
df3.drop(['台北', '台中'])

In [None]:
df3.drop([2, 3], axis='columns')

In [None]:
#更改原物件：給 inplace=True 參數
df3.drop([2, 3], axis='columns', inplace=True)
df3

In [None]:
#DataFrame 運算時，索引值不一致者則設為遺漏值
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('二三四'),
                   index=['台北', '台中', '台南'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('二四五'),
                   index=['高雄', '台北', '台中', '新北'])
#df1 + df2
print(df1)
print(df2)
df1 + df2

In [None]:
print(df)
#DataFrame  指定欄位，依資料排序，小到大
df.sort_values(by='人口數')
df.sort_values(by=['年份', '人口數']) 

In [None]:
#複製資料框
df_copy = df.copy()
df_copy

In [None]:
#描述性統計
df4 = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df4

In [None]:
df4.sum()    # 縱向加總，NaN 視為 0
df4.sum(axis='columns')    # 橫向加總

In [None]:
print(df4.shape) # 回傳列數與欄數  
print("---")  
print(df4.describe()) # 回傳描述性統計  
print("---")  
print(df4.head(3)) # 回傳前三筆觀測值  
print("---")  
print(df4.tail(3)) # 回傳後三筆觀測值  
print("---")  
print(df4.info) # 回傳資料內容

In [None]:
方法	說明
count()	非 NaN 值的數量
describe()	摘要統計
min(), max()	最小、最大值
idxmin(), idxmax()	計算最小、最大值所在的標籤位置
quantile()	從 0 到 1 計算樣本分位數
sum()	加總
mean()	平均
median()	中位數
mad()	相對於平均值的平均絕對偏差 (Mean absolute deviation)
prod()	所有值的乘積
var()	變異數
std()	標準差
skew()	偏度
kurt()	峰度
cumsum()	累加
cummin(), cummax()	累加最小、最大值
cumprod()	累積
diff()	第一離散元素差
pct_change()	變動百分比

In [None]:
#出現頻率
#df_copy.value_counts()
df_copy[['年份','城市']].value_counts()

In [None]:
#布林值來做篩選
out_df = df[df.loc[:,"年份"] >= 2017] # 選出年份>= 2017 的群組  
print(out_df) 

In [None]:
#pandas.DataFrame.isna
newdf = pd.DataFrame(dict(age=[5, 6, np.NaN],
                   born=[pd.NaT, pd.Timestamp('1939-05-27'),
                         pd.Timestamp('1940-04-25')],
                   name=['Alfred', 'Batman', ''],
                   toy=[None, 'Batmobile', 'Joker']))
newdf

In [None]:
print(newdf.isna())
newdf.isnull()

In [None]:
newdf.fillna(0)
# print(newdf)
