#df.head()｜檢視前五筆的資料。
#df.tail()｜檢視最後五筆的資料。
#df.columns｜檢視數據的欄位名稱。
#df.shape｜檢視數據欄、列的數量，會以 (欄, 列) 方式呈現。
#df.info()｜檢視各個欄位的資料型態與該欄位的資料數量。
#df.describe()｜檢視整體資料的標準差、平均值等基本統計資料。

In [2]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
print(df)

       show_id     type                                        title  \
0     81145628    Movie      Norm of the North: King Sized Adventure   
1     80117401    Movie                   Jandino: Whatever it Takes   
2     70234439  TV Show                           Transformers Prime   
3     80058654  TV Show             Transformers: Robots in Disguise   
4     80125979    Movie                                 #realityhigh   
...        ...      ...                                          ...   
6229  80000063  TV Show                                 Red vs. Blue   
6230  70286564  TV Show                                        Maron   
6231  80116008    Movie       Little Baby Bum: Nursery Rhyme Friends   
6232  70281022  TV Show  A Young Doctor's Notebook and Other Stories   
6233  70153404  TV Show                                      Friends   

                      director  \
0     Richard Finn, Tim Maltby   
1                          NaN   
2                          NaN   

#一.Pandas遺漏資料清理
#dropna()：只要該筆資料有遺漏就刪除。
#dropna(how='all')：該筆資料的所有欄位皆遺漏才刪除。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df.dropna(inplace=True)  #inplace=True為取代原pandas dataframe的意思
#df.dropna(how='all', inplace=True)
print(df)

#dropna(how='all')：該筆資料的所有欄位皆遺漏才刪除。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')

df.dropna(how='all', inplace=True)
print(df)

In [None]:
#為了保留資料的原始性，資料有遺漏但並不刪除，而是填入自訂的預設值來補齊：

#fillna(value=預設值)：該筆資料遺漏的部分填入自訂預設值。

import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df.fillna(value='unknown', inplace=True)
print(df)

#二、Pandas重複資料清理

#drop_duplicates()：刪除一模一樣的資料。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df.drop_duplicates(inplace=True)
print(df)

drop_duplicates([column_name,...])：指定的欄位資料重複就刪除。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df.drop_duplicates(['type', 'country'], inplace=True)
print(df)

str()：截取欄位資料的部分字串。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['summary'] = df.description.str[0:31] #以上範例截取描述(decription)欄位的前30個字，當作摘要(summary)新欄位的值。
print(df)

三、Pandas拆分欄位資料
split()：以分隔符號來拆分資料。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['listed'] = df.listed_in.str.split(',')
print(df)

#以上範例使用分類(listed_in)欄位為例，利用逗號來分隔資料後，存放在清單(listed)新欄位。
#可以看到為串列(List)的資料型態，如果要把其中的資料再分別放到不同欄位，則可以搭配Pandas套件的get()方法(Method)：

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['listed'] = df.listed_in.str.split(',')
df['listed1'] = df.listed.str.get(0)
df['listed2'] = df.listed.str.get(1)
print(df)

In [None]:
四、Pandas資料型態處理

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
print(df.dtypes)

astype()：欄位資料轉型為自訂的資料型態。需注意欄位資料不得含有特殊符號，否則會產生問題。如下範例：

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['title'] = df['title'].astype('string') #將「標題」欄位轉型為字串
print(df.dtypes)

to_datetime()：欄位資料轉型為日期。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['date_added'] = pd.to_datetime(df['date_added']) #將「新增日期」欄位轉型為日期
print(df.dtypes)

以上範例的執行結果可以看到，新增日期欄位(date_added)從原來的物件(object)轉型為日期(DateTime)。
並且，資料內容皆變為日期格式，如下範例：

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['date_added'] = pd.to_datetime(df['date_added']) #將「新增日期」欄位轉型為日期
print(df)

五、Pandas資料格式處理
to_datetime(欄位名稱).dt.strftime()：將欄資料轉型為日期後，再進行格式化，如下範例：

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['date_added'] = pd.to_datetime(df['date_added']).dt.strftime('%Y/%m/%d')
print(df)

而數值型態的欄位，則可以利用以下的Pandas套件方法(Method)：

round(decimals=小數位數)：四捨五入到自訂的小數位數。

In [None]:
import pandas as pd
 
df = pd.read_csv('mycsvfile.csv')
df['rating'] = df['rating'].round(decimals=0)  #四捨五入到整數位
print(df)

六、Pandas自訂函式清理資料
除了以上內建的資料清理方法(Method)外，還可以自訂函式封裝特殊的清理邏輯，再透過以下的Pandas套件方法(Method)套用到欄位資料中：

apply()：套用自訂的資料清理函式。

In [None]:
import pandas as pd
 
 
#西元年轉為民國年
def convert_chinese_year(year):
    return int(year)-1911
 
 
df = pd.read_csv('mycsvfile.csv')
df['release_year'] = df['release_year'].apply(convert_chinese_year)  #套用自訂函式
print(df)

如果想要在Pandas套件一讀取資料來源時，就進行資料型態與格式的處理，則可以在read_csv()方法(Method)加上converters關鍵字參數，如下範例：

In [None]:
import pandas as pd
 
 
#西元年轉為民國年
def convert_chinese_year(year):
    return int(year)-1911
 
 
df = pd.read_csv('mycsvfile.csv', converters={
    'date_added': lambda x: pd.to_datetime(x),  #「新增日期」轉為日期型態
    'release_year': convert_chinese_year,  #「上映年份」轉為民國年格式
    'rating': lambda x:int(round(float(x), 0))  #「評價」欄位四捨五入且轉為整數型態
})
 
print(df)

In [48]:
import pandas as pd

A = [174,-155,-931,301]
B = [943,847,510,16]
C = [325,914,501,884]
D = [-956,318,319,-83]

E = [767,814,43,-116]
F = [110,-784,-726,37]
G = [-41,964,-67,-207]
H = [-555,787,764,-788]

df1 = pd.DataFrame({"A": A, "B": B, "C": C, "D": D})
df2 = pd.DataFrame({"E": E, "B": F, "C": G, "D": H})

In [None]:
df1

In [50]:
df2

Unnamed: 0,E,B,C,D
0,767,110,-41,-555
1,814,-784,964,787
2,43,-726,-67,764
3,-116,37,-207,-788


In [43]:
pd.concat([df1,df2], ignore_index=True) #df1資料串接

Unnamed: 0,A,B,C,D,E
0,174.0,943,325,-956,
1,-155.0,847,914,318,
2,-931.0,510,501,319,
3,301.0,16,884,-83,
4,,110,-41,-555,767.0
5,,-784,964,787,814.0
6,,-726,-67,764,43.0
7,,37,-207,-788,-116.0


In [44]:
pd.concat([df1,df2], ignore_index=True, join='inner') #df1重複值

Unnamed: 0,B,C,D
0,943,325,-956
1,847,914,318
2,510,501,319
3,16,884,-83
4,110,-41,-555
5,-784,964,787
6,-726,-67,764
7,37,-207,-788


In [54]:
pd.merge(df1,df2, how='outer') 

Unnamed: 0,A,B,C,D,E
0,174.0,943,325,-956,
1,-155.0,847,914,318,
2,-931.0,510,501,319,
3,301.0,16,884,-83,
4,,110,-41,-555,767.0
5,,-784,964,787,814.0
6,,-726,-67,764,43.0
7,,37,-207,-788,-116.0
