# Pandas資料分析筆記

## 1.初始化

In [1]:
import pandas as pd #引入Pandas模組 as pd
import seaborn as sns #引入seaborn模組 as sns
%matplotlib inline
pd.set_option("display.max_rows", 1000)    #設定最大能顯示1000rows
pd.set_option("display.max_columns", 1000) #設定最大能顯示1000columns

## 2.解決plot不能顯示中文問題

In [2]:
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei']  
mpl.rcParams['axes.unicode_minus'] = False

## 3.讀取檔案

In [None]:
df=pd.read_csv('C:/Users/Yanwei/Desktop/fileName.csv')
#or
df=pd.read_csv(r'C:\Users\user01\Desktop\空氣品質監測-高雄市-2018年9月份-每日監測值.csv')

#兩個df的差別
#1)在前方加r，就不用反斜線
#2)使用反斜線就不用加r

## 4.資料操作

### 4.1基本操作

In [None]:
df.head(10)  #顯示出前10筆資料，預設值為5筆資料
df.tail(10)  #顯示後10筆資料
df.shape     #顯示出資料共有(X行,Y列)
len(df)      #顯示資料總筆數
df.dtypes    #顯示資料類型
df.describe()#顯示統計數字(最大、最小、平均......等)
df[['AQI']]  #顯示Columns(列)為AQI的數據
df.AQI       #顯示Columns(列)為AQI的數據
df.columns = ['XXX','XXX', 'XXX'] #重新命名欄位
df.T         #行與列互換
df.info()    #顯示資料的狀態與資訊


### 4.2 iloc,loc,ix方法

In [None]:
df.iloc[4]                          #顯示第4筆資料的所有數據 
df1 = df.set_index(['測站'])       #將測站設定為索引(即擺到第一行第一列)
df1 = df1.reset_index(['測站'])    #恢復原本設置
df1.loc['左營']                    #列出所有左營的數據

### 4.3刪除資料

In [None]:
df.drop(labels=['SO2','CO'],axis='columns') #刪除SO2和CO這兩個欄位
df=df.drop_duplicates()                     #刪除重複的資料
#axis=0和asxis='row'一樣
#axis=1和axis='columns'一樣

### 4.4處理NaN資料

In [None]:
df.dropna()                          #刪除NaN的資料
df=df.dropna()                       #將刪除後的資料存到變數
df.dropna(axis=1)                    #删除所有包含空值的列
df=df.fillna(0)                      #把NaN資料替換成0 
df['A'].fillna(value=df['A'].mean()) #把NaN值改成該屬性的所有平均值

### 4.5指定特殊需求 

In [None]:
df.sort_index(ascending=True).head(100)  #升階排序
df.sort_index(ascending=False).head(100) #降階排序

### 4.6備註

In [None]:
#基本上df[['AQI']]和df.AQI功能一樣
#iloc只對數值類型有用，loc只對字串類型有用，ix混合iloc與loc(但不建議，易失敗)

## 5.字串處理

### 5.1大小寫與字串變更

In [None]:
df['PM2.5'].str.title() #讓字串第一個字為大寫
df['PM2.5'].str.lower() #讓字串全部變成小寫
df['PM2.5'].str.upper() #讓字串全部變成大寫
df['PM2.5']=df['PM2.5'].str.replace("要改變的字串","想改變成的字串")

### 5.2找出資料

In [None]:
df[df.AQI.startswith('高雄市')]  #顯示出高雄市開頭的資料
df[df.AQI.endswith('高雄市')]    #顯示出高雄市做為結尾的資料

## 6.來一點複雜操作

In [None]:
df[['AQI','WindSpeed']]#顯示Columns(列)為AQI及WindSpeed的數據df[df.AQI<50]          #顯示AQI<50的數值
df[(df.AQI < 30)&(df.WindSpeed>2)] #列出AQI值大於30且風速大於2的數值
df['AQI'] / 2 #將所有AQI值除以2(+,-,*,/皆適用)
-----------------------------------------
AQI_filter = df['AQI']>60 #使用布林，當AQI>60為True，<60為False

Bad_AQI= df[AQI_filter] #將過濾後的數值存入至Bad_AQI
Bad_AQI.head() #只顯示AQI>60的資料

AQI_filter_2 = (df['AQI']>60)&(df['PM2.5']>40) 
#使用布林，條件是AQI>60且PM2.5數值超過40

Bad_AQI_PM= df[AQI_filter_2] #將過濾後的數值存入至Bad_AQI_PM
Bad_AQI_PM.head() #只顯示AQI>60且PM2.5>40的資料

## 7.繪圖與存檔

### 7.1資料視覺化

In [None]:
df.plot(x='SiteName', y=['AQI']) #進行繪圖(X軸為地點,Y軸為AQI數值)
pic=df.plot(kind = 'scatter', x = 'WindSpeed', y = 'PM2.5', title = '風速與PM2.5之關係') #製作散布圖,X軸風速,Y軸為PM2.5指數
print(pic)

### 7.2存檔

In [None]:
df.to_csv('New_Data.csv',encoding='utf8')  #存檔至New_Data.csv中
df.to_json('New_Data.json', encoding='utf8')#存檔至New_Data.json
df.to_excel('New_Data.xlsx', encoding='utf8')#存檔至New_Data.xlsx