# Pandas資料分析筆記

## 1.初始化

In [1]:
import pandas as pd #引入Pandas模組 as pd
pd.set_option("display.max_rows", 1000)    #設定最大能顯示1000rows
pd.set_option("display.max_columns", 1000) #設定最大能顯示1000columns

## 2.解決plot不能顯示中文問題

In [2]:
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei']  
mpl.rcParams['axes.unicode_minus'] = False

## 3.讀取檔案

In [11]:
df=pd.read_excel('C:/Users/Yanwei/a.xlsx')

## 4.資料操作

### 4.1基本操作

In [13]:
df.head(10)  #顯示出前10筆資料，預設值為5筆資料

Unnamed: 0,序號,縣市,監測日期,測站,SO2,CO,O3,PM10,PM2.5,Nox,NO,NO2,THC,NMHC,CH4,WindSpeed,TEMP,RAIN_INT,PH_RAIN,Humidity,RAIN_COND
0,1,高雄市,2018-09-30,左營,3.3,0.38,56.8,56,26,15,1.5,13.68,2.1,0.109,1.989,1.51,27.02,-,-,63.5,-
1,2,高雄市,2018-09-30,楠梓,3.4,0.36,58.5,62,28,14,1.92,12.02,2.11,0.117,1.998,1.61,27.12,-,-,63.98,-
2,3,高雄市,2018-09-30,前金,3.6,0.38,60.1,55,24,13,0.84,12.29,2.09,0.098,1.994,2.06,27.09,-,-,62.97,-
3,4,高雄市,2018-09-30,前鎮,5.6,0.42,55.8,65,21,20,1.81,18.21,2.17,0.144,2.024,1.44,28.01,-,-,59.1,-
4,5,高雄市,2018-09-30,復興,5.0,0.43,57.0,51,22,16,1.37,14.84,2.15,0.148,2.003,0.93,27.81,-,-,62.43,-
5,6,高雄市,2018-09-30,小港,8.6,0.34,52.8,71,21,-,-,-,2.04,0.104,1.935,1.73,28.8,0,0,56.82,0
6,7,高雄市,2018-09-30,鳳山,5.2,0.52,52.7,52,25,20,1.43,18.79,2.13,0.17,1.957,1.33,28.39,0,0,56.43,0
7,8,高雄市,2018-09-30,林園,4.0,0.28,58.0,41,21,10,0.56,9.82,2.02,0.034,1.981,1.82,27.72,-,-,64.23,-
8,9,高雄市,2018-09-30,大寮,3.6,0.3,55.1,41,22,12,0.93,11.16,2.17,0.085,2.087,1.19,26.9,-,-,69.73,-
9,10,高雄市,2018-09-30,仁武,4.6,0.4,58.7,54,22,17,1.32,15.92,2.14,0.155,1.982,1.9,27.18,-,-,63.48,-


### 4.2 iloc,loc,ix方法

In [None]:
df.iloc[4]                          #顯示第4筆資料的所有數據 
df1 = df.set_index(['測站'])       #將測站設定為索引(即擺到第一行第一列)
df1 = df1.reset_index(['測站'])    #恢復原本設置
df1.loc['左營']                    #列出所有左營的數據

### 4.3刪除資料

In [None]:
df.drop(labels=['SO2','CO'],axis='columns') #刪除SO2和CO這兩個欄位
df=df.drop_duplicates()                     #刪除重複的資料
#axis=0和asxis='row'一樣
#axis=1和axis='columns'一樣

### 4.4處理NaN資料

In [None]:
df.dropna()                        #刪除NaN的資料
df=df.dropna()                     #將刪除後的資料存到變數
df.dropna(axis=1)                  #删除所有包含空值的列
df=df.fillna(0)                    #把NaN資料替換成0 

### 4.5指定特殊需求 

In [None]:
df.sort_index(ascending=True).head(100)  #升階排序
df.sort_index(ascending=False).head(100) #降階排序

### 4.6備註

In [None]:
#基本上df[['AQI']]和df.AQI功能一樣
#iloc只對數值類型有用，loc只對字串類型有用，ix混合iloc與loc(但不建議，易失敗)

## 5.字串處理

### 5.1大小寫與字串變更

In [None]:
df['PM2.5'].str.title() #讓字串第一個字為大寫
df['PM2.5'].str.lower() #讓字串全部變成小寫
df['PM2.5'].str.upper() #讓字串全部變成大寫
df['PM2.5']=df['PM2.5'].str.replace("要改變的字串","想改變成的字串")

### 5.2找出資料

In [None]:
df[df.AQI.startswith('高雄市')]  #顯示出高雄市開頭的資料
df[df.AQI.endswith('高雄市')]    #顯示出高雄市做為結尾的資料

## 6.來一點複雜操作

In [None]:
df[['AQI','WindSpeed']]#顯示Columns(列)為AQI及WindSpeed的數據df[df.AQI<50]          #顯示AQI<50的數值
df[(df.AQI < 30)&(df.WindSpeed>2)] #列出AQI值大於30且風速大於2的數值
df['AQI'] / 2 #將所有AQI值除以2(+,-,*,/皆適用)
-----------------------------------------
AQI_filter = df['AQI']>60 #使用布林，當AQI>60為True，<60為False

Bad_AQI= df[AQI_filter] #將過濾後的數值存入至Bad_AQI
Bad_AQI.head() #只顯示AQI>60的資料

AQI_filter_2 = (df['AQI']>60)&(df['PM2.5']>40) 
#使用布林，條件是AQI>60且PM2.5數值超過40

Bad_AQI_PM= df[AQI_filter_2] #將過濾後的數值存入至Bad_AQI_PM
Bad_AQI_PM.head() #只顯示AQI>60且PM2.5>40的資料

## 7.繪圖與存檔

### 7.1資料視覺化

In [None]:
df.plot(x='SiteName', y=['AQI']) #進行繪圖(X軸為地點,Y軸為AQI數值)
pic=df.plot(kind = 'scatter', x = 'WindSpeed', y = 'PM2.5', title = '風速與PM2.5之關係') #製作散布圖,X軸風速,Y軸為PM2.5指數
print(pic)

## 7.2存檔

In [None]:
df.to_csv('New_Data.csv',encoding='utf8')  #存檔至New_Data.csv中
df.to_json('New_Data.json', encoding='utf8')#存檔至New_Data.json
df.to_excel('New_Data.xlsx', encoding='utf8')#存檔至New_Data.xlsx