
## pandasの練習 by 都道府県データ

### 参考
- [10 minutes pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)
- [StatsFragments](http://sinhrks.hatenablog.com/)

## ファイルを読み込む

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib.cm as cm
df = pd.read_csv("japan.csv", encoding="shift-jis",index_col="prefecture")
df.head()

## 基本情報

In [None]:
# print(df)
print("head\n",df.head(3))#初めの3つを見る
print("tail\n",df.tail(3))#後の3つを見る
print("index\n", df.index) #インデックスを確認
print("column\n", df.columns) #カラムを表示
print("values\n",df.values) #中の値をarray形式で表示
print("statistic summary\n",df.describe()) #統計量を表示
print("Transpose\n",df.T) #転置
print("sorting(axis=1)\n",df.sort_index(axis=1, ascending=False)) #columnsにそってソート
print("sorting(axis=0)\n",df.sort_index(axis=0, ascending=False)) #indexにそってソート
print("sorting(by longtitude)\n",df.sort_values(by="longtitude")) #Aの値に沿ってソート

## 内部にアクセス

In [None]:
print("longtitudeの値(1)\n",df["longtitude"])
print("longtitudeの値(2)\n",df.longtitude)
print("[]で、rowの指定\n",df[0:3])
# ラベルで指定
print("indexを指定\n", df.loc["東京都"])
print("columnを指定\n", df.loc[:,["longtitude","latitude"]])
print("index, columnで指定\n", df.loc["東京都",["longtitude","latitude"]])
print("scalarの値\n",df.loc["東京都","longtitude"])
print("scalerの値(高速版)\n",df.at["東京都","longtitude"]) #listは入れられない
# 位置による指定
print("ilocによる行指定\n",df.iloc[3])
print("ilocによる行列範囲指定\n",df.iloc[3:5, 0:2])
print("listでインデックス指定をして検索\n",df.iloc[:,[0,2,3]])
print("scalarの値(高速版)\n",df.iat[1,1])
# 条件検索(まだ使えない)
# df = df[(df.index!="沖縄県")&(df.index!="北海道")]

## 列の追加とapply

In [None]:
def calc_number(d_num):
    """
    度であらわされてるのを、小数に変換
    """
    d = d_num.split(":")
    n = int(d[0])+float(d[1])/60+float(d[2])/3600
    return n
df["latitude_num"]=df.latitude.apply(calc_number)
df["longtitude_num"]=df.longtitude.apply(calc_number)
print(df[df["latitude_num"]>135].index)

## イテレーターの使い方

In [None]:
plt.figure(figsize=(8,8))
for key, row in df.loc[:,["longtitude_num","latitude_num"]].iterrows():
    plt.scatter(row["latitude_num"],row["longtitude_num"],
                marker="x",color="blue")

## 統計量を使う

In [None]:
longtitude_mean = df["longtitude_num"].mean()
latitude_mean = df["latitude_num"].mean()
plt.figure(figsize=(8,8))
for key, row in df.loc[:,["longtitude_num","latitude_num"]].iterrows():
    plt.scatter(row["latitude_num"],row["longtitude_num"],
                marker="x",color="blue")
plt.scatter(latitude_mean,longtitude_mean,marker="s",s=30,color="red")
print("latitude;{:.5f}, longtitude_mean:{:.5f}".format(latitude_mean, longtitude_mean))

# (おまけ)10 minutes to pandas(途中まで)

## 作成、操作

In [None]:
# seriesとdataframe
# seriesが1次元配列、dataframeが多次元配列
se = pd.Series([1,3,5,np.nan,6,8])
print(se)
# dataframe
dates = pd.date_range("20130101",periods=6) 
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print(df)
print("head\n",df.head(3))#初めの3つを見る
print("tail\n",df.tail(3))#後の3つを見る
print("index\n", df.index) #インデックスを確認
print("column\n", df.columns) #カラムを表示
print("values\n",df.values) #中の値をarray形式で表示
print("statistic summary\n",df.describe()) #統計量を表示
print("Transpose\n",df.T) #転置
print("sorting(axis=1)\n",df.sort_index(axis=1, ascending=False)) #columnsにそってソート
print("sorting(axis=0)\n",df.sort_index(axis=0, ascending=False)) #indexにそってソート
print("sorting(by A)\n",df.sort_values(by="A")) #Aの値に沿ってソート

## 行列の取扱い

In [None]:
dates = pd.date_range("20130101",periods=6) 
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print("Aの値(1)\n",df["A"])
print("Aの値(2)\n",df.A)
print("[]で、rowの指定\n",df[0:3])
print("日時で指定\n",df['20130102':'20130104'])
# ラベルで指定
print("indexを指定\n", df.loc[dates[0]])
print("columnを指定\n", df.loc[:,["A","B"]])
print("index, columnで指定\n", df.loc[dates[0],["A","B"]])
print("scalarの値\n",df.loc[dates[0],"A"])
print("scalerの値(高速版)\n",df.at[dates[0],"A"]) #listは入れられない
# 位置による指定
print("ilocによる行指定\n",df.iloc[3])
print("ilocによる行列範囲指定\n",df.iloc[3:5, 0:2])
print("listでインデックス指定をして検索\n",df.iloc[:,[0,2,3]])
print("scalarの値(高速版)\n",df.iat[1,1])
# 条件検索
print("column Aが0.5より大きいindexだけ抜粋\n",df[df.A > 0.5])
print("0より大きい要素だけ抜粋、条件外はNaN\n",df[df > 0])

## DataFrame, Seriesの設定

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
df["E"] = s1 #columnの追加
print("columnの追加\n",df)
#さっきのラベルやposition指定方法を使って設定することも出来る
df.iat[0,1] = 0
# 配列を与えることも可能
df["F"] = np.zeros(len(df))
print(df)
# 条件指定で変えることも可能(whereみたいなもの)
df2 = df.copy()
df2[df2<0] = -df2 #負の数を正に
print(df2)

## nanの取扱い

In [None]:
dates = pd.date_range("20130101",periods=6) 
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
df["F"] = s1 #columnの追加
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
print(pd.isnull(df1))
print("nan有りの配列\n",df1)
print("nanが一つでも入っている行は削除\n",df1.dropna(how="any"))
print("nanをvalue(10)で埋める\n",df1.fillna(value=10))


## 計算、操作

In [None]:
a = np.arange(25).reshape(5,5)
dates = pd.date_range("20130101",periods=5) 
df = pd.DataFrame(a, index=dates, columns=list('ABCDE'))
print("各columnの平均\n",df.mean())
print("各indexの平均\n",df.mean(1))
# df.sub()でまとめて引く事もできる
a = np.array([1,2,3,4,5])
print("df.sub\n",df.sub(a, axis="index"))
# apply : 各columnに対して計算をさせることが可能。よく使う
print("df:\n",df)
print("numpyのcumsum関数を各列にapplyする\n",df.apply(np.cumsum))
print("lambda式とよく組み合わせる\n",df.apply(lambda x: x.max() - x.min()))

## つなげる
参考になるサイト : http://sinhrks.hatenablog.com/entry/2015/01/28/073327

merge, join, concat,append について詳しく書かれている