# 目的
- pandasの基本的な概念，メソッドに触れる
- ついでに文章のネガポジ解析をするプログラムを書いて楽しむ

## 注意！
- 最終的に文字ばかりのデータを操作するので数値を操作する系のメソッドが手薄になってます！ごめんなさい！
- pandasは今回使うのが初めてだから最適な手法を紹介しているとは限らないです，ごめんなさい！

In [2]:
import pandas as pd
import numpy as np

# Pandasのデータ型
pandasには三つのデータ型があります
1. 一次元(配列)： **Series**
2. 二次元(表)： **DataFrame**　←　pandasといえばこれ！（要出典）
3. 三次元： Panel

In [3]:
# series
series = pd.Series(["a", "b", "c", 1, 2, 3, np.nan])
series2 = pd.Series({"June": 37, "July": 40, "August": 40})

print(series[0])
# numpyと同じくスライス記法が使える（start : end : step）
print(series[1:2:2])
# インデックスが文字列でもOK
print(series2["June"])

a
1    b
dtype: object
37


In [3]:
# dataframe
df = pd.DataFrame([["A", 1], ["B", 2], ["C", 3], ["D", 4], ["E", 5]])
df2 = pd.DataFrame({"row1": [1, 2, 3], "row2": [11, 12, 13]})
print(df)
print(df2)

   0  1
0  A  1
1  B  2
2  C  3
3  D  4
4  E  5
   row1  row2
0     1    11
1     2    12
2     3    13


### DataFrameをcsvから読み込む・出力する
- [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html): 区切り文字がカンマの時
- [read_table](https://pandas.pydata.org/docs/reference/api/pandas.read_table.html): 区切り文字がタブ文字の時　← 今回はこっち




In [6]:

# 名詞の方を読み込み
noun_df = pd.read_table('pn.csv.m3.120408.trim', names=(
    "word", "emotion", "polarity", "sb/ob"))

# 用言の方を読み込み
verb_df = pd.read_table('wago.121808.pn', names=("emotion", "word"))


# データの中身を確認
- [df.head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html?highlight=head#pandas.DataFrame.head): デフォルトで最初の５行を返す．引数に表示する行数を設定できる．
- [df.tail()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail): デフォルトで最後の５行を返す．引数に表示する行数を設定できる．
- [df.shape](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html?highlight=shape#pandas.DataFrame.shape): データフレームオブジェクトの行数と列数を確認する
- [df.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe): データの大まかな特徴量を調べる
- [df.corr()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html?highlight=corr#pandas.DataFrame.corr): データの相関係数を算出する 

In [7]:
print(noun_df.head())
print(verb_df.tail())
print(noun_df.index)


   word emotion        polarity  sb/ob
0  ２，３日       e  〜である・になる（状態）客観    NaN
1   10%       e  〜である・になる（状態）客観    NaN
2  100%       e  〜である・になる（状態）客観    NaN
3   25%       e  〜である・になる（状態）客観    NaN
4   80%       e  〜である・になる（状態）客観    NaN
     emotion   word
5275  ポジ（評価）  鞏固 です
5276  ポジ（評価）   颯爽 だ
5277  ポジ（評価）  颯爽 です
5278  ポジ（評価）   颯爽 と
5279  ポジ（評価）   颯爽 の
RangeIndex(start=0, stop=13314, step=1)


# データの選択
## 1. 列の名前で選択
- [Indexing and selecting data](https://pandas.pydata.org/docs/user_guide/indexing.html#indexing)

In [8]:
print(noun_df["word"])
print(noun_df[0:3:1]) # スライス表記
print(noun_df["emotion"].value_counts())

0        ２，３日
1         10%
2        100%
3         25%
4         80%
         ... 
13309       魏
13310    魑魅魍魎
13311       鮑
13312      鹹味
13313      麒麟
Name: word, Length: 13314, dtype: object
   word emotion        polarity  sb/ob
0  ２，３日       e  〜である・になる（状態）客観    NaN
1   10%       e  〜である・になる（状態）客観    NaN
2  100%       e  〜である・になる（状態）客観    NaN
n       4958
e       4954
p       3352
?p?n      35
?e         4
a          4
o          3
?p         2
?p?e       1
　          1
Name: emotion, dtype: int64


## 行のindexで選択

In [9]:
tmp_df = pd.DataFrame({ "A":["a1", "a2", "a3"], 
                        "B": ["b1", "b2", "b3"],
                    }, index=("one", "two", "three"))

# スライス表記でないと取得できない．
# 行の取得は後述のloc, ilocを使う方がいいっぽい
print(tmp_df["one":"one"])

        A
one    a1
two    a2
three  a3
      A   B
one  a1  b1


# 高度な選択
- [loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) ... 条件に合うデータを取得する．返り値はSeriesかDataFrame.
- [iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) ... インデックスでデータを取得する．
- [at](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html) ... index名，column名でデータをただ一つだけ取り出す
- [iat](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iat.html) ... データのインデックスでデータをただ一つだけ取り出す


In [5]:
tmp_df = pd.DataFrame({ "A":["a1", "a2", "a3", 1, 3, 5], 
                        "B": ["b1", "b2", "b3", 2, 3, 4],
                        "C": ["c1", "c2", "c3", 3, 6, 3],
                        "D": ["d1", "d2", "d3", 1, 8, 5],
                        "E": ["e1", "e2", "e3", 2, 4, 6],
                    }, index=("one", "two", "three", "four", "five", "six"))



In [1]:
# loc
# インデックス名のスライスでも選択できる
tmp_s = tmp_df.loc["one":"three"]
print(type(tmp_s))
print(tmp_s)
# 条件式にしても抽出できる
# A列の値が"a3"の行を全て取り出す
tmp_s = tmp_df.loc[tmp_df["A"] == "a3"]
print(type(tmp_s))
print(tmp_s)
# 複雑な条件式もOk
tmp_s = tmp_df.loc[(tmp_df["A"] == "a3") | (tmp_df["B" == 1])]
print(tmp_s)

NameError: name 'tmp_df' is not defined

In [12]:
# iloc
tmp_v = tmp_df.iloc[1,1]
print(tmp_v)

b2


In [13]:
# at
tmp_v = tmp_df.at["three", "A"]
print(tmp_v)
tmp_v = tmp_df.loc["six"].at["B"]
print(tmp_v)

a3
4


In [14]:
# iat 
# 0行目の1列目
tmp_v = tmp_df.iat[0,1]
print(tmp_v)

b1


# 要素を置き換える
- 列をいっぺんに置き換える
`df["hoge"] = df["hoge"].str.replace("前", "後")`

In [8]:
# A列のaをzに置き換える
tmp_df["A"] = tmp_df["A"].str.replace("a", "z")
print(tmp_df)
print(type(tmp_df["A"].str))

         A   B   C   D   E
one     z1  b1  c1  d1  e1
two     z2  b2  c2  d2  e2
three   z3  b3  c3  d3  e3
four   NaN   2   3   1   2
five   NaN   3   6   8   4
six    NaN   4   3   5   6
<class 'pandas.core.strings.accessor.StringMethods'>


# 列を結合する
- [pd.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html): dataframe，seriesを結合する．
- [pd.append](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html): v1.40で廃止された．concatを使おう．

In [17]:
# tmp_dfとtmp_dfを結合する．
# ignore_index=Trueとすると元のインデックスを無視して新しく数字を振り直す．
df = pd.concat([tmp_df, tmp_df], ignore_index=True)
print(df)

     A   B   C   D   E
0   a1  b1  c1  d1  e1
1   a2  b2  c2  d2  e2
2   a3  b3  c3  d3  e3
3    1   2   3   1   2
4    3   3   6   8   4
5    5   4   3   5   6
6   a1  b1  c1  d1  e1
7   a2  b2  c2  d2  e2
8   a3  b3  c3  d3  e3
9    1   2   3   1   2
10   3   3   6   8   4
11   5   4   3   5   6


# 参考資料
- [pandas公式チートシート](https://github.com/pandas-dev/pandas/blob/main/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)
- 