![download.png](attachment:2ecb25b4-4216-43d1-8a2b-21774afe5bbc.png)# Pandasライブラリインポート
Pandasライブラリでほとんどの表計算が可能です  
DataFrame（略してdf）というテーブル(表)をpython上に作成し操作します  
使い方：csv,xlsx,DB　→　df　→　加工 →　df　→　csv,xlsx,DB  

![image.png](attachment:bcb7ea87-fcc4-4e19-bb57-f2ed191f5d3a.png)  

<br>    

■ライブラリインポート
```python
import pandas as pd
```  

■参考：ライブラリとは  
　「標準では入ってない関数のセット」とでも思っておいてください。標準では入ってないので、インストール（自分のPCに入れる）・インポート（使うプログラムに取り込む）する必要があります。  
 　例）Pandas＝「表を扱うのに便利な関数のセット」、matplotlib＝「グラフ描画に便利な関数のセット」  
- [【Python】そもそもライブラリとは？ ライブラリ管理のpipとは？](https://qiita.com/_whitecat_22/items/3df18491c5f618c016d1)  
- [Pythonのモジュール、パッケージ、ライブラリ徹底解説！](https://ai-inter1.com/python-module_package_library/)

In [3]:
import pandas as pd
df1 = pd.read_csv("./file/initial/1.csv", encoding="utf-8")


# データ読み込み
## csv読み込み

■csvデータを取り込み
```python
df = pd.read_csv("path")
```

※pathは相対path、絶対pathとも可能  
※読み取るファイルの文字コードがsjisの場合`encoding="cp932", engine="python"`記載必要（utf-8の場合不要)  
※他にも、`skiprows=`（行を飛ばして読み込む）、`usecols=`（読み込む列を指定）、`parse_dates=`（日付として扱う列を指定）、`header=`（ヘッダーにする行を指定）、`sep=`（区切り文字）などのオプションがつけれます  
　参考：[Pandasのread_csvの全引数を解説](https://own-search-and-study.xyz/2015/09/03/pandas%E3%81%AEread_csv%E3%81%AE%E5%85%A8%E5%BC%95%E6%95%B0%E3%82%92%E4%BD%BF%E3%81%84%E3%81%93%E3%81%AA%E3%81%99/)  
※文字コードの詳細を理解したければ、ググってください。  
　とりあえず知りたい方はこちら→　https://snowtree-injune.com/2020/05/15/codec-py003/

In [43]:
# 絶対path
# NASサーバー。pwがかかっているので事前にexploreでアクセスする。IP：\\10.110.0.44、ID：user、PW：Kyocera00!

df2 = pd.read_csv(r"\\10.110.0.44\everyone\test\AAA001.dat")
df2


OSError: [Errno 22] Invalid argument: '\\\\10.110.0.44\\everyone\\test\\AAA001.dat'

## データベース読み込み  
■mysqlに接続するためのライブラリインポート  
```python
import sqlalchemy as sa
import pymysql
```

■データベース接続のためのエンジンの作成  
```python
url = 'mysql+pymysql://[user名]:[PW]@[IP]:[port]/[DB名]?charset=utf8'
engine = sa.create_engine(url)
```
<img src="attachment:3dd91600-850f-49ef-9725-794aea6c52be.png" width="600" height="500">

■データフレームへ読み込み  
`pd.read_sql`の第一引数は、A5Mk2で実行して問題ないSQL文をそのまま文字列として代入します  
```python
df = pd.read_sql('読み取り先のDBに合わせてSQLで書いたセレクト文', engine)
```

In [None]:
# 研修用MySQL、IP：10.110.55.59、ポート：3306、DB：kenshu、ID：kenshu、PW：kenshu、table：dx_kenshu01
import sqlalchemy as sa
import pymysql
import pandas as pd

url = "mysql+pymysql://kenshu:kenshu@10.110.55.59:3306/kenshu?charset=utf8"
engine = sa.create_engine(url)
con = engine.connect()
print(con)

In [44]:
# 読みに行っているスキーマは「kenshu」だが、read_sqlで送り込むSQL文に「from kenshu_read.dx_kenshu01」とすることで、スキーマ「kenshu_read」のテーブルを読み込んでいる

df3 = pd.read_sql("select * from kenshu_read.de_kenshu01", engine)
df3

NameError: name 'engine' is not defined

## 手動でDF作成
■値を直接記述する  
```python
df = pd.DataFrame([["a1", "b1", 1], ["a2", "b2", 2]], columns=["col1", "col2", "col3"])
```

In [45]:
df4 = pd.DataFrame([["a1", "b1", 1], ["a2", "b2", 2]], columns=["col1", "col2", "col3"])
df4


Unnamed: 0,col1,col2,col3
0,a1,b1,1
1,a2,b2,2


# データ書き込み
## csv書き込み
```python
df.to_csv("ファイル名")
```

In [46]:
df4 = pd.DataFrame([["a1", "b1", 1],
                    ["a2", "b2", 2]], columns=["col1", "col2", "col3"])
df4


Unnamed: 0,col1,col2,col3
0,a1,b1,1
1,a2,b2,2


In [None]:
# df4.to_csv("./test01.csv")

## データベース書き込み
```python
df.to_sql("テーブル名",engine,if_exists="append",index=None)
```

In [47]:
df4 = pd.DataFrame([["a1", "b1", 1], ["a2", "b2", 2]], columns=["col1", "col2", "col3"])
df4


Unnamed: 0,col1,col2,col3
0,a1,b1,1
1,a2,b2,2


In [None]:
# df4.to_sql("fuku_test01", engine, if_exists="replace", index=None)
# df4.to_sql("fuku_test01", engine, if_exists="append", index=None)

# DataFrameの加工

## 部分切り出し（抽出）  
■特定の列の取り出し
```python
df[["列1","列2","…"]]
```

■特定の行や列の取り出し（色々と省略して使える）
```python
df.loc[行1:行2, "列1":"列2"]
df.loc[行1:行2]
df.loc[:,"列1":"列2"]
df.loc[:,["列1","列2","…"]]
df.loc[行1,"列1"] #➀
df.at[行1,"列1"]  #➁
#➀➁は同じ結果だが、➁の方が処理速度が速い
```
■フィルタ取り出し
```python
df.loc[df["列"] == 値]
df.loc[df["列"] > 値]
```

■フィルタand条件、or条件
```python
df.loc[(df["列1"] == 値1) & (df["列2"] == 値2)]
```

**【この辺からおまけ】**  
■NaN（空の値）が入っていない行を抽出
```python
df[df['調べたいカラム名'].notna()]
```

■特定の文字列で始まる/終わる行を抽出  
　参考：[Pythonで文字列のリスト（配列）の条件を満たす要素を抽出、置換](https://note.nkmk.me/python-list-str-select-replace/)  
　「特定の文字で始まる」`str.startswith`、「特定の文字で終わる」`str.endswith`を使用
 
- リスト  
```python
list_after = [s for s in list_before if s.endswith('aaa')]
```
<br>
- DataFrameの要素  
```python
df[df['確認したいカラム名'].str.startswith('特定の文字列')]
```
<br>
- DataFrameのカラム  
```python
df.columns[df.columns.str.endswith("特定の文字列")]  
```
<br>

■行名・列名が部分一致する行・列を抽出  
　参考：[pandas.DataFrameから条件を満たす行名・列名の行・列を抽出（選択）](https://note.nkmk.me/python-pandas-index-columns-select/)
 
```python
df.filter(like='部分一致させる文字列', axis=0)
```

■数値型 or そうでない要素を抽出  
　参考：[pandas.DataFrame で数値以外の要素の抽出](https://qiita.com/kusmoto/items/058abc5b97ebfe77cf01)
 
```python
 # 数値型でない要素の抽出
df[df['型判定したいカラム名'].apply(lambda s:pd.to_numeric(s, errors='coerce')).isnull()]

 # 数値型である要素の抽出
df[df['型判定したいカラム名'].apply(lambda s:pd.to_numeric(s, errors='coerce')).notna()]
```

In [6]:
df1 = pd.read_csv("./file/initial/1.csv")
df1

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3
0,a001,2021/06/01 8:01:50,1,21.00227,1.632250,0.03745
1,a001,2021/06/01 8:01:50,2,21.27941,1.438325,0.06244
2,a001,2021/06/01 8:01:50,3,20.19822,1.205270,0.01101
3,a001,2021/06/01 8:01:50,4,20.82138,0.802100,0.02743
4,a001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071
...,...,...,...,...,...,...
2875,a001,2021/06/01 8:01:50,2876,0.00000,0.000000,0.00000
2876,a001,2021/06/01 8:01:50,2877,21.89908,1.009950,0.04199
2877,a001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593
2878,a001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129


In [7]:
# 列の抽出
df1[['LOTNO']]
df1[['LOTNO', 'UDATE']]

# 角かっこが一重だとSeries型で出力される
df1['LOTNO']

# loc, iloc, atを使う
df1.loc[[0], 'SNO':]
df1.iloc[[0], [1]] # DataFrame型（二次元の配列）で出力
df1.iloc[0, 1] # Series型（一次元の配列）で出力
df1.loc[:10]
df1.loc[:10,"LOTNO":"SNO"]
df1.loc[:10,["LOTNO","SNO", 'PAL_1']]
df1.loc[0,"SNO"]
df1.at[0,"SNO"]

# loc関数の引数に条件を入れる(引数を１つしか書かないと、行条件と思われる)
df1.loc[df1["SNO"] < 50, :]
df1.loc[df1["LOTNO"] == "a001"]

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3
0,a001,2021/06/01 8:01:50,1,21.00227,1.632250,0.03745
1,a001,2021/06/01 8:01:50,2,21.27941,1.438325,0.06244
2,a001,2021/06/01 8:01:50,3,20.19822,1.205270,0.01101
3,a001,2021/06/01 8:01:50,4,20.82138,0.802100,0.02743
4,a001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071
...,...,...,...,...,...,...
2875,a001,2021/06/01 8:01:50,2876,0.00000,0.000000,0.00000
2876,a001,2021/06/01 8:01:50,2877,21.89908,1.009950,0.04199
2877,a001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593
2878,a001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129


In [8]:
df5 = pd.read_csv("./file/initial/2.csv")
df5

Unnamed: 0,LOTNO,品番,検査日,検査者1,加工元,検査数,不良1,不良2,不良3,不良4,不良5
0,1,33,2017/4/3,佐藤,XXX,389,,2.0,,5.0,
1,2,19,2020/4/3,佐藤,YYY,1,,,,,
2,3,18,2020/12/3,佐藤,ZZZ,25,,,,2.0,
3,4,19,2021/1/5,佐藤,WWW,1,,,,,
4,5,42,2021/2/1,佐藤,ZZZ,70,,,3.0,,
5,6,72,2017/4/3,佐藤,VVV,492,10.0,,,2.0,
6,7,19,2020/4/3,石田,YYY,1,,,,,
7,8,51,2020/12/3,石田,ZZZ,50,,,,,1.0
8,9,61,2021/1/5,石田,WWW,1,,,,,
9,10,19,2021/2/1,石田,YYY,1,,,,,


In [10]:
df5.loc[(df5['検査数'] > 100) | (df5['検査者1'] =='佐藤')]
df5.loc[df5["検査数"] > 100]
df5.loc[(df5["検査数"] > 100) & (df5["検査者1"] == "佐藤")]
df5.loc[((d5f["検査数"] > 100) & (df5["検査者1"] == "佐藤")) | (df5["加工元"] == "ZZZ")]

NameError: name 'd5f' is not defined

## 値の代入
■カラムの追加、カラムの値の変更  
```python
df["カラム名"] = 値
df["カラム名"] = df["カラム名"] + 値
df["カラム名"] = 様々な式
```

■特定の行のカラムの値の変更
```python
df.loc[行1:行2, "列"] = 値
df.loc[df["列1"] == 値1, "列"] = 値2
```  

部分切り出し・値の代入方法についてはPPT資料にも記載しているので、「DFから思った通りの値を取ってこれない」という方はそちらも参照してください。  

■ある列の要素を特定の文字で分割  
　参考：[Pandasで文字列を別カラムに分割したり、逆に結合したい](https://esu-ko.hatenablog.com/entry/2020/09/03/Pandas%E3%81%A7%E6%96%87%E5%AD%97%E5%88%97%E3%82%92%E5%88%A5%E3%82%AB%E3%83%A9%E3%83%A0%E3%81%AB%E5%88%86%E5%89%B2%E3%81%97%E3%81%9F%E3%82%8A%E3%80%81%E9%80%86%E3%81%AB%E7%B5%90%E5%90%88%E3%81%97)
```python
df['分割後の左側'] = df['分割対象のカラム名'].str.partition('分割したい文字')[0]
df['分割後の右側'] = df['分割対象のカラム名'].str.partition('分割したい文字')[2]
```

■要素が文字列のカラム同士の足し算  
　参考[pandas.DataFrameの複数の列の文字列を結合して新たな列を生成](https://note.nkmk.me/python-pandas-str-combine/)
```python
df['加算後のカラム名'] = df['足したいカラム名1'].str.cat(df['足したいカラム名2'], sep='挿入したい記号')
```


In [15]:
df1 = pd.read_csv("./file/initial/1.csv")
df1["CNO"] = df1["PAL_1"] + df1["PAL_2"] + df1["PAL_3"]
df1["LOTNO"] = df1["LOTNO"].str.replace("a", "b")
df1

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3,CNO
0,b001,2021/06/01 8:01:50,1,21.00227,1.632250,0.03745,22.671970
1,b001,2021/06/01 8:01:50,2,21.27941,1.438325,0.06244,22.780175
2,b001,2021/06/01 8:01:50,3,20.19822,1.205270,0.01101,21.414500
3,b001,2021/06/01 8:01:50,4,20.82138,0.802100,0.02743,21.650910
4,b001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071,21.315565
...,...,...,...,...,...,...,...
2875,b001,2021/06/01 8:01:50,2876,0.00000,0.000000,0.00000,0.000000
2876,b001,2021/06/01 8:01:50,2877,21.89908,1.009950,0.04199,22.951020
2877,b001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593,22.215663
2878,b001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129,22.573898


In [17]:
df1 = pd.read_csv("./file/initial/1.csv")
df1.loc[df1["SNO"] <= 3, "LOTNO"] = "×"
df1.loc[df1["SNO"] <= 3] = "×"
df1 = df1[~(df1['LOTNO'] == "×")]

df1

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3
3,a001,2021/06/01 8:01:50,4,20.82138,0.8021,0.02743
4,a001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071
5,a001,2021/06/01 8:01:50,6,20.5651,0.935128,0.14481
6,a001,2021/06/01 8:01:50,7,20.94541,1.191736,0.17075
7,a001,2021/06/01 8:01:50,8,20.00111,1.187173,0.06885
...,...,...,...,...,...,...
2875,a001,2021/06/01 8:01:50,2876,0.0,0.0,0.0
2876,a001,2021/06/01 8:01:50,2877,21.89908,1.00995,0.04199
2877,a001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593
2878,a001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129


In [18]:
# # 【注意】df1のUDATEカラムはdatetime型ではなく文字列型です。
df1['year'] = df1['UDATE'].str.partition('/')[0]
df1

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3,year
3,a001,2021/06/01 8:01:50,4,20.82138,0.8021,0.02743,2021
4,a001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071,2021
5,a001,2021/06/01 8:01:50,6,20.5651,0.935128,0.14481,2021
6,a001,2021/06/01 8:01:50,7,20.94541,1.191736,0.17075,2021
7,a001,2021/06/01 8:01:50,8,20.00111,1.187173,0.06885,2021
...,...,...,...,...,...,...,...
2875,a001,2021/06/01 8:01:50,2876,0.0,0.0,0.0,2021
2876,a001,2021/06/01 8:01:50,2877,21.89908,1.00995,0.04199,2021
2877,a001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593,2021
2878,a001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129,2021


In [19]:
df1['year_lot'] = df1['year'].str.cat(df1['LOTNO'], sep='_')
df1

Unnamed: 0,LOTNO,UDATE,SNO,PAL_1,PAL_2,PAL_3,year,year_lot
3,a001,2021/06/01 8:01:50,4,20.82138,0.8021,0.02743,2021,2021_a001
4,a001,2021/06/01 8:01:50,5,20.27658,0.958275,0.08071,2021,2021_a001
5,a001,2021/06/01 8:01:50,6,20.5651,0.935128,0.14481,2021,2021_a001
6,a001,2021/06/01 8:01:50,7,20.94541,1.191736,0.17075,2021,2021_a001
7,a001,2021/06/01 8:01:50,8,20.00111,1.187173,0.06885,2021,2021_a001
...,...,...,...,...,...,...,...,...
2875,a001,2021/06/01 8:01:50,2876,0.0,0.0,0.0,2021,2021_a001
2876,a001,2021/06/01 8:01:50,2877,21.89908,1.00995,0.04199,2021,2021_a001
2877,a001,2021/06/01 8:01:50,2878,21.35169,0.818043,0.04593,2021,2021_a001
2878,a001,2021/06/01 8:01:50,2879,21.16819,1.294418,0.11129,2021,2021_a001


## カラム結合、レコード結合
■カラム結合（join）※横方向の結合
```python
pd.merge(df1, df2, how="left", on=["カラム名1", "カラム名2"]
```
【参考】  
[外部結合の違い](https://medium-company.com/%E5%86%85%E9%83%A8%E7%B5%90%E5%90%88-%E5%A4%96%E9%83%A8%E7%B5%90%E5%90%88-%E9%81%95%E3%81%84/)  
[Pandasで2つのデータを横方向に結合するmerge関数の使い方](https://deepage.net/features/pandas-merge.html)

■レコード結合（union）※縦方向の結合
```python
df3 = pd.concat([df1, df2], axis=0)
```

【参考】  
[指定した軸の方向にDataFrameを結合するPandasのconcat関数の使い方](https://deepage.net/features/pandas-concat.html)  
※Pandas1.4以降で、DataFrameの縦方向の結合にappendを使う方法が非推奨になりました。

In [1]:
import pandas as pd

df_a = pd.read_csv("./file/initial/3.csv")
df_b = pd.read_csv("./file/initial/4.csv")
display(df_a)
display(df_b)

Unnamed: 0,VAR,LOTNO,QTY1
0,a,1,1
1,a,2,3
2,a,3,2
3,a,4,4
4,a,5,2
5,b,1,5
6,b,2,4
7,b,3,6
8,b,4,4
9,b,5,4


Unnamed: 0,VAR,LOTNO,QTY2
0,a,1,1
1,a,2,2
2,a,4,1
3,a,6,1
4,b,1,3
5,b,2,4
6,b,5,2
7,b,6,2


In [21]:
# # 完全外部結合
df_c = pd.merge(df_a, df_b, how="outer", on=['VAR', 'LOTNO'])
df_c

Unnamed: 0,VAR,LOTNO,QTY1,QTY2
0,a,1,1.0,1.0
1,a,2,3.0,2.0
2,a,3,2.0,
3,a,4,4.0,1.0
4,a,5,2.0,
5,b,1,5.0,3.0
6,b,2,4.0,4.0
7,b,3,6.0,
8,b,4,4.0,
9,b,5,4.0,2.0


In [22]:
# # 左外部結合
df_d = pd.merge(df_a, df_b, how="left", on=["VAR", "LOTNO"])
df_d

Unnamed: 0,VAR,LOTNO,QTY1,QTY2
0,a,1,1,1.0
1,a,2,3,2.0
2,a,3,2,
3,a,4,4,1.0
4,a,5,2,
5,b,1,5,3.0
6,b,2,4,4.0
7,b,3,6,
8,b,4,4,
9,b,5,4,2.0


In [23]:
# # カラム名の変更
df_a = df_a.rename(columns={"QTY1":"QTY"})
df_b = df_b.rename(columns={"QTY2":"QTY"})
display(df_a)
display(df_b)

Unnamed: 0,VAR,LOTNO,QTY
0,a,1,1
1,a,2,3
2,a,3,2
3,a,4,4
4,a,5,2
5,b,1,5
6,b,2,4
7,b,3,6
8,b,4,4
9,b,5,4


Unnamed: 0,VAR,LOTNO,QTY
0,a,1,1
1,a,2,2
2,a,4,1
3,a,6,1
4,b,1,3
5,b,2,4
6,b,5,2
7,b,6,2


In [26]:
# # # DFを縦方向に結合
df_e = pd.concat([df_a, df_b], axis=0)
df_e

Unnamed: 0,VAR,LOTNO,QTY
0,a,1,1
1,a,2,3
2,a,3,2
3,a,4,4
4,a,5,2
5,b,1,5
6,b,2,4
7,b,3,6
8,b,4,4
9,b,5,4


In [27]:
df_f = df_a.append(df_b).reset_index(drop=True)
df_f

  df_f = df_a.append(df_b).reset_index(drop=True)


Unnamed: 0,VAR,LOTNO,QTY
0,a,1,1
1,a,2,3
2,a,3,2
3,a,4,4
4,a,5,2
5,b,1,5
6,b,2,4
7,b,3,6
8,b,4,4
9,b,5,4


## ソート  
```python
sort_values(["カラム名1", "カラム名2"], ascending=False)
```

In [28]:
df5 = pd.read_csv("./file/initial/2.csv")
# df5 = df.sort_values(["検査者1", "検査日"], ascending=False).reset_index(drop=True)
df5

Unnamed: 0,LOTNO,品番,検査日,検査者1,加工元,検査数,不良1,不良2,不良3,不良4,不良5
0,1,33,2017/4/3,佐藤,XXX,389,,2.0,,5.0,
1,2,19,2020/4/3,佐藤,YYY,1,,,,,
2,3,18,2020/12/3,佐藤,ZZZ,25,,,,2.0,
3,4,19,2021/1/5,佐藤,WWW,1,,,,,
4,5,42,2021/2/1,佐藤,ZZZ,70,,,3.0,,
5,6,72,2017/4/3,佐藤,VVV,492,10.0,,,2.0,
6,7,19,2020/4/3,石田,YYY,1,,,,,
7,8,51,2020/12/3,石田,ZZZ,50,,,,,1.0
8,9,61,2021/1/5,石田,WWW,1,,,,,
9,10,19,2021/2/1,石田,YYY,1,,,,,


## 集計
■グループ化
```python
df.groupby(["カラム名1", "カラム名2"], as_index=False).mean()
```
■集計関数  
```
mean、max、min、sum、std、first、last
```
  
■個別に計算
```python
df.groupby("").agg({"カラム名1":"mean","カラム名2":"max"})
```


In [32]:
df6 = pd.read_csv("./file/initial/5.csv")
df6 = df6.groupby(["Pers","Var"], as_index=False).mean()
df6


Unnamed: 0,Pers,Var,Par1,Par2
0,a,X,3.0,0.35
1,a,Y,2.5,0.725
2,b,X,2.75,0.6
3,b,Y,2.0,0.3
4,c,X,2.0,0.1
5,c,Y,2.0,0.5


In [34]:
df7 = pd.read_csv("./file/initial/5.csv")
df7 = df7.groupby(["Pers","Var"], as_index=False).agg({"Par1":"mean","Par2":"first"})
df7


Unnamed: 0,Pers,Var,Par1,Par2
0,a,X,3.0,0.5
1,a,Y,2.5,1.1
2,b,X,2.75,0.1
3,b,Y,2.0,0.3
4,c,X,2.0,0.1
5,c,Y,2.0,0.5


## 縦持ち変換・横持ち変換  
参考：　[便利だけど分かりにくいデータフレームを再構築するPandasのMelt()関数のお話](https://www.salesanalytics.co.jp/datascience/datascience021/)

■横持ち→縦持ち  
- DBに入れるときは縦持ちに変換する（カラムが増えるような構造は、DBに取って致命的なので）  

```python
pd.melt(df, id_vars=["meltさせないカラム名"], value_vars=["meltさせたいカラム名"], var_name="meltさせた項目の呼び名", value_name='meltさせた値の呼び名')   
```
  
■縦持ち→横持ち  
- 人が見て分かりやすいので、入力フォームは横持ち。データ解析するときも横持ちにする

```python
pd.pivot(data_long.pivot(index=["結果の行見出しとなるインデックス名"], columns="結果の行見出しとなるカラム名", values="結果の要素（データ）となるカラム名")).reset_index()
df1.columns.name = None
```

In [None]:
df7 = pd.read_csv("./file/initial/5.csv")
df7 = df7.groupby(["Pers","Var"], as_index=False).agg({"Par1":"mean","Par2":"first"})
df7


In [None]:
df7_m = pd.melt(df7, id_vars=["Pers", "Var"], var_name="Par_name", value_name="Par_value")
df7_m

In [None]:
df7_p = pd.pivot(df7_m, index=["Pers","Var"], columns="Par_name", values="Par_value").reset_index()
df7_p.columns.name = None
df7_p

# その他
## null処理
■null補完
```python
df.fillna(値)
```
■null削除
```python
df.dropna()
df.dropna(subset=["カラム名"])
```

In [42]:
df5 = pd.read_csv("./file/initial/2.csv")
df5 = df5.fillna(0)
df5


Unnamed: 0,LOTNO,品番,検査日,検査者1,加工元,検査数,不良1,不良2,不良3,不良4,不良5
0,1,33,2017/4/3,佐藤,XXX,389,0.0,2.0,0.0,5.0,0.0
1,2,19,2020/4/3,佐藤,YYY,1,0.0,0.0,0.0,0.0,0.0
2,3,18,2020/12/3,佐藤,ZZZ,25,0.0,0.0,0.0,2.0,0.0
3,4,19,2021/1/5,佐藤,WWW,1,0.0,0.0,0.0,0.0,0.0
4,5,42,2021/2/1,佐藤,ZZZ,70,0.0,0.0,3.0,0.0,0.0
5,6,72,2017/4/3,佐藤,VVV,492,10.0,0.0,0.0,2.0,0.0
6,7,19,2020/4/3,石田,YYY,1,0.0,0.0,0.0,0.0,0.0
7,8,51,2020/12/3,石田,ZZZ,50,0.0,0.0,0.0,0.0,1.0
8,9,61,2021/1/5,石田,WWW,1,0.0,0.0,0.0,0.0,0.0
9,10,19,2021/2/1,石田,YYY,1,0.0,0.0,0.0,0.0,0.0


In [None]:
df5 = pd.read_csv("./file/initial/2.csv")
df5 = df5.dropna(subset=['不良4'])
df5


## DataFrameの情報確認（サイズ、カラム情報、要素、統計量など）
■サイズ確認（レコード数、列数）
```python
df.shape
```

■カラム情報確認 **よく使う**
```python
df.info()
```

■カラム型確認 **よく使う**
```python
df.dtypes
```

■要素の種類と数の確認
```python
df.value_counts("カラム名")
```

■統計量確認
```python
df.describe(include="all")
```

In [None]:
df = pd.read_csv("./file/initial/5.csv")
df

In [None]:
df.shape

In [None]:
df = pd.read_csv("./file/initial/5.csv")
df.info()


In [None]:
df = pd.read_csv("./file/initial/5.csv")
df.dtypes


In [None]:
df = pd.read_csv("./file/initial/5.csv")
# df.value_counts("Pers")
df.value_counts(["Pers", "Var"])


In [None]:
df['Pers'].unique()

In [None]:
df = pd.read_csv("./file/initial/5.csv")
df.describe(include="all")

## カラムの変更

■DFのカラム名を変更する  
　参考：[pandas.DataFrameの行名・列名の変更](https://note.nkmk.me/python-pandas-dataframe-rename/)  
```python
df = df.rename(columns={'変更前A': '変更後A', '変更前B': '変更後B'})
```  
**作ったDataFrameをDB（データベース）に入れる場合、カラム名は「基本は英数字、記号は絶対にアンダーバー以外は使わない」ことが必要  
（変な記号を入れると、DBに入れた後でトラブル起こすよ！）（特にExcelやcsvから作る人は注意！）**

■DFのカラム順を変更する  
　書いた順番で並びます。不要なカラムがあれば、記載しなければ削除されます。
```python
df = df[['カラムA', 'カラムB', 'カラムC', 'カラムD']]
```

■カラムの要素の型を変更する **よく使う**
```python
df['カラムE'] = df['カラムE'].astype(str)
```

In [36]:
df = pd.read_csv("./file/initial/5.csv")
display('変更前', df)
df = df.rename(columns={'Par1':'PARTS1', 'Par2':'PARTS2'})
display('変更後', df)

'変更前'

Unnamed: 0,Pers,Var,Par1,Par2
0,a,X,4,0.5
1,a,X,2,0.2
2,b,X,3,0.1
3,b,X,3,0.9
4,a,Y,2,1.1
5,b,Y,2,0.3
6,c,Y,3,0.5
7,c,Y,1,0.4
8,c,X,2,0.1
9,a,Y,3,0.9


'変更後'

Unnamed: 0,Pers,Var,PARTS1,PARTS2
0,a,X,4,0.5
1,a,X,2,0.2
2,b,X,3,0.1
3,b,X,3,0.9
4,a,Y,2,1.1
5,b,Y,2,0.3
6,c,Y,3,0.5
7,c,Y,1,0.4
8,c,X,2,0.1
9,a,Y,3,0.9


In [37]:
df = df[['PARTS1', 'PARTS2', 'Pers', 'Var']]
display('順番変更', df)

'順番変更'

Unnamed: 0,PARTS1,PARTS2,Pers,Var
0,4,0.5,a,X
1,2,0.2,a,X
2,3,0.1,b,X
3,3,0.9,b,X
4,2,1.1,a,Y
5,2,0.3,b,Y
6,3,0.5,c,Y
7,1,0.4,c,Y
8,2,0.1,c,X
9,3,0.9,a,Y


In [None]:
print("変更前：", df['PARTS2'].dtypes)
df['PARTS2'] = df['PARTS2'].astype(str)
print("変更後：", df['PARTS2'].dtypes)
df

In [38]:
df.columns

Index(['PARTS1', 'PARTS2', 'Pers', 'Var'], dtype='object')

## DataFrame操作関係　その他いろいろ
過去の受講生から比較的問い合わせが多いと感じたものを集めました。  

■特定の文字列が入ったカラムを消す（下の例では「Unnamed:」という文字列が入ったカラムを消している）  

```python
drop_col = df.filter(like="Unnamed:", axis=1).columns
df = df.drop(drop_col, axis=1)
```

■文字列、数値が混在したカラムの要素で文字列だけをNaNに変換し、数値だけを残す  
参考：[pandas.DataFrameの型を変えたいけど例外レコードがあってastypeできない時の対処法](https://qiita.com/oystaar/items/b87b3f98f9913a6b119e)
 
```python
df['変換したいカラム名'] = pd.to_numeric(df['変換したいカラム名'], errors='coerce')
```

■特定の値のIndex, Columnsが何番目にあるのかを逆引き  
　参考：[pandas.DataFrameの行番号、列番号を取得](https://note.nkmk.me/python-pandas-get-loc-row-column-num/)  
 
```python
df.columns.get_loc('カラムの値')
df.index.get_loc('インデックスの値')
```

■DFに1から始まる通しNo.を振る  
 
```python
# dfのインデックスが0始まりの通しNo.になっている場合
df['通しNo.'] = df.index + 1

# dfのインデックスが時間などになっていて上記の式が使えない場合
df['sNo'] = pd.RangeIndex(start=1, stop=len(df.index) + 1, step=1)
```

■DataFrameのカラム、インデックスの抽出  
- この関数を左辺に置いて、右辺にリストを置けば、カラムの差し替えをすることが可能です。  
- df.indexをlocの第一引数に入れると、そのインデックス番号でDFの抽出が可能です。  

```python
df.columns
df.index
```

■Pandasの日時型の操作については、21_時間操作.ipynbを参照  