# 事前準備：共通コードの実行
このノートブックに接続したら，まずは以下の2つの共通コード（コードAとコードB）を実行する．
これらの共通コードを実行しないと，それ以降のコードが実行できないので注意する．
また，コードAとコードBは，ノートブックに接続するたび毎回実行すること（ノートブックに接続中は，何度も実行する必要はない）．  

共通コードの詳細についての説明は割愛するので，コードの内容の理解は必須とはしない（実行結果を見やすくするための「おまじない」と考えればよい）．  

In [None]:
# コードA：日本語化ライブラリ導入
! pip install japanize-matplotlib | tail -n 1

In [3]:
# コードB：共通事前処理

#B1:余分なワーニングを非表示にする
import warnings
warnings.filterwarnings('ignore')

#必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib #matplotlib日本語化対応
import seaborn as sns

#B2:データフレーム表示用関数
from IPython.display import display

#B3:表示オプション調整
np.set_printoptions(suppress = True, precision = 3) #numpyの浮動小数点の表示精度
pd.options.display.float_format = '{:.3f}'.format #pandasでの浮動小数点の表示精度
pd.set_option('display.max_columns', None) #データフレームですべての列データを表示

#B4:グラフのデフォルトフォント指定
plt.rcParams['font.size'] = 14

#乱数の種
random_seed = 123

## コードAの補足
このコードは，Pythonのパッケージを管理するためのシステムである`pip`を使用して，japanize-matplotlibというライブラリをインストールし，その出力の最後の1行だけを表示する．
  
*  `! pip install japanize-matplotlib`: `pip`の`install`コマンドを使って，japanize-matplotlibパッケージをインストールする．japanize-matplotlibは，Matplotlibライブラリで日本語の文字表示を可能にするためのパッケージである．
*  `| tail -n 1`: Unix/Linuxの`tail`コマンドを使って，インストールプロセスの出力のうち最後の1行のみを表示する．パイプ`|`によって，`install`コマンドの出力が`tail`コマンドの入力となる．`-n 1`オプションは，末尾から1行だけを取得することを指定している．  
  
このコードは，Jupyter NotebookやGoogle ColaboratoryのようなPythonのインタラクティブな実行環境で使用されることが多い．`!`をコマンドの前に付けることで，Python環境内からシステムのコマンドを実行することができる．この場合，japanize-matplotlibのインストールが成功したかどうか，または関連する最後のメッセージを確認するために使われています．

## コードBの補足
### B1:余分なワーニングを非表示にする
この部分のコードで，コード実行後に表示される警告メッセージを非表示にしている．具体的には，Pythonの標準ライブラリである`warnings`モジュールの`filterwarnings`関数を使用する．`warnings`モジュールは、開発者（プログラマ）に警告（非致命的なエラーなど）を発するためのモジュールである．  
  
*  `import warnings`: `warnings`モジュールをインポートする．
*  `warnings.filterwarnings('ignore')`: `filterwarnings`関数を使って，発生する警告を非表示にする（無視する）．

この処理は，特定の警告が表示されることがわかっており，それによる出力が実行結果の可読性を損なう場合などに使われる（本講義でもこの目的で使っている）．ただし，警告メッセージはコードに潜在的な問題があることを知らせる重要な手がかりを提供するので，慎重に使用する必要がある．

### B2:データフレーム表示用関数
この部分のコードで，`IPython.display`モジュールから`display`関数をインポートしている．`IPython.display`モジュールは，IPython環境（Jupyter NotebookやGoogle Colaboratoryを含む）内でリッチなウェブベースのコンテンツを表示するためのツール群を提供する．

`display`関数は，様々な形式のデータやメディアを豊かに表示するために使われる。．例えば，HTML，画像，DataFrame等の表示が含まれる．この関数を使用することで，標準の出力よりも見やすい表示にできる．

### B3:表示オプション調整
この部分のコードで，NumPyとPandasを使用する際の小数点以下の桁数表示を設定している．

*  `np.set_printoptions(suppress = True, precision = 3)`:
    *  `suppress = True`: 指数表記（例: `1e-4`）を使用しない．
    *  `precision = 3`: 表示する小数点以下の桁数を3桁に設定する．
    *  これにより，NumPyの配列の各要素が小数点以下3桁までの精度で表示される．
*  `pd.options.display.float_format = '{:.3f}'.format`:
    * PandasのDataFrameやSeries内のデータ型がfloatの数値に対するフォーマットを設定する．
    * `'{:.3f}'.format`: 小数点以下3桁までの精度で表示するように設定している．
*  `pd.set_option('display.max_columns', None)`:
    *  `pd.set_option`: DataFrameの表示行数や列数などが指定できる．
    *  `display.max_columns`: 表示する最大のカラム数を指定する．
    *  `display.max_columns`の後ろに`None`を設定することで，DataFrameの列数の制限をなくし，利用可能なすべての列を表示することができる．


### B4:グラフのデフォルトフォント指定
この部分のコードで，matplotlibのグラフにおける文字サイズを設定している．`plt.rcParams`には，matplotlibのデフォルト設定が格納されている辞書型のデータ（辞書）である．この辞書を通じて，グラフの様々な視覚的要素（文字サイズ，線の太さ，色など）のデフォルト値を設定できる．
  
`plt.rcParams['font.size'] = 14`で，グラフ内のテキスト（タイトル，軸ラベル，凡例など）のデフォルトの文字サイズを14ポイントに設定している．








# Seriesの基本操作
Seriesは複数の値を要素として持ち，各要素には「インデックス」を割り当てることができる．  
Series定義の書式:
`pd.Series(値を要素に持つリスト, index=インデックスのリスト)`  
※`pd`は`pandas`のこと


|基本操作の書式|内容|
|:--|:--|
|`se.index`|Seriesのインデックス|
|`se['インデックス名']`|インデックスによる要素指定|
|`se.unique()`|重複排除結果を返すメソッド|
|`se.value_counts()`|要素の値ごとのデータ数を集計するメソッド |
|`se.sort_values(ascending=[True or False])`|要素を並べ替えるメソッド（`True`で昇順（デフォルト），`False`で降順）|
|`se.map(関数名)`|各データに関数を適用するメソッド|
|`se 演算子 値`|各要素と値の演算結果を返す|
|`se[条件式]`|条件式による検索結果を返す|


※表内の「`se`」は任意のSeries（オブジェクト）

## Seriesの定義

In [None]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score)

工藤    90
浅木    70
松田    70
瀬川    80
dtype: int64


## インデックスの参照と要素指定

In [None]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score.index) #インデックスの参照
print(score['松田']) #インデックスによる要素指定

Index(['工藤', '浅木', '松田', '瀬川'], dtype='object')
70


## 重複排除

In [None]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score.unique()) #重複排除結果表示

[90 70 80]


### 参考
*  以下のコードの実行結果は，`score` シリーズオブジェクトの `unique` メソッド自体を表している
*  `unique` メソッドが実際に呼び出されているわけではなく，そのメソッドオブジェクト自体が`print`関数の引数となって表示されている
*  メソッド名の後ろに括弧がない場合，実際にメソッドが呼び出されるのではなく，オブジェクト自身が指定されていることになる
*  Pythonでは，取り扱われるすべてのデータ（関数，クラス，メソッド等）がオブジェクトとなるので，`変数.unique`はオブジェクトとなり，`print(変数.unique)`を実行すると`unique`メソッドオブジェクト自身が表示されることになる
*  また，すべてのメソッドは`method`クラスのオブジェクトなので，他のメソッドでも同様の実行結果となる
*  メソッドを呼び出す場合には，必ず`()`を記述する
*  この`()`は演算子の一つで「呼び出し演算子」と呼ぶ

In [8]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score.unique) #括弧を入れてない
print(type(score.unique))
print(type(score.unique()))

<bound method Series.unique of 工藤    90
浅木    70
松田    70
瀬川    80
dtype: int64>
<class 'method'>
<class 'numpy.ndarray'>


## データ数の集計

In [4]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score.value_counts()) #データ数の集計結果表示

70    2
90    1
80    1
Name: count, dtype: int64


## 並べ替え（ソート）

In [5]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score.sort_values()) #並べ替えた結果を表示

浅木    70
松田    70
瀬川    80
工藤    90
dtype: int64


## 演算処理

In [6]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score >= 80) #演算結果を表示（要素の値が80以上であればTrue）

工藤     True
浅木    False
松田    False
瀬川     True
dtype: bool


In [7]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score + 5) #演算結果を表示（要素の値に+5する）

工藤    95
浅木    75
松田    75
瀬川    85
dtype: int64


## 検索

In [9]:
score = pd.Series([90, 70, 70, 80], index = ['工藤', '浅木', '松田', '瀬川']) #Seriesの定義
print(score[score >= 80]) #条件式による検索結果を表示（80以上の要素を表示）

工藤    90
瀬川    80
dtype: int64


# DataFrameの基本操作
DataFrameは表形式（行列形式）の形で値を持ち，各行に対してindex（インデックス）を，各列に対してcolumns（列名）を割り当てることができる．したがって，indexとcolumnsの組で一つの要素を指定できる．
  
DataFrame定義の書式:  
`pd.DataFrame(リストを要素に持つリスト, index=インデックスのリスト, columns=列名のリスト)`  
※`pd`は`pandas`のこと


|基本操作の書式|内容|
|:--|:--|
|`df.index`|DataFrameのインデックス|
|`df.columns`|DataFrameの列名|
|`df.shape`|DataFrameの行数と列数|
|`df.head()`|DataFrameの先頭の数行を返すメソッド|
|`df.tail()`|DataFrameの末尾の数行を返すメソッド|
|`df[列名のリスト]`|特定の列を返す|
|`df.loc[インデックスのリスト]`|特定の行の返す|
|`df[条件式]`|条件式による検索結果を返す|
|`df.loc[インデックスのリスト, 列名のリスト]`|指定した行と列に対応する要素を返す|
|`df.loc[インデックス] = ～`|行の追加・更新|
|`df['列名'] = ～`|列の追加・更新|
|`df.drop(インデックスのリスト, axis = 0)`|指定した行を削除するメソッド|
|`df.drop(列名のリスト, axis = 1)`|指定した列を削除するメソッド|
|`df.T`|行と列を入れ替える（転置）|
|`df.to_csv('ファイルの名前')`|DataFrameをcsvファイルに書き込むメソッド|
|`pd.resd_csv('ファイルの場所・名前')`|csvファイルをDataFrameに読み込むメソッド|

※表内の「`df`」は任意のDataFrame（オブジェクト）
※表内の「`pd`」は「pandas」のこと

## DataFrameの定義
`display`関数は，DataFrameを（`print`関数より）見やすい形で表示する関数である．

In [10]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML']) #DataFrameの定義
display(score_df)

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
松田,70,80
福田,85,70


*  実行結果の直後に表示される「View recommended plots」をクリックすると，DataFrameに対するグラフ表示のコードを提案してくれる（Google Claboratoryの機能）
*  本講義では利用しないので，特に気にしなくてよい

In [11]:
# 上のコードと同じ結果となる）
data = [[90, 70], [70, 80], [70, 80], [85, 70]]
idx = ['工藤', '浅木', '松田', '福田']
col = ['Python', 'ML']
score_df = pd.DataFrame(data, index = idx, columns = col) #DataFrameの定義
display(score_df)

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
松田,70,80
福田,85,70


## インデックスと列名の参照
*  インデックスと列名は，あとから変更することもできる
*  また，for文の制御記述としてリストと同様に利用できる

In [None]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
print(score_df.index) #インデックスの表示
print(score_df.columns) #列名の表示

Index(['工藤', '浅木', '松田', '福田'], dtype='object')
Index(['Python', 'ML'], dtype='object')


## 列数と行数の参照

In [None]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
print(score_df.shape) #行数と列数を表示

(4, 2)


## 先頭・末尾の数行を返すメソッド

In [13]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
display(score_df.head(1)) #先頭1行を表示
print('----------------------------------')
display(score_df.tail(2)) #末尾2行を表示

Unnamed: 0,Python,ML
工藤,90,70


----------------------------------


Unnamed: 0,Python,ML
松田,70,80
福田,85,70


## 列名を指定して列データを抽出
*  DataFrame名の後ろに列名のリストを角括弧`[ ]`で囲って記述することで任意の列データを抽出できる

In [17]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
display(score_df[['ML']]) #ML列を抽出

Unnamed: 0,ML
工藤,70
浅木,80
松田,80
福田,70


*  . (ドット) を利用しても同じ結果が得られる
*  書式: `df.列名`  
*  例: `score_df.Python`

## インデックスを指定して行データを抽出
*  DataFrameに対する`loc`メソッドを使うことで行データを抽出できる
*  `loc`の後ろにインデックスのリストを角括弧`[ ]`で囲って記述することで任意の行データを抽出できる
*  また，: (コロン) で行番号の範囲を指定することで，特定の範囲の行を抽出できる
*  例: `df[10:15]`

In [18]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
display(score_df.loc[['浅木', '福田']]) #浅木と福田の行を抽出

Unnamed: 0,Python,ML
浅木,70,80
福田,85,70


## インデックスと列名を指定してデータを抽出
*  `loc`メソッドを用いる
*  `loc`の後ろの角括弧`[ ]`の中に**インデックスのリスト**, **列名のリスト**を記述することで任意の要素を抽出できる

In [None]:
#コード2-5h
import pandas as pd
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#工藤と松田の行のPython列の要素を抽出
display(score_df.loc[['工藤', '松田'], ['Python']])
# 下のコードだと列名がちゃんと表示されない
# display(score_df.loc[['工藤', '松田'], 'Python'])

Unnamed: 0,Python
工藤,90
松田,70


連続した行や列を指定する場合は，リストのスライス指定と同様の指定方法が利用できる．

*  `A:B` ⇒ `A`以上`B`以下
*  `A:` ⇒ `A`以上すべて
*  `:B` ⇒ `B`以下すべて
* `:` ⇒ すべて

In [19]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#工藤から松田の行の全列の要素を抽出
display(score_df.loc['工藤':'松田', :])

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
松田,70,80


## 条件式による検索
* 条件式を使って，条件式が True（条件を満たしている）である行を抽出できる
* 逆に，条件を満たしてない場合は False となる
* 条件式は比較演算子を用いて指定する

### 比較演算子
* 2つの値の大小を比較するための演算子
* 演算結果は「True」と「False」のいずれかの値をとる
* 「True」と「False」は，boolクラスの値
* 比較演算子を使った式が正しければ「True（真）」で，間違っていれば「False（偽）」となる

|比較演算子|意味|
|:-:|:-:|
| < | 小さい |
| > | 大きい |
| <= | 以上 |
| >= | 以下 |
| == | 等しい |
| != | 等しくない |

In [22]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
display(score_df[score_df['Python'] >= 80]) #Python列が80以上の行を抽出
# display(score_df.loc[score_df['Python'] >= 80]) #上と同じ

Unnamed: 0,Python,ML
工藤,90,70
福田,85,70


### 論理演算子の利用
*  論理演算子 `&`, `|`, `~` を利用することで，より詳細な条件式が指定できる

|論理演算子|意味|
|:-:|:--|
| `&` (and) | 両者を満たす（両者ともTrueの）ときTrue |
| `\|` (or) | どちらか片方を満たす（少なくともどちらか一方がTrueの）ときTrue |
| `~` (not) | 満たさない（Falseの）ときTrue |

In [23]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#Python列が80未満，かつML列が70以上の行を抽出
display(score_df[(score_df['Python'] < 80) & (score_df['ML'] >= 70)])

Unnamed: 0,Python,ML
浅木,70,80
松田,70,80


## 列の追加・更新

In [None]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#Python列のデータを[90, 70, 70, 85]から[95, 75, 70, 80]に更新
score_df['Python'] = [95, 75, 70, 80]
display(score_df)

Unnamed: 0,Python,ML
工藤,95,70
浅木,75,80
松田,70,80
福田,80,70


In [24]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#列データ（Web列）を追加
score_df['Web'] = [85, 75, 70, 80]
display(score_df)

Unnamed: 0,Python,ML,Web
工藤,90,70,85
浅木,70,80,75
松田,70,80,70
福田,85,70,80


## 行の追加・更新

In [25]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#工藤行のデータを[90, 70]から[95, 75]に更新
score_df.loc['工藤'] = [95, 75]
display(score_df)

Unnamed: 0,Python,ML
工藤,95,75
浅木,70,80
松田,70,80
福田,85,70


In [26]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#行データ（山本行）を追加
score_df.loc['山本'] = [75, 75]
display(score_df)

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
松田,70,80
福田,85,70
山本,75,75


## 行と列の削除
*  `drop`メソッドで，行や列を削除できる
*  ただし，メソッドを適用した後も元のDataFrameは変わらない

In [27]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#列データ（Python列）を削除して表示
display(score_df.drop(['Python'], axis = 1))

Unnamed: 0,ML
工藤,70
浅木,80
松田,80
福田,70


In [28]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#行データ（松田行）を削除して表示
display(score_df.drop(['松田'], axis = 0))

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
福田,85,70


## 行と列の入れ替え（転置）
*  DataFrameの後ろに「`.T`」を付けることで行と列を入れ替えることができる
*  ただし，「`.T`」を適用した後も元のDataFrameは変わらない

In [29]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#行と列を入れ替えて表示
display(score_df.T)

Unnamed: 0,工藤,浅木,松田,福田
Python,90,70,70,85
ML,70,80,80,70


## csvファイルの読み込みとcsvファイルへの書き込み
*  csv(Comma Separated Values)ファイルとは，各要素がカンマ「`,`」で区切られたテキストファイルのことで，テキストエディタ（メモ帳など）やExcelで開くことができる
*  `to_csv`メソッドでDataFrameをcsvファイルに書き込むことができ，`read_csv`メソッドで既存のcsvファイルをDataFrameとして読み込むことができる
*  Google Colaboratoryにおいて，書き込みによって作成されるcsvファイルは，ノートブック左のフォルダの形のアイコンをクリックすることで現れるフォルダに保存される
*  また，csvファイルを読み込む際は，このフォルダ内にcsvファイルをアップロードしておく必要がある

In [30]:
score_df = pd.DataFrame([[90, 70], [70, 80], [70, 80], [85, 70]],
                        index = ['工藤', '浅木', '松田', '福田'],
                        columns = ['Python', 'ML'])
#DataFrameをcsvファイルに書き込む
score_df.to_csv('sample.csv', index=True)
#実行画面には何も表示されない

*  `index`が`True`だとインデックスも書き込まれる．一方，`index`が`False`だとインデックスが省略される
*  `read_csv`メソッドの引数には，csvファイルのURLも指定できる
*  例として，以下のURLにあるcsvファイル（インデックス有）の読み込みを行う
>*  https://bit.ly/3DmHfDw
*  また，引数に`index_col`を指定すると，インデックスとして使いたい列を番号で指定できる（列番号は0から始まる）．

In [31]:
#変数urlにcsvファイルの場所（URL）を代入
url = 'https://bit.ly/3DmHfDw'
#csvファイルをDataFrameに変換して変数score_dfに代入
score_df = pd.read_csv(url, index_col=0)
display(score_df)

Unnamed: 0,Python,ML
工藤,90,70
浅木,70,80
松田,70,80
福田,85,70


*  別例として，以下のURLにあるcsvファイル（インデックス無）の読み込みを行う
>*  https://bit.ly/4h1CgG8
*  インデックスがないcsvファイルを読み込むと，自動的に0から始まるインデックスが付く

In [32]:
url = 'https://bit.ly/4h1CgG8'
score_df = pd.read_csv(url)
display(score_df)

Unnamed: 0,Python,ML
0,90,70
1,70,80
2,70,80
3,85,70


# DataFrameの応用操作
|操作の書式|内容|
|:--|:--|
|`df.sum()`／`df['列名'].sum()`|合計を計算する集計メソッド|
|`df.mean()`／`df['列名'].mean()`|平均を計算する集計メソッド|
|`df.median()`／`df['列名'].median()`|中央値を計算する集計メソッド|
|`df.mode()`／`df['列名'].mode()`|最頻値を計算する集計メソッド|
|`df.var(ddof = 0 or 1)`／`df['列名'].var(ddof = 0 or 1)`|標本分散・不偏分散を計算する集計メソッド|
|`df.std()`／`df['列名'].std()`|標準偏差を計算する集計メソッド|
|`df.min()`／`df['列名'].min()`|最小値を計算する集計メソッド|
|`df.max()`／`df['列名'].max()`|最大値を計算する集計メソッド|
|`df.count()`／`df['列名'].count()`|データ数を数えるメソッド|
|`df.describe()`|各種基本統計量を一括で計算する集計メソッド|
|`df.groupby(集計対象).集計メソッド()`|グループ集計|
|`pd.pivot_table()`|ピボットテーブル集計|
|`pd.concat([df1, df2], axis = [0 or 1])`|DataFrameの単純な結合|
|`df1.merge(df2, how = 結合の種類)`|DataFrameの内部結合・外部結合|
|`pd.merge(df1, df2, how = 結合の種類)`|DataFrameの内部結合・外部結合|
|`df.isnull()`|欠損値の確認|
|`df.dropna(axis = 0)`|欠損値のある行を削除|
|`df.dropna(axis = 1)`|欠損値のある列を削除|
|`df.fillna(穴埋めする値)`／`df['列名'].fillna(穴埋めする値)`|欠損値を穴埋め|
|`df.interpolate(limit_direction = 補間方法)`|線形補間|
|`pd.get_dummies(df, drop_first = True or False)`|ダミー変数の作成|
|`df.plot(kind = グラフの種類, title = グラフのタイトル)`|グラフの作成|


※表内の「`df`」「`df1`」「`df2`」は任意のDataFrame（オブジェクト）
※表内の「`pd`」は「pandas」のこと