# a-1. pandasの基本
---
## 1. pandasとは？
## 2.データ構造
## 3. Series
### &nbsp;　3-1. Seriesの初期化
### &nbsp;　3-2. Seriesの基本処理

## 4. DataFrame
### &nbsp;　4-1. DataFrameの初期化
### &nbsp;　4-2. DataFrameの基本処理



---


# 1. pandasとは？

**pandas** <sup>1</sup> とは、Wes McKinneyらにより2008年より開発が進められているPython用のライブラリで、
統計処理で必要となる表構造データの処理を柔軟かつ強力に支援するソフトウェアである<sup>2</sup>。
pandasは、今ではpythonにおける表構造データを扱う代表的なライブラリである一方で、
用意されたメソッドの多さに加え、データの型(実数型や日付型など)による動作の違いなど、初学者にとっては習熟するまでのハードルが高いのも事実である。
ここで提供するドキュメントの目的は、そのような方に、pandasでよく利用する処理に焦点を絞り、入門的なリファレンスを示すことである。
pandasの詳細な解説については、優れた出版物やネット上でのドキュメントも多く、そちらを参照していただきたい。

<hr style="width:800px" align="center";>

<sup>1</sup> pandas の情報は、ホームページ https://pandas.pydata.org/ より入手できる。
そこにはチュートリアルやAPIリファレンス、さらには 3000ページを超えるドキュメントpdfが提供されている。
ちなみに、pandasという名称は、統計解析の分野で用いられるパネルデータ(panel data)の頭文字をとったものである。

<sup>2</sup> [Wes McKinney, pandas: a Foundational Python Library for Data Analysis and Statistics. In SC Workshop on Python for High Performance and Scientific Com- puting, 2011.](https://www.dlr.de/sc/portaldata/15/resources/dokumente/pyhpc2011/submissions/pyhpc2011_submission_9.pdf)

In [2]:
# pandasを利用するためには、最初にライブラリを読み込まなければならない。
# 通常、短縮の別名としてpdを使うことが多い。
import pandas as pd

---
# 2.データ構造
pandasでは２つのデータ構造**Series**と**DataFrame**を扱う。
<b>Seriesは一次元の配列データ</b>のことで、<b>DataFrameは行と列により構成される二次元配列データ</b>である。
多くの処理(メソッド)は、これら２つのデータ構造に共通して利用できるが、
いずれかのデータ構造でしか利用できない処理もある。

またpandasは、内部的には**numpy**ライブラリの`ndarray`を用いており、
処理結果をnumpyのデータとして出力することもあるため、
numpyの利用についても意識しておく必要がある。
numpyは多次元データを効率的に扱うことに長けたライブラリであり、
pythonでの機械学習/AIにおいて用いられるデータ構造は、ほぼnumpy一択と言ってよいであろう。
ただし、numpyは同じ型のデータ(特に実数)を多次元で処理するにあたって威力を発揮するが、
複数のデータ型を含むデータ(例えば、文字列や実数、日付などの混在データ)の扱いは苦手であり、
pandasはその欠点を補っている。

---

 <table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:35%;">
      <col style="width:65%;">
  
    </colgroup>
<tbody>
    
    <tr><td colspan=2 bgcolor="#ffffff"><font size =4><b>Seriesはラベル付けされた一次元配列データ</b></font></td></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td><font size='3'>no.2-1</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6], name='x')
s
</pre></td>
    <td><font size=3>【用語の解説と表記の説明】</font><br><br><img width="60%" src="./figures/base/base2_data1.png"></td>
</tr>
   
<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:50%;">
      <col style="width:50%;">
    </colgroup>
<tbody>
    
<tr><td colspan=2 bgcolor="#ffffff"><font size =3>軸名(ラベルの名前)を設定したSeries　（index.name = で軸名を付けることができる）</font></td></tr>
    
<tr style="background:#fff; border:1px solid #ffffff">
    <td><font size='3'>no.2-2</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6])
s.index.name = 'r'
s
</pre></td>
<td><font size='3'>no.2-3</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6], name='x')
s.index.name = 'r'
s
</pre></td>
</tr>


<tr style="background:#fff; border:1px solid #ffffff;">
<td align="center">
<img width="50%" src="./figures/base/base2_data1_axis1.png">
</td>    
<td align="center">
<img width="47%" src="./figures/base/base2_data1_axis2.png">
</td>
</tr>
    
</tbody>
</table>

---

 <table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:40%;">
      <col style="width:60%;">
    </colgroup>
<tbody>
    

  
<tr><td colspan=2 bgcolor="#ffffff"><font size =4><b>DataFrameはラベル付けされた二次元配列データ</b></font></td></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td><font size='3'>no.2-4</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d
</pre></td>
<td><font size=3>【用語の解説と表記の説明】</font><br><img width="70%" src="./figures/base/base2_data2.png"><img width="30%" src="./figures/base/base2_data2-a.png"></td>
    
<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:33%;">
      <col style="width:33%;">
      <col style="width:33%;">     
    </colgroup>
<tbody>
    
<tr><td colspan=3 bgcolor="#ffffff"><font size =3>軸名(行/列のラベルの名前)を設定したDataFrame　（index.name = で行ラベル名を、columns.name = で列ラベル名を付けることができる）</font></td></tr>
    
<tr style="background:#fff; border:1px solid #ffffff">
<td><font size='3'>no.2-5</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d
</pre></td>
<td><font size='3'>no.2-6</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.columns.name = 'c'
d
</pre></td>
<td><font size='3'>no.2-7</font><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d.columns.name = 'c' 
d
</pre></td>
</tr>

<tr style="background:#fff; border:1px solid #ffffff;">
<td align="center">
<img width="100%" src="./figures/base/base2_data2_axis1.png">
</td>    
<td align="center">
<img width="68%" src="./figures/base/base2_data2_axis2.png">
</td>
<td align="center">
<img width="90%" src="./figures/base/base2_data2_axis3.png">
</td>
</tr>

</tbody>
</table>


In [31]:
print('''
## Series
# no.2-1 値をリストで与えた最もシンプルな初期化
>>> s = pd.Series([9, 5, 7, 6])
print(s)''')
s = pd.Series([9, 5, 7, 6])
print(s)

print('''
# no.2-2 軸名(ラベルの名前)を設定したSeries。（index.name= で軸名を付けることができる）
# 列名はなく軸名を定義。
>>> s = pd.Series([9, 5, 7, 6])
>>> s.index.name = 'r'
>>> print(s)''')
s = pd.Series([9, 5, 7, 6])
s.index.name = 'r'
print(s)

print('''
# no.2-3 列名と軸名を定義。
>>> s = pd.Series([9, 5, 7, 6], name='x')
>>> s.index.name = 'r'
>>> print(s)''')
s = pd.Series([9, 5, 7, 6], name='x')
s.index.name = 'r'
print(s)

print('''
## DataFrame
# no.2-4 列名をキーに、列の値をリストにした辞書で与えたシンプルな初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)

print('''
# no.2-5 軸名(行/列のラベルの名前)を設定したDataFrame。（index.name= で行ラベル名を、columns.name= で列ラベル名を付けることができる）
# 行ラベルの軸名が定義されている
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.index.name = 'r'
''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
print(d)

print('''
# no.2-6 列ラベルの軸名が定義されている。
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.columns.name = 'c'
>>> print(d)
''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.columns.name = 'c'
print(d)

print('''
# no.2-7 行ラベルと列ラベルの軸名が定義されている。
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.index.name = 'r'
>>> d.columns.name = 'c' 
>>> print(d)
''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d.columns.name = 'c'
print(d)


## Series
# no.2-1 値をリストで与えた最もシンプルな初期化
>>> s = pd.Series([9, 5, 7, 6])
print(s)
0    9
1    5
2    7
3    6
dtype: int64

# no.2-2 軸名(ラベルの名前)を設定したSeries。（index.name= で軸名を付けることができる）
# 列名はなく軸名を定義。
>>> s = pd.Series([9, 5, 7, 6])
>>> s.index.name = 'r'
>>> print(s)
r
0    9
1    5
2    7
3    6
dtype: int64

# no.2-3 列名と軸名を定義。
>>> s = pd.Series([9, 5, 7, 6], name='x')
>>> s.index.name = 'r'
>>> print(s)
r
0    9
1    5
2    7
3    6
Name: x, dtype: int64

## DataFrame
# no.2-4 列名をキーに、列の値をリストにした辞書で与えたシンプルな初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )

# no.2-5 軸名(行/列のラベルの名前)を設定したDataFrame。（index.name= で行ラベル名を、columns.name= で列ラベル名を付けることができる）
# 行ラベルの軸名が定義されている
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.index.name = 'r'

   x    y    z
r             
0  9  1.5  abc
1  5  2.0  ace
2  7  0.4  cce
3  6  1.0  df

---
# 3.Series
## 3-1. Seriesの初期化


  <table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:5%;">
      <col style="width:40%;"> 
      <col style="width:20%;">
      <col style="width:35%;">    
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6])
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-1.png"></td>
<td>
値をリストで与えた最もシンプルな初期化。ラベルは0から始まる整数値として振られ、名前はNoneとなる。データ型はリストで与えられた値の型に応じて決まる。
</td>
</tr> 

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6], name='x', dtype=int)
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-2.png"></td>
<td>
値をリストで与えた場合は、<tt>name=</tt>で名前を、そして<tt>dtype=</tt>で値の型を指定する。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6], index=[1, 2, 3, 4], name='x', dtype=int)
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-3.png"></td>
<td>
各行のラベルを<tt>index=</tt>で個別に定義できる
</td>
</tr>
     
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series({1:9, 2:5, 3:7, 4:6}, name='x', dtype=int)
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-4.png"></td>
<td>
辞書で与える場合は、キーがラベルとなる。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dates = pd.date_range('2021/1/1', periods=4)
s = pd.Series([9, 5, 7, 6], index=dates)
s
</pre></td>
<td align="center"><img width="80%" src="./figures/base/base3-1-5.png"></td>
<td>
日付をラベルにする例。日付は<tt>datetime</tt>型を利用してもよいし、ここでの例のような<tt>pd.date_range</tt>のようなpandasの日付関連の関数を用いてもよい。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6])
s.index.name = 'r'
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-6.png"></td>
<td>
indexの軸名を設定する方法。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6],name='x')
s.index.name = 'r'
s
</pre></td>
<td align="center"><img width="40%" src="./figures/base/base3-1-7.png"></td>
<td> 
列の名前も設定した場合の出力例。
</td>
</tr>
</tbody>
</table>


In [3]:
print('''
# no.3-1-1 値をリストで与えた最もシンプルな初期化
>>> s = pd.Series([9, 5, 7, 6])''')
s = pd.Series([9, 5, 7, 6])
print(s)

print('''
# no.3-1-2 値をリストで与えた場合は、nameで名前を、そしてdtypeで値の型を指定する。ラベルとデータ型を指定しての初期化
>>> s = pd.Series([9, 5, 7, 6], name='x', dtype=int)
''')
s = pd.Series([9, 5, 7, 6],name='x',dtype=int)
print(s)

print('''
# no.3-1-3 各行のラベルを個別に定義できる
>>> s = pd.Series([9, 5, 7, 6], index=[1, 2, 3, 4], name='x', dtype=int)''')
s = pd.Series([9, 5, 7, 6], index=[1, 2, 3, 4], name='x', dtype=int)
print(s)

print('''
# no.3-1-4 ラベルと値を辞書で初期化
>>> s = pd.Series({1:9, 2:5, 3:7, 4:6}, name='x', dtype=int)''')
s = pd.Series({1:9, 2:5, 3:7, 4:6}, name='x', dtype=int)
print(s)

print('''
# no.3-1-5 日付ラベルで初期化
>>> dates = pd.date_range('2021/1/1', periods=4)
>>> s = pd.Series([9, 5, 7, 6], index=dates)''')
dates = pd.date_range('2021/1/1', periods=4)
s = pd.Series([9, 5, 7, 6], index=dates)
print(s)

print('''
# no.3-1-6 
# indexの軸名を設定する方法。
>>> s = pd.Series([9, 5, 7, 6])
>>> s.index.name = 'r'
''')
s = pd.Series([9, 5, 7, 6])
s.index.name = 'r'
print(s)

print('''
# no.3-1-7
# 列の名前も設定した場合の出力例。
>>> s = pd.Series([9, 5, 7, 6], name='x')
>>> s.index.name = 'r'
''')
s = pd.Series([9, 5, 7, 6],name='x')
s.index.name = 'r'
print(s)




# no.3-1-1 値をリストで与えた最もシンプルな初期化
>>> s = pd.Series([9, 5, 7, 6])
0    9
1    5
2    7
3    6
dtype: int64

# no.3-1-2 値をリストで与えた場合は、nameで名前を、そしてdtypeで値の型を指定する。ラベルとデータ型を指定しての初期化
>>> s = pd.Series([9, 5, 7, 6], name='x', dtype=int)

0    9
1    5
2    7
3    6
Name: x, dtype: int64

# no.3-1-3 各行のラベルを個別に定義できる
>>> s = pd.Series([9, 5, 7, 6], index=[1, 2, 3, 4], name='x', dtype=int)
1    9
2    5
3    7
4    6
Name: x, dtype: int64

# no.3-1-4 ラベルと値を辞書で初期化
>>> s = pd.Series({1:9, 2:5, 3:7, 4:6}, name='x', dtype=int)
1    9
2    5
3    7
4    6
Name: x, dtype: int64

# no.3-1-5 日付ラベルで初期化
>>> dates = pd.date_range('2021/1/1', periods=4)
>>> s = pd.Series([9, 5, 7, 6], index=dates)
2021-01-01    9
2021-01-02    5
2021-01-03    7
2021-01-04    6
Freq: D, dtype: int64

# no.3-1-6 
# indexの軸名を設定する方法。
>>> s = pd.Series([9, 5, 7, 6])
>>> s.index.name = 'r'

r
0    9
1    5
2    7
3    6
dtype: int64

# no.3-1-7
# 列の名前も設定した場合の出力例。
>>> s = pd.Series([9, 5, 7, 6], name='x')
>>> s.index.name = 'r'

r
0 

---
## 3-2. Seriesの基本処理

### 入力データ
<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s = pd.Series([9, 5, 7, 6])
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:5%;">
      <col style="width:30%;">
      <col style="width:22%;">  
      <col style="width:23%;">
      <col style="width:20%;">    
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>入力</th><th>出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
type(s)
</pre></td> 
<td rowspan="7" align="center"><img width="30%" src="./figures/base/base3-2data.png"></td>
<td><font size="3">pandas.core.series.Series</font></td>
<td>型名</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
type(s)==pd.Series
</pre></td>
<td><font size="3">True</font></td>
<td>型がSeriesであるかどうかをTrue/Falseで判定。</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(s.values)
print(s.to_numpy())
</pre></td>
<td><font size="3">array([9, 5, 7, 6])</font></td>
<td>値のみをndarrayで取り出す </td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.dtype
</pre></td>
<td><font size="3">dtype('int64')</font></td>
<td>値の型</td>
</tr> 

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.index
</pre></td>
<td><font size="3">RangeIndex(start=0, stop=4, step=1)</font></td>
<td>ラベルの内容</td>
</tr>    

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.index.to_list()
</pre></td>
<td><font size="3">[0, 1, 2, 3]</font></td>
<td>ラベルの内容をリストに変換</td> 
</tr>     
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
len(s), len(s.index)
</pre></td>
<td><font size="3">(4, 4)</font></td>
<td>値の個数</td>
</tr>     
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(s.name)

入力データ
t = pd.Series([9, 5, 7, 6], name='x')
print(t.name)
</pre></td> 
<td align="center"><img width="25%" src="./figures/base/base3-2-8data.png"></td>
<td><font size="3">データsの場合：None<br>データtの場合：x</font></td>
<td>Seriesの名前(文字列)</td>
</tr> 

   
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-9</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.head(2)
</pre></td> 
<td align="center"><img width="25%" src="./figures/base/base3-2-9data.png"></td>
<td align="center"><img width="25%" src="./figures/base/base3-2-9st.png"></td>  
<td>先頭のみ選択(件数省略時は6件) </td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-10</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.tail(2)
</pre></td>
<td align="center"><img width="25%" src="./figures/base/base3-2-10data.png"></td>
<td align="center"><img width="25%" src="./figures/base/base3-2-10st.png"></td>
<td>末尾のみ選択(件数省略時は6件)</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-11</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
s.astype(float)
</pre></td>
<td align="center"><img width="28%" src="./figures/base/base3-2-11data.png"></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-11st.png"></td>
<td>値の型の変換。型がfloat型に変換(キャスト)される</td>
</tr>  

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-12</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
ss = s.copy()
ss.name = 'y'
print(ss)

tt = t.copy()
tt.name = 'y'
print(tt)
</pre></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-12data.png"></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-12st.png"></td>
<td> 名前を変更<br> データsの場合：'None'が'y'<br>データtの場合：'x'が'y'に書き換えられる。</td>
</tr>    

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-13</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
ss = s.copy()
ss.index = [3, 2, 1, 0]
print(ss)
</pre></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-13data.png"></td>
<td align="center"><img width="28%" src="./figures/base/base3-2-13st.png"></td>
<td>ラベルを変更。</td>
</tr> 

<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-14</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
ss = s.copy()
ss.name = 'x'
ss.index.name = 'r'
print(ss)
ss = ss.rename_axis('r2')
print(ss)  
</pre></td> 
<td align="center"><img width="30%" src="./figures/base/base3-2-14data.png"></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-14st.png"></td>
<td>indexの軸名(axis name)の変更方法。</td>
</tr> 
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2-15</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(dir(s))
</pre></td>
<td align="center"><img width="30%" src="./figures/base/base3-2-15data.png"></td>
<td><font size="3">['T', '_AXIS_LEN', '_AXIS_NAMES', ... ,'values', 'var', 'view', 'where', 'xs']</font> </td>
<td>オブジェクトsの属性/メソッド一覧</td>
</tr> 
    
    
</tbody>
</table>

In [74]:

print('''
\n# 入力データ（再掲）s
>>> s = pd.Series([9, 5, 7, 6]''')
s = pd.Series([9, 5, 7, 6])
print(s)

print('''
# no.3-2-1 型名
>>> print(type(s))''')
print(type(s))

print('''
# no.3-2-2 型がSeriesであるかどうかをTrue/Falseで判定をしたければ以下のようにすればよい。
>>> print(type(s)==pd.Series)''')
print(type(s)==pd.Series)

print('''
# no.3-2-3 値のみをndarrayで取り出す
# to_numpy()でも同じことが可能であり、pandasのドキュメントではto_numpy()の利用が推奨されている。
>>>print(s.values)''')
print(s.values)
print('''
>>> print(s.to_numpy()) ''')                  
print(s.to_numpy())  

print('''
# no.3-2-4 値の型
>>> print(s.dtype)''')
print(s.dtype)
              
print('''
# no.3-2-5 ラベルの内容
>>> print(s.index)''')
print(s.index)
              
print('''
# no.3-2-6 ラベルの内容をリストに変換
>>> print(s.index.to_list())''')
print(s.index.to_list())
              
print('''
# no.3-2-7 値の個数
>>> print(len(s), len(s.index))''')
print(len(s), len(s.index))

print('''
# no.3-2-8 Seriesの名前(文字列)
>>> print(s.name)''')
print(s.name)
print('''
# 入力データ t
>>> t = pd.Series([9, 5, 7, 6], name='x')
>>> print(t.name)''')
t = pd.Series([9, 5, 7, 6], name='x')
print(t.name)

print('''
# no.3-2-9 先頭のみ選択(件数省略時は6件)
>>> print(s.head(2))''')
print(s.head(2))
              
print('''
# no.3-2-10 末尾のみ選択(件数省略時は6件)
>>> print(s.tail(2))''')
print(s.tail(2))
                          
print('''
# no.3-2-11 値の型の変換
>>> d.rename(columns={'x':'x2'})''')
print(s.astype(float))

print('''
# no.3-2-12 名前を変更
>>> ss = s.copy()
>>> ss.name = 'y' 
print(ss)''')
ss = s.copy()
ss.name = 'y'
print(ss)
print('''
>>> tt = t.copy()
>>> tt.name = 'y' 
print(tt) ''')
tt = t.copy()
tt.name = 'y'
print(tt)  

              
print('''
# no.3-2-13 ラベルを変更
>>> ss = s.copy()
>>> ss.index = [3, 2, 1, 0]
print(ss)''')
ss = s.copy()
ss.index = [3, 2, 1, 0]
print(ss)

print('''
# no.3-2-14
# indexの軸名(axis name)の変更方法。
>>> ss = s.copy()
>>> ss.name = 'x'
>>> ss.index.name = 'r'
>>> print(ss)
>>> ss = ss.rename_axis('r2')
>>> print(ss)              ''')
ss = s.copy()
ss.name = 'x'
ss.index.name = 'r'
print(ss)
ss = ss.rename_axis('r2')
print(ss)              

print('''
# no.3-2-15 オブジェクトsの属性/メソッド一覧
>>> print(dir(s))''')
print(dir(s))




# 入力データ（再掲）s
>>> s = pd.Series([9, 5, 7, 6]
0    9
1    5
2    7
3    6
dtype: int64

# no.3-2-1 型名
>>> print(type(s))
<class 'pandas.core.series.Series'>

# no.3-2-2 型がSeriesであるかどうかをTrue/Falseで判定をしたければ以下のようにすればよい。
>>> print(type(s)==pd.Series)
True

# no.3-2-3 値のみをndarrayで取り出す
# to_numpy()でも同じことが可能であり、pandasのドキュメントではto_numpy()の利用が推奨されている。
>>>print(s.values)
[9 5 7 6]

>>> print(s.to_numpy()) 
[9 5 7 6]

# no.3-2-4 値の型
>>> print(s.dtype)
int64

# no.3-2-5 ラベルの内容
>>> print(s.index)
RangeIndex(start=0, stop=4, step=1)

# no.3-2-6 ラベルの内容をリストに変換
>>> print(s.index.to_list())
[0, 1, 2, 3]

# no.3-2-7 値の個数
>>> print(len(s), len(s.index))
4 4

# no.3-2-8 Seriesの名前(文字列)
>>> print(s.name)
None

# 入力データ t
>>> t = pd.Series([9, 5, 7, 6], name='x')
>>> print(t.name)
x

# no.3-2-9 先頭のみ選択(件数省略時は6件)
>>> print(s.head(2))
0    9
1    5
dtype: int64

# no.3-2-10 末尾のみ選択(件数省略時は6件)
>>> print(s.tail(2))
2    7
3    6
dtype: int64

# no.3-2-11 値の型の変換
>>> d.rename(columns={'x':'x2'})
0    9.0
1    5.0
2    7

---
# 4. DataFrame
## 4-1. DataFrameの初期化


  <table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:5%;">
      <col style="width:30%;"> 
      <col style="width:25%;">
      <col style="width:40%;">    
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-1-1.png"></td>
<td>列名をキーに、列の値をリストにした辞書で与えたシンプルな初期化。</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']},
    index=['1', '2', '3', '4']
)
d
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-1-2.png"></td>
<td>各行のラベルをindex=で個別に定義する。dtypeで値の型を指定できるが、全ての列に共通の型しか指定できないので、個々の列で指定する場合は3-2のSeriesにより初期化すればよい。</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dates1 = pd.date_range('2021/1/1', periods=4)
dates2 = dates1.sort_values(ascending=False)
x = pd.Series([9, 5, 7, 6], index=dates1, dtype=float)
y = pd.Series([1.5, 2.0, 0.4, 1.0], index=dates1, dtype=float)
z = pd.Series(['abc', 'ace', 'cce', 'dfa'], index=dates2, dtype=object)
d = pd.DataFrame({'x':x, 'y':y, 'z':z})
d
</pre></td>
<td align="center"><img width="80%" src="./figures/base/base4-1-3.png"></td>
<td>日付をラベルにして各列をSeriesで初期化。列を別々に初期化しているので、DataFrameを初期化する際にラベルの値を突き合わせて結合される。この例ではz列のみ、日付を逆順にしており、ラベルによる結合の様子が確認できる。</td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-1-4.png"></td>
<td>indexの軸名(axis name)を設定する方法。</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.columns.name = 'c'
d
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-1-5.png"></td>
<td>columnsの軸名(axis name)を設定する方法。</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-1-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d.columns.name = 'c'
d
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-1-6.png"></td>
<td>index/columnsの両方の軸名を設定する方法。</td>
</tr>
 
  
</tbody>
</table>

In [32]:

print('''
\n# no.4-1-1 列名をキーに、列の値をリストにした辞書で与えたシンプルな初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> print(d)''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
print(d)

print('''
# no.4-1-2 各行のラベルをindexで個別に定義する初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']},
        index=['1', '2', '3', '4']
    )
>>> print(d)''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']},
    index=['1', '2', '3', '4']
)
print(d)

print('''
# no.4-1-3 日付をラベルにして各列をSeriesで初期化
>>> dates1 = pd.date_range('2021/1/1', periods=4)
>>> dates2 = dates1.sort_values(ascending=False)
>>> x = pd.Series([9, 5, 7, 6], index=dates1, dtype=float)
>>> y = pd.Series([1.5, 2.0, 0.4, 1.0], index=dates1, dtype=float)
>>> z = pd.Series(['abc', 'ace', 'cce', 'dfa'], index=dates2, dtype=object)
>>> d = pd.DataFrame({'x':x, 'y':y, 'z':z})
>>> print(d)''')
dates1 = pd.date_range('2021/1/1', periods=4)
dates2 = dates1.sort_values(ascending=False)
x = pd.Series([9, 5, 7, 6], index=dates1, dtype=float)
y = pd.Series([1.5, 2.0, 0.4, 1.0], index=dates1, dtype=float)
z = pd.Series(['abc', 'ace', 'cce', 'dfa'], index=dates2, dtype=object)
d = pd.DataFrame({'x':x, 'y':y, 'z':z})
print(d)

print('''
# no.4-1-4 
# indexの軸名(axis name)を設定する方法。
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.index.name = 'r'
>>> print(d)''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
print(d)

print('''
# no.4-1-5 
# columnsの軸名(axis name)を設定する方法。
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.columns.name = 'c'
>>> print(d)''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.columns.name = 'c'
print(d)

print('''
# no.4-1-6
# index/columnsの両方の軸名を設定する方法。
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> d.index.name = 'r'
>>> d.columns.name = 'c'
>>> print(d)''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
d.index.name = 'r'
d.columns.name = 'c'
print(d)





# no.4-1-1 列名をキーに、列の値をリストにした辞書で与えたシンプルな初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> print(d)
   x    y    z
0  9  1.5  abc
1  5  2.0  ace
2  7  0.4  cce
3  6  1.0  dfa

# no.4-1-2 各行のラベルをindexで個別に定義する初期化
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']},
        index=['1', '2', '3', '4']
    )
>>> print(d)
   x    y    z
1  9  1.5  abc
2  5  2.0  ace
3  7  0.4  cce
4  6  1.0  dfa

# no.4-1-3 日付をラベルにして各列をSeriesで初期化
>>> dates1 = pd.date_range('2021/1/1', periods=4)
>>> dates2 = dates1.sort_values(ascending=False)
>>> x = pd.Series([9, 5, 7, 6], index=dates1, dtype=float)
>>> y = pd.Series([1.5, 2.0, 0.4, 1.0], index=dates1, dtype=float)
>>> z = pd.Series(['abc', 'ace', 'cce', 'dfa'], index=dates2, dtype=object)
>>> d = pd.DataFrame({'x':x, 'y':y, 'z':z})
>>> print(d)
              x    y    z
2021-01-01  9.0  1.5  

---
## 4-2. DataFrameの基本処理

### 入力データd
<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
</pre>
### 入力データe
<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dates = pd.date_range('2021/1/1', periods=4)
e = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']},
    index=dates
)   
</pre>
  <table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:5%;">
      <col style="width:30%;">
      <col style="width:25%;">  
      <col style="width:25%;">
      <col style="width:15%;">    
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th>入力</th><th>出力</th><th>備考</th></tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
type(d)
</pre></td>
<td rowspan="8" align="center"><img width="70%" src="./figures/base/base4-2data.png"></td>
<td>pandas.core.frame.DataFrame</td>
<td>型名</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
type(d)==pd.DataFrame
</pre></td>
<td>True</td>
<td>型がDataFrameであるかどうかをTrue/Falseで判定</td>
</tr>    

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.values)
print(d.to_numpy())
</pre></td>
<td>
<tt>array[[9 1.5 'abc']</tt><br>
<tt>&nbsp; [5 2.0 'ace']</tt><br>
<tt>&nbsp; [7 0.4 'cce']</tt><br>
<tt>&nbsp; [6 1.0 'dfa']],dtype=object)
</tt></td>
<td>値のみをndarrayで取り出す。to_numpy()でも同じことが可能であり、pandasのドキュメントではto_numpy()の利用が推奨されている。</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.dtypes
</pre></td>
<td>
 <tt>x&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;int64</tt><br>
 <tt>y&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;float64</tt><br>
 <tt>z&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;object</tt><br>
 <tt>dtype: object</tt></td>
<td>各列の値の型を取り出す</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.info()
</pre></td>
<td>
        <tt>&lt;class'pandas.core.frame.DataFrame'&gt;</tt><br>
        <tt>RangeIndex: 4 entries, 0 to 3</tt><br>
        <tt>Data columns (total 3 columns):</tt><br>
        <tt> #   Column  Non-Null Count  Dtype  </tt><br>
        <tt>---  ------  --------------  -----  </tt><br>
        <tt> 0&nbsp;&nbsp;&nbsp;x &nbsp;&nbsp;&nbsp;&nbsp; 4 non-null&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;int64  </tt><br>
        <tt> 1&nbsp;&nbsp;&nbsp;y &nbsp;&nbsp;&nbsp;&nbsp; 4 non-null&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;float64</tt><br>
        <tt> 2&nbsp;&nbsp;&nbsp;z &nbsp;&nbsp;&nbsp;&nbsp; 4 non-null&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;object </tt><br>
        <tt>dtypes: float64(1), int64(1), object(1)</tt><br>
    <tt>memory usage: 224.0+ bytes</tt><br></td>
<td>DataFrameの情報を表示する</td>
</tr>

    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.columns
</pre></td>
<td><font size="3">
Index(['x', 'y', 'z'], dtype='object')</font></td>
<td>列ラベルの内容</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-7</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.columns.to_list()
</pre></td>
<td><font size="3">
['x', 'y', 'z']</font></td>
<td>列ラベルをリストに変換</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-8</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
len(d),len(d.index),len(d.columns)
</pre></td>
<td><font size="3">(4, 4, 3)</font>
<td>行と列のサイズ</td>
</tr>
  
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-9</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.index)
print(e.index)
</pre></td>
<td rowspan=2 align="center"><img width="90%" src="./figures/base/base4-2data-e.png"></td>
<td> 
<tt>データdの場合：<br>
    RangeIndex(start=0, stop=4, step=1)<br><br>
    データeの場合：<br>
    DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04'], dtype='datetime64[ns]', freq='D')</tt></td>
<td>行ラベルの内容 </td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-10</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.index.to_list())
print(e.index.to_list())
</pre></td>
<td>
<tt>データdの場合：<br>
[0, 1, 2, 3]<br><br>
データeの場合：<br>
[Timestamp('2021-01-01 00:00:00', freq='D'), Timestamp('2021-01-02 00:00:00', freq='D'), Timestamp('2021-01-03 00:00:00', freq='D'), Timestamp('2021-01-04 00:00:00', freq='D')]</tt>
<td>行ラベルをリストに変換</td>
</tr>

    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-11</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.head(2)
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-11data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-11de.png"></td>
<td>先頭行のみ選択(行数省略時は6行)</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-12</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.tail(2)
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-12data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-12de.png"></td>
<td>末尾行のみ選択(行数省略時は6行)</td>
</tr>    

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-13</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.astype({'x':float})
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-13data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-13de.png"></td>
<td>列の型変換。列'x'の型がfloat型に変換(キャスト)される</td>
</tr> 
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-14</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.columns = ['x1','y1', 'z']
dd
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-14data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-14de.png"></td>
<td>列ラベルの一括変更。'x'が'x1'に'y'が'y1'に書き換えられる</td>
</tr>    
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-15</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
d.rename(columns={'x':'x2'})
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-15data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-15de.png"></td>
<td>列単位でラベルを変更</td>
</tr>    
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-16</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.index = [3, 2, 1, 0]
print(dd)

ee = e.copy()
ee.index = ['2021/01/04', '2021/01/03', '2021/01/02', '2021/01/01']
print(ee)
</pre></td>
<td align="center"><img width="80%" src="./figures/base/base4-2-16data.png"></td>
<td align="center"><img width="80%" src="./figures/base/base4-2-16de.png"></td>
<td>行ラベルの一括変更。行ラベルをデータdは[3,2,1,0]にデータeは[2021/02/04,<br>2021/02/03,2021/02/02,<br>2021/02/01]に変更。</td>
</tr> 

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-17</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(d.rename(index={3:4}))

d0 = pd.to_datetime('2021-01-04')
d1 = pd.to_datetime('2021-01-10')
print(e.rename(index = {d0:d1}))
</pre></td>
<td align="center"><img width="80%" src="./figures/base/base4-2-17data.png"></td>
<td align="center"><img width="80%" src="./figures/base/base4-2-17de.png"></td>
<td>行単位でラベルを変更。行ラベルをデータdは3が4に、データeは2021/02/04が2020/02/05に書き換えられる。</td>
</tr>    

<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-18</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
dd = d.copy()
dd.index.name = 'r'
dd.columns.name = 'c'
print(dd)
dd = dd.rename_axis('r2')
dd = dd.rename_axis('c2', axis=1)
print(dd)
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-18data.png"></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-18de.png"></td>
<td>index/culumnsの軸名の変更方法。</td> 
</tr>  
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>4-2-19</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(dir(d))
</pre></td>
<td align="center"><img width="60%" src="./figures/base/base4-2-19data.png"></td>
<td><tt>['T', '_AXIS_LEN', '_AXIS_NAMES', ... , 'where', 'x', 'xs', 'y', 'z']</tt></td>
<td>オブジェクトdの属性/メソッド一覧</td>
</tr>   

    
</tbody>
</table>

In [33]:

print('''
# 入力データ再掲 d
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> print(d)
''')
d = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']}
)
print(d)

print('''
# 入力データ再掲 e
>>> dates = pd.date_range('2021/1/1', periods=4)
>>> e = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']},
        index=dates
    )   
>>> print(e)
''')     
dates = pd.date_range('2021/1/1', periods=4)
e = pd.DataFrame(
    {'x':[9, 5, 7, 6],
     'y':[1.5, 2.0, 0.4, 1.0],
     'z':['abc', 'ace', 'cce', 'dfa']},
    index=dates
)     
print(e)

print('''
# no.4-2-1 型名
>>> print(type(d))
''')
print(type(d))

print('''
# no.4-2-2 型がDataFrameであるかどうかをTrue/Falseで判定をしたければ以下のようにすればよい。
>>> print(type(d)==pd.DataFrame)
''')
print(type(d)==pd.DataFrame)

print('''
# no.4-2-3 値のみをndarrayで取り出す
# to_numpy()でも同じことが可能であり、pandasのドキュメントではto_numpy()の利用が推奨されている。
>>> print(d.values)
''')
print(d.values)
print('''
>>> print(d.to_numpy())
''')
print(d.to_numpy())

print('''
# no.4-2-4 各列の値の型を取り出す
>>> print(d.dtypes)
''')
print(d.dtypes)

print('''
# no.4-2-5 DataFrameの情報を表示する
>>> print(d.info())
''')
print(d.info())

print('''
# no.4-2-6 列ラベルの内容
>>> print(d.columns)
''')
print(d.columns)

print('''
# no.4-2-7 列ラベルをリストに変換
>>> print(d.columns.to_list())
''')
print(d.columns.to_list())

print('''
# no.4-2-8 行と列のサイズ
>>> print(len(d),len(d.index),len(d.columns))
''')
print(len(d),len(d.index),len(d.columns))
 
print('''
# no.4-2-9 行ラベルの内容
>>> print(d.index)
''')
print(d.index)
print('''
>>> print(e.index)
''')
print(e.index)

print('''
# no.4-2-10 行ラベルをリストに変換
>>> print(d.index.to_list())
''')
print(d.index.to_list())
print('''
>>> print(e.index.to_list())
''')
print(e.index.to_list())

     
print('''
# no.4-2-11 先頭行のみ選択(行数省略時は6行)
>>> print(d.head(2))
''')
print(d.head(2))

print('''
# no.4-2-12 末尾行のみ選択(行数省略時は6行)
>>> print(d.tail(2))
''')
print(d.tail(2))

print('''
# no.4-2-13 列の型変換
>>> print(d.astype({'x':float}))
''')
print(d.astype({'x':float}))

print('''
n# no.4-2-14 列ラベルの一括変更
>>> dd = d.copy()
>>> dd.columns = ['x1', 'y1', 'z']
>>> print(dd)
''')
dd = d.copy()
dd.columns = ['x1','y1', 'z']
print(dd)

print('''
# no.4-2-15 列単位でラベルを変更
>>> d.rename(columns={'x':'x2'}）
''')
print(d.rename(columns={'x':'x2'}))

print('''
# no.4-2-16 行ラベルの一括変更
>>> dd = d.copy()
>>> dd.index = [3, 2, 1, 0]
>>> print(dd)
''')
dd = d.copy()
dd.index = [3, 2, 1, 0]
print(dd)
print('''
>>> ee = e.copy()
>>> e.index = ['2021/01/04', '2021/01/03', '2021/01/02', '2021/01/01']
>>> print(ee)''')
ee = e.copy()
ee.index = ['2021/01/04', '2021/01/03', '2021/01/02', '2021/01/01']
print(ee)
      
print('''
# no.4-2-17 行単位でラベルを変更
>>> print(d.rename(index={3:4}))''')
print(d.rename(index={3:4}))

print('''
>>> d0 = pd.to_datetime('2021-01-04')
>>> d1 = pd.to_datetime('2021-01-10')
>>> print(e.rename(index = {d0:d1}))
''')
d0 = pd.to_datetime('2021-01-04')
d1 = pd.to_datetime('2021-01-10')
print(e.rename(index = {d0:d1}))

print('''
# no.4-2-18
# index/culumnsの軸名の変更方法。
>>> dd = d.copy()
>>> dd.index.name = 'r'
>>> dd.columns.name = 'c'
>>> print(dd)
>>> dd = dd.rename_axis('r2')
>>> dd = dd.rename_axis('c2', axis=1)
>>> print(dd)''')
dd = d.copy()
dd.index.name = 'r'
dd.columns.name = 'c'
print(dd)
dd = dd.rename_axis('r2')
dd = dd.rename_axis('c2', axis=1)
print(dd)

print('''
# no.4-2-19 オブジェクトd,eの属性/メソッド一覧
>>> print(dir(d))''')
print(dir(d))


# 入力データ再掲 d
>>> d = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']}
    )
>>> print(d)

   x    y    z
0  9  1.5  abc
1  5  2.0  ace
2  7  0.4  cce
3  6  1.0  dfa

# 入力データ再掲 e
>>> dates = pd.date_range('2021/1/1', periods=4)
>>> e = pd.DataFrame(
        {'x':[9, 5, 7, 6],
         'y':[1.5, 2.0, 0.4, 1.0],
         'z':['abc', 'ace', 'cce', 'dfa']},
        index=dates
    )   
>>> print(e)

            x    y    z
2021-01-01  9  1.5  abc
2021-01-02  5  2.0  ace
2021-01-03  7  0.4  cce
2021-01-04  6  1.0  dfa

# no.4-2-1 型名
>>> print(type(d))

<class 'pandas.core.frame.DataFrame'>

# no.4-2-2 型がDataFrameであるかどうかをTrue/Falseで判定をしたければ以下のようにすればよい。
>>> print(type(d)==pd.DataFrame)

True

# no.4-2-3 値のみをndarrayで取り出す
# to_numpy()でも同じことが可能であり、pandasのドキュメントではto_numpy()の利用が推奨されている。
>>> print(d.values)

[[9 1.5 'abc']
 [5 2.0 'ace']
 [7 0.4 'cce']
 [6 1.0 'dfa']]

>>> print(d.to_numpy())

[[9 1.5 'abc']
 [5 2.0 'ace']
 [7 0.4