## 2. 基本的データ型

まずは基本的なデータ型について確認していきましょう．次のデータ型が全てのデータ構造の基礎になりますので，正確に理解しましょう．

- int型（整数）
- float型（浮動小数点数）
- str型（文字列）
- bool型（真偽値）

一般のコンパイル言語では変数は事前にデータ型宣言をしますが，Pythonではデータ型宣言は不要です．
変数の定義は最初に出現する代入文によって行われます．
未定義の変数を参照すると，変数名未定義でエラーとなります．
代入文は等号記号「=」を使った構文となります．

> <font color=blue>変数 = 値</font>

ここで，「値」は具体的な数値や文字列などのオブジェクトです．また値の代わりに既に値が設定されている変数を置いても代入文が成立します．
*****

### int型（整数）
数学の基礎では数の概念を導入するとき，$\{1,2,3,4,\cdots\}$と数え上げることによって直感的に理解できる自然数からスタートして，ゼロと負の数を導入することによって整数を定義します．
すなわち，整数は$\{\cdots,-3,-2,-1,0,1,2,3,\cdots\}$で表すことができます．
整数の特徴として，小数点がないことです．すなわち0から9までの数字で構成された数字の塊は整数として認識されます．
整数の代入文の例をいくつか提示します．
```Python
mydataA = 1200
mydataB = 0
mydataC = -21
```

このように自然な表現で変数の定義と値の代入が行われます．それでは，実際にCodeセルに入力して確認しましょう．

In [1]:
mydata = 123
mydata

123

Codeセルに代入文を書いて実行しても何も出力されません．変数に代入された値を実際に確認するには，1行に変数名だけを記入して実行します．
代入文「mydata = 123」で定義された変数mydataのデータ型を確認するにはtype()関数を使用します．type()関数の引数に変数名を入れて実行すると，その変数名のデータ型を返してくれます．
```Python
type(mydata)
```

In [2]:
type(mydata)

int

確かにmydataはint型であることが分かります．

#### 整数の表現
整数を記載するときに気を付けることが幾つかあります．
カンマ区切りの数値は複数の数値の配列と見なされます．例えば，代入文で次のように記述してみます．
```Python
noGood = 1,200
```
普通の文章でしたら値として1200を表しますが，この場合は1と200の2つの値の配列と見なされてしまいます．

In [3]:
noGood = 1,200
type(noGood)

tuple

データ型としてtuple（タプル）となっています．タプルは配列を保持するオブジェクト形式のひとつです．
代入文を実行してもエラーにならないので，見過ごしてしまう危険があります．普通の文章では見易くするために大きな数値はカンマ区切りで記載することがマナーとなりますが，Pythonプログラムではトラブルの原因になることを知っておきましょう．

別の問題ですが，数値の前にゼロを付けて記載する数値の文字数を揃えることがありますが，Pythonプログラムの中では正しくない表現となります．
例えば，次のように書くと見栄えは良いです．
```Python
mydataA = 1200
mydataB = 0012
mydataC = -021
```
しかし，この表現は問題を含んでいます．0000だったらエラーにはなりませんが，0012や-021という表現ではエラーとなります．
実は数値の表現として10進数の他に16進数，8進数，2進数があり，数値の先頭にゼロとn進数を明示する文字を付けることによって表します．したがって先頭が0なのに2番目の文字が想定外の数字になっているからエラーと判断されます．

> 0<font color=blue>x</font>11 : 16進数（10進数で17）<br>
> 0<font color=blue>o</font>11 : 8進数（10進数で9）<br>
> 0<font color=blue>b</font>11 : 2進数（10進数で3）<br>

実際にCodeセルにて確認してみましょう．

In [4]:
0x11

17

In [5]:
0o11

9

In [6]:
0b11

3

普通の仕事では16進数や8進数，2進数を使うことは殆どありませんので，このような数値表現があるということだけを知っていれば十分です．
*****

### float型（浮動小数点数）
整数をゼロ以外の整数で割ることによって得られる数は整数とは限りません．それらの数を有理数といいます．定義からすると有理数は整数からなる分数で表せられる数値となります．
コンピューターの中で有理数に対応したデータ型が浮動小数点数です．実際には，浮動小数点数は有理数の一部でしかありません．しかし，有理数を適切な精度を持って浮動小数点数で近似することができます．
浮動小数点数は有理数の近似なので計算誤差が発生します．コンピューターの計算結果が絶対に正しいと過信してはいけません．

float型は数字に小数点があることによって明示されます．小数点以下がゼロであったり何もなくてもfloat型と判断されます．
float型の例を記載します．
```Python
mydataD = 3.14
mydataE = 24.0
mydataF = 10.
```

実際の例で確かめましょう．

In [7]:
mydata = 10.
mydata

10.0

In [8]:
type(mydata)

float

確かにfloat型になっています．ここで使用した変数名mydataですが，整数の説明のところで既に使用されていてint型になっていました．このように使用されている変数であっても再利用することによって新しいデータ型に変更されます．

#### 指数表記
桁数の大きな数値や桁数の小さな数値をそのまま記述するのは大変なので$a\dot\times 10^b$という指数表記を用います．
指数表記では指数部分$b$を英字「e」または「E」の後に記載します．

| 指数表記 | 数式による表現 | 　実際の数値　 |
| :---: | :---: | :---: |
| 1e6   | $1\times 10^6$    | $1,000,000$ |
| 24E3  | $24\times 10^3$   | $24,000$    |
| 5.5e4 | $5.5\times 10^4$  | $55,000$    |
| -3e1  | $-3\times 10^1$   | $-30$       |
| 7e-1  | $7\times 10^{-1}$ | $0.7$       |

具体的にCodeセルにて確認してください．

In [9]:
1e2

100.0

このように指数表記は便利ですが，あまりにも大きな数値は無限大と解釈されます．

In [10]:
1e309

inf

この「inf」はfloat型のデータでは収まらない大きな数字であることを表しています．数学的意味での無限大ではありませんが，近似の世界では無限大と見なします．
これとは逆にものすごく小さな数値はゼロとみなされるので，論理的にゼロでなくてもゼロ割エラーが発生することがあります．
機械学習で漸近的に数値を求めていくことがありますが，繰り返し計算の中で極めて小さな数値で割る可能性があり，高度なデータ処理では回避策を組み込むことが必然となります．

*****
数値計算においてint型であるかfloat型であるかを気にする必要はありません．Pythonが適切に型変換を行って結果を出してくれます．
基本的には，int型とfloat型の演算をするとfloat型になります．
*****

### str型（文字列）
文字列は，シングルコーテーション（'）あるいはダブルコーテーション（"）で囲うことによって表現されます．
```Python
'Hello'
```
これを変数に代入するとstr型となります．

In [11]:
mydata = 'Hello'
mydata

'Hello'

In [12]:
type(mydata)

str

確かにstr型になっています．
文字列データを連結することは頻繁にあります．Pythonでは文字連結をプラス記号「+」による演算で実現します．
「Hello」という文字列が格納されている変数mydataに「, world!」を追加してデータの値を「Hello, world!」としてみます．命令文をそのままの意味に沿って記述すると，
```Python
mydata = mydata + ', world!'
```

となりますが，「+=」という演算子が用意されていて，
```Python
mydata += ', world!'
```

と記述しても同じ処理になります．

In [13]:
mydata += ', world!'
mydata

'Hello, world!'

この例にあるように数値の四則演算に使う記号もオブジェクトのタイプが異なると全く違う処理を行います．
文字列に使える四則演算子としては，アスタリスク「\*」があります．数字の場合は掛け算となりますが，文字列に適用するには，もう一方がint型であることが要求され，結果は元の文字列を掛ける整数回繰り返した文字列となります．

In [14]:
'Thank you! ' * 3

'Thank you! Thank you! Thank you! '

掛ける整数がゼロまたは負の数の場合は，ブランクの文字列となります．

##### シングルコーテーション（'）とダブルコーテーション（"）
文字列を表現するときのシングルコーテーション（'）とダブルコーテーション（"）の使い分けは，文章内部に含まれない方の記号で囲うことが一つの判断となります．
```Python
"That's right!"
```

この場合，文章の中にシングルコーテーション（'）が含まれているので，全体とシングルコーテーションで囲うと「That」を一つの文字列と見なすため，その後に続く文字列が構文エラーとなります．よって，この文の場合はダブルコーテーション（"）を採用します．

In [15]:
"That's right!"

"That's right!"

文字列の中にシングルコーテーション（'）とダブルコーテーション（"）の両方を記述する場合は，バックスラッシュ（\）によるエスケープシーケンスを使って表現します．ちなみにバックスラッシュ（\）と円マーク（$\yen$）は同じ文字コードです．かつてコンピューターが日本に導入されたときに金額表示に円マークが必要であったため，当時あまり使われないだろうと思われたバックスラッシュのコードに円マークを割り当てた経緯があり，そのまま今日に至っています．
```Python
'He said "It\'s OK."'
```
この文全体をシングルコーテーションで囲っているので「It's」にあるアポストロフィーはバックスラッシュ（\）を付けて記入する必要があります．

In [16]:
'He said "It\'s OK."'

'He said "It\'s OK."'

この文はシングルコーテーションで囲まれているので，ダブルコーテーション記号はそのまま記載することができますが，バックスラッシュを付けたエスケープシーケンス（\"）としても問題は在りません．

#### エスケープシーケンス
シングルコーテーションとダブルコーテーションの扱いで見たように，直接記入することが困難な文字についてはバックスラッシュを付けたエスケープシーケンスで表現します．代表的なエスケープシーケンスを記載します．

| エスケープシーケンス | 意味 |
| :---: | :--- |
| \'   | シングルコーテーション |
| \"   | ダブルコーテーション |
| \\\\ | バックスラッシュ |
| \t   | タブ |
| \n   | 改行 |

かつてはプリンターの出力制御のために多くのエスケープシーケンスが用いられましたが，現在ではそのような目的で使われることは少なくなっています．

#### raw文字列
プログラムの中では頻繁にファイルの所在場所を示すディレクトリーを扱います．例えば，Windowsでは「C:\users\myname\python\data」というような文字列になります．この文字列にはバックスラッシュが頻出するのでエスケープシーケンスを使って記載すると次のようになります.
```Python
'C:\\users\\myname\\python\\data'
```

このように書き換えることは煩わしい作業になります．そこでraw文字列を使って記載します．raw文字列とは，文字列中のバックスラッシュによるエスケープシーケンスをを無効にしてバックスラッシュのまま扱います．書き方は文字列の前に「r」あるいは「R」を付けるだけです．
```Python
r'C:\users\myname\python\data'
```


In [17]:
r'C:\users\myname\python\data'

'C:\\users\\myname\\python\\data'

このようにraw文字列では，内部表現としては「\」を「\\\\」とすることによってバックスラッシュとして維持しています．
raw文字列の書式としては，下記のどれでも同じ文字列となります．
```Python
r'C:\users\myname\python\data'
R'C:\users\myname\python\data'
r"C:\users\myname\python\data"
R"C:\users\myname\python\data"
```

いずれでも同じなので，ディレクトリーを記述するときはraw文字列にすると覚えてください．
*****

### bool型（真偽値）
様々な状況において正しか否かの判定をするときに，判定結果を表すデータを真偽値と言います．真偽値は真と偽の2通りの値しか取りません．
真と偽の値はそれぞれ「True」と「False」という値で示されます．そして真偽値を保有するデータの型をbool型といいます．

一般的に何かを判定する場合，2つの値を比較して真偽値を求めます．
そのために比較演算子を使います．次表はPythonで用意されている比較演算子です．

| 演算子 | 使用例 | 　　説明　　 |
| :---: | :---: | :--- |
| == | a == b | aとbが等しい場合にTrue，そうでない場合はFalse |
| != | a != b | aとbが不一致の場合にTrue，そうでない場合はFalse |
| <  | a < b  | aがbより小さい場合にTrue，そうでない場合はFalse |
| <= | a <= b | aがb以下の場合にTrue，そうでない場合はFalse |
| >  | a > b  | aがbより大きい場合にTrue，そうでない場合はFalse |
| >= | a >= b | aがb以上の場合にTrue，そうでない場合はFalse |

ここで変数fishを定義します．この変数の値が「salmon」や「tuna」と等しいかを比較演算子「==」を用いて確認します．
比較結果はFalseとTrueになります．

In [18]:
fish = 'tuna'
'salmon' == fish

False

In [19]:
'tuna' == fish

True

比較演算式を「fish == 'tuna'」と書かずに「'tuna' == fish」と書いたことには些細な理由があります．
仮に「fish == 'tuna'」と書くと，「fish = 'tuna'」と書き間違えた場合に代入文を実行してしまします．
ところが「'tuna' == fish」と書けば，「'tuna' = fish」と書き間違えたらエラーが発生します．
つまり，事前にバグを回避する用心深い記述になります．

比較した結果をdecisionとう変数に代入して，その変数のデータ型を確認します．

In [20]:
decision = ('tuna' == fish)
type(decision)

bool

真偽値はプログラムを制御するための重要な要素となります．真偽の判定は様々な方法で行われますが，多くのトラブルが発生する箇所でもあります．特に比較対象の変数に値が入っていない場合などが注意点となります．
*****

以上で基本となるデータ型について一通り学習しました．