# Colabで始めるPythonテキスト処理

> Colabを使ってPythonでのテキスト処理を行うための情報です

- toc: true
- badges: true
- comments: false
- categories: [jupyter, python]

## 初めに

システム開発・運用の現場ではテキストを処理して別のテキストを作る仕事が多くあります。

このNotebookでは、ColabでPythonを実行することによってテキスト処理を行う際の基礎的な情報を提供します。

なお、Pythonにおけるフロー制御([if文](https://docs.python.org/ja/3/tutorial/controlflow.html#if-statements)、[for文](https://docs.python.org/ja/3/tutorial/controlflow.html#for-statements)など)やデータ構造([リスト型](https://docs.python.org/ja/3/tutorial/introduction.html#lists)、[辞書型](https://docs.python.org/ja/3/tutorial/datastructures.html#dictionaries)など)は説明しません。それらの情報は、python.orgの[Python チュートリアル — Python 3.10.4 ドキュメント](https://docs.python.org/ja/3/tutorial/index.html)を参照することを推奨します。(リンク先は3.10.4のものですが、使用するPythonのバージョンに対応したものを参照してください。)また、正規表現も扱いません。このNotebookでは正規表現を使用せずに実現できる簡単なテキスト処理を扱います。

## Colab(Google Colaboratory)とは

[Colaboratory へようこそ \- Colaboratory](https://colab.research.google.com/?hl=ja#scrollTo=-Rh3-Vt9Nev9)　を参照してください。

### Jupyter Notebookとの関係

Colabは、Colabがホストする Jupyter Notebook(.ipynb)の実行環境です。 Colabで作成したNotebookをJupyterで実行したり、Jupyterで作成したNotebookをColabで実行したりできます。

Jupyterプロジェクトについては、[Project Jupyter \| Home](https://jupyter.org/)を参照してください。

## Colabの使い方

[Overview of Colaboratory Features \- Colaboratory](https://colab.research.google.com/notebooks/basic_features_overview.ipynb) を参照してください。


## 変数を確認する幾つかの方法

Colabはインタラクティブな実行環境なので、コードセルを実行するたびにその結果を確認しながら進めるのが確実です。このセクションでは変数の中身を確認するいくつかの方法を説明します。

### 変数を値評価する

変数を評価すると、文字列に変換してコードセルのアウトプットに書き出されます。

In [None]:
s = 'foo'
s

'foo'

ただし、この方法では、最後に評価した結果のみ出力されます。

In [None]:
s1 = 'foo'
s2 = 'bar'
s1
s2

'bar'

また、改行コードを含む文字列では改行コードを文字として出力します。

In [None]:
s = "foo\nbar"
s

'foo\nbar'

`None`である場合は出力されません。

In [None]:
s = None
s

[list](https://docs.python.org/ja/3/tutorial/introduction.html#lists)を評価すると次のように出力されます。

In [None]:
l = ['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']
l

['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']

### print関数を使う

[print](https://docs.python.org/ja/3.7/library/functions.html#print)関数を使っても、コードセルのアウトプットに書き出すことができます。

In [None]:
s = 'foo'
print(s)

foo


この方法では、print関数を実行するたびにアウトプットに書き出されます。

In [None]:
s1 = 'foo'
s2 = 'bar'
print(s1)
print(s2)

foo
bar


また、改行コードを含む文字列では改行コードを改行として出力します。

In [None]:
s = "foo\nbar"
print(s)

foo
bar


また、`None`である場合はNoneという文字列として出力されます。

In [None]:
s = None
print(s)

None


[list](https://docs.python.org/ja/3/tutorial/introduction.html#lists)を書き出す場合、ただprint関数に与えると次のようになります。

In [None]:
l = ['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']
print(l)

['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']


[str.join](https://docs.python.org/ja/3/library/stdtypes.html?highlight=join#str.join)を利用すると次のように、１要素を１行として書き出すことができます。

In [None]:
l = ['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']
print('\n'.join(l))

abs()
aiter()
all()
any()
anext()
ascii()


### pandas.Dataframeを使う



listのインデックスも表示したいのであれば、[enumerate](https://docs.python.org/ja/3/library/functions.html)関数を利用するのが典型的な方法ですが、

In [None]:
for i, x in enumerate(['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()']):
  print(i,x)

0 abs()
1 aiter()
2 all()
3 any()
4 anext()
5 ascii()


pandas.DataFrameを使って書き出すと簡単です。

In [None]:
import pandas

pandas.DataFrame(['abs()', 'aiter()', 'all()', 'any()', 'anext()', 'ascii()'])

Unnamed: 0,0
0,abs()
1,aiter()
2,all()
3,any()
4,anext()
5,ascii()


listの要素に改行コードを含む場合、print関数を使用すると次にようになってしまいますが、

In [None]:
for i, x in enumerate(['ab\ns()', 'ai\nter()']):
  print(i,x)

0 ab
s()
1 ai
ter()


pandas.DataFrameであれば改行コードを文字列として書き出します。

In [None]:
import pandas

pandas.DataFrame(['ab\ns()', 'ai\nter()'])

Unnamed: 0,0
0,ab\ns()
1,ai\nter()


pandas.DataFrameは次のように、[dictionary](https://docs.python.org/ja/3/tutorial/datastructures.html#dictionaries)を要素とするlistを表として書き出すことができます。

In [None]:
import pandas

pandas.DataFrame(
    [
     {'col1': 'row1-1', 'col2': 'row1-2'},
     {'col1': 'row2-1', 'col2': 'row2-2'},
     ]
)

Unnamed: 0,col1,col2
0,row1-1,row1-2
1,row2-1,row2-2


## テキストを読み込むいくつかの方法

Colabでテキストを処理するためには、処理するテキストを読み込まなければなりません。このセクションでは、そのいくつかの方法について説明します。

### テキストをコードに埋め込む

通常のプログラムであれば、処理するテキストをコードに埋め込むのはナンセンスです。しかし、Colabはインタラクティブな実行環境なので、処理するテキストをコードとして書いてしまっても構わないでしょう。

テキストを１行ずつ処理する場合、１行が１要素となっているリストとして扱うのが便利です。以下のように書きます。

In [None]:
user_list = [
        'TAGUCHI Tetsuya',
        'TAKATA Yoshinao',
        'IWAMOTO Yoshiya',
        'NONAKA Takeichi',
        'TSUKAMOTO Hisami'
]

user_list

['TAGUCHI Tetsuya',
 'TAKATA Yoshinao',
 'IWAMOTO Yoshiya',
 'NONAKA Takeichi',
 'TSUKAMOTO Hisami']


先述の方法は、各行をシングルクォートで囲み、カンマで区切る必要があるので、行数が増えると面倒です。その場合はヒアドキュメントとして記述し、行ごとに分割することもできます。

In [None]:
user_list = '''TAGUCHI Tetsuya
TAKATA Yoshinao
IWAMOTO Yoshiya
NONAKA Takeichi
TSUKAMOTO Hisami
'''.splitlines()

user_list

['TAGUCHI Tetsuya',
 'TAKATA Yoshinao',
 'IWAMOTO Yoshiya',
 'NONAKA Takeichi',
 'TSUKAMOTO Hisami']

### ファイルを読み込む

処理するテキストが他のシステムからファイルとして提供されている場合など、コードに埋め込むよりも直接ファイルを読み込んだ方が良い場合もあるので、併せて説明します。


#### サンプルファイルを用意する

ファイルを読み込むコードを例示するためには、Colabのランタイム上に読み込むファイルを用意する必要があります。

以下のコードを実行すると、カレントディレクトリに`user.txt`ファイルが作成されます。

In [None]:
%%writefile user.txt
TAGUCHI Tetsuya
TAKATA Yoshinao
IWAMOTO Yoshiya
NONAKA Takeichi
TSUKAMOTO Hisami


Overwriting user.txt


#### Pythonのfile objectを使って読み込む

用意したサンプルファイルをPythonの[open](https://docs.python.org/ja/3/library/functions.html#open)関数にファイルパスを渡すことで、開きます。開いたファイルは[file object](https://docs.python.org/ja/3/glossary.html#term-file-object)として扱われます。また、[with](https://docs.python.org/ja/3/reference/compound_stmts.html#with)文でラップしておくと、file bcjectはwith文ブロックを抜ける際に閉じられます。

これはPythonでファイルを読み込むときの典型的な方法です。

In [None]:
with open('user.txt') as f:
    lines = f.read()

lines

'TAGUCHI Tetsuya\nTAKATA Yoshinao\nIWAMOTO Yoshiya\nNONAKA Takeichi\nTSUKAMOTO Hisami'

file objectのreadメソッドでファイルを読み込むと、ファイルの内容が1つの文字列になるので、splitlinesメソッドで行ごとに分割すると、あとで処理するときに便利です。

In [None]:
user_list = lines.splitlines()
user_list

['TAGUCHI Tetsuya',
 'TAKATA Yoshinao',
 'IWAMOTO Yoshiya',
 'NONAKA Takeichi',
 'TSUKAMOTO Hisami']

file objectのreadlinesメソッドで読み込むと、１行1要素のリストになりますが、末尾に改行文字を含みます。

In [None]:
with open('user.txt') as f:
    user_list = f.readlines()

user_list

['TAGUCHI Tetsuya\n',
 'TAKATA Yoshinao\n',
 'IWAMOTO Yoshiya\n',
 'NONAKA Takeichi\n',
 'TSUKAMOTO Hisami']

listにfile objectを与えても同様です。

In [None]:
with open('user.txt') as f:
    user_list = list(f)

user_list

['TAGUCHI Tetsuya\n',
 'TAKATA Yoshinao\n',
 'IWAMOTO Yoshiya\n',
 'NONAKA Takeichi\n',
 'TSUKAMOTO Hisami']

#### マジックコマンドを使って読み込む

`%sx`マジックの簡略化記法である`!`を使ってシステムコマンド(この場合はcat)を実行しその結果を変数に受け取る方法でも、ファイルを読み込むことができます。なお、`%sx`マジック(とその簡略化記法`!`)は、実行結果を改行文字で分割したリストとして返します。

In [None]:
user_list = !cat user.txt
user_list

['TAGUCHI Tetsuya',
 'TAKATA Yoshinao',
 'IWAMOTO Yoshiya',
 'NONAKA Takeichi',
 'TSUKAMOTO Hisami']

Colabでファイルを読み込む場合は、`!`からcatコマンドを実行する方が、file objectを使用するよりも簡単に書くことができます。

#### GoogleDriveにあるファイルを読み込む方法

Colabでファイルを読み込む場合は、ファイルをGoogleDrive上に置き、ColabのランタイムにGoogleDriveをマウントすることで、読み込めるようにします。

ColabのランタイムにGoogleDriveをマウントするには、以下のコードを実行し、表示されるウィンドウの指示に従って操作します。


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


コードを実行すると、Colabランタイムの`/content/drive`にGoogleDriveがマウントされるので、あとは先述の方法でファイルを読み込むことができます。ファイルのパスは、次のように`!`を使って`ls`などのコマンドを実行し、探すのが良いでしょう。

In [None]:
!ls /content/drive/

MyDrive


### CSVファイルを読み込む場合

CSVファイルを読み込む場合は、先述のfile objectを使って読み込む方法でもマジックコマンドを使って読み込む場合でも、[csvモジュール](https://docs.python.org/ja/3/library/csv.html)を用いてパースを行うべきです。読み込んだ各行を`,`(カンマ)で分割してはいけません。以下にその理由を示します。

#### サンプルファイルを用意する

サンプルコードを例示するためには、Colabのランタイム上に読み込むファイルを用意する必要があります。

次に、以下のコードを実行します。実行すると、カレントディレクトリに`user.csv`ファイルが作成されます。

In [None]:
%%writefile user.csv
family name,personal name
"TAGU,CHI",Tetsuya
"TA""KATA",Yoshinao


Writing user.csv


上のcsvファイルの内容は、Excelで作成したものです。

2行目の第１列には`,`(カンマ)が含まれています。この場合は、１列目の文字列が`"`(ダブルクォート)で括られます。  
また、３行目の第１列には`"`が含まれています。この場合は、１列目の文字列が`"`で括られた上で、エスケープ文字として`"`が挿入されています。

この２行目を`,`で分割すると次のようになります。

In [None]:
with open('user.csv') as f:
    lines = f.read().splitlines()

lines[1].split(',')

['"TAGU', 'CHI"', 'Tetsuya']

このように、読み込んだ各行を単純に`,`で分割することはできないのです。

#### file objectで読み込んでcsvモジュールでパースする

以下に`file boject`を使ってファイルを読み込み、`csvモジュール`でパースするコードを例示します。csvファイルの1行目に列名が記載されている場合、[DictReader](https://docs.python.org/ja/3/library/csv.html#csv.DictReader)を使うと列名をKeyとする[dict](https://docs.python.org/ja/3/library/stdtypes.html?highlight=dict#dict)にパースされます。

In [None]:
import csv
with open('user.csv', newline='') as csvfile:
  user_list = list(csv.DictReader(csvfile))

user_list

[OrderedDict([('family name', 'TAGU,CHI'), ('personal name', 'Tetsuya')]),
 OrderedDict([('family name', 'TA"KATA'), ('personal name', 'Yoshinao')])]

DictReaderを使ってdictにパースにしたので、次のコードのように、csvファイルの列名で要素にアクセスできます。

In [None]:
import pandas

pandas.DataFrame(user_list)

Unnamed: 0,family name,personal name
0,"TAGU,CHI",Tetsuya
1,"TA""KATA",Yoshinao


In [None]:
print(user_list[0]['family name'])print(user_list[0]['personal name'])

TAGU,CHI
Tetsuya


#### マジックコマンドを使ってファイルを読み込んでcsvモジュールでパースする

`!`を使って`cat`を実行しその結果を受けた変数をcsvモジュールでパースするコードを例示します。

In [None]:
import csv
l = !cat user.csv
user_list = list(csv.DictReader(l))
user_list

[OrderedDict([('family name', 'TAGU,CHI'), ('personal name', 'Tetsuya')]),
 OrderedDict([('family name', 'TA"KATA'), ('personal name', 'Yoshinao')])]

`file object`を用いた例では`csv.DictReader`の引数に`file objcect`を渡していましたが、`DictReader`はリストを受け取ることも可能なので、`!`で`cat`を実行した結果のリストを渡しています。

## テキストを出力するいくつかの方法

Colabでテキストを処理したら、その結果を出力しなければなりません。このセクションでは、そのいくつかの方法について説明します。

### アウトプットセルに出力する

最も単純な方法は、コードセルのアウトプットに書き出し、それをマウスで選択してコピーする方法でしょう。

In [None]:
user_list = [
        'useradd taguchi',
        'useradd tanaka',
        'useradd iwamoto',
        'useradd nonaka',
        'useradd tsukamoto'
]

for user in user_list:
  print(user)

useradd taguchi
useradd tanaka
useradd iwamoto
useradd nonaka
useradd tsukamoto


### Pythonのfile objectを使ってファイルに書き出す

ファイルを書き出すときには、ファイルを読み込むときと同じように、[open](https://docs.python.org/ja/3/library/functions.html#open)関数を使います。ただし、mode引数によってファイルを開く際のモードを指定しなければなりません。
mode引数を指定しなかった場合、mode引数のデフォルトは`r`でこれは、読み取りを表します。`w`は書き込みですが、ファイルが存在する場合現在の内容を全て捨てます、`x`も書き込みですが、ファイルが存在する場合は失敗します。`a`も同じく書き込みですが、ファイルが存在する場合は末尾に追記します。

[with](https://docs.python.org/ja/3/reference/compound_stmts.html#with)文でラップしておくと、file bcjectはwith文ブロックを抜ける際に閉じられます。ファイルを書き込む際にfile objectを閉じ忘れた場合、ファイルがディスクに書き込まれないことがあるので、with文でラップしておくのが安全です。with文でラップできない場合はfile objectのclose()メソッドを忘れずに実行します。

これはPythonでファイルを読み込むときの典型的な方法です。

In [None]:
user_list = [
        'useradd taguchi',
        'useradd tanaka',
        'useradd iwamoto',
        'useradd nonaka',
        'useradd tsukamoto'
]

with open('add_user.txt', mode='w') as f:
  for user in user_list:
    f.write(user)

writeメソッドは受け取った文字列をそのままファイルに書き込みます。そのため、書き込んだファイルは次のようになります。

In [None]:
!cat add_user.txt

useradd taguchiuseradd tanakauseradd iwamotouseradd nonakauseradd tsukamoto

このため、改行が必要な場合は改行コードも書き出す必要があります。

In [None]:
user_list = [
        'useradd taguchi',
        'useradd tanaka',
        'useradd iwamoto',
        'useradd nonaka',
        'useradd tsukamoto'
]

with open('add_user.txt', mode='w') as f:
  for user in user_list:
    f.write(user)
    f.write("\n")

!cat add_user.txt

useradd taguchi
useradd tanaka
useradd iwamoto
useradd nonaka
useradd tsukamoto


また、writelinesメソッドにリストを渡すことで、リストをまとめて書き出すことができます。

In [None]:
user_list = [
        'useradd taguchi',
        'useradd tanaka',
        'useradd iwamoto',
        'useradd nonaka',
        'useradd tsukamoto'
]

with open('add_user.txt', mode='w') as f:
    f.writelines(user_list)

この場合も、改行コードは追加されません。

In [None]:
!cat add_user.txt

useradd taguchiuseradd tanakauseradd iwamotouseradd nonakauseradd tsukamoto

このため、リスト内の文字列に改行コードを含ませておく必要があります。

In [None]:
user_list = [
        'useradd taguchi\n',
        'useradd tanaka\n',
        'useradd iwamoto\n',
        'useradd nonaka\n',
        'useradd tsukamoto\n'
]

with open('add_user.txt', mode='w') as f:
    f.writelines(user_list)

!cat add_user.txt

useradd taguchi
useradd tanaka
useradd iwamoto
useradd nonaka
useradd tsukamoto


### writefileマジックを使ってファイルを書き出す...ただし......

`%%writefile`マジックコマンドを使うと、セルの内容をファイルへ書き出すことができます。ただし、このマジックコマンドはセルの内容を**そのまま**ファイルへ書き出すもので、変数を展開することができません。

変数`str1`を定義して

In [2]:
str1 = 'foo'

`%%writefile`マジックでstr1.txtに書き出す

In [3]:
%%writefile str1.txt
str1

Overwriting str1.txt


そのファイルをcatすると

In [4]:
!cat str1.txt

str1

変数の内容ではなく、"str1"という文字列として出力されている。

## 文字列型の基礎

このセクションでは文字列型の基礎について説明します


### 文字列の記述

Pythonで文字列を記述するには、`'...'`シングルクォート、`"..."`ダブルクォート、または`'''...'''`トリプルクォート(3つのシングルクォート)で囲みます。`"""..."""`(3つのダブルクォート)で囲んだ場合は3つのシングルクォートで囲む場合と同じになります。

In [13]:
'"ダブル"クォートを埋め込むことができます'

'"ダブル"クォートを埋め込むことができます'

In [14]:
"'シングル'クォートを埋め込むことができます"

"'シングル'クォートを埋め込むことができます"

In [16]:
'''改行を
埋め込むことができます。'''

'改行を\n埋め込むことができます。'

特殊文字は`\`(バックスラッシュ)で始まり、シングルクォートで囲んだ場合でも特殊文字として扱われます。(シングルクォートで囲んだ場合は特殊文字として使わないプログラミング言語もありますが、Pythonは特殊文字として扱います。)

In [27]:
print('Hello\nWorld!')

Hello
World!


In [28]:
print("Hello\nWorld!")

Hello
World!


`\`(バックスラッシュ)とそれに続く文字を特殊文字として解釈されたくない場合はクォートの前に`r`をつけて`rwa strings`にします。

In [29]:
print(r"Hello\nWorld!!")

Hello\nWorld!!


Python3.6から導入されたf-stringを使うと、文字列に変数を指定することができます。

クォートの前に`f`をつけるとf-stringになり、クォートに囲まれた文字列の中に`{}`で囲って変数を指定します。

In [132]:
s = 'Hello'
f'{s} World!'

'Hello World!'

### 文字列の連結

文字列は`+`演算子で連結することができます。

In [32]:
s1 = 'Hello'
s2 = 'World!'
s3 = s1 + ' ' + s2

print(s3)

Hello World!


先述のf-stringを応用して文字列を連結することもできます。

In [133]:
s1 = 'Hello'
s2 = 'World!'
s3 = f'{s1} {s2}'

print(s3)

Hello World!


また、文字列の`join`メソッドにリストを渡すと、リストの各要素を文字列で連結することができます。

In [140]:
s1 = 'Hello'
s2 = 'World!'
s3 = ' | '.join([s1, s2, s1, s2])

print(s3)

Hello | World! | Hello | World!


### 文字列からインデックスを指定して文字を取り出す

Pythonの文字列はindex(添字)を指定して、文字を取り出すことができます。最初の文字のインデックスは0です。

サンプルコードで使用する文字列を変数`s`として定義しておきます。

In [76]:
s = r'Hello World!'
print(s)

Hello World!


indexを指定すると、その位置の文字を取り出すことができます。

In [89]:
for i in range(len(s)):
  print(f'{i} : ', s[i])

0 :  H
1 :  e
2 :  l
3 :  l
4 :  o
5 :   
6 :  W
7 :  o
8 :  r
9 :  l
10 :  d
11 :  !


インデックスに負の数を指定すると文字列の後ろから数えて、その位置の文字を取り出します。

In [94]:
for i in range(-1, -(len(s)) - 1, -1):
  print(f'{i} : ', s[i])

-1 :  !
-2 :  d
-3 :  l
-4 :  r
-5 :  o
-6 :  W
-7 :   
-8 :  o
-9 :  l
-10 :  l
-11 :  e
-12 :  H


### 文字列のスライス

Pythonの文字列はスライスをサポートしています。スライスを使うと文字列の一部分を取り出すことができます。


サンプルコードで使用する文字列を変数`s`として定義し、indexとその位置の文字を表示しておきます。

In [103]:
s = r'Hello World!'

for i in range(len(s)):
  print(f'{i} ({-len(s)+i}): ', s[i])

0 (-12):  H
1 (-11):  e
2 (-10):  l
3 (-9):  l
4 (-8):  o
5 (-7):   
6 (-6):  W
7 (-5):  o
8 (-4):  r
9 (-3):  l
10 (-2):  d
11 (-1):  !


スライスは`文字列[index:index]`と記述し、1つ目に指定したindexの文字から、2つ目に指定したindexの**1つ前の文字**を取り出します。


In [72]:
print(s[1:5])

ello


1つ目のindexを省略すると0と見做されます。

In [97]:
print(s[:5])

Hello


2つ目のindexを省略すると文字列の末尾までを取得します。

In [98]:
print(s[6:])

World!


2つ目のindexに1つ目のindexより小さな値を指定すると文字列を取り出せませんが、エラーにもならないので注意が必要です。

In [105]:
print(s[5:1])




## 文字列の比較

### `==`と`!=`

2つの文字列を比較する場合、同じ文字列であれば`==`演算子でTrueになり、異なる文字列であれば`!=`でTrueになります。

In [112]:
'Hello' == 'Hello'

True

In [116]:
'Hello' != 'World'

True

大文字と小文字は別の文字として扱われます。

In [121]:
'H' == 'h'

False

スライスと組み合わせることで、ある文字列の特定の位置から抜き出した文字列を別の文字列と比較することができます。

In [131]:
s = r'Hello World!'
print(s[:5])
print(s[:5] == 'Hello')

Hello
True


### `startswith`と`endswith`

文字列がある文字列で始まるかを判定する場合は`startswith`、ある文字列で終わるかを判定する場合は`endswith`メソッドを使うことができます。どちらのメソッドも間にsが入るので注意してください。(startwithではなくstart**s**with)

In [128]:
'Hello World!'.startswith('Hello')

True

In [130]:
'Hello World!'.endswith('World!')

True

### `in`と`not in`

`in`演算子を使うと、ある文字列に別の文字列が含まれているかを判定することができます。含まれていないかを判定する場合は`not`演算子を加えて`not in`にします

In [122]:
'Hello' in 'Hello World!'

True

In [124]:
'Python' not in 'Hello World!'

True

## 文字列操作

### 文字列を全て大文字に変換する

文字列を全て大文字に変換するときは、`upper`メソッドを使います。

In [142]:
s1 = 'Hello World!'
s2 = s1.upper()

print(s2)

HELLO WORLD!


また、大文字小文字関係なく文字列を比較したい場合は`upper`メソッドを応用することで比較できます。

In [146]:
print('HELLO' == 'Hello'.upper())
print('HELLO' == 'HELLO'.upper())
print('HELLO' == 'hello'.upper())

True
True


### 文字列を全て小文字に変換する

文字列を全て小文字に変換するときは、`lower`メソッドを使います。

In [147]:
s1 = 'Hello World!'
s2 = s1.lower()

print(s2)

hello world!


`upper`メソッドの代わりに`lower`メソッドを用いても、大文字小文字関係なく文字列を比較することができます。

In [148]:
print('hello' == 'Hello'.lower())
print('hello' == 'HELLO'.lower())
print('hello' == 'hello'.lower())

True
True
True


### 文字列を分割する

文字列を分割する場合は`split`メソッドを使用します。`split`メソッドの引数に分割する文字列を与えると、その文字列で分割したリストを返します。


In [151]:
s1 = 'My_Name_is_Python'
s1.split('_')

['My', 'Name', 'is', 'Python']

引数を与えなかった場合はスペースで分割されます。

In [149]:
s1 = 'My Name is Python'
s1.split()

['My', 'Name', 'is', 'Python']

### 文字列から空白を取り除く

文字列の両端から空白を取り除く場合は`strip`メソッド、先頭から取り除く場合は`lstrip`メソッド、末尾から取り除く場合は`rstrip`メソッドを使います。

In [160]:
s1 = '   Hello World!!   '
print(f'|{s1}|')
print(f'|{s1.strip()}|')
print(f'|{s1.lstrip()}|')
print(f'|{s1.rstrip()}|')

|   Hello World!!   |
|Hello World!!|
|Hello World!!   |
|   Hello World!!|


### 文字列から特定の文字列を取り除く

文字列の中から特定の文字列を取り除きたい場合は、`split`メソッドを使って取り除きたい文字列で分割したリストを作り、それを`''`(空文字)の`join`メソッドに与えることで実現できます。

文字列から、スペースを取り除きたい場合は以下のようにします。

In [159]:
s1 = 'My Name is Python'
l = s1.split()
print(l)

s2 = ''.join(s1.split())
print(s2)

['My', 'Name', 'is', 'Python']
MyNameisPython
