## 3.1 データ構造とシーケンス

### 3.1.1 タプル

In [None]:
#タプルのネスト
nested_tup=(3,4,5),(3,4)
nested_tup

((3, 4, 5), (3, 4))

In [None]:
#タプルの中のオブジェクトがリストのように変更可能であれば、そのリストの中身を変更することができる
tup=tuple(['foo',[1,2],True])
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [None]:
#タプルの連結
(3,None,'foo')+(4,5)+('bar',)

(3, None, 'foo', 4, 5, 'bar')

In [None]:
#タプルのコピーの連結
('foo','bar')*4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### 3.1.1.1 タプルの分解

In [None]:
#ネストしたタプルの分解
tup=3,4,(2,4)
print(tup)
a,b,(c,d)=tup
d

(3, 4, (2, 4))


4

In [None]:
#変数の入れ替え
a,b=1,2
print(a,b)
b,a=a,b
print(a,b)

1 2
2 1


In [None]:
#関数から複数の値を戻す
values=1,2,3,4,5
a,b,*rest=values
print(a,b)
print(*rest)

#*restは対して重要な情報ではないため、慣例としてそういった変数には'_'を使う
a,b,*_=values
print(a,b)

1 2
3 4 5
1 2


In [None]:
#タプルは長さや内容を変更できないため、インスタンスメソッドの動作が軽くなる
a=(1,2,3,2,3,4,2,2)
a.count(2)

4

### 3.1.2 リスト

#### 3.1.2.1 要素の追加と削除

In [None]:
#insertを使うとリストの特定の位置に要素を追加できる
a_list=[2,3,7,None]
a_list.insert(1,'red')
a_list

[2, 'red', 3, 7, None]

In [None]:
#insertはappnedと比べてコストが高い処理(新しい要素を追加するために後続の要素をずらす必要があるから)
#シーケンスの先頭や末尾に要素を追加するときは両端に末尾があるcollections.dequeを使うと良い
#環境や条件にもよるが、要素数が数百個や数千個程度であれば、リストでもdequeでも体感できるほどの処理速度の差はない。
#https://note.nkmk.me/python-collections-deque/
from collections import deque

d=deque(['m','n'])
print(d)
print(type(d))

#末尾に要素を追加
d.append('a')
print(d)

#先頭に要素を追加
d.appendleft('b')
print(d)

deque(['m', 'n'])
<class 'collections.deque'>
deque(['m', 'n', 'a'])
deque(['b', 'm', 'n', 'a'])


#### 3.1.2.2 リストの連結

In [None]:
#リストの連結は比較的コストの高い処理
#既存のリストに要素を追加するとき、大きいリストを作るときはextendを使うのが好ましい
list_of_lists=[[1,2,3],[4,5,6]]
everything=[]
for chunk in list_of_lists:
    everything+=chunk
print(everything)

[1, 2, 3, 4, 5, 6]


In [None]:
#上記の高速版
list_of_lists=[[1,2,3],[4,5,6]]
everything=[]
for chunk in list_of_lists:
    everything.extend(chunk)
print(everything)

[1, 2, 3, 4, 5, 6]


#### 3.1.2.3 ソート

In [None]:
a=[1,2,4,3,5]
a.sort()
a

[1, 2, 3, 4, 5]

In [None]:
b=['a','ccc','dddd','aa','fkfkd']
b.sort(key=len) #長さでソート
b

['a', 'aa', 'ccc', 'dddd', 'fkfkd']

#### 3.1.2.4 二分探索とソートされたリストの管理

In [None]:
import bisect

c=[1,2,2,3,3,4,4,5,5,11]
bisect.bisect(c,9)  #9を挿入するべき位置を返す

9

In [None]:
bisect.insort(c,2)  #2を挿入するべき位置に挿入する
c

[1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 11]

#### 3.1.2.5 スライシング

In [2]:
seq=[1,3,4,3,5,3,5,7,3]
seq[0:3]=[4,5,6,7,8]    #idx0,1,2は[4,5,6]で上書きされ、[7,8]はidx2と3の間に挿入される
seq

[4, 5, 6, 7, 8, 3, 5, 3, 5, 7, 3]

In [3]:
#２つのコロンのあとにstepを指定することができる
seq[::2]

[4, 6, 8, 5, 5, 3]

In [4]:
#配列の要素を反転させる
seq[::-1]

[3, 7, 5, 3, 5, 3, 8, 7, 6, 5, 4]

### 3.1.3 組み込みのシーケンス関数

#### 3.1.3.1 enumerate関数

In [6]:
#enumerate関数を使ったインデックスの値のマッピング
some_list=['foo','baz','bar']
mapping={}
for i , value in enumerate(some_list):
    mapping[value]=i

mapping

{'foo': 0, 'baz': 1, 'bar': 2}

#### 3.1.3.2 sorted関数

In [7]:
#シーケンスの要素をソートした新しいリストを返す
seq='horserace'
sorted(seq)

['a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### 3.1.3.3 zip関数

In [18]:
seq1=['foo','bar','baz']
seq2=['one','two','three']

zipped=zip(seq1,seq2)
print(zipped)
print(list(zipped))

<zip object at 0x10ab0df80>
[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]


In [12]:
#要素数が異なる場合は少ない方に合わさる
seq3=[False,True]
zipped=zip(seq1,seq2,seq3)
list(zipped)

[('foo', 'one', False), ('bar', 'two', True)]

In [15]:
#複数のシーケンスを同時に逐次処理する場合によく使われる
for i,(a,b) in enumerate(zip(seq1,seq2)):
    print('{0}:{1},{2}'.format(i,a,b))

0:foo,one
1:bar,two
2:baz,three


In [16]:
#分解（unzip）するためにzipを使う
pitchers=[('Nolan','Ryan'),('Roger','Clemens'),('Shilling','Curt')]
first_name,last_name=zip(*pitchers)
print(first_name)
print(last_name)

('Nolan', 'Roger', 'Shilling')
('Ryan', 'Clemens', 'Curt')


#### 3.1.3.4 reversed関数

In [25]:
print(reversed(range(10)))
print(list(reversed(range(10))))

<range_iterator object at 0x10a7e2150>
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


### 3.1.4 ディクショナリ
python3.6では挿入した順序が維持されるようになり、3.7では仕様になった

In [27]:
#updateメソッドによるディクショナリのマージ
d1={'a':'some_value','b':[1,2,3,4],7:'an_integer'}
d1.update({'b':'foo','c':12})   #古いキーは上書きされる
d1

{'a': 'some_value', 'b': 'foo', 7: 'an_integer', 'c': 12}

#### 3.1.4.1 ディクショナリのデフォルト値

In [40]:
#冗長な書き方
some_dict={0:'a',1:'b'}
key=3
default_value=None

if key in some_dict:
    value=some_dict[key]
else:
    value=default_value

print(value)

None


In [41]:
#シンプルな書き方
value=some_dict.get(key,default_value)
print(value)

None


In [43]:
#単語のリストを最初の一文字で分類してリストをバリューとして持つディクショナリを作成する
words=['apple','bat','bar','atom','book']
by_letter={}
for word in words:
    letter=word[0]
    if letter not in by_letter:
        by_letter[letter]=[word]
    else:
        by_letter[letter].append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [46]:
#setdefaultメソッドは↑の用途で使う
words=['apple','bat','bar','atom','book']
by_letter={}
for word in words:
    letter=word[0]
    by_letter.setdefault(letter,[]).append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [49]:
#collectionsのdefaultdictを使うともっと簡単にかける
from collections import defaultdict

words=['apple','bat','bar','atom','book']
by_letter=defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

by_lette方

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

#### 3.1.4.3 ディクショナリで使えるキーの型
バリューには何でも使えるが、キーはスカラー値のように変更不可能（imutable）なオブジェクトか、あるいはタプルでなければならない  
（ハッシュ可能でなければならない）

In [51]:
hash('string')

3788600518917292302

In [53]:
hash((1,2,(2,3)))

-9209053662355515447

In [54]:
hash((1,2,[3,4]))   #リストは変更可能（mutable）なため失敗する

TypeError: unhashable type: 'list'

In [55]:
#リストをキーに使うにはタプルに変換する
d={}
d[tuple([1,2,3])]=5
d

{(1, 2, 3): 5}

### 3.1.5 セット
順序付けされていない一意な要素の集合のこと  
キーはもつがバリューは持たない

In [56]:
set([2,2,2,3,4,1,1])

{1, 2, 3, 4}

In [57]:
{2,3,4,5,1,1,2}

{1, 2, 3, 4, 5}

In [58]:
#セットは数学的な集合演算をサポートする
a={1,2,3,4,5}
b={3,4,5,6,7,8}

a.union(b)  #和集合

{1, 2, 3, 4, 5, 6, 7, 8}

In [59]:
a | b   #和集合

{1, 2, 3, 4, 5, 6, 7, 8}

In [60]:
a.intersection(b)   #積集合

{3, 4, 5}

In [61]:
a & b   #積集合

{3, 4, 5}

In [62]:
#すべてのセットの演算は、直接値を変更する演算を持っている
c=a.copy()
c|=b
c

{1, 2, 3, 4, 5, 6, 7, 8}

In [63]:
d=a.copy()
d&=b
d

{3, 4, 5}

In [64]:
#セットの要素はimutableでなければならない
my_data=[1,2,3,4]
my_set=tuple(my_data)
my_set

(1, 2, 3, 4)

In [65]:
#あるセットが別のセットの部分集合であるかどうか調べる
a_set={1,2,3,4,5}
{1,2,3}.issubset(a_set)

True

In [66]:
#あるセットが別のセットの上位集合であるかどうか調べる
a_set.issuperset({1,2,3})

True

### 3.1.6 リスト、セット、ディクショナリの内包表記

In [67]:
#文字長が２以下という条件でフィルタを適用した上で、フィルタで抽出された文字列に対して大文字に変換する
strings=['a','as','bat','car','dove','python']
[x.upper() for x in strings if len(x)>2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [69]:
#文字列の長さだけを含むセットを作る（セットの内包表記）
unique_lengths={len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [71]:
#文字列の長さだけを含むセットを作る（map関数を使う場合）
unique_lengths=set(map(len,strings))
unique_lengths

{1, 2, 3, 4, 6}

In [72]:
#文字列のインデックス位置を参照するためのマップを作る（ディクショナリの内包表記）
loc_mapping={val:index for index,val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

#### 3.1.6.1 ネストしたリスト内包表記
* 内包表記のforの順番はネストしたfor文を書いたときと同じ順番になる  
* ネストは任意の階層ですることができるが、２か３以上の階層のネストが発生した場合は、コードの可読性を考慮して、そのネストをすべきか考えたほうが良い

In [77]:
all_data=[['John','Emily','Michael','Mary','Steven'],
          ['Malia','Juan','Javier','Natalia','Pilar']]

#２つ以上のeを含む名前すべてを含む一つのリストがほしい場合（簡単なforループによる書き方）
names_of_interest=[]
for names in all_data:
    enough_es=[name for name in names if name.count('e')>=2]
    names_of_interest.extend(enough_es)

names_of_interest

['Steven']

In [78]:
#２つ以上のeを含む名前すべてを含む一つのリストがほしい場合（ネストしたリスト内包表記による書き方）
result=[name for names in all_data for name in names if name.count('e')>=2]
result

['Steven']

In [81]:
#整数を要素に持つタプルのリストを、一つのシンプルな整数のリストに平坦化する
sample_tuples=[(1,2,3),(4,5,6),(7,8,9)]
flattend=[x for tup in sample_tuples for x in tup]
flattend

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [83]:
#整数を要素に持つタプルのリストを、リストのリストに変換する（リスト内包表記の中にリスト内包表記を書く場合）
[[x for x in tup] for tup in sample_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [84]:
[list(tup) for tup in sample_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

## 3.2 関数
キーワード引数は、位置引数がある場合は必ず位置引数の後に続けて記載しなければならない

### 3.2.1 名前空間、スコープ、ローカル関数

In [89]:
def func():
    a=[]
    for i in range(5):
        a.append(i)

func()
print(a)

[0, 1, 2, 3, 4]


In [88]:
a=[]
def func():
    for i in range(5):
        a.append(i)
func()
print(a)

[0, 1, 2, 3, 4]


In [92]:
#関数のスコープ外の変数に代入することは可能だが、それらの変数はglobalキーワードを使って宣言しておかなければならない
a=None
def bind_a_variable():
    global a
    a=[]
bind_a_variable()
print(a)

[]


### 3.2.2 複数の値を戻す

In [94]:
def f():
    a=3
    b=3
    c=2
    return a,b,c

a,b,c=f()
print(a)

3


In [95]:
return_value=f()
return_value

(3, 3, 2)

In [98]:
#ディクショナリとして複数の値を戻す
def f():
    a=3
    b=2
    c=5
    return {'a':a,'b':b,'c':c}

f()

{'a': 3, 'b': 2, 'c': 5}

### 3.2.3 関数はオブジェクトである

In [103]:
states=['    Alabama','Georgia!','Georgia','geogia','FlOrIda',
        'south   carolina##','West virginia?']

#空白や句読点の記号の除去、適切な大文字の使用への統一にはreモジュールを使う
import re

def clean_strings(strings):
    result=[]
    for value in strings:
        value=value.strip()
        value=re.sub('[!#?]','',value)
        value=value.title()
        result.append(value)
    return result 

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Geogia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [105]:
#文字列に適用したい操作のリストを作ると便利
def remove_punctuation(value):
    return re.sub('[!#?]','',value)

clean_ops=[str.strip,remove_punctuation,str.title]

def clean_strings(strings,ops):
    result=[]
    for value in strings:
        for function in ops:
            value=function(value)
        result.append(value)
    return result

clean_strings(states,clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Geogia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [106]:
#map関数は何らかのシーケンスに対して関数を適用する
#関数は他の関数の引数として使うことができる
for x in map(remove_punctuation,states):
    print(x)

    Alabama
Georgia
Georgia
geogia
FlOrIda
south   carolina
West virginia


### 3.2.4 無名（ラムダ）関数
* 関数を定義して使ったり、ラムダ関数を変数に代入して普通の関数のように使うよりも、ラムダ関数を使うことでタイピングの量が減り、コードが明確になる

In [107]:
def short_function(x):
    return x**2

short_function(2)

4

In [113]:
equiv_anon=lambda x:x**2
equiv_anon(2)

4

In [114]:
def apply_to_list(some_list,f):
    return [f(x) for x in some_list]

ints=[3,4,6,3,5]
apply_to_list(ints,lambda x:x**2)   #ラムダ関数を引数として渡す

[9, 16, 36, 9, 25]

In [115]:
apply_to_list(ints,lambda x:x+1)

[4, 5, 7, 4, 6]

In [118]:
#文字列のリストを、各文字列に含まれるユニークな文字の数でソートする
strings=['foo','card','bar','aaaa','abab']

strings.sort(key=lambda x:len(set(list(x))))    #sortメソッドにラムダ関数を渡す
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

### 3.2.5 カリー化：引数の部分適用

In [119]:
def add_numbers(x,y):
    return x+y

add_five=lambda y:add_numbers(5,y)  #カリー化して新しい関数を作る

add_five(1)

6

In [120]:
#組み込みのfunctoolsモジュールには、partial関数を使ってカリー化を簡素化する機能がある
from functools import partial

add_five=partial(add_numbers,5)
add_five(2)

7

### 3.2.6 ジェネレータ
* ジェネレータは、新しいイテレータを生成する簡単な方法の一つ
* 通常の関数は実行された後一つの結果を一回で戻すのに対して、ジェネレータは、一連の複数の結果を遅延しながら戻す
* 次の呼び出しがされるまでは、次の結果を戻さない
* ジェネレータを作るためには、returnの代わりにyieldキーワードを関数内で使う

In [122]:
some_dict={'a':1,'b':2,'c':3}

for key in some_dict:
    print(key)

a
b
c


In [124]:
#for key inと書くと、Pythonのインタプリタはディクショナリsome_dictからイテレータを作ろうとする
dict_iterator=iter(some_dict)
dict_iterator

<dict_keyiterator at 0x10bcc5ea0>

In [125]:
list(dict_iterator)

['a', 'b', 'c']

In [127]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))  #squaresを呼び出した時点ではコードが実行されないため、このprint文も表示されない
    for i in range(1,n+1):
        yield i**2

gen=squares()

In [128]:
gen

<generator object squares at 0x10c819820>

In [129]:
for x in gen:
    print(x,end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### 3.2.6.1 ジェネレータ式
ジェネレータ式を作るには、リスト内包表記で大括弧[]の内側に書く内容を、大括弧ではなく小括弧()で囲む

In [131]:
gen=(x**2 for x in range(100))
gen

<generator object <genexpr> at 0x10b7ebc80>

In [134]:
#冗長な書き方
def _make_gen():
    for x in range(100):
        yield x**2
gen=_make_gen()
gen

<generator object _make_gen at 0x10c068740>

In [136]:
#ジェネレータ式は多くの場合、関数の引数としてリストの内包表記の代わりに用いることができる
sum(x**2 for x in range(100))

328350

In [137]:
dict((i,i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

#### 3.2.6.2 itertoolsモジュール

In [141]:
import itertools

first_letter=lambda x:x[0]
name_list=['Alan','Adam','Wes','Will','Albert','Steven']

for letter,names in itertools.groupby(name_list,first_letter):
    print(letter,list(names))   #このnamesはジェネレータ

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


In [151]:
#groupbyは（キー、キーごとのグループを参照するイテレータ）形式のタプルを各キーごとに生成する
list(itertools.groupby(name_list,first_letter))

[('A', <itertools._grouper at 0x10bce5a60>),
 ('W', <itertools._grouper at 0x10a692d90>),
 ('A', <itertools._grouper at 0x10a692f40>),
 ('S', <itertools._grouper at 0x10a692eb0>)]

### 3.2.7 エラーと例外の処理

In [152]:
float('1.3453')

1.3453

In [153]:
#不適切な入力を行うとValueErrorを起かえす失敗する
float('something')

ValueError: could not convert string to float: 'something'

In [158]:
#エラーが発生する場合は入力値をそのまま返す
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

attempt_float('1.2345')

1.2345

In [155]:
attempt_float('something')

'something'

In [156]:
#ValueError以外のエラー（TypeError）
float((1,3))

TypeError: float() argument must be a string or a number, not 'tuple'

In [159]:
#TypeErrorにならずに例外処理が実行されてしまう
attempt_float((2,3))

(2, 3)

In [160]:
#ValueErrorのときのみ例外処理が実行される
def attempt_float(x):
    try:
        return float(x)
    except ValueError:  #ValueErrorのときのみ実行される
        return x

attempt_float((3,4))

TypeError: float() argument must be a string or a number, not 'tuple'

In [161]:
#複数の例外型を補足する
def attempt_float(x):
    try:
        return float(x)
    except (ValueError,TypeError):  #ValueErrorとTypeErrorのときのみ実行される
        return x

attempt_float((3,4))

(3, 4)

In [None]:
#例外が発生するかどうかに関係なく実行したいコードにはfinallyを使う
f=open(path,'w')
try:
    write_to_file(f)
except:
    print('Failed')
finally:    #エラーの有無によらず必ず実行される
    f.close()

In [None]:
#tryブロックが成功した場合だけ実行するコード
f=open(path,'w')
try:
    write_to_file(f)
except:
    print('Failed')
else:   #tryブロックが成功したときにだけ実行される
    print('Succeeded')
finally:    #エラーの有無によらず必ず実行される
    f.close()

## 3.3 ファイルとオペレーションシステム

In [4]:
path='inputs/sample.txt'
f=open(path)
for line in f:
    print(line)
f.close()

aああ aaaaa

bbbbbbbbb



ccccccc



ddddddddddddd



In [244]:
#ファイルの各行をEOL（end-of-line、行末）がない状態のリストとして得る
lines=[x.rstrip() for x in open(path)]
lines

['aああ aaaaa', 'bbbbbbbbb', '', 'ccccccc', '', 'ddddddddddddd']

In [245]:
#openを使ってファイルオブジェクトを作るとき、作業が終了した後に明示的にファイルを閉じる必要がある
f.close()

In [246]:
#開いたファイルのクリーンアップを行うにはwith文を使うのが簡単（自動的に閉じてくれる）
with open(path) as f:
    lines=[x.rstrip() for x in f]

lines

['aああ aaaaa', 'bbbbbbbbb', '', 'ccccccc', '', 'ddddddddddddd']

In [247]:
with open(path) as f:
    print(f.read(10))   #バイナリモードではないので１０文字読み込む

aああ aaaaa



In [248]:
with open(path,'rb') as f2:  #バイナリモードで開く
    print(f2.read(10))

b'a\xe3\x81\x82\xe3\x81\x82 aa'


In [249]:
with open(path) as f:
    print(f.read(10))
    print(f.tell()) #ファイル操作の位置を返す（10文字をデフォルトのエンコーディングでデコードするために１０バイト以上使ったため位置は１０ではない）

aああ aaaaa

14


In [250]:
with open(path,'rb') as f2:
    print(f2.read(10))
    print(f2.tell())    #ファイル操作の位置を返す

b'a\xe3\x81\x82\xe3\x81\x82 aa'
10


In [251]:
#sysモジュールにはデフォルトのエンコーディングを確認する関数が用意されている
import sys

sys.getdefaultencoding()

'utf-8'

In [252]:
with open(path,'rb') as f2:
    f2.seek(3)   #seekはファイルの位置を指定したバイト位置に移す
    print(f2.read(1))

b'\x82'


In [7]:
#sample.txtの空白行なしのバージョンtmp.txtを作成する
with open('outputs/tmp.txt','w') as handle:
    handle.writelines(x for x in open(path) if len(x)>1)    #一文字以上ある行だけ書き込む（空白行は書き込まない）

In [254]:
with open('./tmp.txt') as f:
    lines=f.readlines() #ファイルの各行をリスト形式で戻す

lines

['aああ aaaaa\n', 'bbbbbbbbb\n', 'ccccccc\n', 'ddddddddddddd\n']

### 3.3.1 ファイルにおけるバイトとUnicode
* pythonのファイルにおいて、デフォルトの動作はテキストモード
* テキストモードでは、そのファイルをPythonの文字列（つまり、Unicode）で扱う
* バイナリモードはファイルモードにbを追加することで実行される

In [255]:
with open(path) as f:   #テキストモードで開く
    chars=f.read(10)    #テキストモードでは10文字読み込まれる

chars

'aああ aaaaa\n'

In [256]:
with open(path,'rb') as f:  #バイナリモードで開く
    data=f.read(10)    #バイナリモードでは10バイト読み込まれる

data

b'a\xe3\x81\x82\xe3\x81\x82 aa'

In [257]:
data.decode('utf8') #10バイト分をデコード

'aああ aa'

In [258]:
data[:1].decode('utf8')

'a'

In [259]:
data[:2].decode('utf8') #全角日本語は3〜8バイトの可変長のため、日本語の一文字の途中までデコードしようとするとエラーになる

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 1: unexpected end of data

In [260]:
data[:4].decode('utf8') #'あ'は3バイト

'aあ'

In [6]:
sink_path='outputs/sink.txt'

with open(path) as source:
    with open(sink_path,'xt',encoding='iso-8859-1') as sink:
        sink.write(source.read())

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 1-2: ordinal not in range(256)

In [264]:
#ファイルをバイナリ以外のモードで開いている場合にseekを使うのは注意が必要
f=open(path)
f.read(3)

'aああ'

In [266]:
f.seek(3)

3

In [267]:
f.read(1)   #seekでファイルの位置がUnicode文字列の途中のバイトになってしまうと、後続の読み込みはエラーになる

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 0: invalid start byte

In [268]:
f.close()