# 2023瀧川ゼミ計算社会科学ハンズオンセミナー1

##前口上
- 社会学の方法論は大きな転換点を迎えている。
- ビッグデータ、大規模テキストデータなどの新しいデータ、機械学習・人工知能、自然言語を扱う言語モデルの進化。
- 計算社会科学の台頭
![](https://raw.githubusercontent.com/berutaki/github.io/main/1-1.png)
![](https://raw.githubusercontent.com/berutaki/github.io/main/1-2.png)

###なぜ、社会学者（社会学学生）がプログラミングを勉強しなければいけないのか？
- 自分の関心のあるデータを自分で集めることができるようになるため
- 整理されていない雑多なデータをきれいにする必要があるため
- 機械学習などの新しい分析手法を使うため
- ChatGPTなどの人工知能を使うため
- 現代のデジタル社会はアルゴリズムが人間と並ぶエイジェントとなっているため、その働きを理解したい。
- きれいに可視化したい
- コンピュータシミュレーションなどをしたい
- 計算的思考を身につけるため
    - タスク（仕事）を定義し、物事を分析して作業可能な単位に分解する。機械でもわかる言葉で明確に指示をする。

###プログラミングとは何か？

- 人間に代わって機械に（退屈な）仕事をさせるために指示書を作ること
- どんな仕事をして欲しいか明確にして、工程を分解して、順番にやってもらう
    - 複雑な工程になるほど、一つの文だけでは足りず、文同士の流れを「制御（条件分岐やループ）」する必要がある。
    - 様々な仕事に使える汎用的な作業は「関数」としてモジュール化する。

###なぜPython？
![](https://raw.githubusercontent.com/berutaki/github.io/main/1-3.png)

- 使いやすい（コンパイル不要）
- 解釈が簡単
- 学習しやすい（notebookでインタラクティブに）
- コミュニティが充実
- 多数の研究者が使っている
- chatGPTが得意

## Colabについて
- Pythonコードを記述し、実行できるインタラクティブな環境
- ipynbファイルを開いて、操作できる


### セルとモード
- セル：Colabの基本要素。コードとテキストの２種類がある。
- モード：エディットモード（ダブルクリックかEnter）とコマンドモード（Esc）


### ショートカット
#### エディットモードで
- 実行：Shift + Enter

#### コマンドモードで
- 上にセルを作る：Cmd + M A
- 下にセルを作る：Cmd + M B
- セルをコードに：Cmd + M Y
- セルをテキストに：Cmd + M M
- セルの切り取り：Cmd + M D
- セルのコピー：（Cmd + M C）ツール＞キーボードショートカットから設定 
- セルの貼り付け：Cmd + V



### タブ補完
- 関数やメソッド、変数名などを途中まで書いてタブを押すと補完されます。

### その他
- 関数などの先頭に?として実行するとヘルプを読むことができます（後で説明）。
- プログラムのバグなどで実行が終わらないときは、ツールバーからKernel -> Interruptで止めることができます。

### 資料についての注意
- 問題作成の一部にはchatGPT(GPT-4)を用いています。

## Pythonの超基本

### 数値と演算

|  演算子  | 演算  |
| ---- | ---- |
| **  |  累乗  |
|  * | 掛け算  |
|  / | 割り算  |
|//|整数の割り算|
|%|剰余（割り算のあまり）|
|+|足し算|
|-|引き算|



In [None]:
10 // 3

3

In [None]:
10 % 3

1

In [None]:
2 / 5

0.4

In [None]:
5 / 2

2.5

In [None]:
5 % 2

1

7

In [None]:
 5 ** 2 + 4 * 3 + (-2) * 3#演算の順番に注意

31

#### コメント
- 剰余計算%はプログラミングでは頻出。
- 演算の順番に注意。
- #を使うとコメントを書ける。

### 数値の型
- int 整数型
- float 浮動小数点型
- 文字列strと混同しないこと
- intやfloatで型変換できる

In [None]:
type(5)

int

In [None]:
type(5.0)

float

In [None]:
1/3

0.3333333333333333

In [None]:
"3"

'3'

In [None]:
9 + "3"

TypeError: ignored

In [None]:
int(5.0)

5

In [None]:
float(5)

5.0

In [None]:
int('5') + 10

15

### 変数
- 変数：値を代入するラベルのようなもの。=で代入する。
  - 数学の等号とは異なるので注意。比較演算子（後述）では"=="を使う。
- 同じ変数に別の値を代入すると、変数の中身が更新される。


In [None]:
a = 5
b = 2
a/b

2.5

In [None]:
a = 4
a/b

2.0

#### 累積代入文

In [None]:
a = 3
a = a - 3
a

0

In [None]:
a = 3
a += 3
a

6

### 関数
- defを使って関数を定義できる。
- 関数は引数（インプット）を与えると返り値（アウトプット）を返す。
  - （数学の関数と違って）どちらか、ないし両方なくてもよい。

In [None]:
def myfunc(a, b):
  c = a**2 + b
  return c


IndentationError: ignored

In [None]:
myfunc(4,2)

18

### 変数のスコープ
- 変数にはそれが機能する空間（名前空間）が決まっていて、関数の中で定義した変数はその関数の中でしか定義どおりにはふるまわない。

In [None]:
b = 10
def myfunc2(arg):
    b = 10*arg
    print(b)

In [None]:
myfunc2(b)

100


In [None]:
b

10

#### グローバル変数とローカル変数
- 関数の外で定義される変数をグローバル変数という。
- グローバル変数は関数の中の空間でも定義された通りにふるまう。
- これに対して、関数の中で定義された変数をローカル変数という。

In [None]:

def myfunc3(arg):
    global c
    c = b + arg
    print(c)


In [None]:
c

15

In [None]:
c

15

### ブール型
- TrueかFalseの二値をとるデータ型
  - notは論理演算子（後述）


In [None]:
b = True

In [None]:
b

True

In [None]:
not b

False

#### if文とブール型
- if文の条件はブール型を返す文で書く。つまり、ある条件がTrueなら以下を実行せよ、という命令となる。


In [None]:
if b:
    print('実行')

実行


In [None]:
if not b:
    print('実行')

### 比較演算子、論理演算子
- if文の条件などを作るときに、比較したり、否定の条件を使う。
- このような演算は、比較演算子と論理演算子で行われ、演算の結果ブール型が生み出される。


- 論理演算子

| 演算子| 意味 |
|:-----------:|:------------:|
|a and b| aかつb|
|a or b| aあるいはb|
|not a|aでない |

- 比較演算子

| 演算子| 意味 |
|:-----------:|:------------:|
|a == b|	bがaに等しい|
|a != b|	bがaに等しくない|
|	a > b|	bよりaが大きい|
|	a >= b|	bよりaが大きいか等しい|
|	a < b	|bよりaが小さい|
|	a <= b|	bよりaが小さいか等しい|



In [None]:
a = True
b = True
not (a or b)

False

In [None]:
a =3; b = 5
a == 3

True

In [None]:
b != 5

False

In [None]:
a > b

False

In [None]:
a + 2 >= b

True

In [None]:
a + 2 >= b and b != 5

False

## 問題１

### 例題
- 変数xとyが与えられています。xが偶数で、yが奇数の場合に真(True)を返す論理式を作成してください。

In [None]:
x = 8
y = 14

(x % 2 == 0) and (y % 2 == 1)


False

In [None]:
a = True
int(a)

1

In [None]:
b = 0
if b:
  print("TT")

### 問題1-1
- 与えられた整数xが、3の倍数でもあり、かつ4で割り切れるかどうかを判定する論理式を作成してください。

In [None]:
x = 16
(x % 3 == 0) and (x % 4 == 0)

False

### 問題1-2
- 与えられた2つの整数mとnが、どちらも5で割り切れる場合にTrueを返し、そうでない場合はFalseを返す論理式を作成してください。



In [None]:
m = 10
n = 15
(m % 5 == 0) and (n % 5 == 0)

True

### 問題1-3
- 与えられた整数pが、10未満かつ偶数であるか、または20以上かつ奇数である場合に真(True)を返す論理式を作成してください。

In [None]:

p < 10 and p % 2 == 0 and p % 2 == 1 and p >= 20 

False

## 制御文
- プログラミングでは、しばしば命令の流れを条件分岐したり繰り返したりして制御する必要がある。
- 条件分岐はif、ループはforを用いる。whileは条件付きのループである。

### if文とブロックの書き方。
- if文で条件分岐をする。
- if の後に条件を書き、:で改行し、ブロック部分を書く。
- elseはif以下の条件を満たさないときに実行される。
- 3つ以上条件があるときはelifを使う。

In [None]:
# 6がtにあれば、"in"なければ"out"を出力する。
t=[1,2,3,4,5]
if 3 not in t: 
    print ("in")
else:
    print ("out")

out


In [None]:
# xが2で割り切れれば'A',3で割り切れれば'B'、どちらでもなければ'C'を返す。
def myfunc(x):
  if x % 2 == 0: 
    print("A")
  elif x % 3 == 0:
    print("B")
  else:
    print("C")
myfunc(7)

C


#### コメント
- []はリスト型（後述）
- x in y はxがyに含まれればTrue、そうでなければFalseを返す。

### if文による簡単なプログラム
- 例えば、簡単なクイズを出して、正解／不正解を返すプログラムを作ることができる。


In [None]:
var = input('マックスの誕生年はいつでしょう？')
var = int(var)
if var == 1864:
    print('正解です！')
else:
    print('不正解です。。')

マックスの誕生年はいつでしょう？1863
不正解です。。


#### コメント
- input()関数で入力フォームに記入した文字列をプログラムに組み込むことが可能。

### for文
- 同じ処理を繰り返し行いたい（ループさせたい）とき、for文を使う。
- for i in XでXの要素を一つずつi回ループする。
- range()は連続する数値からなるデータを返す。
- リストなどの要素をループさせることも可能。
- 単にループだけさせたいときは、_ in range()と書くことも可能

In [None]:
for i in range(1,6):
  print (i)

1
2
3
4
5


In [None]:
t=['a','b','c','d','e']
for i in t:
    print (i)

a
b
c
d
e


In [None]:
for _ in range(10):
  print('Hello')

Hello
Hello
Hello
Hello
Hello
Hello
Hello
Hello
Hello
Hello


### continue とbreak
- プログラムを実行中に、ループを途中で抜けたり、終わらせたりする。
- continueは以後の処理をとばして次の処理へいく。
- breakはループ自体を終了する。

In [None]:
for item in t:
    if item=='c':
        continue
    print (item)

a
b
d
e


In [None]:
for item in t:
    if item!='c':
        print (item)
    else:
        break

a
b


### while文
- while文は条件を満たす限り、ブロックの実行を繰り返す。
- while Trueで無限ループを作ることができる。

In [None]:
t = 1
while t != 6:
    print (t)
    t += 1
    #t = t +1

1
2
3
4
5


In [None]:
t = 1
while True:
    print (t)
    t += 1
    if t == 6:
      break

1
2
3
4
5


#### コメント
- 無限ループは、ある処理をループして条件を満たしたときに終わらせる。プログラミングでは頻出。

In [None]:
a = 2
b = 4
c = a + b
print(c)

6


## 問題2 



### 問題2-1

- 1から10までの整数のリストから、偶数だけを表示してください。

In [None]:
t = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
t = range(1,11)

In [None]:
for i in t:
  if i % 2 == 0:
    print(i)

2
4
6
8
10


### 問題2-2
- 与えられたリスト[1, 3, 9, 16, 20, 25, 28, 30]の要素に対して、次の条件に従って処理を行ってください。

  - 偶数の場合は2で割る。
  - 奇数の場合は2倍する。

In [None]:
t = [1, 3, 9, 16, 20, 25, 28, 30]

In [None]:
for i in t:
  if i % 2 == 0:
    print(i//2)
  else:
    print(i*2)

2
6
18
8
10
50
14
15



 ### 問題2-3
- 与えられた整数nに対して、1からnまでのすべての奇数の合計を計算してください（continueを使うこと）。

In [None]:
sum = 0
n = 300

for i in range(1, n + 1):
  if i % 2 == 0:
    continue
  sum += i

print(sum)

22500


In [None]:
for i in range(10):
  print(i)

0
1
2
3
4
5
6
7
8
9


## ユークリッドの互除法
- ここで、プログラミングらしい課題としてユークリッドの互除法というアルゴリズムの実装にトライしてみましょう。
-  ユークリッドの互除法とは、2つの整数、aとbの最大公約数を求めるアルゴリズムです。例えば、2485と1162の最大公約数を求めたい場合

$2485 \div1162 = 2 余り 161$ 

$1162 \div 161 = 7 余り 35$ 

$161 \div 35 = 4 余り 21$ 

$35 \div 21 = 1 余り 14$

$21 \div 14 = 1 余り 7$

$14 \div 7 = 2 余り 0$

割る数と余りを次回の割られる数と割る数にして、次々と計算し、最後に割り切れたら終わりで、最後の割る数が最大公約数です。



##問題3
### 例題
- ユークリッドの互除法をPythonで実装しましょう。ヒントwhileを用います。余りがゼロでないならば、〜を実行せよ、という形式をとります。また、余りを計算するには%演算子を使います。

In [None]:
#答え
a = 2485
b = 1162
while b !=0:
    r = a % b#入れ替え用のrを用意する 
    a = b
    b = r
    print(a,b)


1162 161
161 35
35 21
21 14
14 7
7 0


In [None]:
#別解
a = 2485
b = 1162
while b !=0:
    a, b = b, a % b#この書き方で複数の変数に代入できて、入れ替え用を用意する必要もない。 
    print(a,b)


1162 161
161 35
35 21
21 14
14 7
7 0


### 問題 3-1
与えられた整数nに対して、nの階乗（n!）を求める関数factorialを定義してください。ただし、0の階乗は1と定義します。

In [None]:
def factorial(n):
    if n == 0:
        return 1
    else:
        result = 1
        for i in range(1, n+1):
            result *= i
        return result

# 例: 5の階乗を計算
result = factorial(5)


In [None]:
result

120

### 問題3-2
与えられた整数nが素数かどうかを判定する関数is_primeを作成してください。



In [None]:
def is_prime(n):
    if n <= 1:
        return False
    for i in range(2, int(n**0.5) + 1):
        if n % i == 0:
            return False
    return True

n = 17
result = is_prime(n)


In [None]:
is_prime(23095832905823409587)


False

### 問題3-3
フィボナッチ数列の要素を生成し続けます。要素が1000を超えるような最初のフィボナッチ数を求めてください。
$$F_0 = 0$$
$$F_1 = 1$$
$$F_{n+2} = F_n + F_{n+1} (n ≥ 0)$$

In [None]:
def first_fib_over_n(n):
    a, b = 0, 1
    while True:
        a, b = b, a + b
        if b > n:
            break
    return b

n = 1000
result = first_fib_over_n(n)


In [None]:
result

1597

## データ型
- Pythonはオブジェクト指向のプログラミング言語であり、変数、関数をはじめとしたプログラムの部品はすべてオブジェクトである。
- オブジェクトはデータともいわれ、ある型を持っている（すでに数値に型があることは説明した）。
- 以下では、特に重要なデータ型として、文字列、リスト、ディクショナリ、タプルについて解説する。

## 文字列
- 文字列は数値とは異なるデータ型の一つで、文字通り文字を扱う。
- ""ないし''でくくると文字列になる。
- 文字列は、シークエンス型という広義の型に属していて、インデックスで要素を指定して取り出すことができる。

In [None]:
text = "Hello!"

In [None]:
text

'Hello!'

In [None]:
text[3]

'l'

## インデックス

- Pythonのインデックスは0から始まる。
- ":"それ以後を続けてとる。
- "-"は後ろから数える。
- <img src="https://raw.githubusercontent.com/berutaki/github.io/main/1-4.png" width="500">


In [None]:
text[0:3]

'Hel'

In [None]:
text[1:]

'ello!'

In [None]:
text[-1]

'!'

In [None]:
text[[2,4]]

TypeError: ignored

## メソッド
- データ型にはそれぞれに固有の関数のようなものーーメソッドがある。
- メソッドは、それぞれのデータ型をもつオブジェクトに対して何らかの操作をする。
- hoge.XXXX()という形を取る。

In [None]:
text.replace('ll','oo')

'Heooo!'

In [None]:
a = 3943
a.replace(3,4)

AttributeError: ignored

### 文字列操作

- '+'で結合できる。
- リストの結合はjoin()を使う。

In [None]:
a = "Hello!"
b = "こんにちは!"

In [None]:
a+b

'Hello!こんにちは!'

In [None]:
strings = ["Hello!","こんにちは!"]

In [None]:
''.join(strings)

'Hello!こんにちは!'

In [None]:
','.join(strings)

'Hello!,こんにちは!'

#### 置換、replace()メソッド
- 部分文字列を別の部分文字列に置換するには、replace()メソッドを使います。

In [None]:
a = "私の名前は、マックスです。"

In [None]:
a.replace("マックス","エミール")

'私の名前は、エミールです。'

#### 小文字化、lower()メソッド
- 文字通り小文字化するメソッドです。upper()は大文字化します。

In [None]:
a = "Hello!"
a.lower()

'hello!'

In [None]:
a.upper()

'HELLO!'

 #### 検索、find()メソッド
- find()メソッドはその部分文字列の始まるインデックスを返す。。なければ-1を返す。
- 含まれるかどうかはinを使う方がわかりやすい。

In [None]:
a = "私の名前は、マックスです。"

In [None]:
a.find("マックス")

6

In [None]:
a.find("ゲオルグ")

-1

In [None]:
"マックス" in a

True

#### 分割、split()メソッド
- 文字列を分割したい場合はsplit()メソッドを使います。引数には、分割したい箇所にある文字列、例えば'、'を与えます。ただし、その文字列は失われます。

In [None]:
a.split('、')

['私の名前は', 'マックスです。']

In [None]:
a

'私の名前は、マックスです。'

#### クリーニング、strip()メソッド

- とくにテクストデータを外部から読み込んできた場合など、前後に空白や改行マーク"\n"がついてくることがあります。これを取り除くにはstrip()メソッドを使います。

In [None]:
b = " マックス・ウェーバー\n"

In [None]:
b

' マックス・ウェーバー\n'

In [None]:
b.strip()

'マックス・ウェーバー'

#### startswith(), endwith()メソッド
- ある部分文字列から始まる、あるいは終わるかを調べるには、startswith(), endwith()を使います。

In [None]:
'マックス・ウェーバー'.startswith('マックス')

True

In [None]:
'マックス・ウェーバー'.endswith('ズ')

False

#### フォーマット
- 文字列の中に変数の値を埋め込みたい場合、f'hoge{}'のようにする。
- 他に、%演算子を使う方法がある。この場合%s(文字列)のようにデータ型を指定する。

In [None]:
a = 'マックス'
b = 'ウェーバー'
f'私の名前は{a}・{b}です'

'私の名前はマックス・ウェーバーです'

In [None]:
'私の名前は{}・{}です'.format(a,b)

'私の名前はマックス・ウェーバーです'

In [None]:

'私の名前は%s・%sです'%(a,b)

'私の名前はマックス・ウェーバーです'

## リスト
- リストも文字列と同様、シークエンス型で、どんなデータ型でも、異なるデータ型でもいれることができる。
- []でくくって、作る。
- リストのリスト（ネストされたリスト）も可能
  - ネストされたリストからのデータ抽出は[1][1]などとする。


In [None]:
a = [1,2,3,4,5]
a

[1, 2, 3, 4, 5]

In [None]:
b = ["Apple","Banana"]
b

['Apple', 'Banana']

In [None]:
c = [1,2,3,4,5,"Apple","Banana"]
c

[1, 2, 3, 4, 5, 'Apple', 'Banana']

In [None]:
d = [a,b,c]
d

[[1, 2, 3, 4, 5], ['Apple', 'Banana'], [1, 2, 3, 4, 5, 'Apple', 'Banana']]

In [None]:
d[1]

['Apple', 'Banana']

In [None]:
d[1][1]

'Banana'

### リストの操作
- +演算でリスト同士を足したり、*で複数にしたりすることもできる。

In [None]:
a + b

[1, 2, 3, 4, 5, 'Apple', 'Banana']

In [None]:
b * 3

['Apple', 'Banana', 'Apple', 'Banana', 'Apple', 'Banana']

####  ミュータブルなリスト（一部、やや難）
- リストの中身は後から変更できる（これをミュータブルという）。
- ミュータブルなデータ型を扱うときは代入の際に注意が必要。
  - 例のようにbにaを代入した後、aの中身を変えるとbの中身も変わってしまう。
- コピーをすることで回避できる。


In [None]:
a

[1, 2, 3, 4, 5]

In [None]:
a[0] = 2

In [None]:
a

[2, 2, 3, 4, 5]

In [None]:
#ミュータブルなリストのふるまい
a = [1, 2, 3, 4, 5]
b = a

In [None]:
b

[1, 2, 3, 4, 5]

In [None]:
a[0] = 2#aの中身を変えると。。

In [None]:
a

[2, 2, 3, 4, 5]

In [None]:
b

[2, 2, 3, 4, 5]

- aの本当のコピーを作れば、このことは避けられます。[:]を使う方法とcopy()メソッドを使う方法があります。

In [None]:
a = [1, 2, 3, 4, 5]
b = a[:]#b = a.copy()
a[0]=2 
b

[1, 2, 3, 4, 5]

### リストのメソッドと関数
- リストにも専用のメソッドがある。またリストによく使う関数もある。

#### len()関数とsum()関数
- len()関数はリストの長さを取得します。
- sum()関数は合計を返します。

In [None]:
a = [1, 2, 3, 4, 5]
len(a)

5

In [None]:
len("Hello!")

6

In [None]:
del(sum)

In [None]:
a = [1, 2, 3, 4, 5]
sum(a)

15

#### del文とremove()メソッド
- リストの中身を削除するにはdel文を使います。インデックスを指定すると、該当要素が削除されます。
- あるいは要素が分かっているときは、remove()メソッドで削除することもできます。

In [None]:
del a[2]
a

[1, 2, 4, 5]

In [None]:
a.remove(5)
a

[1, 2, 4]

#### index()メソッド
- 要素のインデックスを知りたい場合はindex()を使います。

In [None]:
a = [1, 2, 3, 4, 5]
a.index(2)

1

### append()とextend()
- append()は要素を最後方から１つ追加します。
- for文と組み合わせて使うことが多いです。
  - リスト内包表記でよりシンプルに書ける（後述）

In [None]:
a.append(6)
a

[1, 2, 3, 4, 5, 6]

In [None]:
#1-100の整数から3の倍数をリストに格納
a = []
for i in range(1,101):
  if i % 3 == 0:
    a.append(i)
print(a)

[3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99]


- 複数追加したい場合は、extend()を使います(+演算子を使うこともできます)。
- append()を使うと、リストが要素として追加されるので注意。

In [None]:
a + [7,8,9]

[3,
 6,
 9,
 12,
 15,
 18,
 21,
 24,
 27,
 30,
 33,
 36,
 39,
 42,
 45,
 48,
 51,
 54,
 57,
 60,
 63,
 66,
 69,
 72,
 75,
 78,
 81,
 84,
 87,
 90,
 93,
 96,
 99,
 7,
 8,
 9]

In [None]:
a.extend([7,8,9])

In [None]:
a

[3,
 6,
 9,
 12,
 15,
 18,
 21,
 24,
 27,
 30,
 33,
 36,
 39,
 42,
 45,
 48,
 51,
 54,
 57,
 60,
 63,
 66,
 69,
 72,
 75,
 78,
 81,
 84,
 87,
 90,
 93,
 96,
 99,
 7,
 8,
 9]

In [None]:
a.append([7,8,9])

In [None]:
a

[3,
 6,
 9,
 12,
 15,
 18,
 21,
 24,
 27,
 30,
 33,
 36,
 39,
 42,
 45,
 48,
 51,
 54,
 57,
 60,
 63,
 66,
 69,
 72,
 75,
 78,
 81,
 84,
 87,
 90,
 93,
 96,
 99,
 7,
 8,
 9,
 [7, 8, 9]]

#### 数える。count()メソッド
- ある要素がリスト内にいくつあるかを調べるにはcount()メソッドを使います。

In [None]:
a = [1,1,2,2,2,3]
a.count(2)

3

### 文字列を要素とするリストの結合、join()メソッド
- " ".join([文字列の要素])とすると、要素が " "を間の区切りとしてつながる。

In [None]:
mylist = ["apple","banana","orange","grape"]
" ".join(mylist)

'apple banana orange grape'

#### ソート
- リストを要素でソートするには、２つの方法があります。
- まずsort()メソッドを使う方法。この場合、リストの中身自体が変更されます。
- 関数sorted()を使う方法では、リストの中身は変更されず、返り値としてソートされたリストが返されます。
- 降順にしたい場合にはreverse=Trueとします。

In [None]:
a = [5,3,1,2,4]
a.sort()
print(a)

[1, 2, 3, 4, 5]


In [None]:
a = [5,3,1,2,4]
sorted(a)

[1, 2, 3, 4, 5]

In [None]:
a#aの中身は変わらない

[5, 3, 1, 2, 4]

In [None]:
b = sorted(a)#ソート結果を別の変数に代入
print(b)

[1, 2, 3, 4, 5]


In [None]:
print(a)

[5, 3, 1, 2, 4]


In [None]:
sorted(a, reverse=True)

[5, 4, 3, 2, 1]

## 問題4

#### 問題 4-1
与えられた文字列textからすべての空白を削除してください。


```
text = "This is a sample text."
```




In [187]:
text = "This is a sample text."
text.replace(" ","")

'Thisisasampletext.'

####問題4-2
与えられた文字列textを空白で分割し、単語のリストを作成してください。


```
text = "This is a sample text."
```




In [188]:
words = text.split(" ")
print(words)

['This', 'is', 'a', 'sample', 'text.']


####問題4-3


与えられた文字列textをカンマで分割し、それぞれの要素を大文字に変換して、新しいリストを作成してください。



```
text = "apple,banana,orange,grape"
```



In [190]:
text = "apple,banana,orange,grape"
words = text.split(",")
upper_words = []
for word in words:
  upper_words.append(word.upper())
print(upper_words)


['APPLE', 'BANANA', 'ORANGE', 'GRAPE']


問題4-4
- 次のリスト、["Spencer", "is", "dead."]を操作して、一つの文字列"Spencer is dead. "にせよ。

- 次の文字列、"Spencer is dead. But who killed him and how? This is the problem."、の'.'と'?'を削除したあと、小文字の単語を要素としたリストに変換せよ。
  - →のようにする['spencer', 'is', 'dead', 'but', 'who', 'killed', 'him', 'and', 'how', 'this', 'is', 'the', 'problem']



```
mylist = ["Spencer", "is", "dead."]
TP = "Spencer is dead. But who killed him and how? This is the problem."
```



In [191]:
mylist = ["Spencer", "is", "dead."]
TP = "Spencer is dead. But who killed him and how? This is the problem."
" ".join(mylist)

'Spencer is dead.'

In [192]:
TP.lower().replace(".","").replace("?", "").split(" ")

['spencer',
 'is',
 'dead',
 'but',
 'who',
 'killed',
 'him',
 'and',
 'how',
 'this',
 'is',
 'the',
 'problem']

## ディクショナリ
- ディクショナリは、keyとvalueからなり、マップ型と呼ばれる型に属する。
- {}でくくって、作成する。{key:value}と書く。
- シーケンス型ではないのでインデックスは使えない。代わりにkeyを指定して要素を取り出します。要素は基本的にどのような型でもOK。
- ディクショナリもしばしばネストされる。

In [194]:
d={'A':'Apple','B':'Banana'}

In [195]:
d['A']

'Apple'

In [196]:
nested_d = {'nest':d}

In [198]:
nested_d['nest']

{'A': 'Apple', 'B': 'Banana'}

### ディクショナリ操作

#### ディクショナリに新しい項目を加える
- 空の辞書に新しい項目を加えるには、新しくkeyを指定してvalueを代入すればよい。
- もちろん既存の辞書に新しい項目を加えることもできる。


In [201]:
d = {}

In [202]:
d['ゲオルグ'] = 1858

In [203]:
d

{'ゲオルグ': 1858}

In [204]:
d = {'マックス':1864,'エミール':1858}

In [205]:
d['ゲオルグ'] = 1858

In [206]:
d

{'マックス': 1864, 'エミール': 1858, 'ゲオルグ': 1858}

#### ２つの辞書の統合：update()メソッド
- 2つの辞書を統合するにはupdate()メソッドを使います。

In [207]:
e = {'タルコット':1902,'ロバート':1910}

In [208]:
e

{'タルコット': 1902, 'ロバート': 1910}

In [209]:
d.update(e)

In [None]:
d

{'マックス': 1864, 'エミール': 1858, 'ゲオルグ': 1858, 'タルコット': 1902, 'ロバート': 1910}

#### key, value, itemの取得
- それぞれ、keys(), values(), items()とすると取得できる。
- items()はkeyとvalueのタプルを要素とするリスト形式のオブジェクトを返す。

In [210]:
d.keys()

dict_keys(['マックス', 'エミール', 'ゲオルグ', 'タルコット', 'ロバート'])

In [211]:
'ガブリエル' in d.keys()

False

In [212]:
d.values()

dict_values([1864, 1858, 1858, 1902, 1910])

In [213]:
d.items()

dict_items([('マックス', 1864), ('エミール', 1858), ('ゲオルグ', 1858), ('タルコット', 1902), ('ロバート', 1910)])

#### get()メソッドによるvalueの取得
- ディクショナリのvalueはkeyを指定して取れるが、keyが存在しない場合はエラーが出る。
- get()メソッドを使うとkeyが存在すれば、valueを返し、存在しなければ何も返さない（Noneを返す)。

In [214]:
d['マックス']

1864

In [215]:
d['ガブリエル']

KeyError: ignored

In [216]:
if d.get('マックス'):
    print(d['マックス'])

1864


In [217]:
if d.get('ガブリエル'):
    print(d['ガブリエル'])
else:
    print('そのkeyは存在しません')

そのkeyは存在しません


In [218]:
d.get('ガブリエル')

In [219]:
d['ガブリエル']

KeyError: ignored

##### コメント
- ifの条件節はNoneだとFalse、それ以外はTrueを返す

#### ディクショナリのループ
- ディクショナリの中身をループするときには、d.items()を使う。
- key, valueのペアをループする。

In [220]:
d.items()

dict_items([('マックス', 1864), ('エミール', 1858), ('ゲオルグ', 1858), ('タルコット', 1902), ('ロバート', 1910)])

In [222]:
for key, value in d.items():
    print(f'{key}:{value}')

マックス:1864
エミール:1858
ゲオルグ:1858
タルコット:1902
ロバート:1910


##### コメント
- for文のinの前の項目は複数でもよい。

#### ディクショナリのソート
- ディクショナリをvalueでソートしたい場合は一工夫必要です。sorted()を使えますが、ソートのkey（ディクショナリのkeyではない）として、lambda関数というやり方を使い、ディクショナリのvalueをソートのkeyとすると指定します。


In [223]:
sorted(d.items(), key = lambda x : x[1])

[('エミール', 1858),
 ('ゲオルグ', 1858),
 ('マックス', 1864),
 ('タルコット', 1902),
 ('ロバート', 1910)]

## 問題5


####問題5-1
空の辞書gradesを作成し、次のキーと値のペアを追加してください。

'math': 85
'science': 90
'english': 88

In [224]:
grades = {}
grades['math'] = 85
grades['science'] = 90
grades['english'] = 88

In [225]:
grades

{'math': 85, 'science': 90, 'english': 88}

#### 問題5-2
与えられた辞書studentのキーと値をイテレートし、次の形式で出力してください

key: value


```
student = {'name': 'John', 'age': 21, 'major': 'Computer Science'}
```



In [226]:
student = {'name': 'John', 'age': 21, 'major': 'Computer Science'}
for key, value in student.items():
  print(f'{key}:{value}')

name:John
age:21
major:Computer Science


#### 問題5-3
与えられた辞書pricesのすべての値の合計を計算してください。



```
prices = {'apple': 1.5, 'banana': 0.5, 'orange': 0.75}
```



In [227]:
prices = {'apple': 1.5, 'banana': 0.5, 'orange': 0.75}
sum(prices.values())

2.75

####問題5-4
5-1で作成したgradeを値でソートしてください。


In [228]:
sorted(grades.items(), key = lambda x: x[1])

[('math', 85), ('english', 88), ('science', 90)]

##  タプル
- リストに似ていますが、イミュータブルであるという点で異なります。不用意に要素が変更されることがないのでリストよりも安全です。
- ()でくくって作ります。
- リストのように要素に代入しようとするとエラーが発生します。

In [229]:
t=(1,2,3,4,5)

In [230]:
t[0] = 5

TypeError: ignored

## モジュール（ライブラリ）
- Pythonではモジュールと呼ばれるプログラムパッケージが多数存在する。
-  モジュールは以下に分かれる。
  - 1)Pythonにあらかじめ組み込まれているもの
  - 2)Colabに最初から入っているもの
  - 3)その他、別個インストールが必要となるもの
- 3)については、pip install, conda installなどとして別個インストールが必要になる。
- モジュールを読み込むときは"import XX"とする。"import XX as Y"とすると、Yという名前で使うことができる。

In [233]:
import random
random.choice([1,2,3,4,5,6])

5

In [234]:
import pandas as pd
pd.DataFrame({"A":[1,2],"B":[3,4]})

Unnamed: 0,A,B
0,1,3
1,2,4


## いろいろなプログラミングテクニック

#### forloopの進んだ使い方。enumerateとzip
- リストをループしているときにそのインデックスもあわせて取得したい場合があります。
- enumerate()を使ってループすると、インデックスと要素を使ってループすることができます。

In [235]:
l = ['エミール', 'ゲオルグ','マックス', 'タルコット', 'ロバート']
for idx, name in enumerate(l):
    print("私（{}）のインデックスは{}番です".format(name,idx))

私（エミール）のインデックスは0番です
私（ゲオルグ）のインデックスは1番です
私（マックス）のインデックスは2番です
私（タルコット）のインデックスは3番です
私（ロバート）のインデックスは4番です


- zip()を使うとペアごとにループできます。

In [236]:
l = ['エミール', 'ゲオルグ','マックス', 'タルコット', 'ロバート']
m = ['デュルケム','ジンメル','ウェーバー','パーソンズ','マートン']
for first,last in zip(l,m):
    print("私は{}・{}です".format(first,last))

私はエミール・デュルケムです
私はゲオルグ・ジンメルです
私はマックス・ウェーバーです
私はタルコット・パーソンズです
私はロバート・マートンです


#### リスト内包表記

- [item for item in list]のような形でリストの内部でfor文を使う方法。
- さらにifで条件付けることができる。
  - ifのみの場合はforの後。
  - if else で条件付けるときはforの前に来る。

In [237]:
nums = [2, 4, 5, 6, 8, 10, 12]
new_nums = [num // 2 for num in nums]
print(new_nums)


[1, 2, 2, 3, 4, 5, 6]


In [238]:
nums = [2, 4, 5, 6, 8, 10, 12]
new_nums = [num // 2 for num in nums if num > 5]
print(new_nums)


[3, 4, 5, 6]


In [240]:
nums = [2, 4, 5, 6, 8, 10, 12]
new_nums = [num // 2 if num > 5 else num for num in nums]
print(new_nums)


[2, 4, 5, 3, 4, 5, 6]


In [241]:
d = {'マックス': 1864, 'エミール': 1858, 'ゲオルグ': 1858, 'タルコット': 1902, 'ロバート': 1910}
statement = [f"私（{key}）の誕生年は{value}年です" for key, value  in d.items()]
statement

['私（マックス）の誕生年は1864年です',
 '私（エミール）の誕生年は1858年です',
 '私（ゲオルグ）の誕生年は1858年です',
 '私（タルコット）の誕生年は1902年です',
 '私（ロバート）の誕生年は1910年です']

In [242]:
[f"私（{key}）の誕生年は{value}年です" for key, value  in d.items() if int(value) >1900]

['私（タルコット）の誕生年は1902年です', '私（ロバート）の誕生年は1910年です']

In [243]:
[f"私（{key}）の誕生年は{value}年です" if int(value) >1900 else "" for key, value  in d.items() ]

['', '', '', '私（タルコット）の誕生年は1902年です', '私（ロバート）の誕生年は1910年です']

## 問題6



#### 問題6-1
与えられたリストnumsの各要素の値とそのインデックスを掛けた新しいリストを、リスト内包表記とenumerateを用いて作成してください。



In [244]:
nums = [1,2,3,4,5]

In [247]:
[num * index for index, num in enumerate(nums)]

[0, 2, 6, 12, 20]

#### 問題6-2
与えられたリストnamesとagesを使って、"{name} is {age} years old"という形式の文字列のリストを作成してください。zipを用いてください。



In [245]:
names = ["Alice", "Bob", "Carol"]
ages = [25, 30, 35]


In [248]:
[f"{name} is {age} years old" for name, age in zip(names,ages)]

['Alice is 25 years old', 'Bob is 30 years old', 'Carol is 35 years old']

### 問題6-3
与えられたリストvaluesの各要素について、インデックスが偶数の要素は2倍し、インデックスが奇数の要素は3倍した新しいリストを作成してください。リスト内包表記とenumerateを用いてください。



In [246]:
values = [1,2,3,4,5]

In [250]:
[value*2 if index % 2 ==0 else value*3 for index, value in enumerate(values)]

[2, 6, 6, 12, 10]

## numpyについて
- numpyは数値計算用に開発された非常にポピュラーなモジュールです。数学的処理をする場合に不可欠なだけでなく、後で出てくるpandasなどのデータ処理用のモジュールはこのnumpyの機能を基礎にして組み立てられています。numpyを使うと、通常の方法よりも処理速度を大幅に上げることもできます。ここではそのさわりの部分だけを紹介します。


In [251]:
import numpy as np

###numpy配列
- numpyの基本は配列(array)です。リストに似ていますが、同じ型の要素しか取れないなどいくつかの違いがあります。
- 配列はnp.array([])によって作ることができます。これは数学的にはベクトルに相当します。
- 2次元配列も作ることができます。数学的には行列にあたります。
- ベクトルや行列として演算したいときにはnp.dot()などを用います。

In [252]:
vec = np.array([1,2,3])
vec

array([1, 2, 3])

In [253]:
mat = np.array([
              [1,2,3],
              [4,5,6],
              [7,8,9]
                ])
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [254]:
mat2 = np.array([
              [10,20,30],
              [40,50,60],
              [70,80,90]
                ])
mat2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [None]:
np.dot(mat,mat2)#1*10+2*40+3*70=300,...

array([[ 300,  360,  420],
       [ 660,  810,  960],
       [1020, 1260, 1500]])

### アダマール積とブロードキャスト
- '*'演算子は要素ごとのかけ算をかえす。これをアダマール積という。
- かけ算する行列同士の次元が異なる場合、ブロードキャストが行われる。簡単にいえば、次元が少ない方のオブジェクトを複数コピーして次元を合わせて演算する。

In [None]:
mat*mat2　#アダマール積1*10,...

array([[ 10,  40,  90],
       [160, 250, 360],
       [490, 640, 810]])

In [None]:
vec

array([1, 2, 3])

In [None]:
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
mat * vec

array([[ 1,  4,  9],
       [ 4, 10, 18],
       [ 7, 16, 27]])

### インデックスによる選択
- インデックスによる選択はリスト等に似ていますが、リストで選択する機能が追加されています。

In [255]:
mat[:2,1]

array([2, 5])

In [256]:
mat[[0,2],:]

array([[1, 2, 3],
       [7, 8, 9]])

#### 零行列、単位行列など
- np.zeros()を使うと、ゼロからなる行列を作ることができる。
- np.eye()は単位行列を作る。
- その他、np.ones()など類似の関数もいくつか用意されている。

In [257]:
np.zeros([3,3])

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [258]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [259]:
np.ones([3,3])

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### 数学関数とapply
- np.sum()やnp.mean()などの多くの数学関数が用意されている。
- np.apply_along_axis()を使うと行ごとや列ごとに数学関数を適用できる。

In [None]:
mat

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [260]:
np.mean(mat)

5.0

In [261]:
np.sum(mat)

45

In [262]:
np.apply_along_axis(np.sum, 1, mat)#行の足し算

array([ 6, 15, 24])

In [263]:
np.apply_along_axis(np.sum, 0, mat)#列の足し算

array([12, 15, 18])

## ディレクトリ構造とLinuxコマンド
- Colabはクラウド上のLinuxコンピュータで、図のようなディレクトリ（Winでいうフォルダに相当）構造を持っている。

<img src="https://raw.githubusercontent.com/berutaki/github.io/main/1-5.png" width="300">

- (Colab)から見て外部ドライブ（各自のグーグルドライブ）を接続するにはマウントをする必要がある。

- マウントの場所を''/content/drive'と指定するとcontentディレクトリの直下にMy diriveが接続される。

<img src="https://raw.githubusercontent.com/berutaki/github.io/main/1-6.png" width="300">



In [264]:
from google.colab import drive
drive.mount('/content/drive')#実行すると許可を求められるが、すべてOKする。

Mounted at /content/drive


### Linuxコマンド
- Colabでは'!'を頭につけることでLinuxのコマンドを入力できる（ただし、サブプロセスで実行されるため意図した動作をできないこともある）。
- '%'はIPythonのマジックコマンドで'!'と同じようなことができる（pipなどは不可）。以下では基本的に'%'を使う（実は何もつけなくても以下のコマンドは動く）。
- 'pwd'は現在のワーキングディレクトリを表示。
- 'cd'はディレクトリの移動。
- 'ls'はディレクトリやファイルのリストの表示
- 'mkdir'はディレクトリの作成
- 'rm -r'はディレクトリの削除

In [265]:
!pwd

/content


In [266]:
%pwd

'/content'

In [None]:
%cd /content/drive/MyDrive/cssws2023

/content/drive/MyDrive/cssws2023


In [267]:
%ls

[0m[01;34mdrive[0m/  [01;34msample_data[0m/


In [268]:
%cd drive

/content/drive


In [269]:
%ls

[0m[01;34mMyDrive[0m/  [01;34mShareddrives[0m/


In [271]:
%cd MyDrive

/content/drive/MyDrive


In [272]:
%ls

 2023瀧川ゼミセミナー1（回答）.gsheet
 2023瀧川ゼミ計算社会科学ハンズオンセミナー1.gform
[0m[01;34m'Colab Notebooks'[0m/
 [01;34mcsoc2022[0m/
 [01;34mcssws2023[0m/
 R5私学研修員等受入について（教授会用）.pdf
 [01;34mStableDiffusion[0m/
 ニュース掲示板コメントに関するマクロ社会学的実験2022.gdoc
 個別面談時間割.gsheet
[01;34m'東京大学大学院人文社会系研究科　特任研究員（特定有期雇用教職員）応募書類提出フォーム (File responses)'[0m[K/
 東京大学大学院人文社会系研究科　特任研究員（特定有期雇用教職員）応募書類提出フォーム.gform
 環境問題の科学社会学.pdf


In [273]:
%cd cssws2023

/content/drive/MyDrive/cssws2023


In [274]:
ls

[0m[01;34mdata[0m/                         Todai_pandas.ipynb
kokkai_data.ipynb             Todai_pandas配布用.ipynb
kokkai_simple_analysis.ipynb  Todai_Python_Basics.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics配布用.ipynb
kokkai_topic.ipynb            問題（回答付き）.ipynb
[01;34mmecab-ipadic-neologd[0m/


In [275]:
%mkdir test

In [276]:
%ls

[0m[01;34mdata[0m/                         [01;34mtest[0m/
kokkai_data.ipynb             Todai_pandas.ipynb
kokkai_simple_analysis.ipynb  Todai_pandas配布用.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics.ipynb
kokkai_topic.ipynb            Todai_Python_Basics配布用.ipynb
[01;34mmecab-ipadic-neologd[0m/         問題（回答付き）.ipynb


In [277]:
%rm -r test

In [278]:
%ls

[0m[01;34mdata[0m/                         Todai_pandas.ipynb
kokkai_data.ipynb             Todai_pandas配布用.ipynb
kokkai_simple_analysis.ipynb  Todai_Python_Basics.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics配布用.ipynb
kokkai_topic.ipynb            問題（回答付き）.ipynb
[01;34mmecab-ipadic-neologd[0m/


#### パスとcd
- /content/drive/MyDrive/cssws2023は絶対パスでディレクトリやファイルの場所を示す住所のこと。
- 相対パスはカレントディレクトリから見た場所を示す。例えば、MyDriveにいるときに絶対パス /content/drive/MyDrive/cssws2023を相対パスで表せば /cssws2023 となる。
- 'cd ..'はカレントディレクトリの一つ前のディレクトリへいく。
- ' cd -'は直前にいたディレクトリに戻る。
- 'cd ~'はhomeに戻る（Colbaでは/root）

In [282]:
%cd /content/drive

/content/drive


In [283]:
%cd MyDrive/cssws2023

/content/drive/MyDrive/cssws2023


In [284]:
%cd ..

/content/drive/MyDrive


In [285]:
%cd -

/content/drive/MyDrive/cssws2023


In [286]:
%cd ~

/root


In [None]:
%pwd

'/content/drive/MyDrive/cssws2023'

In [None]:
%cd ..

/content/drive/MyDrive


In [None]:
%cd -

/content/drive/MyDrive/cssws2023


In [None]:
%cd ~

/root


In [287]:
%cd -

/content/drive/MyDrive/cssws2023


### osによるディレクトリ、ファイルの操作
- osライブラリでディレクトリやファイルを操作すると便利なことがあります。
- mkdir()でディレクトリを作る。
- os.path.exists('test')で確かめてなければ作る。
- os.listdir()でディレクトリ内のファイルを取得。
- globライブラリを使うと条件を指定してファイルを取得できる。
- os.remove()でファイルを消す。
-  ディレクトリを消すには、shutilライブラリのrmtree()を使う。


In [288]:
import os
os.mkdir('test')

In [289]:
%ls

[0m[01;34mdata[0m/                         [01;34mtest[0m/
kokkai_data.ipynb             Todai_pandas.ipynb
kokkai_simple_analysis.ipynb  Todai_pandas配布用.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics.ipynb
kokkai_topic.ipynb            Todai_Python_Basics配布用.ipynb
[01;34mmecab-ipadic-neologd[0m/         問題（回答付き）.ipynb


- os.path.exists()とすると、当該ファイルが存在するかどうかを確認できます。

In [290]:
os.path.exists('test')

True

In [291]:
if not os.path.exists('test2'):
  os.mkdir('test2')

In [292]:
#操作練習用テキストファイル
with open ('text1.txt','w') as f:
  pass
with open ('text2.txt','w') as f:
  pass

In [293]:
ls

[0m[01;34mdata[0m/                         text1.txt
kokkai_data.ipynb             text2.txt
kokkai_simple_analysis.ipynb  Todai_pandas.ipynb
kokkai_tokenize.ipynb         Todai_pandas配布用.ipynb
kokkai_topic.ipynb            Todai_Python_Basics.ipynb
[01;34mmecab-ipadic-neologd[0m/         Todai_Python_Basics配布用.ipynb
[01;34mtest[0m/                         問題（回答付き）.ipynb
[01;34mtest2[0m/


In [294]:
my_listdir = os.listdir()
print(my_listdir)

['問題（回答付き）.ipynb', 'data', 'mecab-ipadic-neologd', 'kokkai_topic.ipynb', 'kokkai_data.ipynb', 'Todai_pandas配布用.ipynb', 'kokkai_simple_analysis.ipynb', 'kokkai_tokenize.ipynb', 'Todai_pandas.ipynb', 'Todai_Python_Basics.ipynb', 'Todai_Python_Basics配布用.ipynb', 'test', 'test2', 'text1.txt', 'text2.txt']


In [296]:
import glob
glob.glob('*.ipynb')

['問題（回答付き）.ipynb',
 'kokkai_topic.ipynb',
 'kokkai_data.ipynb',
 'Todai_pandas配布用.ipynb',
 'kokkai_simple_analysis.ipynb',
 'kokkai_tokenize.ipynb',
 'Todai_pandas.ipynb',
 'Todai_Python_Basics.ipynb',
 'Todai_Python_Basics配布用.ipynb']

In [297]:
os.remove('text1.txt')
os.remove('text2.txt')

In [298]:
import shutil
shutil.rmtree('test')
shutil.rmtree('test2')

In [299]:
os.listdir()

['問題（回答付き）.ipynb',
 'data',
 'mecab-ipadic-neologd',
 'kokkai_topic.ipynb',
 'kokkai_data.ipynb',
 'Todai_pandas配布用.ipynb',
 'kokkai_simple_analysis.ipynb',
 'kokkai_tokenize.ipynb',
 'Todai_pandas.ipynb',
 'Todai_Python_Basics.ipynb',
 'Todai_Python_Basics配布用.ipynb']

## ファイルインプット／アウトプット
- Pythonではいろいろな方法で外部のファイルを読み込んだり、外部にファイルを出力することができる。
  - with open()を使う方法
  - csvモジュールを使う方法
  - pandasを使う方法
  - pickleを使う方法



### open()による書き込み
- with open('hoge.hoge','w') as f:とすると、ファイルオブジェクトfを'w'書き込みモードで作り、'hoge.hoge'に書き込む。
- withを使わずにもかけるが、ファイルオブジェクトをクローズする必要がある。
- 'a'で開くと上書きモードとなる。

In [300]:
d = {'マックス': 1864, 'エミール': 1858, 'ゲオルグ': 1858, 'タルコット': 1902, 'ロバート': 1910}


In [301]:
with open('sample.csv','w') as f:
  for key, value in d.items():
    f.write(f"{key},{value}\n")

In [302]:
%ls

[0m[01;34mdata[0m/                         sample.csv
kokkai_data.ipynb             Todai_pandas.ipynb
kokkai_simple_analysis.ipynb  Todai_pandas配布用.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics.ipynb
kokkai_topic.ipynb            Todai_Python_Basics配布用.ipynb
[01;34mmecab-ipadic-neologd[0m/         問題（回答付き）.ipynb


In [303]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858
タルコット,1902
ロバート,1910


In [None]:
f = open('sample.csv','w')
for key, value in d.items():
  f.write(f"{key},{value}\n")
f.close()


In [None]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858
タルコット,1902
ロバート,1910


In [304]:
with open('sample.csv','a') as f:
  key = "ニクラス"
  value =  1927
  f.write(f"{key},{value}\n")

In [305]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858
タルコット,1902
ロバート,1910
ニクラス,1927


### open()による読み込み
- open()を使って"r"読み込みモードで開く。
- Windowsでは文字コードが異なるので、encoding = 'utf-8'とする。
- read()メソッドでは、ファイルが一つの文字列として読みこまれる。
- readlines()は改行コード(\n)で区切ったリストを返す。
- readline()はファイルを一行ずつ呼んでいきます。whileの無限ループを使って次々に呼び出していき、最後まで読むと、空の文字列を返すので、if notで条件づけてbreakで無限ループを脱出する。
- 注意。ファイルオブジェクトは１回呼び出すと中身が更新される（例えば、f.read()をすると、fの中身は空になります。）


In [306]:
with open('sample.csv','r',encoding = 'utf-8') as f:
  sample = f.read()
sample

'マックス,1864\nエミール,1858\nゲオルグ,1858\nタルコット,1902\nロバート,1910\nニクラス,1927\n'

In [307]:
with open('sample.csv','r',encoding = 'utf-8') as f:
  sample = f.readlines()
sample

['マックス,1864\n',
 'エミール,1858\n',
 'ゲオルグ,1858\n',
 'タルコット,1902\n',
 'ロバート,1910\n',
 'ニクラス,1927\n']

In [308]:
with open('sample.csv','r',encoding = 'utf-8') as f:
  while True:#一行ずつ読み込んでいき、空になったらbreak
      line = f.readline()
      print(line)
      if not line:
          break

マックス,1864

エミール,1858

ゲオルグ,1858

タルコット,1902

ロバート,1910

ニクラス,1927




#### csvによる書き込み
- csv.writer()で書き込み用オブジェクトを作成。
- writerow()メソッドを用いて、一行ずつ書き込む。
- wroterows()は二次元リストを一気に書き込む。


In [310]:
sample = [['マックス','1864'], ['エミール', '1858'], ['ゲオルグ', '1858']]
import csv
with open('sample.csv','w') as f:
    writer = csv.writer(f)
    for row in sample:
        writer.writerow(row)

In [311]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858


In [312]:
with open('sample.csv','w') as f:
    writer = csv.writer(f)
    writer.writerows(sample)
 

In [313]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858


### csvによる読み込み
- reader()メソッドでファイルを読み込む。
- for文で一行ずつ取り出す。


In [314]:
sample = []
with open('sample.csv','r') as f:
    reader = csv.reader(f)
    #print(type(reader))
    for item in reader:
        sample.append(item)
sample

[['マックス', '1864'], ['エミール', '1858'], ['ゲオルグ', '1858']]

#### コメント
- csv.reader()で作られたreaderオブジェクトはイテレータと呼ばれるオブジェクトで、for 文で一個ずつ繰り返し呼び出して中身を取り出すことができる。

#### pandasで読み書きする。
- pandasのread_csv()メソッドを使うことでcsvをデータフレームとして読み込むことができる。
- to_csv()メソッドでデータフレームをcsvとして書き込むことができる。

In [315]:
import pandas as pd

In [316]:
dat = pd.read_csv('sample.csv', header = None)

In [317]:
dat.head()

Unnamed: 0,0,1
0,マックス,1864
1,エミール,1858
2,ゲオルグ,1858


In [318]:
dat.to_csv('sample.csv',index = False, header = False)

In [319]:
%cat sample.csv

マックス,1864
エミール,1858
ゲオルグ,1858


### pickleで読み書きする
- pickleはPythonオブジェクトのままバイナリ形式で保存し、読み込む。処理がPythonのみで完結している際は推奨。
- 書き込みはpickle.dump()を使う。
- 読み込みはpickle.load()を使う。

In [320]:
sample = [['マックス','1864'], ['エミール', '1858'], ['ゲオルグ', '1858']]

import pickle
with open ('sample.pickle','wb') as f:#バイナリオブジェクトなので'w'ではなく'wb'とする。
  pickle.dump(sample,f)

In [321]:
%ls

[0m[01;34mdata[0m/                         sample.pickle
kokkai_data.ipynb             Todai_pandas.ipynb
kokkai_simple_analysis.ipynb  Todai_pandas配布用.ipynb
kokkai_tokenize.ipynb         Todai_Python_Basics.ipynb
kokkai_topic.ipynb            Todai_Python_Basics配布用.ipynb
[01;34mmecab-ipadic-neologd[0m/         問題（回答付き）.ipynb
sample.csv


In [322]:
%cat sample.pickle

��N       ]�(]�(�マックス��1864�e]�(�エミール��1858�e]�(�ゲオルグ�hee.

In [323]:
with open ('sample.pickle','rb') as f:#バイナリオブジェクトなので'r'ではなく'rb'とする。
  sample = pickle.load(f)

In [324]:
sample

[['マックス', '1864'], ['エミール', '1858'], ['ゲオルグ', '1858']]