# 第2章: UNIXコマンド

[popular-names.txt](/data/popular-names.txt)は、アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである。以下の処理を行うプログラムを作成し、[popular-names.txt](/data/popular-names.txt)を入力ファイルとして実行せよ。さらに、同様の処理をUNIXコマンドでも実行し、プログラムの実行結果を確認せよ。

## 10. 行数のカウント
ファイルの行数をカウントせよ。確認にはwcコマンドを用いよ。

In [3]:
import pandas as pd

# ファイルの読み込み（タブ区切り、ヘッダーなし）
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"
df = pd.read_csv(url, sep='\t', header=None)

# 行数をカウント
num_rows = len(df)
print(f"行数: {num_rows}")

行数: 2780


## 11. 先頭からN行を出力
ファイルの先頭N行だけを表示せよ。例えば、N=10として先頭10行を表示せよ。確認にはheadコマンドを用いよ。

In [5]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# ファイル読み込み（タブ区切り）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# 先頭10行を表示
print(df.head(10))

        Name Sex  Count  Year
0       Mary   F   7065  1880
1       Anna   F   2604  1880
2       Emma   F   2003  1880
3  Elizabeth   F   1939  1880
4     Minnie   F   1746  1880
5   Margaret   F   1578  1880
6        Ida   F   1472  1880
7      Alice   F   1414  1880
8     Bertha   F   1320  1880
9      Sarah   F   1288  1880


## 12. 末尾のN行を出力
ファイルの末尾N行だけを表示せよ。例えば、N=10として末尾10行を表示せよ。確認にはtailコマンドを用いよ。

In [6]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（タブ区切り）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# 末尾10行を表示
print(df.tail(10))

          Name Sex  Count  Year
2770      Liam   M  19837  2018
2771      Noah   M  18267  2018
2772   William   M  14516  2018
2773     James   M  13525  2018
2774    Oliver   M  13389  2018
2775  Benjamin   M  13381  2018
2776    Elijah   M  12886  2018
2777     Lucas   M  12585  2018
2778     Mason   M  12435  2018
2779     Logan   M  12352  2018


## 13. タブをスペースに置換
ファイルの先頭10行に対して、タブ1文字につきスペース1文字に置換して出力せよ。確認にはsedコマンド、trコマンド、もしくはexpandコマンドなどを用いよ。

In [7]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（行単位で取得）
import requests
lines = requests.get(url).text.strip().split('\n')

# 先頭10行のタブをスペースに変換
for line in lines[:10]:
    print(line.replace('\t', ' '))

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880


## 14. 1列目を出力
ファイルの先頭10行に対して、各行の1列目だけを抜き出して表示せよ。確認にはcutコマンドなどを用いよ。

In [8]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（列名をつけて）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# 先頭10行の1列目（Name列）を表示
print(df["Name"].head(10))

0         Mary
1         Anna
2         Emma
3    Elizabeth
4       Minnie
5     Margaret
6          Ida
7        Alice
8       Bertha
9        Sarah
Name: Name, dtype: object


## 15. ファイルをN分割する
ファイルを行単位でN分割し、別のファイルに格納せよ。例えば、N=10としてファイルを10分割せよ。同様の処理をsplitコマンドで実現せよ。

In [9]:
import requests
from pathlib import Path

# ファイル読み込み（インターネット経由）
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"
lines = requests.get(url).text.strip().split('\n')

# 分割数 N
N = 10
chunk_size = len(lines) // N + (len(lines) % N > 0)

# 出力ディレクトリ（必要に応じて作成）
output_dir = Path("split_parts")
output_dir.mkdir(exist_ok=True)

# 分割して保存
for i in range(N):
    chunk = lines[i * chunk_size : (i + 1) * chunk_size]
    filename = output_dir / f"popular-names_part_{i:02d}.txt"
    with open(filename, "w", encoding="utf-8") as f:
        f.write('\n'.join(chunk) + '\n')

print(f"{N}個のファイルに分割して保存しました。")

10個のファイルに分割して保存しました。


## 16. ランダムに各行を並び替える
ファイルを行単位でランダムに並び替えよ（注意: 各行の内容は変更せずに並び替えよ）。同様の処理をshufコマンドで実現せよ。

In [10]:
import requests
import random

# ファイル読み込み（インターネット経由）
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"
lines = requests.get(url).text.strip().split('\n')

# ランダムに並び替え（行の内容はそのまま）
random.shuffle(lines)

# 出力
for line in lines[:10]:  # 最初の10行だけ表示
    print(line)

# 保存したい場合は以下のように書けます
# with open("popular-names-shuffled.txt", "w", encoding="utf-8") as f:
#     f.write('\n'.join(lines) + '\n')

Mia	F	13152	2013
Edward	M	2576	1907
James	M	30507	1991
Mary	F	13172	1899
Matthew	M	31514	1997
John	M	80790	1956
Helen	F	32508	1922
Justin	M	31492	1987
George	M	27375	1924
Thomas	M	6087	1912


## 17. １列目の文字列の異なり
1列目の文字列の異なり（文字列の種類）を求めよ。確認にはcut, sort, uniqコマンドを用いよ。

In [11]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（タブ区切り）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# ユニークな名前一覧を取得
unique_names = df["Name"].unique()

# 出力（例：先頭10件と種類数）
print("ユニークな名前（先頭10件）:", unique_names[:10])
print("ユニークな名前の数:", len(unique_names))

ユニークな名前（先頭10件）: ['Mary' 'Anna' 'Emma' 'Elizabeth' 'Minnie' 'Margaret' 'Ida' 'Alice'
 'Bertha' 'Sarah']
ユニークな名前の数: 136


## 18. 各行の1列目の文字列の出現頻度を求め、出現頻度の高い順に並べる
1列目の文字列の出現頻度を求め、出現頻度と名前を出現頻度の多い順に並べて表示せよ。確認にはcut, uniq, sortコマンドを用いよ。

In [12]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（タブ区切り）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# 名前ごとの出現回数を集計し、降順ソート
name_counts = df["Name"].value_counts()

# 上位10件を表示
print(name_counts.head(10))

Name
James        118
William      111
Robert       108
John         108
Mary          92
Charles       75
Michael       74
Elizabeth     73
Joseph        70
Margaret      60
Name: count, dtype: int64


## 19. 3列目の数値の降順に各行を並び替える
3列目の数値の逆順でファイルの各行を整列せよ（注意: 各行の内容は変更せずに並び替えよ）。同様の処理をsortコマンドで実現せよ。

In [13]:
import pandas as pd

# ファイルURL
url = "https://nlp100.github.io/2025/_downloads/2ed3eac2611f4363de406df0a49805ae/popular-names.txt"

# 読み込み（タブ区切り）
df = pd.read_csv(url, sep='\t', header=None, names=["Name", "Sex", "Count", "Year"])

# 3列目（Count）で降順に並べ替え
df_sorted = df.sort_values(by="Count", ascending=False)

# 結果表示（上位10件）
print(df_sorted.head(10))

         Name Sex  Count  Year
1340    Linda   F  99689  1947
1360    Linda   F  96211  1948
1350    James   M  94757  1947
1550  Michael   M  92704  1957
1351   Robert   M  91640  1947
1380    Linda   F  91016  1949
1530  Michael   M  90656  1956
1570  Michael   M  90517  1958
1370    James   M  88584  1948
1490  Michael   M  88528  1954
