# 基本編2: ファイル処理
## 21: テキストファイルの行数
この[テキストファイル(wws2025cfp.txt)](https://ds4se100.github.io/basic/2.file-manipulation/data/wws2025cfp.txt)について, その行数を出力するプログラムを作りなさい.

`ex21.py`:

```py
import argparse

def parse_args():
    parser = argparse.ArgumentParser(description="Check the number of lines in the input file.")
    parser.add_argument("--file", type=str, required=True, help="Path to the input file.")
    return parser.parse_args()

def count_lines(file_path):
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            return sum(1 for _ in f)
    except FileNotFoundError:
        print(f"Error: File '{file_path}' not found.")
        return None
        
def main():
    args = parse_args()
    line_cnt = count_lines(args.file)
    if line_cnt is not None:
        print(f"Number of lines: {line_cnt}")

if __name__ == "__main__":
    main()
```

In [1]:
!python3 ex21.py --file wws2025cfp.txt

Number of lines: 15


## 22: テキストファイルを行番号付きで
この[テキストファイル(wws2025cfp.txt)](https://ds4se100.github.io/basic/2.file-manipulation/data/wws2025cfp.txt)について, その内容を行番号付きで出力するプログラムを作りなさい.

`ex22.py`:

```py
import argparse

def parse_args():
    parser = argparse.ArgumentParser(description="Displays input file with line numbers.")
    parser.add_argument("--file", type=str, required=True, help="Path to the input file.")
    return parser.parse_args()

def print_lnum(file):
    try:
        with open(file, 'r') as f:
            for i, line in enumerate(f, start=1):
                print(f"{i:>2}: {line}", end='')
    except FileNotFoundError:
        print(f"Error: File '{file}' not found.")
        return None
        
def main():
    args = parse_args()
    print_lnum(args.file)

if __name__ == "__main__":
    main()
```

In [2]:
!python3 ex22.py --file wws2025cfp.txt

 1: 近年，産業界・学界を問わず「データサイエンス」が注目を集めている．
 2: もともとは統計分析とデータマイニングを基盤として発展した分野であるが，
 3: 最近では機械学習や AI 技術も活用したより高度なものになってきている．
 4: ソフトウェア工学分野でもこれらを活用した研究や取り組みは多く，多岐に渡る．
 5: これに関連して，研究者や技術者が学ぶべき内容も多様化してきており， 適切な教材に対するニーズは高まっている．
 6: 
 7: 本セッションではソフトウェア工学分野におけるデータの分析や活用に関する基礎技術を学ぶための教材として
 8: 「ソフトウェア工学のためのデータサイエンス 100 本ノック（仮称）」 を構築する共同作業の場を提供したい．
 9: 
10: 教材の主なテーマとしては，バグ予測，品質評価・改善，見積り，リポジトリマイニング，
11: その他データサイエンス・AIのソフトウェア開発・保守への応用などを想定しているがこれらに限定されるものではない．
12: ワークショップでは教材の提案や共同開発，並びに内容のレビューに協力 いただける方の参加を期待している．
13: 教材に対するニーズの検討や適切な難易度設定という観点から，初学者（学生の方を含む）の参加も歓迎する．
14: なお，作業では GitHub を使用するため，申し込みの際には可能ならばご自身の GitHub アカウントをお知らせいただきたい． 
15: （議論のみ参加も認めるため，アカウントは必須ではありません．）

## 23: CSVファイルのヘッダーと行数
この[CSVファイル(カンマ区切りファイル)(iris.csv)](https://ds4se100.github.io/basic/2.file-manipulation/data/iris.csv)について,

- データの行数
- 1行目(ヘッダー)に書かれている項目数
- 項目の一覧

を出力するプログラムを作りなさい.
ただし, データの行数にはヘッダー(1行目)は含めないものとする.  
(※irisデータの配布元[https://archive.ics.uci.edu/dataset/53/iris](https://archive.ics.uci.edu/dataset/53/iris))

In [3]:
# !wget https://ds4se100.github.io/basic/2.file-manipulation/data/iris.csv

In [4]:
# !pip install pandas

`ex23.py`:

```py
import pandas as pd
import argparse

def parse_args():
    parser = argparse.ArgumentParser(description="Displays details of the input file.")
    parser.add_argument("--file", type=str, required=True, help="Path to the input file.")
    return parser.parse_args()

def print_info(file):
    try:
        df = pd.read_csv(file)
        rows = df.shape[0]
        cols = df.shape[1]
        header = df.columns.tolist()
        print(f"Number of lines: {rows}\nNumber of items: {cols}")
        for i, item in enumerate(header, start=1):
            print(f"Item {i}: {item}")
        
    except FileNotFoundError:
        print(f"Error: File '{file}' not found.")
        return None
        
def main():
    args = parse_args()
    print_info(args.file)

if __name__ == "__main__":
    main()
```

In [5]:
!python3 ex23.py --file iris.csv

Number of lines: 150
Number of items: 5
Item 1: sepal_length
Item 2: sepal_width
Item 3: petal_length
Item 4: petal_width
Item 5: class


## 24: CSVファイルの読み書き（データの抽出を含む）
この[CSVファイル(カンマ区切りファイル)(iris.csv)](https://ds4se100.github.io/basic/2.file-manipulation/data/iris.csv)に格納されているデータでは, classとして'Iris-setosa', 'Iris-versicolor', 及び'Iris-virginica'の3種類がある.  
このデータをclassごとに分けて3つのCSVファイルへそれぞれ出力するプログラムを作りなさい. 
なお, 出力先のCSVファイル名は「クラス名」+「.csv」とし, それぞれのデータ列classは含めないものとする.

`ex24.py`:

```py
import pandas as pd
import argparse

def parse_args():
    parser = argparse.ArgumentParser(description="Save iris dataset in CSV format for each class.")
    parser.add_argument("--file", type=str, required=True, help="Path to the input file.")
    return parser.parse_args()

def save_csv(file):
    try:
        df = pd.read_csv(file)
        setosa_df = df[df["class"] == "Iris-setosa"].drop("class", axis=1)
        versicolor_df = df[df["class"] == "Iris-versicolor"].drop("class", axis=1)
        virginica_df = df[df["class"] == "Iris-virginica"].drop("class", axis=1)
        
        setosa_df.to_csv("Iris-setosa.csv",index=False)
        versicolor_df.to_csv("Iris-versicolor.csv",index=False)
        virginica_df.to_csv("Iris-virginica.csv",index=False)

    except FileNotFoundError:
        print(f"Error: File '{file}' not found.")
        return None
        
def main():
    args = parse_args()
    save_csv(args.file)

if __name__ == "__main__":
    main()
```

In [6]:
!python3 ex24.py --file iris.csv

In [7]:
!ls Iris*

Iris-setosa.csv  Iris-versicolor.csv  Iris-virginica.csv


In [8]:
!cat Iris-setosa.csv | head -n 10

sepal_length,sepal_width,petal_length,petal_width
5.1,3.5,1.4,0.2
4.9,3.0,1.4,0.2
4.7,3.2,1.3,0.2
4.6,3.1,1.5,0.2
5.0,3.6,1.4,0.2
5.4,3.9,1.7,0.4
4.6,3.4,1.4,0.3
5.0,3.4,1.5,0.2
4.4,2.9,1.4,0.2


## 25: JSONファイルの読み込み
この[JSONファイル(iris.json)](https://ds4se100.github.io/basic/2.file-manipulation/data/iris.json)を読み込んで, 格納されているデータ数と各データの内容を出力するプログラムを作りなさい.  
ただし, このJSONファイルでは150個のデータが配列(リスト)のかたちで与えられており, 各データは辞書型になっている.

In [9]:
# !wget https://ds4se100.github.io/basic/2.file-manipulation/data/iris.json

`ex25.py`:

```py
import pandas as pd
import argparse

def parse_args():
    parser = argparse.ArgumentParser(description="Displays the JSON file.")
    parser.add_argument("--file", type=str, required=True, help="Path to the input file.")
    return parser.parse_args()

def print_json(file):
    try:
        df = pd.read_json(file)
        rows = df.shape[0]
        print(f"Number of lines: {rows}")
        print("\nData:")
        print(df.to_string(index=False))

    except FileNotFoundError:
        print(f"Error: File '{file}' not found.")
        return None
        
def main():
    args = parse_args()
    print_json(args.file)

if __name__ == "__main__":
    main()
```

In [10]:
!python3 ex25.py --file iris.json

Number of lines: 150

Data:
 sepal_length  sepal_width  petal_length  petal_width           class
          5.1          3.5           1.4          0.2     Iris-setosa
          4.9          3.0           1.4          0.2     Iris-setosa
          4.7          3.2           1.3          0.2     Iris-setosa
          4.6          3.1           1.5          0.2     Iris-setosa
          5.0          3.6           1.4          0.2     Iris-setosa
          5.4          3.9           1.7          0.4     Iris-setosa
          4.6          3.4           1.4          0.3     Iris-setosa
          5.0          3.4           1.5          0.2     Iris-setosa
          4.4          2.9           1.4          0.2     Iris-setosa
          4.9          3.1           1.5          0.1     Iris-setosa
          5.4          3.7           1.5          0.2     Iris-setosa
          4.8          3.4           1.6          0.2     Iris-setosa
          4.8          3.0           1.4      