# 基本的なPythonの操作

Python は「手順を短く、読みやすく書く」ことに向いた言語です。機械学習の前処理や分析では、
大量のデータに対して同じ操作を繰り返す場面が多く、まずは `値の持ち方` と `処理の分岐` を確実に押さえることが重要です。

このノートでは、変数・コレクション・条件分岐・反復・関数までを、実際に値を確認しながら進めます。

In [None]:
import math
from collections import Counter


`type` は「いま持っている値の性質」を確認する基本ツールです。Python は動的型付けなので、
コードを書いている途中でも型を観察しながら進めるとミスを減らせます。

In [None]:
name = "Noema"
students = 32
completion_ratio = 0.45

print(type(name), type(students), type(completion_ratio))
print(f"{name}: {students}人, 完了率 {completion_ratio:.0%}")


リスト・辞書・集合は、用途が異なる 3 つの基本コンテナです。

- リスト: 順序を保って並べたい
- 辞書: キーで高速に参照したい
- 集合: 重複を除いて要素の存在を扱いたい

同じデータでも、目的に応じて構造を選ぶとコードが一気に読みやすくなります。

In [None]:
scores = [72, 88, 65, 91, 88]
profile = {"name": "Aiko", "grade": 1, "club": "AI"}
unique_scores = set(scores)

print("scores:", scores)
print("profile['club']:", profile["club"])
print("unique_scores:", unique_scores)


インデックスとスライスは、配列の一部を抜き出すときの標準手段です。
とくに `start:end` は end を含まないので、境界のミスに注意します。

In [None]:
print("先頭:", scores[0])
print("末尾:", scores[-1])
print("2番目から4番目手前:", scores[1:4])
print("2個おき:", scores[::2])


`if / elif / else` は条件分岐、`for` は反復処理です。
点数に応じてラベルを付ける処理を実装すると、分岐とループの関係が見えます。

出力では `zip(scores, labels)` を使っています。`zip` は同じ位置の要素を組にして、
`(score, label)` のタプル列を作る関数です。

In [None]:
labels = []
for score in scores:
    if score >= 90:
        labels.append("A")
    elif score >= 75:
        labels.append("B")
    else:
        labels.append("C")

print(list(zip(scores, labels)))


リスト内包表記は、単純な変換を短く安全に書くための記法です。
まず通常の `for` を書いて意味を確認し、次に内包表記へ圧縮する流れが初心者には理解しやすいです。

In [None]:
# 通常の for
squared_for = []
for x in range(1, 6):
    squared_for.append(x * x)

# 内包表記
squared_comp = [x * x for x in range(1, 6)]

print(squared_for)
print(squared_comp)


関数は「処理に名前をつけて再利用する」ための仕組みです。
入力を引数、出力を戻り値として明確にすると、分析コードの保守が楽になります。

In [None]:
def summarize_scores(values):
    count = len(values)
    avg = sum(values) / count
    best = max(values)
    worst = min(values)
    return {"count": count, "avg": avg, "best": best, "worst": worst}

summary = summarize_scores(scores)
print(summary)


例外処理は「壊れる可能性がある場所」を明示するために使います。
数値変換の失敗を握りつぶすのではなく、`except` で理由を扱う習慣をつけると、後でデバッグしやすくなります。

In [None]:
raw_inputs = ["12", "7", "oops", "20"]
parsed = []

for item in raw_inputs:
    try:
        parsed.append(int(item))
    except ValueError:
        print(f"変換失敗: {item}")

print("parsed:", parsed)


最後に、ここまでの要素を合わせた小さな分析パターンを確認します。
文字列ラベルの頻度集計や平均値の算出は、機械学習の前処理でも頻出です。

`Counter` は「値ごとの出現回数」を数えるためのクラスで、
`Counter(labels)` のように渡すと `{'A': 回数, 'B': 回数, ...}` を返します。

In [None]:
label_counter = Counter(labels)
avg_score = sum(scores) / len(scores)
std_score = math.sqrt(sum((x - avg_score) ** 2 for x in scores) / len(scores))

print("label count:", label_counter)
print(f"average={avg_score:.2f}, std={std_score:.2f}")


Python 基礎で大切なのは、文法暗記よりも「どの構造で値を持つか」「分岐と反復をどう組み合わせるか」を自然に選べることです。
このノートのコードを少し書き換えながら、どの変更で出力がどう変わるかを確認してみてください。