# Pythonによるデータ分析プロジェクトのコードルール
## 1.コーディングスタイル
- PEP8に従う。
- インデントは4スペースにする。
  - タブ文字を使用しない。
- 行の長さは80文字以下にする。
  - 長い行は、バックスラッシュ()を用いて複数行に分割することができる。
- 空白の使用
  - コンマの後ろには、スペースを1つ入れる。
  - 括弧の前には、スペースを入れない。
  - 括弧の中には、スペースを入れる。
- コメント
  - コメントは、日本語で記述することが望ましい。
  - コメントは必要に応じて付けるが、過度に多くすることは避ける。
  - コメントは、コードの理解を助けるために、重要な部分に付けることが望ましい。
- 命名規則
  - 変数名、関数名は、わかりやすく、明確にする。
  - アルファベット、数字、アンダースコア(_)のみを使用する。
  - 大文字と小文字を区別する。
  - 変数名は、小文字で始める。
  - 定数は、すべて大文字で記述する。
  - クラス名は、キャメルケースで記述する。
- 関数の定義
  - 関数名は、小文字で始める。
  - 関数名は、わかりやすく、明確にする。
  - 引数の前には、スペースを入れない。
  - 引数の後ろには、スペースを1つ入れる。
  - 関数の定義の終わりには、1行の空白を入れる。
- エラーハンドリング
  - エラーハンドリングを行う場合は、必ずtry-except文を使用すること。
  - except文の後には、必ず例外の種類を指定すること。


## 2.ライブラリのインポート
- プロジェクト全体で使用するライブラリは、ファイルの先頭で一括でインポートすること。
- 同じライブラリを複数箇所でインポートしないこと。
- ライブラリのインポートは、以下の順番で行うこと。
  - 標準ライブラリ
  - サードパーティライブラリ
  - プロジェクト内のライブラリ

## 3.データの前処理
- データの前処理は、別のファイルに分けることが望ましい。
- 前処理を行う関数は、ファイル内でまとめて定義すること。
- データを読み込んだ後、もとのデータは変更しない。
- 前処理の結果は、分析の結果とともに保存すること。

## 4.可視化
- 可視化にはmatplotlibやseabornなどのライブラリを用いる。
- 可視化は、データの分析のために必要なものに限定すること。
- 可視化のコードは、分析の結果とともに保存すること。

## 5.分析
- 分析に用いるライブラリは、numpyやpandas、pysparkなどのライブラリを用いる。
- 分析は、できるだけ関数にまとめ、ファイル内でまとめて定義すること。
- 分析の結果は、可視化によって視覚的に表現すること。
- 分析の結果は、分析の結果を保存するファイルに保存すること。

## 6.テスト
- テストコードを書くことで、予期しないバグを発見することができる。
- テストコードは、分析や可視化のコードとは別のファイルにまとめることが望ましい。
- テストコードは、プロジェクトの進行に合わせて定期的に実行すること。
- テストコードは、pytestを用いて書くことが望ましい。
- テストコードは、pytestを用いて実行することが望ましい。

## 7.Gitの利用
- Gitを利用して、バージョン管理を行うことが望ましい。
- コミットメッセージは、わかりやすく、簡潔にすること。
- ブランチを切って、開発を進めることが望ましい。
- プルリクエストを送る前に、テストコードを実行すること。
- プルリクエストを送る前に、コードのフォーマットを整えること。
- プルリクエストを送る前に、コンフリクトを解消すること。
- プルリクエストを送る前に、コードのレビューを行うこと。

## コードの書き方について
コードの書き方については、以下のリンクを参照してください。
- [PEP 8 -- Style Guide for Python Code](https://www.python.org/dev/peps/pep-0008/)
- [Google Python Style Guide](https://google.github.io/styleguide/pyguide.html)


## 関数について

良い例: ユーザー名を取得する関数
```
def get_username(user_id):
    # ユーザーIDからユーザー名を取得する処理
    return username
```
悪い例: ユーザー情報を取得する関数
```
def get_user_info(user_id):
    # ユーザー情報を取得する処理
    return user_info
```
関数名が広範囲すぎるため、何を取得する関数なのかがわかりにくい。
関数名をget_username()のように具体的にすることで、関数の目的が明確になります。

### 1.関数名

- get_〇〇: 何らかの情報を取得する関数。
例えば、get_username()やget_data()など。
- calc_〇〇: 何らかの計算を行う関数。
例えば、calc_average()やcalc_total()など。
- create_〇〇: 何らかのオブジェクトを作成する関数。
例えば、create_dataframe()やcreate_graph()など。
- validate_〇〇: データの妥当性をチェックする関数。
例えば、validate_email()やvalidate_input()など。
- save_〇〇: 何らかのデータを保存する関数。
例えば、save_data()やsave_image()など。
- load_〇〇: 何らかのデータを読み込む関数。
例えば、load_data()やload_image()など。
- is_〇〇: 何らかの条件を満たしているかを判定する関数。
例えば、is_valid()やis_empty()など。
- has_〇〇: 何らかのデータが含まれているかを判定する関数。
例えば、has_data()やhas_image()など。
- process_〇〇: 何らかの処理を行うための関数に使われます。
例えば、process_data()、process_image()、process_file()など。
- format_〇〇: データのフォーマットを変更するための関数に使われます。
例えば、format_date()、format_string()、format_number()など。
- convert_〇〇: データの型を変換するための関数に使われます。
例えば、convert_int()、convert_float()、convert_str()など。

### 1-2.具体例
- load_data_from_file: ファイルからデータを読み込むための関数。
- filter_data_by_date: 日付でデータをフィルタリングするための関数。
- sort_data_by_name: 名前でデータをソートするための関数。
- calculate_average_score: スコアの平均値を計算するための関数。
- validate_input_data: 入力データの妥当性をチェックするための関数。
- process_image_file: 画像ファイルを処理するための関数。
- compress_data_to_file: ファイルにデータを圧縮するための関数。
- generate_random_numbers: ランダムな数値を生成するための関数。
- convert_data_to_json: データをJSON形式に変換するための関数。
- plot_data_on_graph: データをグラフにプロットするための関数。
```
def validate_input_data(input_data):
    # 入力データが文字列型かどうかチェックする
    if not isinstance(input_data, str):
        return False

    # 入力データが空文字列でないかチェックする
    if not input_data:
        return False

    # 入力データが特定のパターンに一致するかどうかチェックする
    pattern = r'^[A-Za-z0-9]+$'
    if not re.match(pattern, input_data):
        return False

    # チェックがすべて通過した場合は、Trueを返す
    return True
```
### 2.引数
- 引数は、関数の目的が明確になるように命名すること。
- 引数は、できるだけ省略しないこと。
- 引数は、できるだけデフォルト値を設定しないこと。
- 引数は、できるだけ可変長引数を設定しないこと。

## 命名規則について

良い例: ユーザーIDを表す変数名
```
user_id = 1234
```
悪い例: xという変数名
```
x = 1234
```
変数名がわかりにくいため、後でコードを読む際に混乱する可能性がある。
変数名をuser_idのように具体的にすることで、変数の目的が明確になります。

良い例: 定数を表す変数名
```
MAX_NUM = 100
```
悪い例: max_numという変数名
```
max_num = 100
```
定数であることがわかりにくいため、後でコードを読む際に混乱する可能性がある。
定数であることを明示するために、変数名をすべて大文字で記述することが望ましい。

### 1.変数名
snake_caseを使用する。
```
user_id = 1234
```
### 2.定数名
すべて大文字で記述し、単語の間はアンダースコアで区切る。
```
MAX_NUM = 100
```
### 3.関数名
snake_caseを使用する。
```
def get_user_id():
    return 1234
```
### 4.クラス名
PascalCaseを使用する。
```
class User:
    def __init__(self, user_id):
        self.user_id = user_id
```
### 5.コメント
コメントは、できるだけコードの上に記述する。
```
# ユーザーIDを取得する
user_id = get_user_id()
```
コメントは、できるだけコードの横に記述しない。
```
user_id = get_user_id()  # ユーザーIDを取得する
```


## データの前処理について
データの前処理とは、データを機械学習モデルに入力する前に行う処理のこと。もしくは集計を行うために行う処理のこと。

### 1.データの前処理の種類
- 欠損値の補完
- 正規化
- 標準化
- 離散化
- 特徴量の選択
- 次元削減
- クラスタリング
- 外れ値の除去
- 結合
- 集約
- 抽出
- 並び替え

### 1-1.欠損値の補完
欠損値とは、データが存在しないことを示す値のこと。欠損値は、データの前処理を行う際に、欠損値を補完する必要がある。
```
# 欠損値を補完する
df = df.fillna(0)
```
### 1-2.正規化
正規化とは、データの値を、ある範囲に収めること。正規化を行うことで、データの値の範囲を揃えることができる。
```
# 正規化を行う
df = (df - df.min()) / (df.max() - df.min())
```
### 1-3.標準化
標準化とは、データの値を、平均が0、標準偏差が1になるように変換すること。標準化を行うことで、データの値の範囲を揃えることができる。
```
# 標準化を行う
df = (df - df.mean()) / df.std()
```
### 1-4.離散化
離散化とは、連続値を離散値に変換すること。離散化を行うことで、データの値の範囲を揃えることができる。
```
# 離散化を行う
df = pd.cut(df, bins=5)
```
### 1-5.特徴量の選択
特徴量の選択とは、データの特徴量を選択すること。特徴量の選択を行うことで、データの値の範囲を揃えることができる。
```
# 特徴量の選択を行う
df = df[['col1', 'col2']]
```
### 1-6.次元削減
次元削減とは、データの次元を削減すること。次元削減を行うことで、データの値の範囲を揃えることができる。
```
# 次元削減を行う
df = PCA(n_components=2).fit_transform(df)
```
### 1-7.クラスタリング
クラスタリングとは、データをクラスタに分類すること。クラスタリングを行うことで、データの値の範囲を揃えることができる。
```
# クラスタリングを行う
df = KMeans(n_clusters=2).fit_transform(df)
```
### 1-8.外れ値の除去
外れ値とは、データの値が異常に大きいか、異常に小さい値のこと。外れ値を除去することで、データの値の範囲を揃えることができる。
```
# 外れ値を除去する
df = df[(df['col1'] > 0) & (df['col1'] < 100)]
```
### 1-9.結合
結合とは、データを結合すること。結合を行うことで、データの値の範囲を揃えることができる。
```
# 結合を行う
df = pd.merge(df1, df2, on='col1')
```
### 1-10.集約
集約とは、データを集約すること。集約を行うことで、データの値の範囲を揃えることができる。
```
# 集約を行う
df = df.groupby('col1').agg({'col2': 'mean'})
```
### 1-11.抽出
抽出とは、データを抽出すること。抽出を行うことで、データの値の範囲を揃えることができる。
```
# 抽出を行う
df = df[df['col1'] == 1]
```
### 1-12.並び替え
並び替えとは、データを並び替えること。並び替えを行うことで、データの値の範囲を揃えることができる。
```
# 並び替えを行う
df = df.sort_values('col1')
```

## エラーハンドリングについて
エラーハンドリングとは、プログラムの実行中に発生する例外やエラーをキャッチし、適切に処理することです。Pythonでは、例外処理に try-except 文を使用します。

try-except 文は、以下のような構文を持ちます。
```
try:
    # 例外が発生する可能性がある処理
except <例外の種類>:
    # 例外をキャッチして処理する
```

try ブロックには、例外が発生する可能性のある処理を記述します。この処理が実行される際、Pythonは例外の発生を監視します。

もし例外が発生した場合、Pythonは except ブロックにジャンプし、その例外をキャッチします。except ブロックは、例外をキャッチして適切に処理するためのコードを記述します。

例外をキャッチする際には、except 文の後に必ず例外の種類を指定することが推奨されます。例外の種類を指定することで、特定の例外のみをキャッチし、それ以外の例外はスルーすることができます。
### 1.例外処理の基本
```
try:
    # 例外が発生する可能性がある処理
except <例外の種類>:
    # 例外をキャッチして処理する
```
### 2.例外処理の応用
```
try:
    # 例外が発生する可能性がある処理
except <例外の種類>:
    # 例外をキャッチして処理する
else:
    # 例外が発生しなかった場合の処理
finally:
    # 例外の有無に関わらず、必ず実行する処理
```
- else ブロックは、例外が発生しなかった場合に実行される処理を記述します。
- finally ブロックは、例外の有無に関わらず、必ず実行される処理を記述します。

### 3.例外の種類
- ZeroDivisionError: ゼロ除算エラー
- IndexError: インデックスエラー
- KeyError: キーが存在しないエラー
- ValueError: 値が不正なエラー
- FileNotFoundError: ファイルが存在しないエラー
- TypeError: 型が不正なエラー
- AttributeError: 属性が存在しないエラー
- NameError: 変数が存在しないエラー
- SyntaxError: 構文エラー
- IndentationError: インデントエラー
- AssertionError: アサーションエラー
- KeyboardInterrupt: キーボード割り込みエラー
- EOFError: EOFエラー
- ModuleNotFoundError: モジュールが見つからない場合に発生する例外。
- OSError: OSの機能に関するエラー。
- UnicodeError: Unicode関連のエラー。
- UnicodeEncodeError: Unicodeのエンコードに失敗した場合に発生する例外。
- UnicodeDecodeError: Unicodeのデコードに失敗した場合に発生する例外。
- UnicodeTranslateError: Unicodeの変換に失敗した場合に発生する例外。


## テストについて
テストとは、プログラムの動作を検証するための仕組みです。テストを行うことで、プログラムの動作を確認することができます。
```
import pytest
from pyspark.sql import SparkSession

# DataFrameを定義する
input_data = spark.createDataFrame([(1, 4), (2, 5), (3, 6)], ['A', 'B'])

# テスト対象の関数を定義する
def test_preprocess_data(spark):
    # 前処理関数を実行する
    output_data = preprocess_data(input_data)

    # 出力が期待通りであることを確認する
    expected_output = spark.createDataFrame([(1, 4, 5), (2, 5, 7), (3, 6, 9)], ['A', 'B', 'C'])
    assert output_data.collect() == expected_output.collect()
```
### 1.テストの実行
```
!pytest
```
### 2.テストの実行（詳細）
```
!pytest -v
```

## Gitについて
Gitとは、ソースコードのバージョン管理システムです。Gitを使用することで、ソースコードの変更履歴を管理することができます。
- リポジトリの作成
```
git init
```
- リポジトリの状態を確認
```
git status
```
- リポジトリにファイルを追加
```
git add .
```
- リポジトリにファイルをコミット
```
git commit -m "first commit"
```
- リポジトリの変更履歴を確認
```
git log
```
- リモートリポジトリの作成
```
git remote add origin
```
- リモートリポジトリにプッシュ
```
git push -u origin master
```
- リモートリポジトリからプル
```
git pull origin master
```
- リモートリポジトリの変更履歴を確認
```
git log origin/master
```
- リモートリポジトリの変更履歴を確認（詳細）
```
git log origin/master -p
```
- リモートリポジトリの変更履歴を確認（ファイル単位）
```
git log origin/master --stat
```
- リモートリポジトリの変更履歴を確認（コミット単位）
```
git log origin/master --pretty=oneline
```
