# Library

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# Data

In [None]:
train = pd.read_csv('../data/train.csv', index_col=0)
test = pd.read_csv('../data/test.csv', index_col=0)

# describe

In [None]:
# データの概観
print("Train dataset shape:", train.shape)
print("Test dataset shape:", test.shape)

# 最初の5行を表示
print(train.head())

# データ情報の表示
train.info()

# 基本統計量の表示
print(train.describe())

# 欠損値確認

In [None]:
# 欠損値の確認
print(train.isnull().sum())

# catの頻度分布

In [None]:
# カテゴリカルデータの頻度分布
print(train['Sector'].value_counts())

# numのヒストグラム

In [None]:
# 数値データのヒストグラム
train.hist(bins=50, figsize=(20,15))
plt.show()

# 相関行列

In [None]:
# 相関行列の表示
corr_matrix = train.corr()
print(corr_matrix)

# 相関行列のヒートマップ
plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix, annot=True, fmt=".2f")
plt.show()

# 説明変数それぞれ

### データフィールドの概要

| ヘッダ名称         | 値例          | データ型 | 説明                                                       |
|------------------|--------------|--------|----------------------------------------------------------|
| City             | BILLINGS     | str    | 借り手の会社の所在地（市）                                     |
| State            | FL           | str    | 借り手の会社の所在地（州）                                     |
| BankState        | IL           | str    | 貸し手の所在地（州）                                          |
| Sector(*)        | 0            | int    | 産業分類コード (詳細は後述)                                   |
| Term             | 120          | int    | 融資の期間（月）                                              |
| NoEmp            | 2            | int    | 融資を受ける前の事業の従業員数                                  |
| NewExist         | 1.0          | float  | 新規ビジネスかどうか (*1 = 既存のビジネス、2 = 新規ビジネス)     |
| CreateJob        | 1            | int    | 企業が融資資金を使用して創出すると予想される雇用の数                |
| RetainedJob      | 0            | int    | 融資を受けたことで企業が維持すると予想される雇用の数                |
| FranchiseCode    | 21           | int    | どのブランドのフランチャイズであるかを識別する一意の5桁のコード (*0または1は非フランチャイズを意味する) |
| UrbanRural       | 1            | int    | *1 = 都市部、2 = 田舎、0 = 未定義                             |
| RevLineCr        | N            | str    | リボルビング信用枠か (*Y = はい、N = いいえ)                     |
| LowDoc           | N            | str    | 15 万ドル未満のローンを 1 ページの短い申請で処理できるプログラムか (*Y = はい、N = いいえ) |
| DisbursementDate | 12-Jan-05    | str    | 融資の支払日                                                  |
| DisbursementGross| $80,000.00   | str    | 銀行によって支払われた金額                                      |
| GrAppv           | $108,000.00  | str    | 銀行によって承認されたローンの総額                               |
| SBA_Appv         | $102,000.00  | str    | SBAが保証する承認されたローンの金額                             |
| ApprovalDate     | 30-Sep-94    | str    | 米国中小企業庁の承認日                                         |
| ApprovalFY       | 1994         | int    | 承認された財務年度                                             |
| MIS_Status       | 1            | int    | ローンの状態(目的変数) (*0 = 債務不履行、1 = 完済)                |

### 産業分類コードの意味

| カテゴリ | 意味                       | カテゴリ | 意味                     |
|---------|--------------------------|---------|------------------------|
| 11      | 農業、林業、漁業、狩猟       | 53      | 不動産、賃貸・リース       |
| 21      | 鉱業、採石業、石油・天然ガス採掘 | 54      | 専門的、科学的、技術的サービス |
| 22      | 公共事業（電力、ガス、水道）   | 55      | 企業経営管理               |
| 23      | 建設業                     | 56      | 行政支援、廃棄物・浄化サービス |
| 31~33   | 製造業                     | 61      | 教育サービス               |
| 42      | 卸売業                     | 62      | 医療、社会援助             |
| 44~45   | 小売業                     | 71      | 芸術、娯楽、レクリエーション |
| 48~49   | 運輸業、倉庫業               | 72      | 宿泊、飲食サービス         |
| 51      | 情報産業                   | 81      | その他（公共行政を除く）   |
| 52      | 金融、保険                 | 92      | 公共行政                   |

In [None]:
# 散布図の表示（例：'Term' と 'NoEmp' の関係）
plt.figure(figsize=(8,6))
sns.scatterplot(x='Term', y='NoEmp', data=train)
plt.xlabel('Loan Term in Months')
plt.ylabel('Number of Employees')
plt.title('Relationship between Loan Term and Number of Employees')
plt.show()

# ボックスプロットの表示（例：'Sector' による 'NoEmp' の分布）
plt.figure(figsize=(12,8))
sns.boxplot(x='Sector', y='NoEmp', data=train)
plt.xlabel('Sector')
plt.ylabel('Number of Employees')
plt.title('Distribution of Number of Employees by Sector')
plt.xticks(rotation=45)
plt.show()