<a href="https://colab.research.google.com/github/gukouk176-debug/colab2/blob/main/DataScience_06_ipynb_json.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第6回講義 データの前処理
+ irisを使ったデータ処理
+ タイタニックデータを用いたデータ処理
+ breast-cancerのデータセットのデータ処理

# 全講義共通初期設定
+ 警告の非表示(実装時は非推奨)
+ numpy pandas小数点以下桁数の表示設定
+ pandas全データ表示設定
+ Google driveへの接続

In [None]:
# ワーニングを非表示にする
# この設定は不都合が見えなくなる為、お勧めしない
# 今回は教育資料用に、出力を簡素化する為に利用する
import warnings
warnings.simplefilter('ignore')

# モジュールの読み込み
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# 小数点以下桁数の表示設定
np.set_printoptions(precision = 3)
pd.options.display.precision = 3

# pandasの全データ表示設定
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [1]:
#googledriveに接続
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
#google driveと接続できたかを確認
!ls drive/MyDrive/DataScience

'3(00000).txt'	'3(00004).txt'		       iris.csv
'3(00001).txt'	 breast-cancer-wisconsin.csv   titanic_train.csv
'3(00002).txt'	 example.xlsx
'3(00003).txt'	 imports-85.csv


# irisを使ったデータ処理

Iris(アヤメのデータ)のデータセットを用いたデータ処理  
ここでは以下の項目について演習を行う。  
+ データの読み込み
+ データの確認
+ 欠損値の確認
+ 説明変数・目的変数の設定
+ データの分割（トレーニングデータ・テストデータ）
+ モデルへの適用
+ 結果の算出
+ ダミー変数化

## データの読み込み

In [3]:
#ライブラリのインポートとirisデータの読み込み
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

##ライブラリpandasを使ったcsvデータの読み込み,sepで区切り記号を設定,もし日本語の場合,encodingを設定する必要があり
iris_df = pd.read_csv('/content/drive/MyDrive/DataScience/iris.csv',sep=',')

## データの確認

In [4]:
# 先頭の10行だけ表示したい場合
print(iris_df.head(10))

   sepal.length  sepal.width  petal.length  petal.width species
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa
5           5.4          3.9           1.7          0.4  Setosa
6           4.6          3.4           1.4          0.3  Setosa
7           5.0          3.4           1.5          0.2  Setosa
8           4.4          2.9           1.4          0.2  Setosa
9           4.9          3.1           1.5          0.1  Setosa


In [5]:
# 最後の5行だけ表示したい場合
print(iris_df.tail())

#データセットの項目のデータ型を確認
iris_df.dtypes

     sepal.length  sepal.width  petal.length  petal.width    species
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica


Unnamed: 0,0
sepal.length,float64
sepal.width,float64
petal.length,float64
petal.width,float64
species,object


In [6]:
#データセットの項目(列ラベルともいう)確認
iris_df.columns

Index(['sepal.length', 'sepal.width', 'petal.length', 'petal.width',
       'species'],
      dtype='object')

## 欠損値の確認

In [7]:
#データセットの情報の表示（各項目の欠損でないデータ数、型など）
print(iris_df.info())
print()

#各項目の欠損値数の表示
print(iris_df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal.length  150 non-null    float64
 1   sepal.width   150 non-null    float64
 2   petal.length  150 non-null    float64
 3   petal.width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None

sepal.length    0
sepal.width     0
petal.length    0
petal.width     0
species         0
dtype: int64


In [8]:
#欠損値の確認、Falseなら欠損値ではない。Trueなら欠損値
print(iris_df.head().isnull())

   sepal.length  sepal.width  petal.length  petal.width  species
0         False        False         False        False    False
1         False        False         False        False    False
2         False        False         False        False    False
3         False        False         False        False    False
4         False        False         False        False    False


## 説明変数・目的変数の設定

In [9]:
#説明変数の設定
#pandasのデータフレームのまま説明変数切り取り
X = iris_df[['sepal.length', 'sepal.width', 'petal.length', 'petal.width']]
#取り出し方 loc:ラベル（変数名）指定 ,iloc:番号指定
#X = iris_df.iloc[:, [0,1,2,3]]
#X = iris_df.loc[:, ['sepal.length','sepal.width','petal.length','petal.width']]

#目的変数の設定
y = iris_df[['species']]
# y = iris_df.iloc[:,[4]]
# y = iris_df.loc[:, ['species']]

#データフレームをarrayに変換,scikit-learnを使うときに必要
#X = iris_df.iloc[:, [0,1,2,3]].values


## データの分割と標準化
トレーニングデータ・テストデータ



In [10]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# トレーニングデータとテストデータに分割:トレーニングデータ70%、テストデータ30%
# 乱数を制御するパラメータ random_state は None にすると毎回異なるデータを生成する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=None )

# データの標準化処理 元データを平均0、標準偏差が1のものに変換する正規化法のこと
#インスタンス生成
sc = StandardScaler()

#モデルへのフィット
sc.fit(X_train)

#トレーニングデータとテストデータの標準化処理
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

## モデルへの適用 ・ 結果の算出

In [11]:
#決定木による学習
from sklearn import tree
from sklearn.metrics import accuracy_score

#モデルのインスタンス生成
tree_model = tree.DecisionTreeClassifier(max_depth=3)

#学習
tree_model.fit(X_train_std,y_train)

#テストデータの適用
predicted = tree_model.predict(X_test_std)

#結果の表示
print('正解率：',accuracy_score(y_test, predicted))

正解率： 0.9555555555555556


In [12]:
#トレーニングデータによるフィッティング結果とテストデータによる学習モデルの精度の検証
print('正解率（train):  {:.4f}'.format(tree_model.score(X_train_std, y_train)))
print('正解率（test):  {:.4f}'.format(tree_model.score(X_test_std, y_test)))

正解率（train):  0.9810
正解率（test):  0.9556


## ダミー変数化

In [13]:
#pandasのデータフレームをarray配列化
from sklearn import preprocessing
X = iris_df[['sepal.length', 'sepal.width', 'petal.length', 'petal.width']]

print(X.head())
print()
# DATA =X.as_matrix() # ← 旧表記方法で、Python3.7以降は 警告またはエラー表示
DATA = X.values
#DATA = X.values.tolist()

print(DATA)

   sepal.length  sepal.width  petal.length  petal.width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2

In [14]:
#ダミー変数化
y_dummy = pd.get_dummies(y)  #, drop_first=True)

print(y_dummy.head())
# ダミー変数の結合
y2 = pd.merge(y, y_dummy, left_index=True, right_index=True)
#y2 = y.join(y_dummy)

print(y2)

   species_Setosa  species_Versicolor  species_Virginica
0            True               False              False
1            True               False              False
2            True               False              False
3            True               False              False
4            True               False              False
       species  species_Setosa  species_Versicolor  species_Virginica
0       Setosa            True               False              False
1       Setosa            True               False              False
2       Setosa            True               False              False
3       Setosa            True               False              False
4       Setosa            True               False              False
..         ...             ...                 ...                ...
145  Virginica           False               False               True
146  Virginica           False               False               True
147  Virginica           Fal

## 順序尺度の数値化

In [15]:
#順序尺度の数値化
size_mapping = {'Virginica': 2, 'Versicolor': 1, 'Setosa': 0}
y3 = y['species'].map(size_mapping)

print(y3.head())
print(y3.tail())

0    0
1    0
2    0
3    0
4    0
Name: species, dtype: int64
145    2
146    2
147    2
148    2
149    2
Name: species, dtype: int64


In [16]:
#名義尺度の数値化 LabelEncoderは、ラベルを0～クラスの種類数n-1の値に変換してくれる、今回は3つのラベルを0,1,2
from sklearn.preprocessing import LabelEncoder
#LabelEncoderのインスタンスを生成
le = LabelEncoder()
#ラベルを覚えさせる
le = le.fit(y)

#ラベルを整数に変換
y_encoded = le.transform(y)

print(y_encoded)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


## 回帰による学習と評価

In [17]:
#回帰による学習とダミー変数,評価は平均二乗誤差 (MSE)と決定係数
from sklearn import linear_model
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

#トレーニングデータとテストデータに分割
X_train2, X_test2, y_train2, y_test2 = train_test_split(X, y3, test_size=0.2, random_state=None )

#インスタンス生成
sc = StandardScaler()

#モデルへのフィット
sc.fit(X_train2)

X_train_std2 = sc.transform(X_train2)
X_test_std2 = sc.transform(X_test2)

#モデルのインスタンス生成と学習(標準化あり)
lr = linear_model.LinearRegression()
lr.fit(X_train_std2, y_train2)

predicted2 = lr.predict(X_test_std2)

print('平均二乗誤差 (MSE)',mean_squared_error(y_test2, predicted2))
print('決定係数 (R2)',r2_score(y_test2, predicted2))

#モデルのインスタンス生成と学習(標準化なし)
lr = linear_model.LinearRegression()
lr.fit(X_train2,y_train2)

predicted2 = lr.predict(X_test2)

print('平均二乗誤差 (MSE)',mean_squared_error(y_test2, predicted2))
print('決定係数 (R2)',r2_score(y_test2, predicted2))


平均二乗誤差 (MSE) 0.05718862009027768
決定係数 (R2) 0.9171179418981483
平均二乗誤差 (MSE) 0.05718862009027765
決定係数 (R2) 0.9171179418981483


In [18]:
#小数のまるめ(偶数への丸めであることに注意)
b = np.round(X_train_std2, 2)

#小数の丸める前
print(X_train_std2[0])
#小数の丸め後
print(b[0])

[-0.40120452 -1.72885517  0.15786203  0.15698644]
[-0.4  -1.73  0.16  0.16]


# タイタニックデータを用いたデータ処理

ここでは主に欠損値と説明変数の選択について学習する  
+ 欠損値の確認
+ 欠損値の補間（穴埋め）
+ 説明変数を選択

In [19]:
#タイタニックデータの読み込み
import pandas as pd

titanic_df = pd.read_csv('/content/drive/MyDrive/DataScience/titanic_train.csv',sep=',')

## 欠損値の確認

In [20]:
#データの情報表示
print(titanic_df.info())
print()
#各項目の欠損値数の表示
print(titanic_df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int

In [21]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 欠損値の補間（穴埋め）
### 欠損値の基本的な処理方法 : dropna()とfillna()を使う  
+ 欠損値NaN（Not a Number，非数）がひとつでも含まれている行を削除する  
`titanic_df.dropna()`

+ ある行の指定された項目のすべての値が欠損していたら、その行を削除する  
`titanic_df.dropna(subset=['Age','Cabin'], how='all')`

+ すべての欠損値を0で置換する  
`titanic_df.fillna(0)`

+ すべての欠損値を平均で置換する、※数値型のみ  
`titanic_df.fillna(data2.mean())`

+ method = ‘ffill’を使って欠損値を直前の値で補完する数値型にのみ  
`titanic_df.fillna(method = 'ffill')`

+ １次の多項式で補完する。非数値型、前後に値のないデータには動作しない。  
`titanic_df.interpolate(method='polynomial',order=1)`

In [22]:
# 欠損値がひとつでも含まれている行を削除する
titanic_df_drop1 = titanic_df.dropna()

#データの情報表示
print(titanic_df_drop1.info())
print()                      # 空行の出力で改行

#各項目の欠損値数の表示
print(titanic_df_drop1.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
Index: 183 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  183 non-null    int64  
 1   Survived     183 non-null    int64  
 2   Pclass       183 non-null    int64  
 3   Name         183 non-null    object 
 4   Sex          183 non-null    object 
 5   Age          183 non-null    float64
 6   SibSp        183 non-null    int64  
 7   Parch        183 non-null    int64  
 8   Ticket       183 non-null    object 
 9   Fare         183 non-null    float64
 10  Cabin        183 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 18.6+ KB
None

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


## 説明変数を選択

In [23]:
# ある行の指定された項目のすべての値が欠損していたら、その行を削除する all.

#引数how='any'を指定すると，欠損値が一つでも含まれる行が削除される
#デフォルトがhow='any'なので、何も指定しないとこの動作になる
titanic_df_drop2 = titanic_df.dropna(subset=['Age','Cabin'], how='any')

# titanic_df_drop2 = titanic_df.dropna(subset=['Age','Cabin'])
# ↑ デフォルトがhow='any'の為、上のコードと同等

#データの情報表示
print(titanic_df_drop2.info())
print()

#各項目の欠損値数の表示
print(titanic_df_drop2.isnull().sum())
print()
#titanic_df_drop2

<class 'pandas.core.frame.DataFrame'>
Index: 185 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  185 non-null    int64  
 1   Survived     185 non-null    int64  
 2   Pclass       185 non-null    int64  
 3   Name         185 non-null    object 
 4   Sex          185 non-null    object 
 5   Age          185 non-null    float64
 6   SibSp        185 non-null    int64  
 7   Parch        185 non-null    int64  
 8   Ticket       185 non-null    object 
 9   Fare         185 non-null    float64
 10  Cabin        185 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 18.8+ KB
None

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       2
dtype: int64



In [24]:
#すべての欠損値を0で置換する
titanic_df_fill1 = titanic_df.fillna(0)

#データの情報表示
print(titanic_df_fill1.info())
print()

#各項目の欠損値数の表示
print(titanic_df_fill1.isnull().sum())
print()
titanic_df_fill1.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


In [42]:
#すべての欠損値を平均で置換する、※数値型のみ
titanic_df_fill2 = titanic_df.fillna(titanic_df.mean(numeric_only=True))

#データの情報表示
print(titanic_df_fill2.info())
print()
#各項目の欠損値数の表示
print(titanic_df_fill2.isnull().sum())
print()
titanic_df_fill2.tail()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [27]:
#説明変数と目的変数の選択

#取り出し方 loc:ラベル（変数名）指定 ,iloc:番号指定
Titanic_X = titanic_df.iloc[:, [2,5,9]]
#X = titanic_df.loc[:, ['Age','Fare','Pclass']]

#目的変数の設定
Titanic_y = titanic_df.iloc[:,[1]]
#.loc[:, ['Survived']]

Titanic_X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Pclass  891 non-null    int64  
 1   Age     714 non-null    float64
 2   Fare    891 non-null    float64
dtypes: float64(2), int64(1)
memory usage: 21.0 KB


In [28]:
#すべての欠損値を平均で置換する、※数値型のみ
Titanic_X_fill = Titanic_X.fillna(Titanic_X.mean())
Titanic_X_fill.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Pclass  891 non-null    int64  
 1   Age     891 non-null    float64
 2   Fare    891 non-null    float64
dtypes: float64(2), int64(1)
memory usage: 21.0 KB


In [29]:
#トレーニングデータとテストデータに分割
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(Titanic_X_fill, Titanic_y, test_size=0.2, random_state=None )

In [30]:
#決定木による学習
from sklearn import tree
from sklearn.metrics import accuracy_score

#モデルのインスタンス生成
tree_model = tree.DecisionTreeClassifier(max_depth=3)

#学習
tree_model.fit(X_train,y_train)

#トレーニングデータによるフィッティング結果とテストデータによる学習モデルの精度の検証
print('正解率（train):  {:.4f}'.format(tree_model.score(X_train, y_train)))
print('正解率（test):  {:.4f}'.format(tree_model.score(X_test, y_test)))

正解率（train):  0.7205
正解率（test):  0.6927


## sklearnによるデータ処理例,標準化処理
+ 平均値を０，標準偏差を１とする

In [31]:
#sklearnによるデータ処理例,標準化処理
from sklearn import preprocessing
import numpy as np
X_train = np.array([[10.5, 0.3],[ 0.2, 0.4],[100, 40.4],[0.1, 0.1],[1000.5, 20.2]])
X_scaled = preprocessing.scale(X_train)

print(X_scaled)

[[-0.54168915 -0.74686538]
 [-0.56803689 -0.74063111]
 [-0.31274516  1.75307632]
 [-0.56829269 -0.75933391]
 [ 1.99076388  0.49375407]]


# breast-cancerのデータセット

欠損値に文字が挿入されているときの処理方法についての学習  
文字の入れ替えについて学習する。  
Class（病気の重症度）を目的変数として推定を行う。

In [32]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

#csvファイルの読み込み
bc_df = pd.read_csv('/content/drive/MyDrive/DataScience/breast-cancer-wisconsin.csv',sep=',')
bc_df.head()

Unnamed: 0,sample code number,Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


In [33]:
bc_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   sample code number           699 non-null    int64 
 1   Clump Thickness              699 non-null    int64 
 2   Uniformity of Cell Size      699 non-null    int64 
 3   Uniformity of Cell Shape     699 non-null    int64 
 4   Marginal Adhesion            699 non-null    int64 
 5   Single Epithelial Cell Size  699 non-null    int64 
 6   Bare Nuclei                  699 non-null    object
 7   Bland Chromatin              699 non-null    int64 
 8   Normal Nucleoli              699 non-null    int64 
 9   Mitoses                      699 non-null    int64 
 10  Class                        699 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 60.2+ KB


In [34]:
bc_df.isnull().sum()

Unnamed: 0,0
sample code number,0
Clump Thickness,0
Uniformity of Cell Size,0
Uniformity of Cell Shape,0
Marginal Adhesion,0
Single Epithelial Cell Size,0
Bare Nuclei,0
Bland Chromatin,0
Normal Nucleoli,0
Mitoses,0


In [35]:
#列ラベル（項目）に属する要素を抽出する．「？」が存在するのが確認できる
#データフレームの中の指定した列の値をユニーク，重複のないデータにする
print(bc_df["Bare Nuclei"].unique())

['1' '10' '2' '4' '3' '9' '7' '?' '5' '8' '6']


In [36]:
#ラベル（項目）に属する要素の数を調べる．？が16個存在しているのがわかる
print(bc_df["Bare Nuclei"].value_counts())

Bare Nuclei
1     402
10    132
2      30
5      30
3      28
8      21
4      19
?      16
9       9
7       8
6       4
Name: count, dtype: int64


In [37]:
#？を別の文字に入れ替え：replace
bc_df2 = bc_df.replace("?", "5")
#情報を確認：ただし、Bare Nucleiのデータ型はobjectのまま
bc_df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   sample code number           699 non-null    int64 
 1   Clump Thickness              699 non-null    int64 
 2   Uniformity of Cell Size      699 non-null    int64 
 3   Uniformity of Cell Shape     699 non-null    int64 
 4   Marginal Adhesion            699 non-null    int64 
 5   Single Epithelial Cell Size  699 non-null    int64 
 6   Bare Nuclei                  699 non-null    object
 7   Bland Chromatin              699 non-null    int64 
 8   Normal Nucleoli              699 non-null    int64 
 9   Mitoses                      699 non-null    int64 
 10  Class                        699 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 60.2+ KB


In [38]:
#型の変換(列の指定)
bc_df2 = bc_df2.astype({'Bare Nuclei':'int64'})
#型の変換（全ての列をまとめて変換する場合）
#bc_df2 = bc_df2.astype('int64')
#データの確認
bc_df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype
---  ------                       --------------  -----
 0   sample code number           699 non-null    int64
 1   Clump Thickness              699 non-null    int64
 2   Uniformity of Cell Size      699 non-null    int64
 3   Uniformity of Cell Shape     699 non-null    int64
 4   Marginal Adhesion            699 non-null    int64
 5   Single Epithelial Cell Size  699 non-null    int64
 6   Bare Nuclei                  699 non-null    int64
 7   Bland Chromatin              699 non-null    int64
 8   Normal Nucleoli              699 non-null    int64
 9   Mitoses                      699 non-null    int64
 10  Class                        699 non-null    int64
dtypes: int64(11)
memory usage: 60.2 KB


In [39]:
bc_df2.head()

Unnamed: 0,sample code number,Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


In [40]:
#説明変数と目的変数の選択

#取り出し方 loc:ラベル（変数名）指定 ,iloc:番号指定
BC_X = bc_df2.iloc[:, [1,2,3,4,5,6,7,8,9]]
#X = data2.loc[:, ['Age','Fare','Pclass']]

#目的変数の設定
BC_Y = bc_df2.iloc[:,[10]]
#.loc[:, ['Survived']]

BC_X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 9 columns):
 #   Column                       Non-Null Count  Dtype
---  ------                       --------------  -----
 0   Clump Thickness              699 non-null    int64
 1   Uniformity of Cell Size      699 non-null    int64
 2   Uniformity of Cell Shape     699 non-null    int64
 3   Marginal Adhesion            699 non-null    int64
 4   Single Epithelial Cell Size  699 non-null    int64
 5   Bare Nuclei                  699 non-null    int64
 6   Bland Chromatin              699 non-null    int64
 7   Normal Nucleoli              699 non-null    int64
 8   Mitoses                      699 non-null    int64
dtypes: int64(9)
memory usage: 49.3 KB
