# codExa - Pandas 入門

Pandasとは？
読み方は「パンダス」または「パンダ」です。本コースでは「パンダス」（または英語表記 Pandas）で統一しています。Pandasとは、データ操作を高速かつ効率的に扱う「データフレーム形式」を用いて、データ解析を支援する機能を提供するPythonのライブラリとなります。データを扱う言語として「SQL」もありますが、PandasはSQLと似たような感覚でデータの処理が出来ます。SQLに加えて、Pandasは膨大なデータの分析や処理が非常に効率よくシンプルに行えるメリットがあります。膨大なデータをストレスなく分析・処理することは、機械学習エンジニアにとって初歩的かつ必須のスキルです。

なぜPandasを学ぶのか？
機械学習において、データセットを解析・処理を行うのは必須の工程となります。その工程を効率的に行うのに、Pandasを使うことが標準となっているため、初級機械学習エンジニアにとってPandasをストレス無く使うことは必要なスキルとなります。また、Pandasと密接な関係にある機械学習のライブラリーも多数存在します。例えば、機械学習で必須ライブラリー「Numpy（科学的数値計算ライブラリ）」ですが、Pandasとセットで使われます。機械学習エンジニアの核は「データセット」であり、Pandaσの使い方をマスターすることで、必要な処理や分析を効率的に行えるようになりましょう。

## 3. Pandasとは？

チャプター3では、Pandasの基本的な概要をみていきましょう。実際にiPythonを立ち上げて、Pandasのインポートとデータフレームの作成を行います。

- Numpyとはデータ解析を支援する機能を提供するPythonライブラリ
- データ操作のための高速で効率的なデータフレーム（DataFrame）オブジェクトを使用
- 行（Row)が横で列（Column)が縦
- import pandas as pd Pandasをpdとしてインポート
- DataFrame.columns データフレームのカラム情報
- DataFrame.index データフレームのインデックス情報
- 基本的な操作のみ覚えて必要に応じて公式ドキュメントを利用

In [1]:
import numpy as np
import pandas as pd

In [2]:
body = np.array([[182,169,190,178,176],[81,59,87,72,29]])
body

array([[182, 169, 190, 178, 176],
       [ 81,  59,  87,  72,  29]])

In [3]:
df = pd.DataFrame(body)
df

Unnamed: 0,0,1,2,3,4
0,182,169,190,178,176
1,81,59,87,72,29


In [4]:
type(body)

numpy.ndarray

In [5]:
type(df)

pandas.core.frame.DataFrame

In [16]:
import sys
print(sys.path)

# データフレームの編集
# 列に名前を付ける
df.columns = ['Jun','Taka','Testu','Ken','Kazu']
df

['', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python35.zip', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/plat-darwin', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/lib-dynload', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/site-packages', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/site-packages/Sphinx-1.4.6-py3.5.egg', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/site-packages/aeosa', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/site-packages/setuptools-27.2.0-py3.5.egg', '/Users/kazu/.pyenv/versions/anaconda3-4.2.0/lib/python3.5/site-packages/IPython/extensions', '/Users/kazu/.ipython']


Unnamed: 0,Jun,Taka,Testu,Ken,Kazu
Height,182,169,190,178,176
Weight,81,59,87,72,29


In [17]:
# 行のインデックスを変更
df.index = ["Height", "Weight"]
df

Unnamed: 0,Jun,Taka,Testu,Ken,Kazu
Height,182,169,190,178,176
Weight,81,59,87,72,29


In [18]:
# カラム名を変更
df = df.rename(columns={'Jun':'Hikari'})
df

Unnamed: 0,Hikari,Taka,Testu,Ken,Kazu
Height,182,169,190,178,176
Weight,81,59,87,72,29


## 4. データ構造を確認

チャプター4では、Pandasの基本的なデータフレームの構造と、特定の行や列の要素のアクセスの仕方を見ていきましょう。

- pd.DataFrame() データフレームの作成
- DataFrame.index データフレームのインデックス情報
- DataFrame.shape データフレームのサイズ（行列のサイズ）
- DataFrame.describe() 基本統計量の確認
- DataFrame.astype() dtype（データ型）の指定
- DataFrame.info() データフレームのサマリー（要約情報）
- DataFrame['A'] 列「A」の要素
- DataFrame.A 同様に列「A」の要素
- DataFrame.loc[:, ['A']] 全ての行の列「A」の要素
- DataFrame.loc['Math',['A','C']] 行「Math」と列「A」「C」の要素
- DataFrame.iloc[0] 行「0」の要素
- DataFrame.iloc[1] 行「1」の要素
- DataFrame.iloc[:, 0:3] 全ての行の列「0〜2」までの要素
- DataFrame.iloc[0, 0:4] 行「０」の列「0〜3」までの要素
- locとilocは混乱しがちですので間違えなく覚えましょう
- locはラベル名を指定、ilocは行列番号を指定

In [20]:
# データフレームの作成
df = pd.DataFrame(data=[['81','100','69','78','95'],['70','93','71','82','89']], columns=['A','B','C','D','E'])
df

Unnamed: 0,A,B,C,D,E
0,81,100,69,78,95
1,70,93,71,82,89


In [21]:
# indexの変更
df.index = ['Math', 'English']
df

Unnamed: 0,A,B,C,D,E
Math,81,100,69,78,95
English,70,93,71,82,89


In [23]:
type(df)

pandas.core.frame.DataFrame

In [22]:
# データフレームのサイズの確認
df.shape

(2, 5)

２行５列

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, Math to English
Data columns (total 5 columns):
A    2 non-null object
B    2 non-null object
C    2 non-null object
D    2 non-null object
E    2 non-null object
dtypes: object(5)
memory usage: 96.0+ bytes


全てオブジェクト形式で入っている

In [26]:
df

Unnamed: 0,A,B,C,D,E
Math,81,100,69,78,95
English,70,93,71,82,89


In [28]:
# テストの点数はintなので、オブジェクト形式からintに変更する
df = df.astype(int)
df

Unnamed: 0,A,B,C,D,E
Math,81,100,69,78,95
English,70,93,71,82,89


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, Math to English
Data columns (total 5 columns):
A    2 non-null int64
B    2 non-null int64
C    2 non-null int64
D    2 non-null int64
E    2 non-null int64
dtypes: int64(5)
memory usage: 96.0+ bytes


int形式に変更された

In [30]:
# データフレームの基本統計量を確認
df.describe()

Unnamed: 0,A,B,C,D,E
count,2.0,2.0,2.0,2.0,2.0
mean,75.5,96.5,70.0,80.0,92.0
std,7.778175,4.949747,1.414214,2.828427,4.242641
min,70.0,93.0,69.0,78.0,89.0
25%,72.75,94.75,69.5,79.0,90.5
50%,75.5,96.5,70.0,80.0,92.0
75%,78.25,98.25,70.5,81.0,93.5
max,81.0,100.0,71.0,82.0,95.0


In [31]:
df

Unnamed: 0,A,B,C,D,E
Math,81,100,69,78,95
English,70,93,71,82,89


In [37]:
# Aの列だけを取り出したい
df['A']

Math       81
English    70
Name: A, dtype: int64

In [38]:
type(df['A'])

pandas.core.series.Series

１次元なのでseriesになる

In [40]:
#カラム名を指定して、A列を抜き出す
df.A

Math       81
English    70
Name: A, dtype: int64

スペースを含むカラム名は対応していないので、注意する！

In [43]:
# データフレームの行・列のラベルで指定
df.loc[:,['A']] #全ての行のAというカラム名の値を表示する

Unnamed: 0,A
Math,81
English,70


In [46]:
# Mathという行から、AとCのカラム名を表示する
df.loc['Math',['A','C']]

A    81
C    69
Name: Math, dtype: int64

In [47]:
# 行インデックス指定で表示する
df.iloc[0]

A     81
B    100
C     69
D     78
E     95
Name: Math, dtype: int64

In [48]:
df.iloc[1]

A    70
B    93
C    71
D    82
E    89
Name: English, dtype: int64

In [50]:
# 0行０列の指定
df.iloc[0, [0]]

A    81
Name: Math, dtype: int64

In [52]:
# 全ての行の０番目の列から３番目の列を指定
df.iloc[:, 0:3]

Unnamed: 0,A,B,C
Math,81,100,69
English,70,93,71


### まとめ
df.loc[] = 行・列のラベル名で指定　<br>
df.iloc[] = 行・列のb番号で指定

## 5. CSVデータの読み込み

チャプター5では、Pandasを使ってcsvファイルからデータの読み込みと、読み込んだデータの紐解きを行なっていきましょう。本チャプターでは、下記の2つのCSVファイルを動画内で使用します。動画に沿って練習を行う方は、下記データをローカルへダウロードしてから動画講座へお進みください。

- pd.read_csv() CSVデータからデータフレームの作成
- DataFrame.head() データフレームの最初の5行を表示（デフォルト）
- DataFrame.tail() データフレームの最後の5行を表示（デフォルト）
- DataFrame['A'] 列「A」の要素へアクセス
- DataFrame.corr() 各項目の相関係数
- DataFrame.groupby() グルーピングによるデータの集計

In [3]:
import pandas as pd

# CSVデートの読み込み
df =pd.read_csv('002-1.csv', header=None)

In [4]:
df.head()

Unnamed: 0,0,1,2
0,0.563823,0.926038,0.56453
1,0.22693,0.774618,0.41533
2,0.993598,0.030036,0.210686
3,0.355566,0.824691,0.629814
4,0.784904,0.614295,0.127989


In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
0    100 non-null float64
1    100 non-null float64
2    100 non-null float64
dtypes: float64(3)
memory usage: 2.4 KB


In [7]:
df.describe()

Unnamed: 0,0,1,2
count,100.0,100.0,100.0
mean,0.460883,0.487668,0.507878
std,0.278284,0.306104,0.295137
min,0.008179,0.005217,0.012975
25%,0.221251,0.20945,0.202979
50%,0.428495,0.455401,0.548508
75%,0.700257,0.761196,0.808566
max,0.994047,0.999703,0.98056


Numpy配列は、各要素に対して掛け算される

In [8]:
# 人事部のデータを取り込む
df2 = pd.read_csv('002-2.csv')
df2.head()

Unnamed: 0,Employee ID,Evaluation,Promotion,Salary in JPY (Date:2001-2017),Quit
0,565,0.1,1.0,Low,1.0
1,141,0.1,0.0,Low,1.0
2,786,0.6,1.0,Low,0.0
3,1770,1.0,1.0,Low,0.0
4,662,1.0,0.0,Low,0.0


In [9]:
df2.shape

(201, 5)

201行、5列　のデータが入っている

In [10]:
df2.tail()

Unnamed: 0,Employee ID,Evaluation,Promotion,Salary in JPY (Date:2001-2017),Quit
196,596,0.2,0.0,Mid,0.0
197,1729,0.1,0.0,Mid,0.0
198,1137,1.0,1.0,Mid,0.0
199,,,,,1.0
200,"All employees data is collected annonimously, ...",,,,


１９９行目は、空行　<br>
２００行目は、注釈 <br>
が入っている

In [12]:
# 不要な行(199行、２００行)を読み込まないでデータフレームを作成
df2 = pd.read_csv('002-2.csv', skipfooter=2, engine="python")
df2.tail()

Unnamed: 0,Employee ID,Evaluation,Promotion,Salary in JPY (Date:2001-2017),Quit
194,766,1.0,0,Mid,1
195,2350,0.0,0,Mid,1
196,596,0.2,0,Mid,0
197,1729,0.1,0,Mid,0
198,1137,1.0,1,Mid,0


199行、２００行が入っていないデータフレームができた

In [14]:
# カラム名を変更する
df2.columns  # カラム名を表示

Index(['Employee ID', 'Evaluation', 'Promotion',
       'Salary in JPY (Date:2001-2017)', 'Quit'],
      dtype='object')

カラム名に、スペースが入っている、文章で長いカラム名がある

In [16]:
# カラム名を変更
df2.columns = ["ID","Evaluation","Promotion","Salary","Quit"]
df2.head()

Unnamed: 0,ID,Evaluation,Promotion,Salary,Quit
0,565,0.1,1,Low,1
1,141,0.1,0,Low,1
2,786,0.6,1,Low,0
3,1770,1.0,1,Low,0
4,662,1.0,0,Low,0


In [17]:
# データフレームにカラムを追加
df２['Sex'] = "Male"
df2.head()

Unnamed: 0,ID,Evaluation,Promotion,Salary,Quit,Sex
0,565,0.1,1,Low,1,Male
1,141,0.1,0,Low,1,Male
2,786,0.6,1,Low,0,Male
3,1770,1.0,1,Low,0,Male
4,662,1.0,0,Low,0,Male


In [18]:
# ヘッダー２０行表示
df2.head(20)

Unnamed: 0,ID,Evaluation,Promotion,Salary,Quit,Sex
0,565,0.1,1,Low,1,Male
1,141,0.1,0,Low,1,Male
2,786,0.6,1,Low,0,Male
3,1770,1.0,1,Low,0,Male
4,662,1.0,0,Low,0,Male
5,1674,0.8,1,Low,0,Male
6,828,0.9,1,Low,1,Male
7,2287,0.9,1,Low,0,Male
8,1743,0.5,0,Low,0,Male
9,988,0.6,0,Low,0,Male


In [19]:
# 基本統計量の確認
df2.describe()

Unnamed: 0,ID,Evaluation,Promotion,Quit
count,199.0,199.0,199.0,199.0
mean,1204.874372,0.474874,0.180905,0.547739
std,696.072589,0.322665,0.38591,0.498971
min,4.0,0.0,0.0,0.0
25%,601.5,0.2,0.0,0.0
50%,1146.0,0.4,0.0,1.0
75%,1839.5,0.8,0.0,1.0
max,2493.0,1.0,1.0,1.0


In [21]:
# データフレームの各値の相関関係(Correlation)を確認
df2.corr()

Unnamed: 0,ID,Evaluation,Promotion,Quit
ID,1.0,-0.020596,0.119456,-0.118589
Evaluation,-0.020596,1.0,0.231375,0.029446
Promotion,0.119456,0.231375,1.0,-0.228676
Quit,-0.118589,0.029446,-0.228676,1.0


0.231375

Evaluationの値が増えていったら、Promotionの値も増えている

In [23]:
# Evaluationを軸にデータを見る
eva = df2.groupby('Evaluation')
type(eva)

pandas.core.groupby.groupby.DataFrameGroupBy

In [26]:
# Evaluationの各値でグルーピングされた、各カラムの平均値を見る
eva.mean()

Unnamed: 0_level_0,ID,Promotion,Quit
Evaluation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,1306.666667,0.0,0.555556
0.1,1189.466667,0.066667,0.666667
0.2,1102.65625,0.03125,0.71875
0.3,1296.157895,0.157895,0.368421
0.4,1265.230769,0.307692,0.307692
0.5,1390.692308,0.153846,0.153846
0.6,1343.294118,0.411765,0.235294
0.7,1128.3,0.2,0.4
0.8,985.6,0.333333,0.6
0.9,1239.36,0.28,0.8


Evaluationが低い人は、Promotionの平均値も低い

## 6. データフレームの値を処理

チャプター6では、Pandas データフレームの値にアクセスして処理を行う基本的操作を学びましょう。本チャプターでは、下記のCSVファイルを動画内で使用します。動画に沿って練習を行う方は、下記データをローカルへダウロードしてから動画講座へお進みください。

- DataFrame.isnull() データフレームのNaNかどうかをBoolean型で返す
- DataFrame.isnull().isum() 値がNaNの要素の合計を確認
- DataFrame.fillna 値がNaNの要素の穴埋め

In [27]:
df3 = pd.read_csv('002-3.csv')
df3.head()

Unnamed: 0,id,Height,Weight
0,1,152.0,84.0
1,2,152.0,75.0
2,3,152.0,81.0
3,4,152.0,76.0
4,5,152.0,61.0


人の身長と体重のデータになっている

In [29]:
df3.shape

(146, 3)

In [30]:
# 欠損データの確認
df3.isnull().any()

id        False
Height     True
Weight     True
dtype: bool

身長と体重のデータには欠損(Null)データが入っている

In [31]:
# 値の合計を出す
df3.isnull().sum()

id        0
Height    9
Weight    7
dtype: int64

身長が９こ、体重が７この欠損データがある

#### 欠損データに代理のデータを埋める

In [34]:
# 身長の欠損データの確認
df3.head(20)

Unnamed: 0,id,Height,Weight
0,1,152.0,84.0
1,2,152.0,75.0
2,3,152.0,81.0
3,4,152.0,76.0
4,5,152.0,61.0
5,6,153.0,65.0
6,7,153.0,88.0
7,8,153.0,82.0
8,9,153.0,63.0
9,10,153.0,83.0


身長のデータは、昇順で並んでいる

In [39]:
# 一つ前のレコードの値を使いましょう
df3['Height'] = df3['Height'].fillna(method='ffill')
# fillna() : 欠損値(NaN)の穴埋め
# method='ffill'　：　最後に有効な値を欠損データに使う

df3.head(20)

Unnamed: 0,id,Height,Weight
0,1,152.0,84.0
1,2,152.0,75.0
2,3,152.0,81.0
3,4,152.0,76.0
4,5,152.0,61.0
5,6,153.0,65.0
6,7,153.0,88.0
7,8,153.0,82.0
8,9,153.0,63.0
9,10,153.0,83.0


In [40]:
# 全部、欠損データが埋まったか確認する
df3.isnull().sum()

id        0
Height    0
Weight    7
dtype: int64

In [45]:
# 体重データの欠損データを埋める
# 体重は昇順で並んでいないので、Weightの中央値を欠損箇所へ代入する
df3['Weight'] = df3['Weight'].fillna(df3['Weight'].median())

df3.head(30)

Unnamed: 0,id,Height,Weight
0,1,152.0,84.0
1,2,152.0,75.0
2,3,152.0,81.0
3,4,152.0,76.0
4,5,152.0,61.0
5,6,153.0,65.0
6,7,153.0,88.0
7,8,153.0,82.0
8,9,153.0,63.0
9,10,153.0,83.0


In [47]:
# 欠損データが埋まったか確認
df3.isnull().sum()

id        0
Height    0
Weight    0
dtype: int64

In [48]:
# 基本統計量の確認
df3.describe()

Unnamed: 0,id,Height,Weight
count,146.0,146.0,146.0
mean,73.5,167.760274,75.130137
std,42.290661,9.226128,10.175877
min,1.0,152.0,58.0
25%,37.25,161.0,66.0
50%,73.5,167.0,76.0
75%,109.75,175.75,84.0
max,146.0,185.0,92.0


### 新しい指標（BMI）をデータフレームに追加する

BMI = 体重(Weight)  /  (身長m(Height) * 身長m(Height))<br>

- lambdalambdaを使って、BMIを計算してapplyメソッドで列「BMI」を追加する<br>
- get_bmi()という関数を使って計算してapplyメソッドで列「BMI」を追加する<br>

In [49]:
df3.head()

Unnamed: 0,id,Height,Weight
0,1,152.0,84.0
1,2,152.0,75.0
2,3,152.0,81.0
3,4,152.0,76.0
4,5,152.0,61.0


In [50]:
df3['BMI1'] = df3.apply(lambda row: row['Weight'] / ((row['Height']/100)**2), axis=1)
df3.head()

Unnamed: 0,id,Height,Weight,BMI1
0,1,152.0,84.0,36.357341
1,2,152.0,75.0,32.461911
2,3,152.0,81.0,35.058864
3,4,152.0,76.0,32.894737
4,5,152.0,61.0,26.402355


In [52]:
# 関数を使って計算する
def get_bmi(row):
    return row['Weight'] / ((row['Height']/100)**2)

In [54]:
df3['BMI2'] = df3.apply(get_bmi, axis=1)
df3.head()

Unnamed: 0,id,Height,Weight,BMI1,BMI2
0,1,152.0,84.0,36.357341,36.357341
1,2,152.0,75.0,32.461911,32.461911
2,3,152.0,81.0,35.058864,35.058864
3,4,152.0,76.0,32.894737,32.894737
4,5,152.0,61.0,26.402355,26.402355


## 7. データセットのマージ

チャプター6では、Pandasを使ってデータセットの結合や連結を一緒にやっていきましょう。本チャプターでは、下記の2つのCSVファイルを動画内で使用します。動画に沿って練習を行う方は、下記データをローカルへダウロードしてから動画講座へお進みください。

- DataFrame.groupby() グルーピングによるデータの集計
- pd.merge() 2つのデータフレームの結合
- pd.concat() 2つのデータフレームの連結
- DataFrame.reset_index データフレームのindexを振り直す

In [55]:
# CSVデータを読み込み
df4 = pd.read_csv('002-4.csv')
df5 = pd.read_csv('002-5.csv')

In [60]:
df4.shape

(4, 4)

In [61]:
df4.head()

Unnamed: 0,user_id,Name,Age,Sex
0,1,Yamada,32,Male
1,2,Tanaka,45,Male
2,3,Murai,29,Female
3,4,Hoshi,38,Male


df4はユーザの情報が入っている

In [62]:
df5.shape

(9, 3)

In [57]:
df5.head()

Unnamed: 0,user_id,class_id,status
0,1,3,0
1,1,2,1
2,2,1,1
3,2,6,0
4,2,3,0


df５は、ユーザがどのクラスを受講している情報が入っている

In [64]:
# User ID でグルーピング
user = df5.groupby('user_id')
user.describe()

Unnamed: 0_level_0,class_id,class_id,class_id,class_id,class_id,class_id,class_id,class_id,status,status,status,status,status,status,status,status
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
1,2.0,2.5,0.707107,2.0,2.25,2.5,2.75,3.0,2.0,0.5,0.707107,0.0,0.25,0.5,0.75,1.0
2,3.0,3.333333,2.516611,1.0,2.0,3.0,4.5,6.0,3.0,0.333333,0.57735,0.0,0.0,0.0,0.5,1.0
3,3.0,4.333333,3.511885,1.0,2.5,4.0,6.0,8.0,3.0,0.666667,0.57735,0.0,0.5,1.0,1.0,1.0
4,1.0,9.0,,9.0,9.0,9.0,9.0,9.0,1.0,1.0,,1.0,1.0,1.0,1.0,1.0


In [65]:
# ユーザー情報(df4)とクラス受講情報(df5)をまとめる
df6 = pd.merge(df4, df5, on='user_id')
df6

Unnamed: 0,user_id,Name,Age,Sex,class_id,status
0,1,Yamada,32,Male,3,0
1,1,Yamada,32,Male,2,1
2,2,Tanaka,45,Male,1,1
3,2,Tanaka,45,Male,6,0
4,2,Tanaka,45,Male,3,0
5,3,Murai,29,Female,1,0
6,3,Murai,29,Female,4,1
7,3,Murai,29,Female,8,1
8,4,Hoshi,38,Male,9,1


#### 新入生が入ってきたので、新しい生徒データを連結する

In [68]:
# 新しい生徒データの作成
df6 = pd.DataFrame(data=[['5','3','0'],['6','5','1'],['7','1','1']], columns=['user_id', 'class_id', 'status'])

In [69]:
df6

Unnamed: 0,user_id,class_id,status
0,5,3,0
1,6,5,1
2,7,1,1


In [70]:
# 新しい生徒データの連結
df7 = pd.concat([df5, df6]) #データフレームを連結する
df7

Unnamed: 0,user_id,class_id,status
0,1,3,0
1,1,2,1
2,2,1,1
3,2,6,0
4,2,3,0
5,3,1,0
6,3,4,1
7,3,8,1
8,4,9,1
0,5,3,0


In [71]:
# 行インデックスをリセットする
df7 = df7.reset_index(drop=True)
df7

Unnamed: 0,user_id,class_id,status
0,1,3,0
1,1,2,1
2,2,1,1
3,2,6,0
4,2,3,0
5,3,1,0
6,3,4,1
7,3,8,1
8,4,9,1
9,5,3,0


## Pandas 理解度確認テスト

### 【質問1】Pandasデーターフレーム

下記のdf.shape実行した際に、正しい結果は選んで下さい。

import numpy as np
import pandas as pd
random = np.random.randint(0,100,(5,5))

print(random)
[[ 2 48 56 67 68]
 [55  5 10 71 49]
 [90 51 90 70 48]
 [51 45 69 91 91]
 [98 90 36 10 79]]

 df = pd.DataFrame(random)
 df.shape

- (6, 6)
- pandas.core.frame.DataFrame
- RangeIndex(start=0, stop=5, step=1)
- (5, 5)

In [74]:
import numpy as np
import pandas as pd
random = np.random.randint(0,100,(5,5))

print(random)

df = pd.DataFrame(random)
df.shape

[[91 46 29 59 84]
 [56 68 60 26 45]
 [97  5 96 30 91]
 [42 60 79 31 42]
 [38 41 34 82 92]]


(5, 5)

### 【質問2】Pandasデータフレーム要素
下記のdf[2]を実行した際の正しい結果は選んで下さい。


import numpy as np
import pandas as pd

random = np.random.randint(0,100,(3,3))
df = pd.DataFrame(random)

print(df)
    0   1   2
0  51  97  70
1  46  31  72
2  23  71  12

df[2]

In [75]:
import numpy as np
import pandas as pd

random = np.random.randint(0,100,(3,3))
df =pd.DataFrame(random)

print(df)

df[2]

    0   1   2
0  74  61  78
1  85  82  87
2   9  60  78


0    78
1    87
2    78
Name: 2, dtype: int64

### 【質問3】Pandas データフレーム要素
下記のdf.loc[:,1]実行した際の正しい結果は選んで下さい。

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(4,4))

print(df)
          0         1         2         3
0  0.497373  0.856846 -0.062577  0.485857
1 -0.749419 -0.702304 -0.014129 -1.001233
2 -1.561310 -1.803640  0.585543  2.230145
3  1.629119 -1.116682  0.829149 -0.479157

df.loc[:,1]

In [77]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(4,4))

print(df)

df.loc[:,1]

          0         1         2         3
0 -0.803019  0.266670 -1.457384 -0.333688
1 -1.536598  0.969987  0.414682 -0.677341
2 -0.348956  0.531915  1.658794 -0.684063
3  0.316181 -0.217150  1.760759  0.365264


0    0.266670
1    0.969987
2    0.531915
3   -0.217150
Name: 1, dtype: float64

### 【質問4】Pandasデータフレーム iloc
下記のdf.iloc[0:2, 4]を実行した際の正しい結果は選んで下さい。


import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1,50,(5,5)))

print(df)
    0   1   2   3   4
0   6  12  44  11  14
1  12   3  47  24  20
2  43  35   6  47  34
3   3  36   8  33  11
4  46  26  46  20   3

df.iloc[0:2, 4]

In [82]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1,50,(5,5)))

print(df)

df.iloc[0:2, 4]

    0   1   2   3   4
0  39  36  32  28   8
1   6  38  43  37  46
2  16  41  34  43  40
3  36  36  47  43  38
4  24  45  18  47  16


0     8
1    46
Name: 4, dtype: int64

### 【質問5】
下記のdf.isnull().sum()を実行した際の正しい結果は選んで下さい。

import numpy as np
import pandas as pd

print(df)
    0     1     2   3   4
0   5  37.0  18.0   4  34
1  44   9.0   8.0  25  17
2  35  45.0   NaN  11  44
3  23   7.0   3.0  31  20
4  46   NaN   NaN  17  36

df.isnull().sum()

In [84]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1,20,(5,5)))
print(df)

df.isnull().sum()

    0   1   2   3   4
0   9  10   5   2  10
1   7   4  15   8  19
2  16  11   3   4  17
3  10   9  19  15  17
4  19   1  17   8   1


0    0
1    0
2    0
3    0
4    0
dtype: int64

### 【質問6】
下記の通りuserとkimatsuの2つのデータフレームを結合して、studentのデータフレームを作成しました。

userとkimatsuを結合してstudentを作成する際に、正しい処理を下記から選んで下さい。

In [85]:
'''
import numpy as np
import pandas as pd

print(user)
 Class   Sex
Satoshi   1-1  Male
Ken       1-5  Male
Jun       1-1  Male
Testu     1-2  Male
Yoshi     1-4  Male


print(kimatsu)
 Math  English  Chemistry  Pysics  Music  id
Satoshi     1       22         39      38     36  AB
Ken        13        9         44      47     40  AC
Jun        21       21         43      22     48  DE
Testu      28       17         19       6     32  ED
Yoshi      28       32         34      20     37  ER


##結合処理のコード##

print(student)
Math  English  Chemistry  Pysics  Music  id Class   Sex
Satoshi     1       22         39      38     36  AB   1-1  Male
Ken        13        9         44      47     40  AC   1-5  Male
Jun        21       21         43      22     48  DE   1-1  Male
Testu      28       17         19       6     32  ED   1-2  Male
Yoshi      28       32         34      20     37  ER   1-4  Male
'''

'\nimport numpy as np\nimport pandas as pd\n\nprint(user)\n Class   Sex\nSatoshi   1-1  Male\nKen       1-5  Male\nJun       1-1  Male\nTestu     1-2  Male\nYoshi     1-4  Male\n\n\nprint(kimatsu)\n Math  English  Chemistry  Pysics  Music  id\nSatoshi     1       22         39      38     36  AB\nKen        13        9         44      47     40  AC\nJun        21       21         43      22     48  DE\nTestu      28       17         19       6     32  ED\nYoshi      28       32         34      20     37  ER\n\n\n##結合処理のコード##\n\nprint(student)\nMath  English  Chemistry  Pysics  Music  id Class   Sex\nSatoshi     1       22         39      38     36  AB   1-1  Male\nKen        13        9         44      47     40  AC   1-5  Male\nJun        21       21         43      22     48  DE   1-1  Male\nTestu      28       17         19       6     32  ED   1-2  Male\nYoshi      28       32         34      20     37  ER   1-4  Male\n'