<a href="https://colab.research.google.com/github/takahasi103/Python_basic/blob/main/pandas_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#pandsとは<br>
##データの集計/加工に使用するライブラリ

##ライブラリをインポート
pandas:<br>
データ操作や分析に特化した高性能で使いやすいデータ構造や関数を提供するライブラリ

numpy:<br>
Pythonで数値計算を効率的に行うためのライブラリ

In [2]:
import pandas as pd
import numpy as np

##変数にデータを格納する

In [3]:
data = pd.DataFrame({'name': ['A', 'B', 'C', 'D'], '数学': [80, 15, 90, 50], '英語': [80, 70, 50, 65],
                    '国語': [ 90, 60, 60,  60]})



---



##データを読み込む方法

####変数を現在のディレクトリ配下に「a.csv」という名前で保存

In [None]:
data.to_csv('./a.csv',index=False)

####「a.csv」というファイルを読み込み、dataという名前の変数に格納

In [None]:
data = pd.read_csv('./a.csv',index_col = False)

####確認

In [None]:
data

Unnamed: 0,name,数学,英語,国語
0,A,80,80,90
1,B,15,70,60
2,C,90,50,60
3,D,50,65,60




---


##データの状態を確認する方法

####データ形式を表示

In [None]:
type(data)

pandas.core.frame.DataFrame

####Series型データの作成

Series:<br>
1次元のラベル付き配列であり、一般的に1つの列

In [None]:
Series = pd.Series([1,3,5])

In [None]:
type(Series)

pandas.core.series.Series

####DataFrame型データの作成

DataFrame:<br>
2次元のラベル付きデータ構造であり、テーブルのような形式

In [None]:
DataFrame = pd.DataFrame([['A', 10],['B', 20], ['C', 30]])

In [None]:
type(DataFrame)

pandas.core.frame.DataFrame

####データの行列数を確認
(行数,列数)

In [None]:
data.shape

(4, 4)

####データの上から引数分の行を返す
デフォルトは５行分

In [None]:
data.head(2)

Unnamed: 0,name,数学,英語,国語
0,A,80,80,90
1,B,15,70,60


####データの下から引数分の行を返す
デフォルトは５行分

In [None]:
data.tail(1)

Unnamed: 0,name,数学,英語,国語
3,D,50,65,60


####データの列(columns)を確認

In [None]:
data.columns

Index(['name', '数学', '英語', '国語'], dtype='object')

####データの行(index)を確認

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

####各列のデータ型を確認

In [None]:
data.dtypes

name    object
数学       int64
英語       int64
国語       int64
dtype: object

####各列のユニークな値の数を確認

In [None]:
data.nunique()

name    4
数学      4
英語      4
国語      2
dtype: int64

####各行のユニークな値の数を確認
axis=1:<br>
列方向 (水平方向) に操作を行う。データの各行ごとに操作を実行。

In [None]:
data.nunique(axis=1)

0    3
1    4
2    4
3    4
dtype: int64



---



##データの条件を指定する方法

####行列の中身を取得
[行, 列]<br>
: = 全て

In [5]:
data.loc[:, '国語']

0    90
1    60
2    60
3    60
Name: 国語, dtype: int64

####条件を満たす行を取得
データ[条件]

In [None]:
data[data['国語'] >= 70]

Unnamed: 0,name,数学,英語,国語
0,A,80,80,90


####特定の列だけ取得

In [None]:
data['数学']

0    80
1    15
2    90
3    50
Name: 数学, dtype: int64

In [None]:
data[['国語', '数学']]

Unnamed: 0,国語,数学
0,90,80
1,60,15
2,60,90
3,60,50


####条件を満たす行をカウント
len( )関数はデータの要素数をカウント

In [None]:
len(data[data['数学'] >= 50])

3

####データの最大値を返す
.max( )で最大値を返す

In [None]:
data[data['国語'] == data['国語'].max()]['name']

0    A
Name: name, dtype: object

解説


1. data['国語'] は、データフレーム data の「国語」列を表す
2. data['国語'].max() は、データフレーム data の「国語」列の最大値を返す
3. data['国語'] == data['国語'].max() は、データフレーム data の「国語」列の各要素と最大値を比較し、一致する場合には真（True）、一致しない場合には偽（False）を返す
4. data[data['国語'] == data['国語'].max()] は、データフレーム data の中で「国語」列の値が最大値となる行のみを選択
5. data[data['国語'] == data['国語'].max()]['name'] は、データフレーム data の中で「国語」列の値が最大値となる行から「name」列の値を抽出



####列のデータ型、欠損値の状態、メモリ使用量などの基本的な情報を確認

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    4 non-null      object
 1   数学      4 non-null      int64 
 2   英語      4 non-null      int64 
 3   国語      4 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 256.0+ bytes


####行をスライス（範囲指定）して選択する
データ[始まり：終点]<br>
スライスの終点は含まれない<br>
indexは0番目が1行目

In [None]:
data[1:3]

Unnamed: 0,name,数学,英語,国語
1,B,15,70,60
2,C,90,50,60


解説<br>
1:3という範囲指定は、indexが1から3未満（2まで）の行

####特定の行と列をindexで指定して選択する
iloc:<br>
位置に基づいたindex指定を行うための属性

In [None]:
data.iloc[1:3, [0, 1]]

Unnamed: 0,name,数学
1,B,15
2,C,90




---



##データの集計方法

####別々に読み込んだDataFrameを連結する

In [None]:
data

Unnamed: 0,name,数学,英語,国語
0,A,80,80,90
1,B,15,70,60
2,C,90,50,60
3,D,50,65,60


In [None]:
e_data = pd.DataFrame({'name':'E','国語':[30],'数学':[30],'英語':[30]})

In [None]:
e_data

Unnamed: 0,name,国語,数学,英語
0,E,30,30,30


In [None]:
data = pd.concat([data,e_data],axis=0, ignore_index=True)
data

Unnamed: 0,name,数学,英語,国語
0,A,80,80,90
1,B,15,70,60
2,C,90,50,60
3,D,50,65,60
4,E,30,30,30


解説<br>
axis=連結する方向を指定<br>
0: 行を連結<br>
1: 列を連結<br>

ignore_index=True:<br>
indexを振り直す時に指定

####列の値の合計を計算

In [None]:
data.sum()

name    ABCDE
数学        265
英語        295
国語        300
dtype: object

####行の値の合計を計算

In [None]:
data.sum(axis=1)

  data.sum(axis=1)


0    250
1    145
2    200
3    175
4     90
dtype: int64

####行の値の平均を計算

In [None]:
data.mean(axis=1)

  data.mean(axis=1)


0    83.333333
1    48.333333
2    66.666667
3    58.333333
4    30.000000
dtype: float64

####各列の統計量を出力

In [None]:
data.describe().round(1)

Unnamed: 0,数学,英語,国語
count,5.0,5.0,5.0
mean,53.0,59.0,60.0
std,31.9,19.5,21.2
min,15.0,30.0,30.0
25%,30.0,50.0,60.0
50%,50.0,65.0,60.0
75%,80.0,70.0,60.0
max,90.0,80.0,90.0


解説<br>
round(1)メソッド<br>
小数点以下1桁で四捨五入する<br>

統計量とは<br>
データの特徴や分布を要約し、数値化した指標

*   count: データの個数
*   mean: データの平均値
*   std: データの標準偏差（データが平均値からどれだけ散らばっているかを示す）
*   min: データの最小値
*   25%: データの第1四分位数（データを昇順に並べたとき、25%の位置にある値）
*   50%またはmedian: データの中央値（データを昇順に並べたとき、真ん中に位置する値）
*   75%: データの第3四分位数（データを昇順に並べたとき、75%の位置にある値）
*   max: データの最大値



####相関行列を計算するためのメソッド

相関は、2つの変数間の関係性の強さと向きを表す。<br>
相関係数は、-1から1の範囲で値を取ります。

*   1に近い正の相関係数: <br>
2つの変数は強い正の関連がある。一方の変数が増加すると、もう一方の変数も増加
*   -1に近い負の相関係数: <br>
2つの変数は強い負の関連がある。一方の変数が増加すると、もう一方の変数は減少
*   0に近い相関係数: <br>
2つの変数はほとんど関連していない。変数間の関連性はほとんどない




In [None]:
data.corr()

  data.corr()


Unnamed: 0,数学,英語,国語
数学,1.0,0.186724,0.553509
英語,0.186724,1.0,0.906845
国語,0.553509,0.906845,1.0




---



##データの整形方法

####データが重複しているのか確認

In [None]:
data_2 = pd.DataFrame({'name': ['A', 'B', 'C', 'D','D'], '国語-数学': ["30:20", np.NAN, "90:50", "50:30", "50:30"], '英語': ["80.2","60.5","34,2",0,0]})
data_2

Unnamed: 0,name,国語-数学,英語
0,A,30:20,80.2
1,B,,60.5
2,C,90:50,342.0
3,D,50:30,0.0
4,D,50:30,0.0


In [None]:
data_2.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [None]:
data_2.duplicated(subset=['name'])

0    False
1    False
2    False
3    False
4     True
dtype: bool

解説<br>
subset:<br>
対象とする列を指定



In [None]:
data_2.duplicated(keep='first')

0    False
1    False
2    False
3    False
4     True
dtype: bool

解説


*   'first'<br>最初に出現した行を重複
*   'last'<br>後に出現した行を重複
*   False<br>重複している行をすべて



####重複したデータを削除

In [None]:
data_2.drop_duplicates()

Unnamed: 0,name,国語-数学,英語
0,A,30:20,80.2
1,B,,60.5
2,C,90:50,342.0
3,D,50:30,0.0


In [None]:
data_2.drop_duplicates(keep='last')

Unnamed: 0,name,国語-数学,英語
0,A,30:20,80.2
1,B,,60.5
2,C,90:50,342.0
4,D,50:30,0.0


解説<br>


*   'first'<br>最初に出現した行を重複を削除
*   'last'<br>後に出現した行を重複を削除
*   False<br>重複している行をすべて削除

In [None]:
data_2.drop_duplicates(inplace=True)
data_2

Unnamed: 0,name,国語-数学,英語
0,A,30:20,80.2
1,B,,60.5
2,C,90:50,342.0
3,D,50:30,0.0


解説<br>
inplace:<br>
データフレームを直接書き換えるか指定<br>


*   True:<br>書き換える
*   False:<br>書き換えない





####指定の区切り文字に基づいて分割し、連結、削除

In [None]:
data_2['split'] = data_2['国語-数学'].str.split(':')

解説<br>
str.split(':') はコロンを区切り文字として、文字列を分割してリスト形式で返す



In [None]:
data_2['国語'] = data_2['split'].str.get(0)
data_2['数学'] = data_2['split'].str.get(1)
data_2

Unnamed: 0,name,国語-数学,英語,split,国語,数学
0,A,30:20,80.2,"[30, 20]",30.0,20.0
1,B,,60.5,,,
2,C,90:50,342.0,"[90, 50]",90.0,50.0
3,D,50:30,0.0,"[50, 30]",50.0,30.0


In [None]:
data_2= data_2.drop(['国語-数学', 'split'], axis=1)
data_2

Unnamed: 0,name,英語,国語,数学
0,A,80.2,30.0,20.0
1,B,60.5,,
2,C,342.0,90.0,50.0
3,D,0.0,50.0,30.0


####値の代入

In [None]:
data_2.loc[2, '英語'] = 34.2
data_2

Unnamed: 0,name,英語,国語,数学
0,A,80.2,30.0,20.0
1,B,60.5,,
2,C,34.2,90.0,50.0
3,D,0.0,50.0,30.0


####データ型の変更

In [None]:
data_2.dtypes

name    object
英語      object
国語      object
数学      object
dtype: object

In [None]:
data_2[['英語', '国語', '数学']] = data_2[['英語', '国語', '数学']].astype(float)
data_2.dtypes

name     object
英語      float64
国語      float64
数学      float64
dtype: object

####データがNoneかどうか判定

In [None]:
data_2.isnull()

Unnamed: 0,name,英語,国語,数学
0,False,False,False,False
1,False,False,True,True
2,False,False,False,False
3,False,False,False,False


####データがNoneの行を削除

In [None]:
data_2.dropna(axis=0, how = 'any', inplace=True)
data_2

Unnamed: 0,name,英語,国語,数学
0,A,80.2,30.0,20.0
2,C,34.2,90.0,50.0
3,D,0.0,50.0,30.0


解説

*   how='any<br>行内に欠損値が含まれている場合にその行を削除





---



##文字列の処理

In [None]:
data_3 = pd.DataFrame({'name': ['A', 'B', 'C', 'D'],
                     '性別': ['男性', '男性', '女性', '男性'],
                     '経歴': ['学部卒', '修士卒', '学部卒', '博士卒'],
                     '特技': ['ボーリング', '野球', 'サッカー', '野球をやっていた']})

In [None]:
data_3

Unnamed: 0,name,性別,経歴,特技
0,A,男性,学部卒,ボーリング
1,B,男性,修士卒,野球
2,C,女性,学部卒,サッカー
3,D,男性,博士卒,野球をやっていた


####指定の文字列で終わるデータを取得



In [None]:
data_3[data_3['経歴'].str.endswith('学部卒')]

Unnamed: 0,name,性別,経歴,特技
0,A,男性,学部卒,ボーリング
2,C,女性,学部卒,サッカー


解説


```
str.endswith(suffix, na=False)
```


*   suffix<br>検索する末尾の部分文字列
*   na<br>True の場合、欠損値 (NaN) を考慮して判定。デフォルトは False で、欠損値は False 




####指定の文字列で始まるデータを取得

In [None]:
data_3[data_3['性別'].str.startswith('女')]

Unnamed: 0,name,性別,経歴,特技
2,C,女性,学部卒,サッカー


####指定の文字数に変更

In [None]:
data_3['経歴'] = data_3['経歴'].str[0:2]
data_3

Unnamed: 0,name,性別,経歴,特技
0,A,男性,学部,ボーリング
1,B,男性,修士,野球
2,C,女性,学部,サッカー
3,D,男性,博士,野球をやっていた


解説

```
str[0:2]
```
各文字列要素の先頭から2文字目までの部分文字列を抽出




####指定の文字を取り除く

In [None]:
data_3['特技'][3] = data_3['特技'][3].strip('をやっていた')
data_3

Unnamed: 0,name,性別,経歴,特技
0,A,男性,学部,ボーリング
1,B,男性,修士,野球
2,C,女性,学部,サッカー
3,D,男性,博士,野球


解説

```
strip('文字列')
```
('文字列')を取り除く

