In [2]:
"""
UTF-8形式の読み込み
encodingの指定は不要
"""
import pandas as pd
df = pd.read_csv("test.csv")
df

"""
Shift_JIS形式の読み込み
encodingの指定は不要
"""
df = pd.read_csv("testSJIS.csv", encoding="Shift_JIS")
df

# インデックスの列を指定する
df = pd.read_csv("test.csv", index_col=0)
df

Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
D郎,60,73,40,A002
E美,92,62,84,C001
F菜,96,92,94,C002


In [9]:
"""
ヘッダーがないデータの扱い
"""
df = pd.read_csv("testNoHeader.csv", index_col=0, header=None)
df

Unnamed: 0,0,1,2,3,4
0,A太,83,89,76,A001
1,B介,66,93,75,B001
2,C子,100,84,96,B002
3,D郎,60,73,40,A002
4,E美,92,62,84,C001
5,F菜,96,92,94,C002


In [13]:
"""
最初の５行目だけを出力するやりかた
データを眺めたりするときに便利
"""
df = pd.read_csv("test.csv", index_col=0)
df.head()


Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
B介,66,93,75,B001
C子,100,84,96,B002
D郎,60,73,40,A002
E美,92,62,84,C001


In [21]:
# 列名を出力
df.columns
# インデックスを出力
df.index
"""
列名,インデックスをリストに変換する
"""
list1 = [i for i in df.columns]
print(list1)
list2 = [i for i in df.index]
print(list2)
"""
データタイプの確認
objectは文字列型のこと
"""
df.dtypes

"""
データの個数を確認する
"""
print("データの個数", len(df))

['国語', '数学', '英語', '学生番号']
['A太', 'B介', 'C子', 'D郎', 'E美', 'F菜']
データの個数 6


In [23]:
"""
列データを取り出す
"""
df["国語"]
# 複数のデータを取り出す
df[["国語", "数学"]]

Unnamed: 0_level_0,国語,数学
名前,Unnamed: 1_level_1,Unnamed: 2_level_1
A太,83,89
B介,66,93
C子,100,84
D郎,60,73
E美,92,62
F菜,96,92


In [27]:
"""
行データを取り出す
"""
df.iloc[0]
# 複数のデータを取り出す
df.iloc[[0, 3]]

# 要素データを取り出す
df.iloc[0]["国語"]

83

In [35]:
"""
列データの追加・削除・加工
"""

# 特定のデータを取り出して別のデータフレームに追加する
dfA = pd.read_csv("test.csv", index_col=0)

# 空のデータフレーム
dfB = pd.DataFrame()

dfB["国語"] = dfA["国語"]
dfB
# 列データの削除
# dfA = dfA.drop("国語", axis=1)
# dfA




Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
C子,100,84,96,B002
E美,92,62,84,C001
F菜,96,92,94,C002


In [36]:
"""
行データの追加・削除・加工
"""
dfB = pd.DataFrame()
dfB = dfB.append(dfA.iloc[0])
dfB

# 行データの削除
dfA = pd.read_csv("test.csv", index_col=0)
dfA = dfA.drop(dfA.index[3])
dfA

# 条件に合う行データを抽出する
dfA["国語"] > 80

# 条件にあった行だけを抽出する。
dfB = dfA[dfA["国語"] > 80]
dfB

# 複数の条件にあった行だけを抽出する。
dfB = dfA[(dfA["国語"] > 80) & (dfA["数学"] > 80)]
dfB

  dfB = dfB.append(dfA.iloc[0])


Unnamed: 0_level_0,国語,数学,英語,学生番号
名前,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A太,83,89,76,A001
C子,100,84,96,B002
F菜,96,92,94,C002


In [41]:
"""
データの欠損値を確認
"""

data = {
    "国語" : [90,50,None ,40],
    "数学" : [80,None,None,50]
}
idx = ["A太","B介","C子","D郎"]
dfA = pd.DataFrame(data, index=idx)
dfA

# 欠損値の個数
dfA.isnull().sum()

# 指定した列で欠損値がある行を削除する
dfB = dfA.dropna(subset=["国語"])
dfB

# 欠損値は、平均値で埋める
dfB = dfA.fillna(dfA.mean())
dfB

# 欠損値を１つ前の値で埋める。気温とかある程度、連続している値が対象の場合
dfB = dfA.fillna(method='ffill')
dfB

Unnamed: 0,国語,数学
A太,90.0,80.0
B介,50.0,80.0
C子,50.0,80.0
D郎,40.0,50.0


In [44]:
#  修復データの扱い

data = [
    [10, 30, 40],
    [20, 30, 40],
    [20, 30, 40],
    [30, 30, 50],
    [20, 30, 40],
]

dfA = pd.DataFrame(data)
dfA
# 重複データの個数。Trueがそれ。
dfA.duplicated().value_counts()

# 重複データの２つめ以降を削除する
dfB = dfA.drop_duplicates()
dfB

Unnamed: 0,0,1,2
0,10,30,40
1,20,30,40
3,30,30,50


In [5]:
# 文字列型のデータを数値に変換する

data = {
    "A": ["100", "300"],
    "B": ["500", "1,500"]
}
dfA = pd.DataFrame(data)
dfA

# 各列のデータの種類 確認
dfA.dtypes
# 文字列の列データを整数に変換する ここでは列Aを整数型に変換する
dfA["A"] = dfA["A"].astype(int)
dfA.dtypes
# カンマつき文字列の字列データのカンマを削除する　これを例に1,500
dfA["B"] = dfA["B"].str.replace(",","").astype(int)
dfA.dtypes
dfA

Unnamed: 0,A,B
0,100,500
1,300,1500


In [10]:
"""
データを平に均す
平均値をもとめる
"""

data = {
    "Aクラス":[82,89,93,85,76],
    "Bクラス":[100,62,82,70,86],
}
df = pd.DataFrame(data)
df

# 平均値
print("Aクラス =", df["Aクラス"].mean())
print("Bクラス =", df["Bクラス"].mean())

print(df.mean())

# 代表値と１つのデータを比較する.0番の生徒とAクラス全体でみると平均値よりまだ少し下なのか
print(df.iloc[0]["Aクラス"])
print(df["Aクラス"].mean())

Aクラス = 85.0
Bクラス = 80.0
Aクラス    85.0
Bクラス    80.0
dtype: float64
82
85.0


In [11]:
"""
中央値：データを順番に並べたとき、ちょうど真ん中にくる値
最頻値：データの中で一番多く現れる。サンプル数が少ないと使えない
"""

data = {
    "予想価格": [240,250,150,240,300]
}
df = pd.DataFrame(data)
print("中央値 =", df.mean())
print("中央値 =", df.median())
print("最頻値 =", df.mode())

中央値 = 予想価格    236.0
dtype: float64
中央値 = 予想価格    240.0
dtype: float64
最頻値 =    予想価格
0   240
