<a href="https://colab.research.google.com/github/mazarimono/python-data-seminar/blob/main/Chapter4_1_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

## Series

### コード4-1

In [2]:
data = {
    'a': 1,
    'b': 2,
    'c': 3,
    'd': 4,
    'e': 5
}

s1 = pd.Series(data)
print(s1)

a    1
b    2
c    3
d    4
e    5
dtype: int64


### コード4-2

In [3]:
values = [1, 2, 3, 4, 5]
index_col = ['a', 'b', 'c', 'd', 'e']
s2 = pd.Series(values, index=index_col)
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


## DataFrame

### コード4-3

In [4]:
df_dict = {
    'one': [1,2,3,4],
    'two': [5,6,7,8],
    'three': [9, 10,11,12],
    'four': [13,14,15,16]
}
index_col = ['a', 'b', 'c', 'd']
df = pd.DataFrame(df_dict, index=index_col)
df

Unnamed: 0,one,two,three,four
a,1,5,9,13
b,2,6,10,14
c,3,7,11,15
d,4,8,12,16


### コード4-4

In [5]:
values = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
    [13, 14, 15, 16]
]

index_col = ['a', 'b', 'c', 'd']
cols = ['one', 'two', 'three', 'four']


df = pd.DataFrame(values, index=index_col, columns=cols)
df

Unnamed: 0,one,two,three,four
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


### コード4-5

In [6]:
df_dict = {
    'a': [1,2,3,4],
    'b': [5,6,7,8],
    'c': [9, 10,11,12],
    'd': [13,14,15,16]
}

df = pd.DataFrame(df_dict)
df = df.T
df.columns = cols
df

Unnamed: 0,one,two,three,four
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


## データ抽出

### コード4-6

In [7]:
print(s1[2:4]) # ⓵ 2番から3番の要素を抽出
print(s1['b': 'd'])  # ② 'b'から'd'の要素を抽出

c    3
d    4
dtype: int64
b    2
c    3
d    4
dtype: int64


### コード4-7

In [8]:
df['three']

a     3
b     7
c    11
d    15
Name: three, dtype: int64

In [9]:
type(df['three'])

pandas.core.series.Series

### コード4-8

In [10]:
df[['three']]

Unnamed: 0,three
a,3
b,7
c,11
d,15


In [11]:
type(df[['three']])

pandas.core.frame.DataFrame

### コード4-9

In [13]:
df[['two' , 'four']]

Unnamed: 0,two,four
a,2,4
b,6,8
c,10,12
d,14,16


### コード4-10

In [14]:
df.loc['b']

one      5
two      6
three    7
four     8
Name: b, dtype: int64

### コード4-11

In [15]:
df.iloc[1]

one      5
two      6
three    7
four     8
Name: b, dtype: int64

### コード4-12

In [16]:
df.loc[['b', 'd'], ['one', 'four']]

Unnamed: 0,one,four
b,5,8
d,13,16


### コード4-13

In [17]:
df.iloc[[1,3], [0, 3]]

Unnamed: 0,one,four
b,5,8
d,13,16


## データの読み込み・保存

### コード4-14

In [18]:
df.to_json('/content/first.json')
df.to_csv('/content/first.csv')
df.to_excel('/content/first.xlsx')

### コード4-15

In [19]:
df_json = pd.read_json('/content/first.json')
df_csv = pd.read_csv('/content/first.csv')
df_excel = pd.read_excel('/content/first.xlsx')

print(df_json)
print(df_csv)
print(df_excel)

   one  two  three  four
a    1    2      3     4
b    5    6      7     8
c    9   10     11    12
d   13   14     15    16
  Unnamed: 0  one  two  three  four
0          a    1    2      3     4
1          b    5    6      7     8
2          c    9   10     11    12
3          d   13   14     15    16
  Unnamed: 0  one  two  three  four
0          a    1    2      3     4
1          b    5    6      7     8
2          c    9   10     11    12
3          d   13   14     15    16


### コード4-17

In [20]:
df_csv = pd.read_csv('/content/first.csv', index_col=0)
df_excel = pd.read_excel('/content/first.xlsx', index_col=0)

print(df_csv)
print(df_excel)

   one  two  three  four
a    1    2      3     4
b    5    6      7     8
c    9   10     11    12
d   13   14     15    16
   one  two  three  four
a    1    2      3     4
b    5    6      7     8
c    9   10     11    12
d   13   14     15    16


### コード4-18

In [21]:
kakei_csv = 'https://www.stat.go.jp/data/kakei/longtime/csv/h-mon-a.csv' # CSVファイルのURL
df = pd.read_csv(kakei_csv, encoding='cp932') # encodingにcp932を指定して読み込み
df.head(10) # headで読み込んだファイルの最初の10行を表示（headの初期値は5）

Unnamed: 0,二人以上の世帯_支出金額[円],Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,1,2,3,4,...,272,273,274,275,276,277,278,279,280,281
0,,,,,,,2000年,,,,...,,,,,,2023年,,,,
1,,,,,,,(平成12年),,,,...,,,,,,(令和5年),,,,
2,表側連番,階層,大分類,中分類,小分類,品目分類,1月,2月,3月,4月,...,8月,9月,10月,11月,12月,1月,2月,3月,4月,5月
3,1,-,-,-,-,世帯数分布(抽出率調整),10000,10000,10000,10000,...,10000,10000,10000,10000,10000,10000,10000,10000,10000,10000
4,2,-,-,-,-,集計世帯数,7887,7942,7934,7922,...,7339,7369,7324,7308,7315,7207,7185,7240,7228,7284
5,3,-,-,-,-,世帯人員(人),3.32,3.32,3.32,3.32,...,2.91,2.91,2.91,2.9,2.9,2.9,2.9,2.9,2.9,2.9
6,4,-,-,-,-,18歳未満人員(人),0.74,0.75,0.75,0.75,...,0.54,0.54,0.54,0.54,0.54,0.54,0.53,0.52,0.53,0.54
7,5,-,-,-,-,65歳以上人員(人),0.52,0.53,0.53,0.52,...,0.85,0.85,0.84,0.83,0.85,0.85,0.85,0.87,0.86,0.85
8,6,-,-,-,-,うち無職者人員(人),0.41,0.41,0.41,0.41,...,0.66,0.67,0.67,0.66,0.67,0.66,0.67,0.68,0.68,0.66
9,7,-,-,-,-,有業人員(人),1.51,1.51,1.51,1.52,...,1.34,1.34,1.33,1.33,1.33,1.34,1.33,1.33,1.35,1.34


### コード4-19

In [22]:
table_url = 'https://www.stat.go.jp/data/kakei/longtime/index.html' # 家計調査（家計収支編）　時系列データ（二人以上の世帯）のURL
df = pd.read_html(table_url)[0] # 指定URLの0番目の表を取得
df.tail()  # 最後の5行を表示（tailの初期値は5）

Unnamed: 0,0,1,2,3
5,年,小分類まで,支出金額,2000年〜（CSV：31KB）
6,年,小分類まで,名目増減率,2000年〜（CSV：23KB）
7,年,小分類まで,実質増減率,2000年〜（CSV：20KB）
8,年,全品目（2015年改定）,支出金額,2015年〜2019年（CSV：41KB）
9,年,全品目（2020年改定）,支出金額,2020年〜（CSV：34KB）


## データ確認

### コード4-20

In [23]:
data_dict = {
    '名前': ['さとし', 'ひろし', 'ようこ', 'さとし', 'ひろし', 'いろは'],
    '年齢': [30, 31, 32, 30, 31, np.nan],
    '勤務地': ['東京', '大阪', None, '東京', '大阪', '名古屋'],
    '性別': ['男', '男', '女', '男', '男', '女'],
    '収入': [7000000, 7500000, np.nan, 7000000, 6500000, 8500000]
}

df = pd.DataFrame(data_dict)
df

Unnamed: 0,名前,年齢,勤務地,性別,収入
0,さとし,30.0,東京,男,7000000.0
1,ひろし,31.0,大阪,男,7500000.0
2,ようこ,32.0,,女,
3,さとし,30.0,東京,男,7000000.0
4,ひろし,31.0,大阪,男,6500000.0
5,いろは,,名古屋,女,8500000.0


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   名前      6 non-null      object 
 1   年齢      5 non-null      float64
 2   勤務地     5 non-null      object 
 3   性別      6 non-null      object 
 4   収入      5 non-null      float64
dtypes: float64(2), object(3)
memory usage: 368.0+ bytes


In [25]:
df.describe()

Unnamed: 0,年齢,収入
count,5.0,5.0
mean,30.8,7300000.0
std,0.83666,758287.5
min,30.0,6500000.0
25%,30.0,7000000.0
50%,31.0,7000000.0
75%,31.0,7500000.0
max,32.0,8500000.0


In [26]:
df.duplicated()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

## データの前処理

In [27]:
df.loc[2, '勤務地'] = '東京'
df

Unnamed: 0,名前,年齢,勤務地,性別,収入
0,さとし,30.0,東京,男,7000000.0
1,ひろし,31.0,大阪,男,7500000.0
2,ようこ,32.0,東京,女,
3,さとし,30.0,東京,男,7000000.0
4,ひろし,31.0,大阪,男,6500000.0
5,いろは,,名古屋,女,8500000.0


In [28]:
# 完全重複行を削除する
df1 = df.drop_duplicates().copy()
df1

Unnamed: 0,名前,年齢,勤務地,性別,収入
0,さとし,30.0,東京,男,7000000.0
1,ひろし,31.0,大阪,男,7500000.0
2,ようこ,32.0,東京,女,
4,ひろし,31.0,大阪,男,6500000.0
5,いろは,,名古屋,女,8500000.0


In [29]:
df1['年齢'].fillna(df1['年齢'].median(), inplace=True)
df1['収入'].fillna(df1['収入'].median(), inplace=True)
df1

Unnamed: 0,名前,年齢,勤務地,性別,収入
0,さとし,30.0,東京,男,7000000.0
1,ひろし,31.0,大阪,男,7500000.0
2,ようこ,32.0,東京,女,7250000.0
4,ひろし,31.0,大阪,男,6500000.0
5,いろは,31.0,名古屋,女,8500000.0


### コード4-21

In [31]:
df2 = pd.DataFrame(data_dict)
df2 = df2.dropna()
df2

Unnamed: 0,名前,年齢,勤務地,性別,収入
0,さとし,30.0,東京,男,7000000.0
1,ひろし,31.0,大阪,男,7500000.0
3,さとし,30.0,東京,男,7000000.0
4,ひろし,31.0,大阪,男,6500000.0
