# 内容
- dataframe の作り方
- dataframe に一行ずつデータを挿入していく
- [{1: val1}, {2: val2}, ...] を内包表記で作成

In [40]:
import pandas as pd
import matplotlib.pyplot as plt
import csv
import numpy as np
import math
import warnings
warnings.simplefilter('ignore')

In [41]:
csv_1400 = pd.read_csv('./data/1400.csv', encoding='Shift-JIS')
csv_1400.head()

Unnamed: 0,通し番号,主要分類事項,表ID,データの種類,産業,企業規模,性,年齢階級,学歴,労働者の種類,...,2006年,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年
0,1,C00107,14,C0010,,,,,,,...,34.6,32.5,38.7,31.8,32.9,38.5,35.4,39.8,42.0,35.1
1,2,C00107,14,C0010,,,,,,,...,40.0,28.7,42.2,38.1,47.7,40.1,44.0,41.6,39.1,38.2
2,3,C00107,14,C0010,,,,,,,...,33.9,44.9,35.0,34.4,26.9,46.4,42.4,38.6,46.8,43.9
3,4,C00107,14,C0010,,,,,,,...,45.4,36.2,34.0,37.3,32.9,44.1,40.8,38.3,28.0,45.6
4,5,C00107,14,C0010,,,,,,,...,36.8,38.5,36.2,0.0,39.0,35.1,31.5,0.0,41.0,41.9


In [42]:
record_ad = [
       '1981年', '1982年', '1983年', '1984年', '1985年', '1986年', '1987年', '1988年',
       '1989年', '1990年', '1991年', '1992年', '1993年', '1994年', '1995年', '1996年',
       '1997年', '1998年', '1999年', '2000年', '2001年', '2002年', '2003年', '2004年',
       '2005年', '2006年', '2007年', '2008年', '2009年', '2010年', '2011年', '2012年',
       '2013年', '2014年', '2015年',
]

# int 型の配列 [1981,1982,1983,1984,...,2015]
record_age = [int(age[0:4]) for age in record_ad]

# 不要なカラム
not_need_columns = ['産業', '企業規模', '性', '年齢階級', '学歴', '労働者の種類', '職階', '職種', '雇用形態','表ID']
csv_1400 = csv_1400.drop(not_need_columns, axis=1)
csv_1400.head()

Unnamed: 0,通し番号,主要分類事項,データの種類,都道府県,職種・性,勤続年数階級,経験年数階級,1981年,1982年,1983年,...,2006年,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年
0,1,C00107,C0010,I010110001,K020110001,,,,,,...,34.6,32.5,38.7,31.8,32.9,38.5,35.4,39.8,42.0,35.1
1,2,C00107,C0010,I010110002,K020110001,,,,,,...,40.0,28.7,42.2,38.1,47.7,40.1,44.0,41.6,39.1,38.2
2,3,C00107,C0010,I010110003,K020110001,,,,,,...,33.9,44.9,35.0,34.4,26.9,46.4,42.4,38.6,46.8,43.9
3,4,C00107,C0010,I010110004,K020110001,,,,,,...,45.4,36.2,34.0,37.3,32.9,44.1,40.8,38.3,28.0,45.6
4,5,C00107,C0010,I010110005,K020110001,,,,,,...,36.8,38.5,36.2,0.0,39.0,35.1,31.5,0.0,41.0,41.9


In [43]:
# 主要分類事項
major_categories = {
'C00107': '都道府県別、職種・性別（一般労働者）：平均年齢',
'C00207': '都道府県別、職種・性別（一般労働者）：平均勤続年数',
'C00307': '都道府県別、職種・性別（一般労働者）：所定内実労働時間',
'C00407': '都道府県別、職種・性別（一般労働者）：超過実労働時間',
'C00507': '都道府県別、職種・性別（一般労働者）：きまって支給する現金給与額',####
'C006011': '都道府県別、職種・性別（一般労働者）：所定内給与額',####
'C007011': '都道府県別、職種・性別（一般労働者）：年間賞与その他特別給与額',###
}

# # 'データの種類'
kinds_of_data = {
    '平均年齢': 'C0010',
    '平均勤続年数': 'C0020',
    '所定内実労働時間': 'C0030',
    '超過実労働時間': 'C0040',
    'きまって支給する現金給与額': 'C0050',
    '所定内給与額': 'C0060',
    '年間賞与その他特別給与額': 'C0070',
    '労働者数': 'C0080',
    '実労働日数': 'C0090',
}

# 都道府県の情報
all_prefectures = {
    '北海道': 'I010110001',
    '青森': 'I010110002',
    '岩手': 'I010110003',
    '宮城': 'I010110004',
    '秋田': 'I010110005',
    '山形': 'I010110006',
    '福島': 'I010110007',
    '茨城': 'I010110008',
    '栃木': 'I010110009',
    '群馬': 'I010110010',
    '埼玉': 'I010110011',
    '千葉': 'I010110012',
    '東京': 'I010110013',
    '神奈川': 'I010110014',
    '新潟': 'I010110015',
    '富山': 'I010110016',
    '石川': 'I010110017',
    '福井': 'I010110018',
    '山梨': 'I010110019',
    '長野': 'I010110020',
    '岐阜': 'I010110021',
    '静岡': 'I010110022',
    '愛知': 'I010110023',
    '三重': 'I010110024',
    '滋賀': 'I010110025',
    '京都': 'I010110026',
    '大阪': 'I010110027',
    '兵庫': 'I010110028',
    '奈良': 'I010110029',
    '和歌山': 'I010110030',
    '鳥取': 'I010110031',
    '島根': 'I010110032',
    '岡山': 'I010110033',
    '広島': 'I010110034',
    '山口': 'I010110035',
    '徳島': 'I010110036',
    '香川': 'I010110037',
    '愛媛': 'I010110038',
    '高知': 'I010110039',
    '福岡': 'I010110040',
    '佐賀': 'I010110041',
    '長崎': 'I010110042',
    '熊本': 'I010110043',
    '大分': 'I010110044',
    '宮崎': 'I010110045',
    '鹿児島': 'I010110046',
    '沖縄': 'I010110047',
}

## データの種類　給料に関する
kinds_of_data_saraly = ['C0050', 'C0060', 'C0070']

## 主要分類事項
major_categories_salary = ['C00507', 'C006011','C007011']

## メモ
- 型が object であれば str でアクセスできる。
- float であれば astype(str))を噛ませて、文字として len() で文字数を数える
- loc で複数条件は () でくぎる
    - df.loc[(df["col1"] == 1) & (df["col2"] == 2), :]
- np.nan は挙動がよくわからない時がある。np.nan == セルの値 で挙動を確認する


In [44]:
salary_from_1981_to_2015 = csv_1400.loc[:, record_ad]
salary_from_1981_to_2015["補完"] = "0.0"

for column in record_ad:
    # ********* と Nan を補完した時の用のフラグ。
    salary_from_1981_to_2015.loc[salary_from_1981_to_2015[column].astype(str).str.len() == len('*********') | (salary_from_1981_to_2015[column] is np.nan) , "補完"]    = '1.0'

for column in record_ad:
    salary_from_1981_to_2015.loc[salary_from_1981_to_2015[column].astype(str).str.len() == len('*********') , column] = '0.0'

# nanに０を入れる
salary_from_1981_to_2015 = salary_from_1981_to_2015.fillna(0.0)

salary_from_1981_to_2015 = salary_from_1981_to_2015.astype(float)
# salary_from_1981_to_2015 = salary_from_1981_to_2015[record_ad].astype(float)
salary_from_1981_to_2015.head()


Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年,補完
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,32.5,38.7,31.8,32.9,38.5,35.4,39.8,42.0,35.1,1.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,28.7,42.2,38.1,47.7,40.1,44.0,41.6,39.1,38.2,1.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,44.9,35.0,34.4,26.9,46.4,42.4,38.6,46.8,43.9,1.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,36.2,34.0,37.3,32.9,44.1,40.8,38.3,28.0,45.6,1.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,38.5,36.2,0.0,39.0,35.1,31.5,0.0,41.0,41.9,1.0


In [45]:
# csv_1400 に代入
csv_1400[record_ad] = salary_from_1981_to_2015[record_ad]
csv_1400["補完"]    = 1.0
csv_1400["補完"]    = salary_from_1981_to_2015["補完"]

In [46]:
# 条件の分類
hokkaido = '北海道'
prefecture_key = all_prefectures[hokkaido]

In [47]:
# フィルター
# 主要分類事項
filter_avg_prefecture_csv_1400 = csv_1400[(csv_1400['都道府県'] == prefecture_key)]

filter_avg_prefecture_csv_1400 = filter_avg_prefecture_csv_1400[(csv_1400['主要分類事項']== major_categories_salary[0]) | (csv_1400['主要分類事項'] == major_categories_salary[1]) | (csv_1400['主要分類事項'] == major_categories_salary[2])]

# システムエンジニア・男
filter_avg_prefecture_csv_1400 = filter_avg_prefecture_csv_1400[filter_avg_prefecture_csv_1400["職種・性"] == "K020110002"]
# filter_avg_prefecture_csv_1400 = filter_avg_prefecture_csv_1400.groupby(['データの種類', '都道府県']).mean()

filter_avg_prefecture_csv_1400.head()

Unnamed: 0,通し番号,主要分類事項,データの種類,都道府県,職種・性,勤続年数階級,経験年数階級,1981年,1982年,1983年,...,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年,補完
45355,45356,C00507,C0050,I010110001,K020110002,,,0.0,0.0,191.1,...,329.9,342.9,325.6,349.2,341.2,339.9,304.1,328.3,339.6,1.0
56682,56683,C006011,C0060,I010110001,K020110002,,,0.0,0.0,178.7,...,294.9,298.4,312.5,303.2,300.8,317.5,280.2,282.9,316.6,1.0
68009,68010,C007011,C0070,I010110001,K020110002,,,0.0,0.0,558.0,...,1219.9,911.6,682.1,1003.5,775.0,799.9,916.7,655.5,586.3,1.0


# メモ
- 関数を apply ないで引数なしで呼び出すことができる。

In [48]:
# 年間の給料（残業代含む、月給×12ヶ月）, ボーナスは含まない
def get_a_year_salary(x):
    return x * 12

array_year_salary_not_include_bonus = filter_avg_prefecture_csv_1400.loc[filter_avg_prefecture_csv_1400["主要分類事項"] == major_categories_salary[0], record_ad].apply(get_a_year_salary, axis=1)
array_year_salary_not_include_bonus

Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2006年,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年
45355,0.0,0.0,2293.2,2769.6,2592.0,2973.6,3069.6,2942.4,3284.4,3340.8,...,4069.2,3958.8,4114.8,3907.2,4190.4,4094.4,4078.8,3649.2,3939.6,4075.2


In [49]:
# 年間の賞与 ボーナス
year_bonus = filter_avg_prefecture_csv_1400.loc[filter_avg_prefecture_csv_1400["主要分類事項"] == major_categories_salary[2], record_ad]
year_bonus

Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2006年,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年
68009,0.0,0.0,558.0,583.1,661.4,971.9,800.6,676.5,848.9,956.8,...,988.0,1219.9,911.6,682.1,1003.5,775.0,799.9,916.7,655.5,586.3


# メモ
- df の結合は pd.concat([df1, df2])

In [50]:
year_salary = pd.concat([year_bonus, array_year_salary_not_include_bonus])
aaa, bbb = year_salary.sum(axis = 0), year_salary.sum(axis = 0).values

# メモ
- dataframe の作成
- pd.Dataframe({"col1": 100, "col2": 200},{"col1": 100, "col2": 200} )
- pd.Dataframe({"col1": [1,2,3], "col2": [1,2,3]})
- 列だけあって、空のdataframe
    - pd.Dataframe(columns=["col1", "col2", ...]) 
- pd.Dataframe([[1, 2], [1, 2]], columns = ["col1", "col2"])

In [51]:
# dict の内包表記
# ['北海道']+ year_salary.sum(axis = 0).values
one_pre = year_salary.sum(axis = 0).values

dict_prefecture = {col: [cell] for col, cell in zip(record_ad, one_pre)}

print(len(one_pre), len(record_ad))

dict_prefecture["都道府県"] = '北海道'
print(dict_prefecture)

35 35
{'1981年': [0.0], '1982年': [0.0], '1983年': [2851.2], '1984年': [3352.7000000000003], '1985年': [3253.4], '1986年': [3945.5000000000005], '1987年': [3870.2000000000003], '1988年': [3618.8999999999996], '1989年': [4133.299999999999], '1990年': [4297.599999999999], '1991年': [5228.0], '1992年': [4274.099999999999], '1993年': [4298.900000000001], '1994年': [4484.4], '1995年': [4506.9], '1996年': [5213.4], '1997年': [5298.7], '1998年': [5036.6], '1999年': [5317.099999999999], '2000年': [5366.700000000001], '2001年': [5091.8], '2002年': [5355.0], '2003年': [5002.5], '2004年': [5407.299999999999], '2005年': [5159.4], '2006年': [5057.200000000001], '2007年': [5178.7], '2008年': [5026.4], '2009年': [4589.3], '2010年': [5193.9], '2011年': [4869.4], '2012年': [4878.7], '2013年': [4565.900000000001], '2014年': [4595.1], '2015年': [4661.5], '都道府県': '北海道'}


# メモ
- dataframe に append する場合は型を変える
- {"col1": [1]}　だと変な値になる

In [52]:
df_one_prefecture_saraly = pd.DataFrame(
    dict_prefecture
)
df_one_prefecture_saraly = df_one_prefecture_saraly.append(dict_prefecture, ignore_index=True)

df_one_prefecture_saraly

Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年,都道府県
0,0.0,0.0,2851.2,3352.7,3253.4,3945.5,3870.2,3618.9,4133.3,4297.6,...,5178.7,5026.4,4589.3,5193.9,4869.4,4878.7,4565.9,4595.1,4661.5,北海道
1,[0.0],[0.0],[2851.2],[3352.7000000000003],[3253.4],[3945.5000000000005],[3870.2000000000003],[3618.8999999999996],[4133.299999999999],[4297.599999999999],...,[5178.7],[5026.4],[4589.3],[5193.9],[4869.4],[4878.7],[4565.900000000001],[4595.1],[4661.5],北海道


# メモ
- このコード大事
- {1: val1, 2: val2, 3: val3}　の生成
- record_ad, one_pre が同じ数でないと漏れが生じる
- dict_prefecture_not_list = {col: cell for col, cell in zip(record_ad, one_pre)}


In [53]:
dict_prefecture_not_list = {col: cell for col, cell in zip(record_ad, one_pre)}

# dict 型のキーに 都道府県を追加
dict_prefecture_not_list["都道府県"] = "青森"

df_one_prefecture_saraly = df_one_prefecture_saraly.append(dict_prefecture_not_list, ignore_index=True)

df_one_prefecture_saraly

Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年,都道府県
0,0.0,0.0,2851.2,3352.7,3253.4,3945.5,3870.2,3618.9,4133.3,4297.6,...,5178.7,5026.4,4589.3,5193.9,4869.4,4878.7,4565.9,4595.1,4661.5,北海道
1,[0.0],[0.0],[2851.2],[3352.7000000000003],[3253.4],[3945.5000000000005],[3870.2000000000003],[3618.8999999999996],[4133.299999999999],[4297.599999999999],...,[5178.7],[5026.4],[4589.3],[5193.9],[4869.4],[4878.7],[4565.900000000001],[4595.1],[4661.5],北海道
2,0.0,0.0,2851.2,3352.7,3253.4,3945.5,3870.2,3618.9,4133.3,4297.6,...,5178.7,5026.4,4589.3,5193.9,4869.4,4878.7,4565.9,4595.1,4661.5,青森


# メモ
- 空のdataframe の作成

In [55]:
df_result = pd.DataFrame(
    # index=[],
    columns=record_ad+["都道府県"],
)
df_result

Unnamed: 0,1981年,1982年,1983年,1984年,1985年,1986年,1987年,1988年,1989年,1990年,...,2007年,2008年,2009年,2010年,2011年,2012年,2013年,2014年,2015年,都道府県
