# Import module

In [3]:
import pandas as pd
import jaconv
from bs4 import BeautifulSoup 
from urllib import request
from urllib.error import HTTPError
import matplotlib.pyplot as plt
import numpy as np
import pickle
import datetime

# Change fontype of pyplot
import matplotlib.font_manager
#print([f.name for f in matplotlib.font_manager.fontManager.ttflist])
plt.rcParams['font.family'] = 'MS Gothic'
# For mac use
#plt.rcParams['font.family'] = 'AppleGothic'

# If you want to downlod the most recent data then you should not skip this.
skip = 0

# Define urls

In [4]:
# url headers
url_head = "https://www5.cao.go.jp/keizai3/"
url_new = "https://www5.cao.go.jp/keizai3/watcher_index.html"
url_old = "https://www5.cao.go.jp/keizai3/kako_watcher.html"
url_old_2 = "https://www5.cao.go.jp/keizai3/kako_csv/kako2_watcher.html"
# 
kigou2value = {"◎":5,"○":4,"□":3,"▲":2,"×":1}

# Define functions

In [5]:
def get_all_url(target):
    '''
    Description:webページ内の全urlを取得する関数
    入力：各調査が一覧になったページ
    出力：各調査のcsvがあるurl一覧
    '''
    data = request.urlopen(target).read()
    soup = BeautifulSoup(data, 'html.parser')
    tmp_links = soup.find_all("a")
    link = []
    for a in tmp_links:
        try:
            if "/menu.html" in a.attrs['href']:
                
                if a.attrs['href'][0:4] < str(2010):
                    #print(a.attrs['href'][0:4])
                    pass
                else:
                    link.append(a.attrs['href'])
            elif ".csv" in a.attrs['href']:
                link.append(a.attrs['href'])
        except:
            pass
    return link


def extract_data(df_in):
    '''
    Description:各調査のcsvがあるurlからデータフレームを直接作る関数
    入力：各調査のcsvに直接アクセスできるurl
    出力：データフレーム
    '''  
    han_numbers = [str(_) for _ in range(10)]
    kigou_list = ["◎","○","□","▲","×"]
    region_list = ["北海道","東北","北関東","南関東","甲信越",
                   "東海","北陸","近畿","中国","四国","九州","沖縄"]
    
    place = 6
    sakiyuki = 0
    for l in range(len(df_in)):
        if ('景気の現状判断' in str(df_in.iloc[l,:])):
            place = l
            sakiyuki = 0
            break
            
        if ("景気の先行き判断" in str(df_in.iloc[l,:])):
            place = l
            sakiyuki = 1
            break
    
    col_names = df_in.iloc[place,:]
    use_col_names = dict()
    for l in range(len(col_names)):
        use_col_names.update({col_names[l]:l})
        
    out_data = []
    
    # Used to determine which regions
    region = ""

    # Loop through all records
    for i in range(len(df_in)):
        line = df_in.iloc[i,0]

        # Update line headers
        if line == line:
            new_region = 0
            for r in region_list:
                if r in line:
                    new_region = 1
                    break
                   
            if new_region == 1:
                region = r
        
        line = df_in.iloc[i,2]
        if line == line:
            for kigou in kigou_list:
                if kigou in line:
                    if sakiyuki == 0:
                    
                        if "判断の理由" in use_col_names:

                            out_data.append([region,
                                             df_in.iloc[i,use_col_names["景気の現状判断"]],
                                             df_in.iloc[i,use_col_names["業種・職種"]],
                                             df_in.iloc[i,use_col_names["判断の理由"]],
                                             df_in.iloc[i,use_col_names["追加説明及び具体的状況の説明"]]])
                        else:
                            out_data.append([region,
                                             df_in.iloc[i,use_col_names["景気の現状判断"]],
                                             df_in.iloc[i,use_col_names["業種・職種"]],
                                             "",
                                             df_in.iloc[i,use_col_names["追加説明及び具体的状況の説明"]]])
                            
                    else:
                        if "判断の理由" in use_col_names:

                            out_data.append([region,
                                             df_in.iloc[i,use_col_names["景気の先行き判断"]],
                                             df_in.iloc[i,use_col_names["業種・職種"]],
                                             df_in.iloc[i,use_col_names["判断の理由"]],
                                             df_in.iloc[i,use_col_names["景気の先行きに対する判断理由"]]])
                        else:
                            out_data.append([region,df_in.iloc[i,use_col_names["景気の先行き判断"]],
                                             df_in.iloc[i,use_col_names["業種・職種"]],
                                             "",
                                             df_in.iloc[i,use_col_names["景気の先行きに対する判断理由"]]])     
                        
    df_out = pd.DataFrame(out_data)
    df_out.columns = ["region","symbol","industry","topic","text"]
    
    return(df_out)

# Get urls

In [6]:
# retrieve all urls
all_urls = get_all_url(url_new)
all_urls.extend(get_all_url(url_old))
all_urls.extend(get_all_url(url_old_2))
all_urls.sort()

In [7]:
all_urls

['2010/0112watcher/menu.html',
 '2010/0208watcher/menu.html',
 '2010/0308watcher/menu.html',
 '2010/0408watcher/menu.html',
 '2010/0513watcher/menu.html',
 '2010/0608watcher/menu.html',
 '2010/0708watcher/menu.html',
 '2010/0809watcher/menu.html',
 '2010/0908watcher/menu.html',
 '2010/1008watcher/menu.html',
 '2010/1109watcher/menu.html',
 '2010/1208watcher/menu.html',
 '2011/0112watcher/menu.html',
 '2011/0208watcher/menu.html',
 '2011/0308watcher/menu.html',
 '2011/0408watcher/menu.html',
 '2011/0512watcher/menu.html',
 '2011/0608watcher/menu.html',
 '2011/0708watcher/menu.html',
 '2011/0808watcher/menu.html',
 '2011/0908watcher/menu.html',
 '2011/1011watcher/menu.html',
 '2011/1109watcher/menu.html',
 '2011/1208watcher/menu.html',
 '2012/0112watcher/menu.html',
 '2012/0208watcher/menu.html',
 '2012/0308watcher/menu.html',
 '2012/0409watcher/menu.html',
 '2012/0510watcher/menu.html',
 '2012/0608watcher/menu.html',
 '2012/0709watcher/menu.html',
 '2012/0808watcher/menu.html',
 '2012/0

# Get all data

In [8]:
%%time
if skip != 1:
    error_urls, list_dfs = [],[]
    #for i in range(-200,-201):
    for i in range(len(all_urls)):
        print(i)
        if ".csv" in all_urls[i]:
            date = str(1988 + int(all_urls[i][1:3])) +"_" +  str(all_urls[i][3:5]) + "_" +  "01"
            file_url = "https://www5.cao.go.jp/keizai3/kako_csv/" +  all_urls[i]
            try:
                df_tmp = pd.read_csv(file_url,encoding="cp932")
                df_out = extract_data(df_tmp)
                df_out["date"] = date
                if "watcher4" in all_urls[i]:
                    df_out["type"] = "now"
                else:
                    df_out["type"] = "future"
                list_dfs.append(df_out)

            except:
                error_urls.append(file_url)
    
        else:
        
            date = all_urls[i][0:4] +"_" +  all_urls[i][5:7] + "_" +  all_urls[i][7:9] 
            # 現状
            file_url = url_head + all_urls[i].strip("menu.html") + "watcher4.csv"
            try:
                df_tmp = pd.read_csv(file_url,encoding="cp932")
                df_out = extract_data(df_tmp)
                df_out["date"] = date
                df_out["type"] = "now"
                list_dfs.append(df_out)

            except:
                error_urls.append(file_url)
               
            


            # 先行き
            file_url = url_head + all_urls[i].strip("menu.html") + "watcher5.csv"

            try:
                df_tmp = pd.read_csv(file_url,encoding="cp932")
                df_out = extract_data(df_tmp)
                df_out["date"] = date
                df_out["type"] = "future"
                list_dfs.append(df_out)

            except:
                #print(file_url)
                error_urls.append(file_url)

            # 甲信越　現状
            file_url = url_head + all_urls[i].strip("menu.html") + "watcher6.csv"
            try:
                df_tmp = pd.read_csv(file_url,encoding="cp932")
                df_out = extract_data(df_tmp)
                df_out["date"] = date
                df_out["type"] = "now_koushin"
                list_dfs.append(df_out)

            except:
                error_urls.append(file_url)

            # 甲信越　先行き
            file_url = url_head + all_urls[i].strip("menu.html") + "watcher7.csv"
            try:
                df_tmp = pd.read_csv(file_url,encoding="cp932")
                df_out = extract_data(df_tmp)
                df_out["date"] = date
                df_out["type"] = "future_koushin"
                list_dfs.append(df_out)

            except:
                error_urls.append(file_url)

0
1


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


2


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


3


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


4


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


5


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


6


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


7


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


8


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


9


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


10


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


11


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


12


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


13


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


14


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


15


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


16


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


17


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


18


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


19


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


20


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


21


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


22


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


23


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


24


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


25


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


26


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


27


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


28


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


29


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


30


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


31


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


32


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


33


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


34


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


35


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


36


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


37


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


38


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


39


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


40


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


41


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


42


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


43


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


44


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


45


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


46


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


47


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


48


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


49


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


50


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


51


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


52


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


53


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


54


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


55


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


56


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


57


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


58


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


59


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


60


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


61


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


62


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


63


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


64


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


65


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


66


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


67


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


68


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


69


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


70


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


71


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


72


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


73


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


74


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


75


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


76


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


77


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


78


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


79


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


80


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


81


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


82


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


83


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


84


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


85


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


86


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


87


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


88


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


89


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


90


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


91


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


92


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


93


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


94


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


95


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


96


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


97


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


98


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


99


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


100


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


101


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


102


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


103


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


104


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


105


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


106


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


107


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


108


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


109


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


110


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


111


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


112


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


113


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


114


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


115


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


116


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


117


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


118


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


119


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


120


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


121


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


122


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


123


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


124


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


125


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


126


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


127


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


128


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


129


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


130


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


131


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


132


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


133


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


134


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


135


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


136


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


137


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


138


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


139


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


140


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


141


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


142


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


143


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


144


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


145


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


146


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


147


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


148


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


149


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


150


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


151


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


152


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


153


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


154


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


155


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


156


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


157


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


158


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


159


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


160


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


161


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


162


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


163


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


164


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


165


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


166


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


167


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


168


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


169
170


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


171
172
173
174


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


175
176
177
178
179
180
181


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


182
183
184


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


185
186
187


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


188
189
190


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


191
192
193


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


194
195
196


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


197
198
199


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


200
201
202


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


203
204
205


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


206
207
208


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


209
210
211


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


212
213
214


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


215
216
217


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


218
219


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


220
221


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


222
223


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


224
225


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


226
227


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


228
229


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


230
231


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


232
233


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


234
235


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


236
237


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


238
239


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


240
241


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


242
243


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


244
245


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


246
247


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


248
249


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


250
251


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


252
253


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


254
255


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


256
257


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


258
259


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


260
261


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


262
263


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


264
265


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


266
267


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


268
269


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


270
271


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


272
273


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


274
275


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


276
277


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


278
279


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


280
281


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


282
283


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


284
285


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


286
287


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


288
289


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


290
291


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


292
293


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


294
295


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


296
297


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


298
299


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


300
301


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


302
303


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


304
305


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


306
307


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


308
309


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


310
311


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


312
313


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


314
315


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


316
317


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


318
319


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


320
321


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


322
323


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


324
325


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


326
327


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


328
329


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


330
331


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


332
333


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


334
335


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


336
337


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


338
339


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


340
341


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


342
343


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


344
345


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


346
347


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


348
349


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


350
351


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


352
353


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


354
355


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


356
357


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


358
359


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


360
361


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


362
363


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


364
365


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


366
367


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


368
369


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


370
371


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


372
373


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


374
375


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


376
377


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


378
379


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


380
381


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


382
383


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


384
385


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


386
387


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


388
389


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


390
391


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


392
393


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


394
395


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


396
397


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


398
399


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


400
401


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


402
403


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


404
405


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


406
407


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


408
409


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


410
411


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


412
413


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


414
415


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


416
417


  use_col_names.update({col_names[l]:l})
  use_col_names.update({col_names[l]:l})


418
CPU times: user 39 s, sys: 1.99 s, total: 40.9 s
Wall time: 2min 23s


# Concatenate all together

In [9]:
if skip != 1:
    # concatenate
    df = pd.concat(list_dfs)

    # change symbols to values
    df["label"] = df["symbol"].map(kigou2value)

    # count type
    df["type"].value_counts()

# Save

In [10]:
if skip != 1:
    # save
    df.to_csv("SuperD_Class5_keiki.csv",index=False)

# Load

In [11]:
df["date"].value_counts()

date
2020_04_08    2948
2020_05_13    2941
2020_06_08    2898
2014_04_08    2891
2013_09_09    2877
              ... 
2000_05_01     220
2000_04_01     203
2000_02_01     201
2000_03_01     190
2000_01_01     145
Name: count, Length: 290, dtype: int64

In [12]:
# Load
df = pd.read_csv("SuperD_Class5_keiki.csv",low_memory=False)

# change to datetime format
df["date"] = pd.to_datetime(df["date"],format="%Y_%m_%d")

In [13]:
df

Unnamed: 0,region,symbol,industry,topic,text,date,type,label
0,北海道,◎,－,－,－,2010-02-08,now,5.0
1,北海道,○,商店街（代表者）,販売量の動き,・例年にないほど寒く、雪も多かったことから、防寒靴や手袋・マフラーなどの軽衣料などが良く売れ...,2010-02-08,now,4.0
2,北海道,○,百貨店（販売促進担当）,来客数の動き,・年末から来客数が微増で推移している。,2010-02-08,now,4.0
3,北海道,○,スーパー（店長）,販売量の動き,・３か月前と比較して販売量は減っているが、日曜が１日多かったこともあり、前年比は104.7％...,2010-02-08,now,4.0
4,北海道,○,旅行代理店（従業員）,来客数の動き,・１月半ばから来客数が増えてきている。ただ、低価格志向は相変わらずであり、売上が一気に好転す...,2010-02-08,now,4.0
...,...,...,...,...,...,...,...,...
656074,沖縄,○,＊,,＊,2009-12-01,future,4.0
656075,沖縄,□,求人情報誌製作会社（総務担当）,,・まだまだ景気回復の兆しが見られず、当面この状況が続く。,2009-12-01,future,3.0
656076,沖縄,▲,学校［専門学校］（就職担当）,,・県内外のほとんどの企業の求人数が減少している。理由として次年度の景気の先行きが「不透明」だ...,2009-12-01,future,2.0
656077,沖縄,▲,学校［大学］（就職担当）,,・県内企業の、採用を抑える方針は今後も続くと見込まれる。,2009-12-01,future,2.0
