# 実践データ加工/可視化
# #1  
[データの構成](#データの構成)  
[csvの読み込み](#csvの読み込み)  
[カラムの追加](#)  
[統計量の確認](#統計量の確認)  

## データの構成
![水準](image/0129.drawio.png)



## csvの読み込み

In [1]:
import pandas as pd
#csvの読み込み
# data = pd.read_csv("../input/1_data/22_shizuoka_all_20210331.csv")

文字コードのエラーが発生します。  
測定器や設備、ソフトによってその文字の表現方法が異なり、読み込み方を記載方法に合わせる必要があります。  
pandasでは指定がなければ`utf-8`を使用するので、ほかの文字コードの場合明示します。  
本来は文字コードに何が使われているか調べる必要があり、わからない場合は一つずつ`vscode`などで文字コードを試し、文字化けしないものを選択します。  

In [2]:
data = pd.read_csv("../input/1_data/22_shizuoka_all_20210331.csv", encoding='shift-jis')

In [3]:
#読み込んだdataの表示
data.head()

Unnamed: 0,1,1000013040008,01,1.1,2018-04-02,2015-10-05,静岡家庭裁判所,Unnamed: 7,101,静岡県,...,Unnamed: 20,Unnamed: 21,2015-10-05.1,1.2,Shizuoka Family Court,Shizuoka,"1-20, Jonaicho, Aoi ku, Shizuoka shi",Unnamed: 27,シズオカカテイサイバンショ,0
0,2,1000013050072,1,1,2018-04-02,2015-10-05,清水簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Shimizu Summary Court,Shizuoka,"1-6-15, Tenjin, Shimizu ku, Shizuoka shi",,シミズカンイサイバンショ,0
1,3,1000013050080,1,1,2018-04-02,2015-10-05,浜松簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Hamamatsu Summary Court,Shizuoka,"1-12-5, Chuo, Naka ku, Hamamatsu shi",,ハママツカンイサイバンショ,0
2,4,1000020222119,1,1,2018-04-05,2015-10-05,磐田市,,201,静岡県,...,,,2015-10-05,1,Iwata City,Shizuoka,"3-1,Kounodai, Iwata shi",,イワタシ,0
3,5,1000020222127,1,1,2018-04-05,2015-10-05,焼津市,,201,静岡県,...,,,2015-10-05,1,Yaizu city,Shizuoka,"2-16-32 Honmachi, Yaizu shi",,ヤイヅシ,0
4,6,1000020222135,1,1,2020-09-29,2015-10-05,掛川市,,201,静岡県,...,,,2015-10-05,1,Kakegawa City,Shizuoka,"1-1-1 Nagaya, Kakegawa shi",,カケガワシ,0


このcsvはカラムがないデータでした。  
1行目をカラムとして認識してしまっているので、再度読み込みなおして行きましょう。

In [4]:
#データ数を数える
len(data)

114612

In [5]:
#明示的にヘッダー(カラム)がないことを記す。
data = pd.read_csv("../input/1_data/22_shizuoka_all_20210331.csv", encoding='shift-jis', header=None)

In [6]:
data.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,1,1000013040008,1,1,2018-04-02,2015-10-05,静岡家庭裁判所,,101,静岡県,...,,,2015-10-05,1,Shizuoka Family Court,Shizuoka,"1-20, Jonaicho, Aoi ku, Shizuoka shi",,シズオカカテイサイバンショ,0
1,2,1000013050072,1,1,2018-04-02,2015-10-05,清水簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Shimizu Summary Court,Shizuoka,"1-6-15, Tenjin, Shimizu ku, Shizuoka shi",,シミズカンイサイバンショ,0
2,3,1000013050080,1,1,2018-04-02,2015-10-05,浜松簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Hamamatsu Summary Court,Shizuoka,"1-12-5, Chuo, Naka ku, Hamamatsu shi",,ハママツカンイサイバンショ,0


In [7]:
len(data)

114613

1行目のデータがカラムからデータになったことで1データ増えました。  
ここでカラムにはどのようなものが格納されているか確認します。

In [8]:
data.columns

Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
      dtype='int64')

In [9]:
len(data.columns)

30

行数が30なので、カラム数も30ですね。  
現在カラムがないので0から順に数字で保管されています。

In [10]:
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,1,1000013040008,1,1,2018-04-02,2015-10-05,静岡家庭裁判所,,101,静岡県,...,,,2015-10-05,1,Shizuoka Family Court,Shizuoka,"1-20, Jonaicho, Aoi ku, Shizuoka shi",,シズオカカテイサイバンショ,0
1,2,1000013050072,1,1,2018-04-02,2015-10-05,清水簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Shimizu Summary Court,Shizuoka,"1-6-15, Tenjin, Shimizu ku, Shizuoka shi",,シミズカンイサイバンショ,0
2,3,1000013050080,1,1,2018-04-02,2015-10-05,浜松簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Hamamatsu Summary Court,Shizuoka,"1-12-5, Chuo, Naka ku, Hamamatsu shi",,ハママツカンイサイバンショ,0
3,4,1000020222119,1,1,2018-04-05,2015-10-05,磐田市,,201,静岡県,...,,,2015-10-05,1,Iwata City,Shizuoka,"3-1,Kounodai, Iwata shi",,イワタシ,0
4,5,1000020222127,1,1,2018-04-05,2015-10-05,焼津市,,201,静岡県,...,,,2015-10-05,1,Yaizu city,Shizuoka,"2-16-32 Honmachi, Yaizu shi",,ヤイヅシ,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114608,114609,9700150095744,1,0,2019-09-27,2019-08-22,久根共有財産管理委員会,,499,静岡県,...,,,2019-08-22,1,,,,,クネキヨウユウザイサンカンリイインカイ,0
114609,114610,9700150097253,1,0,2020-01-24,2019-12-26,静岡小児感染症研究会,,499,静岡県,...,,,2019-12-26,1,,,,,シズオカシヨウニカンセンシヨウケンキユウカイ,0
114610,114611,9700150099530,1,0,2020-07-13,2020-06-23,北方領土返還要求静岡県民会議,,499,静岡県,...,,,2020-06-23,1,,,,,ホツポウリヨウドヘンカンヨウキユウシズオカケンミンカイギ,0
114611,114612,9700150099852,1,0,2020-08-20,2020-07-22,両河内児童クラブ,,499,静岡県,...,,,2020-07-22,1,,,,,リヨウゴウチジドウクラブ,0


ここではデータの中身がどのような形式で格納されているか確認しています。  
手打ちのデータなどでよく発生する
>・数字だけど全角で入力してしまって文字扱い  
>・数字だけど誤字、スペースが入り文字扱い  

などトラブルがよくあるので、意図した形式になっているか確認します。

In [11]:
data.dtypes

0       int64
1       int64
2       int64
3       int64
4      object
5      object
6      object
7     float64
8       int64
9      object
10     object
11     object
12    float64
13      int64
14      int64
15    float64
16    float64
17    float64
18     object
19    float64
20    float64
21     object
22     object
23      int64
24     object
25     object
26     object
27    float64
28     object
29      int64
dtype: object

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 114613 entries, 0 to 114612
Data columns (total 30 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   0       114613 non-null  int64  
 1   1       114613 non-null  int64  
 2   2       114613 non-null  int64  
 3   3       114613 non-null  int64  
 4   4       114613 non-null  object 
 5   5       114613 non-null  object 
 6   6       114613 non-null  object 
 7   7       1243 non-null    float64
 8   8       114613 non-null  int64  
 9   9       114613 non-null  object 
 10  10      114613 non-null  object 
 11  11      114596 non-null  object 
 12  12      1195 non-null    float64
 13  13      114613 non-null  int64  
 14  14      114613 non-null  int64  
 15  15      114440 non-null  float64
 16  16      0 non-null       float64
 17  17      0 non-null       float64
 18  18      10077 non-null   object 
 19  19      10077 non-null   float64
 20  20      666 non-null     float64
 21  21      11

本演習では数字も連続値としてではなくラベルとして扱うので文字として認識させなおします。

In [13]:
data = pd.read_csv("../input/1_data/22_shizuoka_all_20210331.csv", encoding='shift-jis',header=None,dtype=object)

In [14]:
data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,1,1000013040008,1,1,2018-04-02,2015-10-05,静岡家庭裁判所,,101,静岡県,...,,,2015-10-05,1,Shizuoka Family Court,Shizuoka,"1-20, Jonaicho, Aoi ku, Shizuoka shi",,シズオカカテイサイバンショ,0
1,2,1000013050072,1,1,2018-04-02,2015-10-05,清水簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Shimizu Summary Court,Shizuoka,"1-6-15, Tenjin, Shimizu ku, Shizuoka shi",,シミズカンイサイバンショ,0
2,3,1000013050080,1,1,2018-04-02,2015-10-05,浜松簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Hamamatsu Summary Court,Shizuoka,"1-12-5, Chuo, Naka ku, Hamamatsu shi",,ハママツカンイサイバンショ,0
3,4,1000020222119,1,1,2018-04-05,2015-10-05,磐田市,,201,静岡県,...,,,2015-10-05,1,Iwata City,Shizuoka,"3-1,Kounodai, Iwata shi",,イワタシ,0
4,5,1000020222127,1,1,2018-04-05,2015-10-05,焼津市,,201,静岡県,...,,,2015-10-05,1,Yaizu city,Shizuoka,"2-16-32 Honmachi, Yaizu shi",,ヤイヅシ,0


In [15]:
data.dtypes

0     object
1     object
2     object
3     object
4     object
5     object
6     object
7     object
8     object
9     object
10    object
11    object
12    object
13    object
14    object
15    object
16    object
17    object
18    object
19    object
20    object
21    object
22    object
23    object
24    object
25    object
26    object
27    object
28    object
29    object
dtype: object

見た目は変わりませんが、データの型は変わっていますね。

## カラムの追加
本演習ではカラムが別データになっています。    
分ける理由は様々です。
>・配布先が様々で配布先によってカラム言語を変えたい。  
>・処理するときと人に見せる時でカラム名を変えたい。

といった意図があります。  
今回の場合はデータを見るに前者のようです。

In [16]:
mst = pd.read_csv("../input/1_data/mst_column_name.txt",encoding = 'shift-jis')

mst.head()

Unnamed: 0,column_id\tcolumn_name_ja\tcolumn_name_en
0,1\t一連番号\tsequenceNumber
1,2\t法人番号\tcorporateNumber
2,3\t処理区分\tprocess
3,4\t訂正区分\tcorrect
4,5\t更新年月日\tupdateDate


データ取得したソフトの特性か区切りが'\t'のようです。  
区切りとして認識できていないので読み込みなおしましょう。

In [17]:
mst = pd.read_csv("../input/1_data/mst_column_name.txt",encoding = 'shift-jis', sep='\t')
mst.head()

Unnamed: 0,column_id,column_name_ja,column_name_en
0,1,一連番号,sequenceNumber
1,2,法人番号,corporateNumber
2,3,処理区分,process
3,4,訂正区分,correct
4,5,更新年月日,updateDate


データ数を確かめ、元データとカラム数が一致するか確認しましょう

In [18]:
len(mst)

30

In [19]:
len(mst) == len(data.columns)

True

問題ないことが確認できたので、元データのカラムに代入します。  
まずは英語のカラム名だけを取り出しましょう。

In [20]:
columns = mst.column_name_en.values

In [21]:
columns

array(['sequenceNumber', 'corporateNumber', 'process', 'correct',
       'updateDate', 'changeDate', 'name', 'nameImageId', 'kind',
       'prefectureName', 'cityName', 'streetNumber', 'addressImageId',
       'prefectureCode', 'cityCode', 'postCode', 'addressOutside',
       'addressOutsideImageId', 'closeDate', 'closeCause',
       'successorCorporateNumber', 'changeCause', 'assignmentDate',
       'latest', 'enName', 'enPrefectureName', 'enCityName',
       'enAddressOutside', 'furigana', 'hihyoji'], dtype=object)

ここで元データのカラムに抽出した`columns`を代入します。

In [22]:
data.columns = columns

In [23]:
data.head(15)

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
0,1,1000013040008,1,1,2018-04-02,2015-10-05,静岡家庭裁判所,,101,静岡県,...,,,2015-10-05,1,Shizuoka Family Court,Shizuoka,"1-20, Jonaicho, Aoi ku, Shizuoka shi",,シズオカカテイサイバンショ,0
1,2,1000013050072,1,1,2018-04-02,2015-10-05,清水簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Shimizu Summary Court,Shizuoka,"1-6-15, Tenjin, Shimizu ku, Shizuoka shi",,シミズカンイサイバンショ,0
2,3,1000013050080,1,1,2018-04-02,2015-10-05,浜松簡易裁判所,,101,静岡県,...,,,2015-10-05,1,Hamamatsu Summary Court,Shizuoka,"1-12-5, Chuo, Naka ku, Hamamatsu shi",,ハママツカンイサイバンショ,0
3,4,1000020222119,1,1,2018-04-05,2015-10-05,磐田市,,201,静岡県,...,,,2015-10-05,1,Iwata City,Shizuoka,"3-1,Kounodai, Iwata shi",,イワタシ,0
4,5,1000020222127,1,1,2018-04-05,2015-10-05,焼津市,,201,静岡県,...,,,2015-10-05,1,Yaizu city,Shizuoka,"2-16-32 Honmachi, Yaizu shi",,ヤイヅシ,0
5,6,1000020222135,1,1,2020-09-29,2015-10-05,掛川市,,201,静岡県,...,,,2015-10-05,1,Kakegawa City,Shizuoka,"1-1-1 Nagaya, Kakegawa shi",,カケガワシ,0
6,7,1000020222143,1,1,2018-04-05,2015-10-05,藤枝市,,201,静岡県,...,,,2015-10-05,1,Fujieda City,Shizuoka,"1-11-1,Okadeyama, Fujieda shi",,フジエダシ,0
7,8,1000020222151,1,1,2018-04-05,2015-10-05,御殿場市,,201,静岡県,...,,,2015-10-05,1,Gotemba City,Shizuoka,"483,Hagiwara, Gotemba shi",,ゴテンバシ,0
8,9,1000020222259,1,1,2018-04-05,2015-10-05,伊豆の国市,,201,静岡県,...,,,2015-10-05,1,Izunokuni shi,Shizuoka,"Nagaoka340-1, Izunokuni shi",,イズノクニシ,0
9,10,1000020222267,1,1,2020-09-29,2015-10-05,牧之原市,,201,静岡県,...,,,2015-10-05,1,Makinohara City,Shizuoka,"447-1 Shizunami, Makinohara City",,マキノハラシ,0


カラムが置き換わりました。

## 統計量の確認
今回はすべて`object`なので数値的統計量は少ないですが、普段であれば最大値や平均などの統計量を一括で調べることができます。  
またデータ処理及び機械学習では欠損値の扱いが重要です。  
確認しましょう。

In [24]:
data.describe()

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
count,114613,114613,114613,114613,114613,114613,114613,1243,114613,114613,...,666,1111,114613,114613,232,230,230,0.0,46620,114613
unique,114613,114613,6,2,1316,1344,105857,1243,9,1,...,572,1051,1328,1,231,1,129,0.0,41339,2
top,114613,9700150101659,1,0,2015-11-13,2015-10-05,八幡神社,80249,301,静岡県,...,8080001004480,平成２９年１２月１日静岡市駿河区富士見台一丁目２１番２２号富士見工業株式会社（8080001...,2015-10-05,1,Kamiide financial ward,Shizuoka,"1-1-1 Nagaya, Kakegawa shi",,ハチマングウ,0
freq,1,1,94126,80704,55969,83291,171,1,51229,114613,...,12,12,101316,114613,2,230,10,,30,114388


In [25]:
data.isna()

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
0,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,False,False,False,True,False,False
1,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,False,False,False,True,False,False
2,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,False,False,False,True,False,False
4,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114608,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,True,True,True,True,False,False
114609,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,True,True,True,True,False,False
114610,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,True,True,True,True,False,False
114611,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,True,True,True,True,False,False


In [26]:
data.isna().sum()

sequenceNumber                   0
corporateNumber                  0
process                          0
correct                          0
updateDate                       0
changeDate                       0
name                             0
nameImageId                 113370
kind                             0
prefectureName                   0
cityName                         0
streetNumber                    17
addressImageId              113418
prefectureCode                   0
cityCode                         0
postCode                       173
addressOutside              114613
addressOutsideImageId       114613
closeDate                   104536
closeCause                  104536
successorCorporateNumber    113947
changeCause                 113502
assignmentDate                   0
latest                           0
enName                      114381
enPrefectureName            114383
enCityName                  114383
enAddressOutside            114613
furigana            

# #2
## データの補完
## データの構成
![水準](image/0206.drawio.png)
#1で処理していた`22_shizuoka_all_20210331.csv`は、最新バージョンではなく、そのあとに更新データがあります。  


In [27]:
import os
os.listdir("../input/1_data/")

['22_shizuoka_all_20210331.csv',
 'diff_20210401.csv',
 'diff_20210405.csv',
 'diff_20210406.csv',
 'diff_20210407.csv',
 'diff_20210408.csv',
 'diff_20210409.csv',
 'mst_closeCause.csv',
 'mst_column_name.txt',
 'mst_corp_kind.csv',
 'mst_correct_kbn.csv',
 'mst_hihyoji.csv',
 'mst_latest.csv',
 'mst_process_kbn.csv']

ここでは更新データとして`diff_*****.csv`が差分として用意されています。  
本講ではこの差分データを`22_shizuoka_all_20210331.csv`に付け足すことで、データすべてを一つのデータとして扱えるようにしましょう

In [28]:
from glob import glob
diff_files = glob('../input/1_data/diff*.csv')
diff_files

['../input/1_data\\diff_20210401.csv',
 '../input/1_data\\diff_20210405.csv',
 '../input/1_data\\diff_20210406.csv',
 '../input/1_data\\diff_20210407.csv',
 '../input/1_data\\diff_20210408.csv',
 '../input/1_data\\diff_20210409.csv']

`globe`ではある形式に当てはまるものを取得していくライブラリになります。  
ここでは`1_data`の中にある`diff`ではじまり、`.csv`で終わるものを取得するように記述しています。  
リストの形式で格納されているので、その中の何番目に入っているのかを指定することで内容物を確認できます。

In [29]:
print(diff_files[0])
print(diff_files[5])

../input/1_data\diff_20210401.csv
../input/1_data\diff_20210409.csv


ファイル名の順番に並べ替えをし、その1番目（0から数え始めます）を`diff`に格納してみましょう

In [30]:
diff_files.sort()
diff = pd.read_csv(diff_files[0],encoding='shift-jis',header=None,dtype=object)
# len(diff)
print(len(diff))
diff.head(3)

2316


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,1,1010001016019,71,0,2021-04-01,2021-03-01,株式会社国際漢方研究所,,301,東京都,...,,令和３年３月１日東京都渋谷区千駄ヶ谷五丁目２９番１１号ナカニシビル６０２号室株式会社Ｉｎｔｅ...,2015-10-05,1,,,,,コクサイカンポウケンキュウショ,0
1,2,1010001092869,1,1,2021-04-01,2020-06-11,あさひ銀リテールファイナンス株式会社,,301,東京都,...,,,2020-06-11,0,,,,,アサヒギンリテールファイナンス,0
2,3,1010001092869,21,0,2021-04-01,2021-03-22,あさひ銀リテールファイナンス株式会社,,301,東京都,...,,,2020-06-11,1,,,,,アサヒギンリテールファイナンス,0


`diff`もheaderのないデータとなるので、#1同様にカラム名を挿入しましょう

In [31]:
diff.columns = columns

In [32]:
diff.head(4)

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
0,1,1010001016019,71,0,2021-04-01,2021-03-01,株式会社国際漢方研究所,,301,東京都,...,,令和３年３月１日東京都渋谷区千駄ヶ谷五丁目２９番１１号ナカニシビル６０２号室株式会社Ｉｎｔｅ...,2015-10-05,1,,,,,コクサイカンポウケンキュウショ,0
1,2,1010001092869,1,1,2021-04-01,2020-06-11,あさひ銀リテールファイナンス株式会社,,301,東京都,...,,,2020-06-11,0,,,,,アサヒギンリテールファイナンス,0
2,3,1010001092869,21,0,2021-04-01,2021-03-22,あさひ銀リテールファイナンス株式会社,,301,東京都,...,,,2020-06-11,1,,,,,アサヒギンリテールファイナンス,0
3,4,1010001128061,1,1,2021-04-01,2015-10-05,日本アイ・ビー・エム株式会社,,301,東京都,...,,,2015-10-05,0,,,,,ニホンアイビーエム,0


本講では静岡県に着目しているのに対し、`diff`には静岡県以外が混じっていますね。  
静岡のみ抽出しましょう。

In [33]:
diff = diff.loc[diff['prefectureName']=='静岡県']
print(len(diff))
diff.tail(3)

43


Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
2159,2160,9080401024929,1,0,2021-04-01,2021-04-01,株式会社リガーレ,,301,静岡県,...,,,2021-04-01,1,,,,,リガーレ,0
2160,2161,9080402007726,1,1,2021-04-01,2015-10-05,有限会社丸信商店,,302,静岡県,...,,,2015-10-05,1,,,,,マルシンショウテン,0
2161,2162,9080402021917,21,0,2021-04-01,2021-03-30,有限会社岡本商会,,302,静岡県,...,,,2015-10-05,1,,,,,オカモトショウカイ,0


無事静岡のみを抽出できたので、元データに付け足しましょう。  
この時、おおもとのデータ`data`に最初から作業をかけると、誤った処理を上書きしまい、1からやり直しになる可能性があるので、  
安全をみて、一度コピーをとってそこで練習をしましょう。  
ここでは`data`を新しく`data_test`に格納し、`data_test`にて試してみましょう。

In [34]:
data_test =data
print(len(data_test))
print((len(data_test))==(len(data)))
print(len(diff))
data_test = pd.concat([data_test, diff], ignore_index=True)
print(len(data_test))
data_test.tail(3)


114613
True
43
114656


Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
114653,2160,9080401024929,1,0,2021-04-01,2021-04-01,株式会社リガーレ,,301,静岡県,...,,,2021-04-01,1,,,,,リガーレ,0
114654,2161,9080402007726,1,1,2021-04-01,2015-10-05,有限会社丸信商店,,302,静岡県,...,,,2015-10-05,1,,,,,マルシンショウテン,0
114655,2162,9080402021917,21,0,2021-04-01,2021-03-30,有限会社岡本商会,,302,静岡県,...,,,2015-10-05,1,,,,,オカモトショウカイ,0


`diff`のデータ行数分、付け足した`data_test`の行数が増えているのがわかりますね！

# #3

In [35]:
diff_files

['../input/1_data\\diff_20210401.csv',
 '../input/1_data\\diff_20210405.csv',
 '../input/1_data\\diff_20210406.csv',
 '../input/1_data\\diff_20210407.csv',
 '../input/1_data\\diff_20210408.csv',
 '../input/1_data\\diff_20210409.csv']

In [36]:
'''
for f in diff_files:
    diff = pd.read_csv(f, encoding='shift-jis', header=None, dtype=object)
    diff.columns = columns
    diff = diff.loc[diff['prefectureName']=='静岡県']
    data = data.append(diff)
    
data
'''

"\nfor f in diff_files:\n    diff = pd.read_csv(f, encoding='shift-jis', header=None, dtype=object)\n    diff.columns = columns\n    diff = diff.loc[diff['prefectureName']=='静岡県']\n    data = data.append(diff)\n    \ndata\n"

In [37]:
diff_list = []

for f in diff_files:
    # CSVファイルを読み込む
    diff = pd.read_csv(f, encoding='shift-jis', header=None, dtype=object)
    diff.columns = columns
    
    # '静岡県' の行をフィルタリング
    diff_filtered = diff.loc[diff['prefectureName'] == '静岡県']
    
    # フィルタリングされたデータフレームをリストに追加
    diff_list.append(diff_filtered)

# リスト内のすべてのデータフレームを縦方向に結合
data = pd.concat(diff_list, ignore_index=True)

# 結果を表示（オプション）
print(data)

    sequenceNumber corporateNumber process correct  updateDate  changeDate  \
0              108   1080001015906      01       1  2021-04-01  2015-10-05   
1              109   1080001015906      12       1  2021-04-01  2021-03-30   
2              110   1080002015434      01       1  2021-04-01  2015-10-05   
3              111   1080105005588      12       0  2021-04-01  2021-03-25   
4              112   1080401024928      01       0  2021-04-01  2021-04-01   
..             ...             ...     ...     ...         ...         ...   
402           3195   9080001021673      01       1  2021-04-09  2017-07-07   
403           3196   9080101022431      01       0  2021-04-09  2021-04-09   
404           3197   9080102008933      01       1  2021-04-09  2015-10-05   
405           3198   9080402002859      21       0  2021-04-09  2021-04-01   
406           3199   9080402015836      12       0  2021-04-09  2021-04-01   

                       name nameImageId kind prefectureName  ..

In [38]:
for f in diff_files:
    diff = pd.read_csv(f,encoding='shift-jis',header=None,dtype=object)
    diff.columns = columns

In [39]:
data.describe()

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
count,407,407,407,407,407,407,407,3,407,407,...,12,19,407,407,1,1,1,0.0,398,407
unique,386,370,5,2,6,36,373,3,6,1,...,9,16,41,2,1,1,1,0.0,365,1
top,3032,7080402010509,1,0,2021-04-06,2015-10-05,合同会社たまちゃんちの手,122594,301,静岡県,...,1080001012804,令和３年４月１日静岡市駿河区八幡五丁目１６番３号富士テクノロジー株式会社（108000101...,2015-10-05,1,"FSP Co.,Ltd.",Shizuoka,"446-3,Kamizawa, Kannami cho Tagata gun",,アンフィニホームズファイナンシャルトラスト,0
freq,3,4,272,245,94,120,3,1,245,407,...,2,2,230,372,1,1,1,,3,407


In [40]:
print(data[data["corporateNumber"].duplicated()])

    sequenceNumber corporateNumber process correct  updateDate  changeDate  \
1              109   1080001015906      12       1  2021-04-01  2021-03-30   
10             332   2080401020653      71       1  2021-04-01  2021-03-02   
74            1707   6080001007576      12       1  2021-04-05  2016-01-04   
75            1708   6080001007576      12       1  2021-04-05  2021-04-01   
89            2030   7080001019959      12       1  2021-04-05  2021-04-01   
107           2731   9080101019155      12       1  2021-04-05  2021-03-30   
129            893   3080003001885      01       1  2021-04-06  2016-07-25   
130            894   3080003001885      12       1  2021-04-06  2021-03-31   
162           1981   6080002011247      12       1  2021-04-06  2021-04-01   
194           3036   9080401016199      12       1  2021-04-06  2016-12-01   
200           3042   9080402000912      21       0  2021-04-06  2021-03-31   
214            593   2080101005681      12       1  2021-04-07  

In [42]:
data.drop_duplicates(subset='corporateNumber',keep='last',inplace=True)

In [43]:
data.describe()

Unnamed: 0,sequenceNumber,corporateNumber,process,correct,updateDate,changeDate,name,nameImageId,kind,prefectureName,...,successorCorporateNumber,changeCause,assignmentDate,latest,enName,enPrefectureName,enCityName,enAddressOutside,furigana,hihyoji
count,370,370,370,370,370,370,370,3,370,370,...,12,19,370,370,1,1,1,0.0,366,370
unique,354,370,5,2,6,30,369,3,6,1,...,9,16,41,2,1,1,1,0.0,363,1
top,3032,9080402015836,1,0,2021-04-06,2015-10-05,有限会社アクティ,122594,301,静岡県,...,1080001012804,令和３年４月１日静岡市駿河区八幡五丁目１６番３号富士テクノロジー株式会社（108000101...,2015-10-05,1,"FSP Co.,Ltd.",Shizuoka,"446-3,Kamizawa, Kannami cho Tagata gun",,アクティ,0
freq,3,1,245,239,89,95,2,1,221,370,...,2,2,196,369,1,1,1,,2,370


In [44]:
data.isna().sum()

sequenceNumber                0
corporateNumber               0
process                       0
correct                       0
updateDate                    0
changeDate                    0
name                          0
nameImageId                 367
kind                          0
prefectureName                0
cityName                      0
streetNumber                  0
addressImageId              367
prefectureCode                0
cityCode                      0
postCode                      0
addressOutside              370
addressOutsideImageId       370
closeDate                   339
closeCause                  339
successorCorporateNumber    358
changeCause                 351
assignmentDate                0
latest                        0
enName                      369
enPrefectureName            369
enCityName                  369
enAddressOutside            370
furigana                      4
hihyoji                       0
dtype: int64

## データの結合方法
### 1. `how='left'`（左外部結合）

- **定義**: 左側のデータフレーム（`data.merge`の場合は`data`）のすべての行を保持し、右側のデータフレーム（`mst_process_kbn`）と一致する行のみ結合します。一致しない場合、右側の列は`NaN`で埋められます。

- **用途**: 左側のデータフレームのすべての情報を保持しつつ、必要な情報を追加したい場合に使用します。

- **例**:
  ```python
  merged_data = data.merge(mst_process_kbn, on='process', how='left')
  ```
  
**`data` データフレーム:**

| process | value_data |
|---------|------------|
| A       | 10         |
| B       | 20         |
| C       | 30         |

**`mst_process_kbn` データフレーム:**

| process | category |
|---------|----------|
| A       | X        |
| B       | Y        |
| D       | Z        |

- **左外部結合 (`how='left'`) の結果:**

| process | value_data | category |
|---------|------------|----------|
| A       | 10         | X        |
| B       | 20         | Y        |
| C       | 30         | NaN      |

### 2. `how='right'`（右外部結合）

- **定義**: 右側のデータフレーム（`mst_process_kbn`）のすべての行を保持し、左側のデータフレーム（`data`）と一致する行のみ結合します。一致しない場合、左側の列は`NaN`で埋められます。

- **用途**: 右側のデータフレームのすべての情報を保持しつつ、必要な情報を追加したい場合に使用します。

- **例**:
  ```python
  merged_data = data.merge(mst_process_kbn, on='process', how='right')
  ```
**`data` データフレーム:**

| process | value_data |
|---------|------------|
| A       | 10         |
| B       | 20         |
| C       | 30         |

**`mst_process_kbn` データフレーム:**

| process | category |
|---------|----------|
| A       | X        |
| B       | Y        |
| D       | Z        |

- **右外部結合 (`how='right'`) の結果:**

| process | value_data | category |
|---------|------------|----------|
| A       | 10         | X        |
| B       | 20         | Y        |
| D       | NaN        | Z        |

### 3. `how='inner'`（内部結合）

- **定義**: 両方のデータフレームでキーが一致する行のみを結合します。結果にはキーが一致した行だけが含まれます。

- **用途**: 両方のデータフレームに共通する情報のみを取得したい場合に使用します。

- **例**:
  ```python
  merged_data = data.merge(mst_process_kbn, on='process', how='inner')
  ```
**`data` データフレーム:**

| process | value_data |
|---------|------------|
| A       | 10         |
| B       | 20         |
| C       | 30         |

**`mst_process_kbn` データフレーム:**

| process | category |
|---------|----------|
| A       | X        |
| B       | Y        |
| D       | Z        |

- **内部結合 (`how='inner'`) の結果:**

| process | value_data | category |
|---------|------------|----------|
| A       | 10         | X        |
| B       | 20         | Y        |


### 4. `how='outer'`（完全外部結合）

- **定義**: 両方のデータフレームのすべての行を保持し、キーが一致しない場合は対応する列が`NaN`で埋められます。

- **用途**: 両方のデータフレームのすべての情報を保持したい場合に使用します。

- **例**:
  ```python
  merged_data = data.merge(mst_process_kbn, on='process', how='outer')
  ```

**`data` データフレーム:**

| process | value_data |
|---------|------------|
| A       | 10         |
| B       | 20         |
| C       | 30         |

**`mst_process_kbn` データフレーム:**

| process | category |
|---------|----------|
| A       | X        |
| B       | Y        |
| D       | Z        |

**完全外部結合 (`how='outer'`) の結果:**

| process | value_data | category |
|---------|------------|----------|
| A       | 10         | X        |
| B       | 20         | Y        |
| C       | 30         | NaN      |
| D       | NaN        | Z        |

### 結合キーについて

`on='process'`は、結合の基準となる共通の列（キー）を指定しています。両方のデータフレームに`'process'`という列が存在し、この列の値を基に結合が行われます。



- **`left`**: 左側のデータフレームのすべての行を保持。
- **`right`**: 右側のデータフレームのすべての行を保持。
- **`inner`**: 両方のデータフレームで共通する行のみを保持。
- **`outer`**: 両方のデータフレームのすべての行を保持。


In [46]:
os.listdir('../input/1_data')

['22_shizuoka_all_20210331.csv',
 'diff_20210401.csv',
 'diff_20210405.csv',
 'diff_20210406.csv',
 'diff_20210407.csv',
 'diff_20210408.csv',
 'diff_20210409.csv',
 'mst_closeCause.csv',
 'mst_column_name.txt',
 'mst_corp_kind.csv',
 'mst_correct_kbn.csv',
 'mst_hihyoji.csv',
 'mst_latest.csv',
 'mst_process_kbn.csv']

In [47]:
mst_process_kbn = pd.read_csv('../input/1_data/mst_process_kbn.csv',dtype=object)
mst_process_kbn

Unnamed: 0,process,process_kbn_name
0,1,新規
1,11,商号又は名称の変更
2,12,国内所在地の変更
3,13,国外所在地の変更
4,21,登記記録の閉鎖等
5,22,登記記録の復活等
6,71,吸収合併
7,72,吸収合併無効
8,81,商号の登記の抹消
9,99,削除


In [None]:
# data = data.merge(mst_process_kbn,on='process',how='left')
