In [1]:
import pandas as pd

In [4]:
df_kind = pd.read_csv('../data/kinds_of_rank.csv')
df_kind.head()

Unnamed: 0,kind,name,point,address,latitude,longitude,parking,holiday
0,ラーメン,麺屋吉左右,99.746,〒135-0016 東京都江東区東陽1-11-3,35.668468,139.810308,駐車場なし\n周辺にコインパーキング数か所あり,水曜日・金曜日・日曜日
1,ラーメン,らぁ麺 飯田商店 湯河原本店,99.704,〒259-0303 神奈川県足柄下郡湯河原町土肥2丁目12-14,35.144696,139.109738,駐車場あり\n道路向かいの駐車場に5台、斜め向かいに10台\n詳しくはこちら↓\nhttp:...,火・水曜日\n※不定期月曜臨時休業あり。
2,ラーメン,ラーメン二郎 ひばりヶ丘駅前店,99.403,〒188-0001 東京都西東京市谷戸町3-27-24 ひばりヶ丘プラザ1F,35.749957,139.543549,駐車場なし\n近隣にコインパーキング有,水曜夜の部\n日曜\n※祝日は不定休、営業有無は店内表示やTwitterで告知有り
3,ラーメン,人類みな麺類,99.258,〒532-0011 大阪府大阪市淀川区西中島1-12-15,34.725506,135.499052,駐車場なし\n近隣にコインパーキングあり,無休
4,ラーメン,煮干中華ソバ イチカワ,99.18,茨城県つくば市天久保2-9-2 リッチモンド二番街 A101,36.098298,140.108348,駐車場あり\nテナントの共同駐車場約8台のみ\n最寄りの有料駐車場は天久保1-10-18付近...,基本は、日曜と祝日。\nその他不定休あり（ツイッターにて毎月告知アリ）


In [5]:
df_kind.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500 entries, 0 to 1499
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   kind       1500 non-null   object 
 1   name       1500 non-null   object 
 2   point      1500 non-null   float64
 3   address    1500 non-null   object 
 4   latitude   1500 non-null   float64
 5   longitude  1500 non-null   float64
 6   parking    1481 non-null   object 
 7   holiday    1474 non-null   object 
dtypes: float64(3), object(5)
memory usage: 93.9+ KB


In [16]:
# parkingレコードの要素の種類を確認する
display(df_kind['parking'].unique())
# parkingレコードの要素の種類数を確認
print("要素の種類数：",len(df_kind['parking'].unique()))

In [7]:
# parkingレコードの欠損値総数を確認
print("欠損値の合計\n",df_kind[['parking', 'holiday']].isna().sum())
# 欠損値を'情報なし'として補完
df_kind['parking'].fillna('情報なし', inplace=True)
df_kind['holiday'].fillna('情報なし', inplace=True)
print('---処理後---')
print("欠損値の合計\n",df_kind[['parking', 'holiday']].isna().sum())

欠損値の合計
 parking    19
holiday    26
dtype: int64
---処理後---
欠損値の合計
 parking    0
holiday    0
dtype: int64


In [9]:
# parkingレコードのユニーク値を個数とともに、保存
df_kind[['parking']].value_counts().to_csv('parking_of_rank.csv')

* 駐車場有.  
  敷地内にありとする場合.  
  近隣にコインパーキング等駐車可能な場所が有ると公表している場合

* 駐車場無.  
  駐車場が無いことを公表済みかつ、近隣にも無いとしている場合

上記の条件のもと、変換する。


In [10]:
# 近隣にコインパーキング等駐車可能な場所が有ると公表している場合のparkingレコードを確認
df_kind[df_kind['parking'].str.contains(r'駐車場なし\n')].value_counts('parking').to_csv('parking_unique_n.csv')
df_kind[df_kind['parking'].str.contains(r'駐車場あり\n')].value_counts('parking').to_csv('parking_unique_a.csv')

# 近隣にコインパーキング等駐車可能な場所が有ると公表している場合のparkingレコードを「駐車場あり」に変換
df_kind['parking'][df_kind['parking'].str.contains(r'駐車場なし\n')] = '駐車場あり'
df_kind['parking'][df_kind['parking'].str.contains(r'駐車場あり\n')] = '駐車場あり'
df_kind['parking'][df_kind['parking'].str.contains(r'不明\n')] = '駐車場あり'


In [11]:
# parkingレコードの要素の種類を確認する
display(df_kind['parking'].unique())
# parkingレコードの要素の種類数を確認
print("要素の種類数：",len(df_kind['parking'].unique()))

array(['駐車場あり', '駐車場なし', '情報なし'], dtype=object)

要素の種類数： 3


------

In [17]:
# holidayレコードの要素の種類を確認する
display(df_kind['holiday'].unique())
# holidayレコードの要素の種類数を確認
print("要素の種類数：",len(df_kind['holiday'].unique()))

In [14]:
# 「曜日」という文字列を削除したカラムを簡易的に作成（regexを用いることで正規表現として処理することができる）
df_kind['holiday_2'] = df_kind['holiday'].replace('曜日', '', regex=True)

# holiday_2カラムに「曜日」が無いことを確認
print('holidayレコードにある「曜日」を検索',len(df_kind[df_kind['holiday'].str.contains('曜日')]))
print('holiday_2レコードにある「曜日」を検索',len(df_kind[df_kind['holiday_2'].str.contains('曜日')]))

week_dict = {
  'mon_holiday':'月',
  'tue_holiday':'火',
  'wed_holiday':'水',
  'thu_holiday':'木',
  'fri_holiday':'金',
  'sat_holiday':'土',
  'sun_holiday':'日'
}

# ⚪︎曜日に休日があると思われるデータに対してフラグを設ける
for key, value in week_dict.items():
  # valueで設定した文字を含む行に対して1を設定
  df_kind[key] = df_kind['holiday_2'].str.contains(value).astype(int)

# holiday_2は必要無いため、削除する
df_kind = df_kind.drop('holiday_2', axis=1)
df_kind

holidayレコードにある「曜日」を検索 452
holiday_2レコードにある「曜日」を検索 0


Unnamed: 0,kind,name,point,address,latitude,longitude,parking,holiday,mon_holiday,tue_holiday,wed_holiday,thu_holiday,fri_holiday,sat_holiday,sun_holiday
0,ラーメン,麺屋吉左右,99.746,〒135-0016 東京都江東区東陽1-11-3,35.668468,139.810308,駐車場あり,水曜日・金曜日・日曜日,0,0,1,0,1,0,1
1,ラーメン,らぁ麺 飯田商店 湯河原本店,99.704,〒259-0303 神奈川県足柄下郡湯河原町土肥2丁目12-14,35.144696,139.109738,駐車場あり,火・水曜日\n※不定期月曜臨時休業あり。,1,1,1,0,0,0,0
2,ラーメン,ラーメン二郎 ひばりヶ丘駅前店,99.403,〒188-0001 東京都西東京市谷戸町3-27-24 ひばりヶ丘プラザ1F,35.749957,139.543549,駐車場あり,水曜夜の部\n日曜\n※祝日は不定休、営業有無は店内表示やTwitterで告知有り,0,0,1,0,0,0,1
3,ラーメン,人類みな麺類,99.258,〒532-0011 大阪府大阪市淀川区西中島1-12-15,34.725506,135.499052,駐車場あり,無休,0,0,0,0,0,0,0
4,ラーメン,煮干中華ソバ イチカワ,99.180,茨城県つくば市天久保2-9-2 リッチモンド二番街 A101,36.098298,140.108348,駐車場あり,基本は、日曜と祝日。\nその他不定休あり（ツイッターにて毎月告知アリ）,1,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1495,塩豚骨,柴崎亭,96.529,東京都調布市西つつじヶ丘3-25-52\nこのお店は「東京都調布市菊野台2-16-20」から...,35.657566,139.573775,駐車場あり,無休,0,0,0,0,0,0,0
1496,塩豚骨,煮干鰮らーめん 圓,96.455,〒192-0081 東京都八王子市横山町21-21,35.660316,139.338393,駐車場あり,無休,0,0,0,0,0,0,0
1497,塩豚骨,麺処 秋もと,96.908,〒225-0024 神奈川県横浜市青葉区市ヶ尾町1157-1 東急ドエル市ヶ尾アネックスビル1階,35.552503,139.541807,駐車場あり,月曜日、火曜日,1,1,0,0,0,0,0
1498,塩豚骨,竹末東京プレミアム,96.072,〒130-0002 東京都墨田区業平5-14-7 フラーリシ押上,35.708140,139.817640,駐車場なし,火曜,0,1,0,0,0,0,0


In [15]:
df_kind.to_csv('../data/cleaning_kind_of_rank.csv', index=False)