# 불법주정차 데이터 위도/경도 수집 (Kakao Api)
- https://developers.kakao.com
- 카카오맵 api 허용 설정 필수

### Present working directory

In [None]:
!pwd #Linux

/Users/hoyun/Documents/GitHub/Data_projects/dacon_sri_suwon_data_analysis


In [22]:
!cd #windows

### 패키지 설치

In [2]:
!pip install pandas numpy tqdm requests



### 패키지 선언

In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import time
import json
import requests

In [2]:
import os
from dotenv import load_dotenv

load_dotenv()
KAKAO_API_KEY = os.getenv("KAKAO_API_KEY")
api_key = KAKAO_API_KEY

### 카카오 API키 및 API 동작확인

In [3]:
addr = '서울시 송파구 위례광장로 185'
url = 'https://dapi.kakao.com/v2/local/search/address.json?query={address}'.format(address=addr)
headers = {
    "Authorization": f"KakaoAK {api_key}"
}
params = {"query": addr}

result = json.loads(str(requests.get(url, headers=headers).text))
display(result)

{'documents': [{'address': {'address_name': '서울 송파구 장지동 878',
    'b_code': '1171010900',
    'h_code': '1171064700',
    'main_address_no': '878',
    'mountain_yn': 'N',
    'region_1depth_name': '서울',
    'region_2depth_name': '송파구',
    'region_3depth_h_name': '위례동',
    'region_3depth_name': '장지동',
    'sub_address_no': '',
    'x': '127.14004016241',
    'y': '37.4804774688545'},
   'address_name': '서울 송파구 위례광장로 185',
   'address_type': 'ROAD_ADDR',
   'road_address': {'address_name': '서울 송파구 위례광장로 185',
    'building_name': '위례신도시 송파푸르지오',
    'main_building_no': '185',
    'region_1depth_name': '서울',
    'region_2depth_name': '송파구',
    'region_3depth_name': '장지동',
    'road_name': '위례광장로',
    'sub_building_no': '',
    'underground_yn': 'N',
    'x': '127.14004016241',
    'y': '37.4804774688545',
    'zone_no': '05848'},
   'x': '127.14004016241',
   'y': '37.4804774688545'}],
 'meta': {'is_end': True, 'pageable_count': 1, 'total_count': 1}}

### 데이터 불러오기

In [4]:
#10만개 단위(약 40만개)
data1 = pd.read_csv('parking_notcctv_1.csv')
data2 = pd.read_csv('parking_notcctv_2.csv')
data3 = pd.read_csv('parking_notcctv_3.csv')
data4 = pd.read_csv('parking_notcctv_4.csv')
data5 = pd.read_csv('parking_notcctv_5.csv')

In [5]:
data4_1 = data4[:50000]
data4_2 = data4[50000:]

In [6]:
display(data4_1.shape)
display(data4_2.shape)

(50000, 16)

(50000, 16)

### 데이터 수집 및 적용 함수

In [7]:
def get_lat_lng(addr):
    try:
        headers = {
        "Authorization": f"KakaoAK {api_key}"
        }
        params = {"query": addr}
        url = "https://dapi.kakao.com/v2/local/search/address.json"
        
        response = requests.get(url, headers=headers, params=params)
        time.sleep(0.15)
        if response.status_code == 200:
            documents = response.json().get("documents")
            if documents:
                return float(documents[0]["y"]), float(documents[0]["x"])  # 위도, 경도
        return None, None
    
    except Exception as e:
        print(f'get_lat_lng 함수 실행 중.. 에러 : {e}')
        return None, None


def add_to_pos(data, api_key, chunk_index=None):
    tqdm.pandas()

    latitudes = []
    longitudes = []

    for i,(_, row) in enumerate(tqdm(data.iterrows(), total=len(data))):
        try:
            if i>0 and i%1000 == 0:
                print(f'{i} rows. 중간 딜레이 5se\n')
                time.sleep(5)
        
            lat,lng = get_lat_lng(row['단속장소'])
            latitudes.append(lat)
            longitudes.append(lng)

            
        except Exception as e:
            print(f"add_to_pos 함수 실행 중.. {i}번째 줄 에러=>{e}")
            temp_data = data.iloc[:i].copy()
            temp_data['latitude'] = latitudes
            temp_data['longitude'] = longitudes
            backup_file = f"중단에러_백업파일_{chunk_index}_{i}_줄.csv"
            backup_file.to_csv(backup_file, index=False)
            print("중단시점까지 저장. 파일명>>>",backup_file)
            raise e
        

    #display(data.head(10))
    data['latitude'] = latitudes
    data['longitude'] = longitudes
    return data

### 샘플 테스트

In [6]:
#샘플 테스트
sample=data1.sample(10)
partial_data = sample

In [7]:
chunks = np.array_split(partial_data, 10)
processed_chunks = []

for i, chunk in enumerate(chunks):
    print(f"Processing chunk {i+1}/10")

    try:
        result = add_to_pos(chunk, api_key=api_key, chunk_index=i+1)

        result.to_csv(f'./backup_chunk/processed_chunk_data_[sample] {i+1}.csv', index=False)
        processed_chunks.append(result)
    except Exception as e:
        print(f"Loop 중단된 청크 : {i+1}, 발생 에러 : {e}")
        break
print('='*20)
print("데이터 처리 완료")
print('='*20)
    

  return bound(*args, **kwds)


Processing chunk 1/10


100%|██████████| 1/1 [00:00<00:00,  4.70it/s]


Processing chunk 2/10


100%|██████████| 1/1 [00:00<00:00,  5.08it/s]


Processing chunk 3/10


100%|██████████| 1/1 [00:00<00:00,  4.92it/s]


Processing chunk 4/10


100%|██████████| 1/1 [00:00<00:00,  5.01it/s]


Processing chunk 5/10


100%|██████████| 1/1 [00:00<00:00,  4.74it/s]


Processing chunk 6/10


100%|██████████| 1/1 [00:00<00:00,  4.80it/s]


Processing chunk 7/10


100%|██████████| 1/1 [00:00<00:00,  5.04it/s]


Processing chunk 8/10


100%|██████████| 1/1 [00:00<00:00,  4.90it/s]


Processing chunk 9/10


100%|██████████| 1/1 [00:00<00:00,  5.13it/s]


Processing chunk 10/10


100%|██████████| 1/1 [00:00<00:00,  4.96it/s]

데이터 처리 완료





# 실제 데이터 처리
### 실제 데이터 주소 -> 위/경도 전환 
#### 시간 소요될 수 있음. 
- 요청 당 0.15초 딜레이
- 1000건 당 5초 간 딜레이

#### 유의사항
- 10만개 => 1만개씩 끊어 백업파일 저장함.(/backup_chunk)
- 에러 발생 시 가장 하단 셀 실행하여 우선 저장
- 에러 내용 확인 후 몇번째 chunk에서 발생했는지 기록
- 완료 후 전체 데이터 저장 => 'data_processed_data_by_NAME.csv' (NAME 부분 수정)

In [8]:
#적용할 데이터 data1, data2, data4 중 선택
# 준희 : data1(10만개 레코드), data5(2만여개)
# 형철 : data4(10만개 레코드)

partial_data = data4_2

In [9]:
partial_data.shape

(50000, 16)

In [11]:
chunks = np.array_split(partial_data, 10)
processed_chunks = []

for i, chunk in enumerate(chunks):
    print(f"Processing chunk {i+1}/10")

    try:
        result = add_to_pos(chunk, api_key=api_key, chunk_index=i+1)

        result.to_csv(f'./backup_chunk/processed_chunk_data3 {i+1}.csv', index=False)
        processed_chunks.append(result)
    except Exception as e:
        print(f"중단된 청크 : {i+1}, 발생 에러 : {e}")
        break
    

  return bound(*args, **kwds)


Processing chunk 1/10


 20%|██        | 1000/5000 [03:22<13:27,  4.95it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:49<10:10,  4.91it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:16<06:55,  4.82it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:41<03:13,  5.16it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:04<00:00,  4.88it/s]


Processing chunk 2/10


 20%|██        | 1000/5000 [03:17<12:54,  5.16it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:39<09:56,  5.03it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:03<06:43,  4.96it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:27<03:15,  5.11it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [16:50<00:00,  4.95it/s]


Processing chunk 3/10


 20%|██        | 1000/5000 [03:18<13:29,  4.94it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:40<09:59,  5.00it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:04<06:46,  4.92it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:28<03:17,  5.06it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [16:55<00:00,  4.92it/s]


Processing chunk 4/10


 20%|██        | 1000/5000 [03:24<13:14,  5.04it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:51<10:14,  4.88it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:19<06:40,  4.99it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:49<03:21,  4.95it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:16<00:00,  4.82it/s]


Processing chunk 5/10


 20%|██        | 1000/5000 [03:22<13:21,  4.99it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:50<10:08,  4.93it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:21<06:49,  4.89it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:52<03:20,  4.98it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:22<00:00,  4.79it/s]


Processing chunk 6/10


 20%|██        | 1000/5000 [03:25<13:29,  4.94it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:54<10:21,  4.83it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:24<06:50,  4.87it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:54<03:20,  4.99it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:24<00:00,  4.79it/s]


Processing chunk 7/10


 20%|██        | 1000/5000 [03:24<13:15,  5.03it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:56<10:16,  4.87it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:26<06:42,  4.96it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:56<03:24,  4.88it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:26<00:00,  4.78it/s]


Processing chunk 8/10


 20%|██        | 1000/5000 [03:25<13:53,  4.80it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:56<10:25,  4.79it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:26<06:42,  4.97it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:56<03:22,  4.93it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:26<00:00,  4.78it/s]


Processing chunk 9/10


 20%|██        | 1000/5000 [03:25<14:02,  4.75it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:55<10:30,  4.76it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:25<06:41,  4.98it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:55<03:22,  4.94it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:25<00:00,  4.78it/s]


Processing chunk 10/10


 20%|██        | 1000/5000 [03:24<13:45,  4.85it/s]

1000 rows. 중간 딜레이 5se



 40%|████      | 2000/5000 [06:55<09:58,  5.01it/s]  

2000 rows. 중간 딜레이 5se



 60%|██████    | 3000/5000 [10:25<06:39,  5.00it/s]  

3000 rows. 중간 딜레이 5se



 80%|████████  | 4000/5000 [13:55<03:31,  4.74it/s]

4000 rows. 중간 딜레이 5se



100%|██████████| 5000/5000 [17:26<00:00,  4.78it/s]


### 처리된 부분 데이터 => 통합 및 저장

In [12]:
final_data = pd.concat(processed_chunks, ignore_index=True)
final_data.to_csv('data4_2_processed_data.csv', index=False)