# 나라, 지역 정보 찾기
- BIL파일에서 데이터 추출하기
- gdal 모듈 

In [None]:
# import numpy as np
# import pandas as pd
# from osgeo import gdal

# # BIL 파일 경로
# bil_file_path = './HWSD2.bil'

# # GDAL을 사용하여 BIL 파일 읽기
# dataset = gdal.Open(bil_file_path)

# # BIL 파일의 메타 데이터 정보
# geotransform = dataset.GetGeoTransform()
# band = dataset.GetRasterBand(1)
# data = band.ReadAsArray()

# # 헤더 파일의 정보를 통해 해상도 및 기원점 확인
# originX = geotransform[0]
# originY = geotransform[3]
# pixelWidth = geotransform[1]
# pixelHeight = geotransform[5]

# # 데이터 프레임 생성
# data_list = []

# for row in range(data.shape[0]):
#     for col in range(data.shape[1]):
#         # 픽셀 값을 가져오기
#         value = data[row, col]
        
#         # NoData 값 제외
#         if value != 65535:
#             # 위도와 경도 계산
#             x = originX + col * pixelWidth
#             y = originY + row * pixelHeight
            
#             data_list.append([x, y, value])

# # 데이터 프레임으로 변환
# df = pd.DataFrame(data_list, columns=['Longitude', 'Latitude', 'Soil Mapping Unit'])

# # 데이터 프레임 출력
# df


- 위 코드가 메모리를 너무 차지해서 다시 코드 
1. 데이터 타입 최적화: 데이터를 uint16 형식으로 변환하여 메모리 사용량을 줄입니다.
2. 유효한 데이터만 추출: 유효하지 않은 데이터(값이 65535인 데이터)를 제외하고 나머지 데이터를 처리합니다.
3. 메모리 최적화: 메모리를 최대한 효율적으로 사용하여 데이터를 처리합니다.

In [1]:
from osgeo import gdal
import numpy as np
import pandas as pd

# BIL 파일 경로
bil_file_path = r"C:\Users\user\OneDrive\문서\사용자 지정 Office 서식 파일\바탕 화면\ML_PRJ\ML_wine\GLOSIS 글로벌 토양 특성\HWSD2.bil"

# GDAL을 사용하여 BIL 파일 읽기 시도
dataset = gdal.Open(bil_file_path, gdal.GA_ReadOnly)

# dataset이 None이 아닌지 확인
if dataset is None:
    print("파일을 열 수 없습니다. 경로를 확인하거나 GDAL이 해당 형식을 지원하는지 확인하세요.")
else:
    # BIL 파일의 메타 데이터 정보
    geotransform = dataset.GetGeoTransform()
    band = dataset.GetRasterBand(1)

    # 데이터 읽기 (데이터 타입 최적화: uint16 사용)
    data = band.ReadAsArray().astype(np.uint16)

    # 유효한 데이터 추출 (65535는 제외)
    valid_data = np.where(data != 65535)

    # 위도와 경도 계산
    x_coords = geotransform[0] + valid_data[1] * geotransform[1] + valid_data[0] * geotransform[2]
    y_coords = geotransform[3] + valid_data[1] * geotransform[4] + valid_data[0] * geotransform[5]

    # 유효한 데이터 값
    values = data[valid_data]

    # 데이터 프레임으로 변환
    df = pd.DataFrame({
        'Longitude': x_coords,
        'Latitude': y_coords,
        'Soil Mapping Unit': values
    })

    # 데이터 프레임 저장
    df.to_csv('soil_mapping_data.csv', index=False)

    # 데이터 프레임 출력
    df


In [8]:
len(df.iloc[:,2].unique())

29469

In [9]:
HWSD_SMU = pd.read_csv('./HWSD2_SMU.csv')

In [10]:
HWSD_SMU.head()

Unnamed: 0.1,Unnamed: 0,ID,HWSD2_SMU_ID,WISE30s_SMU_ID,HWSD1_SMU_ID,COVERAGE,SHARE,WRB4,WRB_PHASES,WRB2,...,REF_BULK_DENSITY,BULK_DENSITY,DRAINAGE,ROOT_DEPTH,AWC,PHASE1,PHASE2,ROOTS,IL,ADD_PROP
0,0,669,12707,WD10012707,12707,3,40,ALfr,ALfr,AL,...,1.63,1.35,MW,1,168,,,,,0.0
1,1,695,11825,WD30011825,11825,2,100,ALfr,ALfr,AL,...,1.76,1.44,MW,1,152,,,,,0.0
2,2,696,11823,WD30011823,11823,2,100,ALfr,ALfr,AL,...,1.76,1.44,MW,1,152,,,,,0.0
3,3,697,13458,WD30013458,13458,3,100,ALfr,ALfr,AL,...,1.76,1.44,MW,1,152,,,,,0.0
4,4,698,11824,WD30011824,11824,2,100,ALfr,ALfr,AL,...,1.76,1.44,MW,1,152,,,,,0.0


In [11]:
len(HWSD_SMU.HWSD2_SMU_ID.unique())

29538

- 드디어 위도,경도, SMU 맵핑된 데이터 추출했다.

# 위도, 경도에 따른 나라, 지역 구하기

- GoogleV3에 역 지오코딩 활용

In [14]:
country = df.copy()

In [18]:
country.tail()

Unnamed: 0,Longitude,Latitude,Soil Mapping Unit
222694353,-67.3,-55.975,13406
222694354,-67.291667,-55.975,13406
222694355,-67.283333,-55.975,13406
222694356,-67.275,-55.975,13406
222694357,-67.266667,-55.975,13406


- 약 2억개의 위치 정보

In [29]:
import googlemaps
API_KEY = 'AIzaSyDv-g91b19-ky8rbBuzxLWgvELPkVFjrog'


gmaps = googlemaps.Client(key=API_KEY)
reverse_geocode_result = gmaps.reverse_geocode((-67.266667,-55.975))
reverse_geocode_result

[{'address_components': [{'long_name': '3846P2MG+82',
    'short_name': '3846P2MG+82',
    'types': ['plus_code']}],
  'formatted_address': '3846P2MG+82',
  'geometry': {'bounds': {'northeast': {'lat': -67.26662499999999,
     'lng': -55.974875},
    'southwest': {'lat': -67.26675, 'lng': -55.97499999999999}},
   'location': {'lat': -67.266667, 'lng': -55.97499999999999},
   'location_type': 'GEOMETRIC_CENTER',
   'viewport': {'northeast': {'lat': -67.2653385197085,
     'lng': -55.9735885197085},
    'southwest': {'lat': -67.2680364802915, 'lng': -55.9762864802915}}},
  'place_id': 'GhIJCft2EhHRUMARzMzMzMz8S8A',
  'plus_code': {'global_code': '3846P2MG+82'},
  'types': ['plus_code']}]

In [30]:
plus_code = '3846P2MG+82'

# Plus Code를 위도와 경도로 변환
location = gmaps.geocode(plus_code)[0]['geometry']['location']
lat = location['lat']
lng = location['lng']
print(f'위도: {lat}, 경도: {lng}')

# 위도와 경도를 이용하여 역 지오코딩 수행
reverse_geocode_result = gmaps.reverse_geocode((lat, lng))
for component in reverse_geocode_result[0]['address_components']:
    if 'country' in component['types']:
        country = component['long_name']
        print(f'나라: {country}')
        break

위도: -67.2666875, 경도: -55.9749375


In [32]:
reverse_geocode_result = gmaps.reverse_geocode((lat, lng))
for component in reverse_geocode_result[0]['address_components']:
    if 'country' in component['types']:
        country = component['long_name']
        print(f'나라: {country}')
        break

In [35]:
reverse_geocode_result[0]['formatted_address']

'3846P2MG+82'

Plus Codes (예시, 3846P2MG+82)

- 도로명 주소가 없는 지역의 위치를 공유할 때
- 주소가 불명확하거나 번지수가 없는 지역에서 정확한 위치를 지정할 때
- 긴 주소를 입력하거나 공유하는 대신 짧은 코드를 사용하여 위치를 나타낼 때

In [36]:
from tqdm.notebook import tqdm

address = []

for idx, row in tqdm(country.iterrows()):
    lat = row.Latitude
    lng = row.Longitude
    reverse_geocode_result = gmaps.reverse_geocode((lat,lng))

    address.append(reverse_geocode_result[0]['formatted_address'])

    

0it [00:00, ?it/s]

KeyboardInterrupt: 

In [41]:
import numpy as np
country['address'] = np.nan

In [44]:
country.head()

Unnamed: 0,Longitude,Latitude,Soil Mapping Unit,address
0,-35.741667,83.625,6998,
1,-35.733333,83.625,6998,
2,-35.725,83.625,6998,
3,-35.716667,83.625,6998,
4,-35.708333,83.625,6998,


In [46]:
country['address'][0:70572] = address

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  country['address'][0:70572] = address


In [51]:
country.iloc[572:900]

Unnamed: 0,Longitude,Latitude,Soil Mapping Unit,address
572,-35.583333,83.616667,6998,C9M6JC88+MM
573,-35.575000,83.616667,6998,C9M6JC8G+M2
574,-35.566667,83.616667,6998,C9M6JC8M+M8
575,-35.558333,83.616667,6998,C9M6JC8R+MM
576,-35.550000,83.616667,6998,C9M6JC8X+MX
...,...,...,...,...
895,-32.450000,83.616667,3479,C9M9JH82+M2
896,-32.441667,83.616667,3479,C9M9JH85+M8
897,-32.433333,83.616667,3479,C9M9JH88+MM
898,-32.425000,83.616667,3479,C9M9JH8F+MX


In [50]:
country.to_csv('soil_mapping_data_2.csv')

- 나라, 지역 정보 따로 추출
- merge_data 테이블과 SMU 기준으로 left 조인 필요

In [3]:
import pandas as pd
soil_lo = []
soil_lo = pd.read_csv('soil_mapping_data_2.csv')
soil_lo.head()

MemoryError: Unable to allocate 1.00 MiB for an array with shape (131072,) and data type float64

In [None]:
soil_lo['Longitude'] = round(soil_lo['Longitude'],4)
soil_lo['Latitude'] = round(soil_lo['Latitude'],4)

In [None]:
country_df_8 = pd.DataFrame()

for idx, row in tqdm(lo.iterrows(), total=lo.shape[0]):
    lat = round(row['LATITUDE'], 4)
    lng = round(row['LONGITUDE'], 4)
    df = soil_lo.loc[(soil_lo['Latitude'] == lat) & (soil_lo['Longitude'] == lng)].copy()
    df['Country'] = lo.loc[idx, 'NAME']

    if country_df_8.empty:
        country_df_8 = df
    else:
        country_df_8 = pd.concat([country_df_8, df], axis=0)

country_df_8.reset_index(drop=True, inplace=True)
country_df_8.to_csv('country_df_8.csv')
country_df_8   