In [25]:
import pandas as pd

# 1. 파일 불러오기
df = pd.read_csv("./dataset/must_use_final.csv")  # 파일 경로 조정 필요

# 2. 클러스터별 고유 항구 리스트 추출
cluster_port_list = df.groupby('CLUSTER_1')['PORT_NAME'].unique().reset_index()

# 3. 리스트를 문자열로 변환 + 항구 개수 추가
cluster_port_list['PORT_LIST'] = cluster_port_list['PORT_NAME'].apply(
    lambda x: "[" + ", ".join(sorted(x)) + "]"
)
cluster_port_list['PORT_COUNT'] = cluster_port_list['PORT_NAME'].apply(len)

# 4. 컬럼 정리
cluster_port_list = cluster_port_list[['CLUSTER_1', 'PORT_COUNT', 'PORT_LIST']]
cluster_port_list.columns = ['CLUSTER', 'PORT_COUNT', 'PORT_LIST']

# 5. 출력 옵션 설정 (PORT_LIST 생략 방지)
pd.set_option('display.max_colwidth', None)

# 6. 출력 (Jupyter Notebook에서는 자동 테이블, 콘솔에선 전체 표시)
display(cluster_port_list)
# 또는 콘솔 출력 시:
# print(cluster_port_list.to_string(index=False))


Unnamed: 0,CLUSTER,PORT_COUNT,PORT_LIST
0,0,1,[PHMNL]
1,1,11,"[JPHIJ, JPHKT, JPIMB, JPIMI, JPMOJ, JPNGS, KRINC, KRKAN, KRKPO, KRPTK, KRYOS]"
2,2,4,"[CNNGB, CNNJI, CNSHA, CNTAC]"
3,3,10,"[JPKIJ, JPMKX, JPNGO, JPOSA, JPSMZ, JPTYO, JPUKB, JPWAK, JPYKK, JPYOK]"
4,4,4,"[CNHUA, HKHKG, TWKEL, TWKHH]"
5,5,1,[VNHPH]
6,6,5,"[CNDAG, CNLYG, CNQDG, CNRZH, CNTXG]"
7,7,2,"[RUNJK, RUVVO]"


In [29]:
import pandas as pd

# 1. 데이터 불러오기
df = pd.read_csv("./dataset/must_use_final.csv")
df['TIMESTAMP'] = pd.to_datetime(df['TIMESTAMP'])

# 2. 선박별 출발/도착 시점 추출
vessel_time = df.groupby('VSL_ID')['TIMESTAMP'].agg(['min', 'max']).reset_index()
vessel_time['DURATION_HR'] = (vessel_time['max'] - vessel_time['min']).dt.total_seconds() / 3600

# 3. 선박별 마지막 항구(CLUSTER 포함) 정보 추출
last_rows = df.sort_values('TIMESTAMP').groupby('VSL_ID').tail(1)[['VSL_ID', 'PORT_NAME', 'CLUSTER_1', 'LAT', 'LON']]

# 4. 선박 통계와 군집 정보 결합
vessel_summary = pd.merge(vessel_time, last_rows, on='VSL_ID')

# 5. 군집별 통계 계산
cluster_stats = vessel_summary.groupby('CLUSTER_1').agg({
    'DURATION_HR': 'mean',
    'PORT_NAME': pd.Series.nunique,
    'VSL_ID': 'nunique',
    'LAT': 'mean',
    'LON': 'mean'
}).reset_index()

# 6. 컬럼명 정리
cluster_stats.columns = ['CLUSTER', 'AVG_DURATION_HR', 'PORT_COUNT', 'UNIQUE_VSL', 'LAT', 'LON']

# 7. 전체 데이터 개수 추가
data_counts = df.groupby('CLUSTER_1').size().reset_index(name='DATA_COUNT')
cluster_stats = pd.merge(cluster_stats, data_counts, left_on='CLUSTER', right_on='CLUSTER_1').drop(columns='CLUSTER_1')

# 8. 결과 확인
display(cluster_stats)


Unnamed: 0,CLUSTER,AVG_DURATION_HR,PORT_COUNT,UNIQUE_VSL,LAT,LON,DATA_COUNT
0,0,1232.888889,1,3,14.585364,120.964368,3874
1,1,604.106061,11,154,35.237077,127.998632,28307
2,2,369.661765,4,68,31.274213,121.607522,43638
3,3,1115.135965,8,38,35.538642,137.616657,25461
4,4,448.74,4,25,23.397606,117.703129,14686
5,5,895.0,1,4,20.834582,106.784143,6338
6,6,932.397436,4,39,36.405003,119.799835,19186
7,7,549.444444,2,15,43.033145,132.08236,10266


In [35]:
import pandas as pd

# 1. 파일 불러오기
df = pd.read_csv("./dataset/must_use_final.csv")
df['TIMESTAMP'] = pd.to_datetime(df['TIMESTAMP'])

# 2. 선박별 출발/도착 시점 추출
vessel_time = df.groupby('VSL_ID')['TIMESTAMP'].agg(['min', 'max']).reset_index()
vessel_time['DURATION_HR'] = (vessel_time['max'] - vessel_time['min']).dt.total_seconds() / 3600

# 3. 선박별 마지막 항구(CLUSTER 포함) 정보 추출
last_rows = df.sort_values('TIMESTAMP').groupby('VSL_ID').tail(1)[['VSL_ID', 'PORT_NAME', 'CLUSTER_1', 'LAT', 'LON']]

# 4. 선박 통계와 군집 정보 결합
vessel_summary = pd.merge(vessel_time, last_rows, on='VSL_ID')

# 5. 군집별 통계 계산
cluster_stats = vessel_summary.groupby('CLUSTER_1').agg({
    'DURATION_HR': 'mean',
    'PORT_NAME': pd.Series.nunique,
    'VSL_ID': 'nunique',
    'LAT': 'mean',
    'LON': 'mean'
}).reset_index()

# 6. 컬럼명 정리
cluster_stats.columns = ['CLUSTER', 'AVG_DURATION_HR', 'PORT_COUNT', 'UNIQUE_VSL', 'LAT', 'LON']

# 7. 전체 데이터 수 추가
data_counts = df.groupby('CLUSTER_1').size().reset_index(name='DATA_COUNT')
cluster_stats = pd.merge(cluster_stats, data_counts, left_on='CLUSTER', right_on='CLUSTER_1').drop(columns='CLUSTER_1')

# 8. 소요 시간 포맷: n일 nn시간 nn분
def format_duration(hours):
    total_minutes = int(hours * 60)
    days = total_minutes // (24 * 60)
    hours = (total_minutes % (24 * 60)) // 60
    minutes = total_minutes % 60
    return f"{days}일 {hours}시간 {minutes}분"

cluster_stats['AVG_DURATION_FORMATTED'] = cluster_stats['AVG_DURATION_HR'].apply(format_duration)

# 9. 결과 확인
display(cluster_stats)


Unnamed: 0,CLUSTER,AVG_DURATION_HR,PORT_COUNT,UNIQUE_VSL,LAT,LON,DATA_COUNT,AVG_DURATION_FORMATTED
0,0,1232.888889,1,3,14.585364,120.964368,3874,51일 8시간 53분
1,1,604.106061,11,154,35.237077,127.998632,28307,25일 4시간 6분
2,2,369.661765,4,68,31.274213,121.607522,43638,15일 9시간 39분
3,3,1115.135965,8,38,35.538642,137.616657,25461,46일 11시간 8분
4,4,448.74,4,25,23.397606,117.703129,14686,18일 16시간 44분
5,5,895.0,1,4,20.834582,106.784143,6338,37일 7시간 0분
6,6,932.397436,4,39,36.405003,119.799835,19186,38일 20시간 23분
7,7,549.444444,2,15,43.033145,132.08236,10266,22일 21시간 26분


In [None]:
import pandas as pd

# 1. 데이터 불러오기
df = pd.read_csv(".must_use_final.csv")
df['TIMESTAMP'] = pd.to_datetime(df['TIMESTAMP'])

# 2. 선박별 출발/도착 시간 및 소요 시간 계산
vessel_time = df.groupby('VSL_ID')['TIMESTAMP'].agg(['min', 'max']).reset_index()
vessel_time['DURATION_HR'] = (vessel_time['max'] - vessel_time['min']).dt.total_seconds() / 3600

# 3. 선박별 마지막 항구 정보 추출
last_rows = df.sort_values('TIMESTAMP').groupby('VSL_ID').tail(1)[['VSL_ID', 'PORT_NAME', 'CLUSTER_1', 'LAT', 'LON']]

# 4. 소요 시간 + 항구 정보 결합
vessel_durations_with_ports = pd.merge(vessel_time, last_rows, on='VSL_ID')

# 5. 항구별 소요 시간 통계 계산
port_duration_stats = vessel_durations_with_ports.groupby('PORT_NAME')['DURATION_HR'].agg(
    MIN_DURATION_HR='min',
    MAX_DURATION_HR='max',
    AVG_DURATION_HR='mean',
    COUNT='count'
).reset_index()

# 6. 시간 포맷 함수 정의
def format_duration(hours):
    total_minutes = int(hours * 60)
    days = total_minutes // (24 * 60)
    hours = (total_minutes % (24 * 60)) // 60
    minutes = total_minutes % 60
    return f"{days}일 {hours}시간 {minutes}분"

# 7. 포맷된 시간 컬럼 생성
port_duration_stats['MIN_DURATION_FORMATTED'] = port_duration_stats['MIN_DURATION_HR'].apply(format_duration)
port_duration_stats['MAX_DURATION_FORMATTED'] = port_duration_stats['MAX_DURATION_HR'].apply(format_duration)
port_duration_stats['AVG_DURATION_FORMATTED'] = port_duration_stats['AVG_DURATION_HR'].apply(format_duration)

# 8. 원시 시간 컬럼 제거
port_duration_stats_cleaned = port_duration_stats.drop(columns=[
    'MIN_DURATION_HR', 'MAX_DURATION_HR', 'AVG_DURATION_HR'
])

# 9. 결과 확인
print(port_duration_stats_cleaned)
