### 두개 파일의 값으로 비율 구하기

In [2]:
import pandas as pd

# 데이터 불러오기
df_total = pd.read_csv("연도별_전체사고_시간대별_건수.csv")
df_drunk = pd.read_csv("연도별_음주사고_시간대별_건수.csv")

# '사고시간대'를 인덱스로 설정
df_total.set_index('사고시간대', inplace=True)
df_drunk.set_index('사고시간대', inplace=True)

# 공통된 시간대 기준으로 정렬 (혹시 순서가 다를 경우 대비)
df_total = df_total.sort_index()
df_drunk = df_drunk.sort_index()

# 음주사고 비율 계산
df_ratio = df_drunk / df_total

# 퍼센트(%)로 보기 쉽게 변환
df_ratio = df_ratio * 100

# 인덱스 리셋해서 저장 준비
df_ratio.reset_index(inplace=True)

# 컬럼 이름 보기 좋게 변경
df_ratio.columns = ['사고시간대'] + [f'{col}_음주사고비율(%)' for col in df_ratio.columns[1:]]

# 비율 데이터 미리보기 출력
print("🎯 시간대별 음주사고 비율 (%):\n")
print(df_ratio.head())  # 상위 5개 행만 보기

# 필요 시 전체 출력
# print(df_ratio.to_string())

FileNotFoundError: [Errno 2] No such file or directory: '연도별_전체사고_시간대별_건수.csv'

In [3]:
# CSV 파일로 저장
df_ratio.to_csv("시간대별_연도별_음주사고비율.csv", index=False, encoding='utf-8-sig')

print("✅ 비율 계산 및 저장 완료: 시간대별_연도별_음주사고비율.csv")

✅ 비율 계산 및 저장 완료: 시간대별_연도별_음주사고비율.csv


### 태블로 활용을 위해 데이터 변환

In [12]:
import pandas as pd

# CSV 파일 경로 지정
csv_path = "시간대별_연도별_음주사고비율.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 마지막 행 제거 (예: 합계 등 불필요한 행)
df = df.dropna().iloc[:-1, :]

# 열 이름 정리
df.columns = ['사고시간대'] + [f"{year}_음주사고비율" for year in range(2015, 2025)]

# Wide format → Long format 변환
df_long = pd.melt(df, id_vars=['사고시간대'], var_name='연도', value_name='음주사고비율')

# 연도에서 숫자만 추출
df_long['연도'] = df_long['연도'].str.extract(r'(\d{4})')

# 결과 미리보기
print(df_long.head())

FileNotFoundError: [Errno 2] No such file or directory: '시간대별_연도별_음주사고비율.csv'

In [13]:
import pandas as pd

# CSV 파일 경로 지정
csv_path = "C:/Users/SAMSUNG/OneDrive/바탕 화면/workspace/미드프로젝트/데이터 분석/데이터 전처리/전체 시간대별 음주운전 사고 비율/시간대별_연도별_음주사고비율.csv"

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 마지막 행 제거만 수행 (예: 합계 행)
df = df.iloc[:-1, :]

# 열 이름 정리
df.columns = ['사고시간대'] + [f"{year}_음주사고비율" for year in range(2015, 2025)]

# Wide → Long format 변환
df_long = pd.melt(df, id_vars=['사고시간대'], var_name='연도', value_name='음주사고비율')

# 연도 숫자만 추출
df_long['연도'] = df_long['연도'].str.extract(r'(\d{4})')

# 결과 미리보기
# print(df_long.head())
print(df_ratio.to_string())

                                                    사고시간대  2015_음주사고비율(%)  2016_음주사고비율(%)  2017_음주사고비율(%)  2018_음주사고비율(%)  2019_음주사고비율(%)  2020_음주사고비율(%)  2021_음주사고비율(%)  2022_음주사고비율(%)  2023_음주사고비율(%)  2024_음주사고비율(%)
0                                                   0시~2시       30.406787       27.098625       28.647409       29.153454       25.834363       30.354691       28.954424       31.736439       28.008982       26.347798
1                                                 10시~12시        2.461082        2.409578        2.634215        2.425135        1.822999        1.979532        1.891070        1.979307        1.939812        1.695729
2                                                 12시~14시        2.759558        2.273265        2.548898        2.376910        1.879887        2.237393        1.874306        1.995736        1.796060        1.547678
3                                                 14시~16시        3.748188        3.346925        3.244575        3.261895       

In [14]:
# 저장
df_long.to_csv("시간대별_연도별_음주사고비율_long.csv", index=False, encoding='utf-8-sig')

print("✅ 비율 계산 및 저장 완료: 시간대별_연도별_음주사고비율_long.csv")

✅ 비율 계산 및 저장 완료: 시간대별_연도별_음주사고비율_long.csv
