# 24강 CSV 파일의 이해

- csv (Comma Seperated Value)
  - 데이터 구조를 표현하는 가장 간결한 형태의 파일
    - 행렬의 구분을 행은 줄바꿈으로 처리, 열은 콤마(,)로 처리하는 형태

In [1]:
# 한 학급의 성적표 데이터 예시
grade = [
    {"name":"철수", "kor":95, "eng":88, "math":72},
    {"name":"영희", "kor":92, "eng":90, "math":95},
    {"name":"철민", "kor":88, "eng":76, "math":64},
]

# CSV 파일의 한 행에 대한 구문 형식 정의
tpl = "{0},{1},{2},{3}\n"

# csv 파일 저장을 위한 f 객체 생성
# -> Excel의 csv는 euc-kr 형식
with open("grade.csv", "w", encoding = "euc-kr") as f:
    # 첫 줄에 각 항목의 제목 기록
    f.write("이름,국어,영어,수학\n")

    # 각 데이터를 한 줄씩 콤마로 구분하여 기록
    for item in grade:
        tmp = tpl.format(item["name"], item["kor"], item["eng"], item["math"])
        f.write(tmp)

In [2]:
# 저장을 위한 자료구조 정의
grade_dic = {
    '이름' : ['철수', '영희', '민철', '수현', '호영'],
    '국어' : [98, 88, 92, 63, 120],
    '영어' : [76, 90, 70, 60, 50],
    '수학' : [88, 62, 88, 31, 76],
    '과학' : [64, 72, 45, 70, 88]
}

tpl = "{0},{1},{2},{3},{4}\n" # 한 줄에 대한 탬플릿
keys = list(grade_dic.keys()) # 딕셔너리의 키를 리스트로 변환
p = ","
title = p.join(keys) # key 리스트 사이에 쉼표를 넣어 문자열로 변환

with open("grade2.csv", "w", encoding = "euc-kr") as f:
    f.write(title + "\n") # 첫 줄에 각 항목의 제목 기록

    # 각 데이터를 한 줄씩 콤마로 구분하여 기록
    for i in range(0, len(grade_dic['이름'])):
        tmp = tpl.format(grade_dic['이름'][i], grade_dic['국어'][i],
                         grade_dic['영어'][i], grade_dic['수학'][i], grade_dic['과학'][i])
        f.write(tmp)

In [3]:
#---------------------------------------
# step1. 파일 읽기
#---------------------------------------
# 읽어들인 내용을 저장하기 위한 빈 변수 생성
csv_list = None

# grade.csv 파일에 대한 파일 객체를 읽기 모드로 생성
with open("grade.csv", "r", encoding = "euc-kr") as f:
    # 파일의 각 행을 원소로 갖는 리스트 생성
    # -> ['이름,국어,영어,수학\n', '철수,95,88,72\n', '영희,92,90,85\n', '철민,88,76,64\n']
    csv_list = f.readlines()

print(csv_list)

#---------------------------------------
# step2. 읽어온 내용을 변환하기
#---------------------------------------
data = [] # CSV의 데이터를 저장할 빈 배열

for i, line in enumerate(csv_list):
    # 첫 행은 제목이므로 건너뛴다.
    if i == 0:
        continue

    # 현재 행의 내용을 콤마를 기준으로 잘라서 리스트로 변환 -> split()의 결과로 생성된
    # 리스트의 모든 원소는 string 타입.
    # "철민,88,76,64".split(",") -> ['철민', '88', '76', '64']
    k = line.strip().split(",")

    # 한 행의 내용을 딕셔너리로 변환 -> 과목별 점수는 점수로 형변환 후 처리
    item = {"name":k[0], "kor":int(k[1]), "eng":int(k[2]), "math":int(k[3])}

    # 딕셔너리를 미리 준비한 리스트에 추가
    data.append(item)

# 결과 확인
data

['이름,국어,영어,수학\n', '철수,95,88,72\n', '영희,92,90,95\n', '철민,88,76,64\n']


[{'name': '철수', 'kor': 95, 'eng': 88, 'math': 72},
 {'name': '영희', 'kor': 92, 'eng': 90, 'math': 95},
 {'name': '철민', 'kor': 88, 'eng': 76, 'math': 64}]

## 연구 과제

In [1]:
data_traffic = {}

with open("traffic_acc.csv", "r", encoding = "utf-8") as f:
    lines = f.readlines()
    fea = lines[0].strip()[1:].split(",")
    for i in fea:
        data_traffic[i] = []
    datas = lines[1:]
    for i in datas:
        sample = i.strip().split(",")
        data_traffic["년도"].append(int(sample[0]))
        data_traffic["월"].append(int(sample[1]))
        data_traffic["발생건수"].append(int(sample[2]))
        data_traffic["사망자수"].append(int(sample[3]))
        data_traffic["부상자수"].append(int(sample[4]))

In [2]:
total_accident = sum(data_traffic["발생건수"])
total_death = sum(data_traffic["사망자수"])
total_wound = sum(data_traffic["부상자수"])

print(f"교통사고 발생건수 : {total_accident}")
print(f"교통사고 사망자수 : {total_death}")
print(f"교통사고 부상자수 : {total_wound}")

교통사고 발생건수 : 3084976
교통사고 사망자수 : 73436
교통사고 부상자수 : 4751813


In [3]:
year_month = []
for i in range(0, len(data_traffic["년도"])):
    year_month.append(str(data_traffic["년도"][i])+str(data_traffic["월"][i]))

year_month = list(set(year_month))
period = len(year_month)

print(f"월평균 교통사고 발생건수 : {total_accident/period:.2f}")
print(f"월평균 교통사고 사망자수 : {total_death/period:.2f}")
print(f"월평균 교통사고 부상자수 : {total_wound/period:.2f}")

월평균 교통사고 발생건수 : 18362.95
월평균 교통사고 사망자수 : 437.12
월평균 교통사고 부상자수 : 28284.60


In [17]:
per_month_accident = {}
per_month_death = {}
per_month_wound = {}

total_period = len(data_traffic["년도"])

for i in range(0, total_period):
    try:
        per_month_accident[data_traffic["월"][i]].append(data_traffic["발생건수"][i])
        per_month_death[data_traffic["월"][i]].append(data_traffic["사망자수"][i])
        per_month_wound[data_traffic["월"][i]].append(data_traffic["부상자수"][i])
    except:
        per_month_accident[data_traffic["월"][i]] = [data_traffic["발생건수"][i]]
        per_month_death[data_traffic["월"][i]] = [data_traffic["사망자수"][i]]
        per_month_wound[data_traffic["월"][i]] = [data_traffic["부상자수"][i]]

In [20]:
month_average_accident = {}
month_average_death = {}
month_average_wound = {}

for i in range(1, 13):
    month_average_accident[i] = sum(per_month_accident[i])/len(per_month_accident[i])
    month_average_death[i] = sum(per_month_death[i])/len(per_month_death[i])
    month_average_wound[i] = sum(per_month_wound[i])/len(per_month_wound[i])

In [21]:
month_average_accident

{1: 16209.57142857143,
 2: 14889.0,
 3: 17563.785714285714,
 4: 18415.714285714286,
 5: 19566.714285714286,
 6: 18413.785714285714,
 7: 19065.714285714286,
 8: 18900.571428571428,
 9: 19094.85714285714,
 10: 20142.571428571428,
 11: 19639.714285714286,
 12: 18453.428571428572}

In [22]:
month_average_death

{1: 408.14285714285717,
 2: 358.85714285714283,
 3: 398.92857142857144,
 4: 405.85714285714283,
 5: 438.7857142857143,
 6: 413.2142857142857,
 7: 430.2857142857143,
 8: 443.92857142857144,
 9: 463.64285714285717,
 10: 527.2857142857143,
 11: 493.64285714285717,
 12: 462.85714285714283}

In [23]:
month_average_wound

{1: 25538.0,
 2: 23368.14285714286,
 3: 26715.071428571428,
 4: 28256.214285714286,
 5: 30056.071428571428,
 6: 27851.14285714286,
 7: 29426.785714285714,
 8: 29899.071428571428,
 9: 29236.428571428572,
 10: 30838.285714285714,
 11: 29863.0,
 12: 28367.0}

- 딕셔너리 안에 데이터를 리스트로 넣는것과 리스트 안에 데이터로 딕셔너리를 넣는것의 차이
  - 딕셔너리 폼으로 하면 데이터프레임 변환 시에 결측치에 의해 행열이 꼬일 수가 있음
  - 리스트 폼으로 하면 의도대로 결측치가 데이터프레임에 정상적으로 들어감

In [4]:
import pandas as pd

df = pd.read_csv("traffic_acc.csv")
df.head()

Unnamed: 0,년도,월,발생건수,사망자수,부상자수
0,2005,1,15494,504,25413
1,2005,2,13244,431,21635
2,2005,3,16580,477,25550
3,2005,4,17817,507,28131
4,2005,5,19085,571,29808


In [5]:
total_accident = df['발생건수'].sum()
total_death = df['사망자수'].sum()
total_wound = df['부상자수'].sum()

avg_accident = df['발생건수'].mean()
avg_death = df['사망자수'].mean()
avg_wound = df['부상자수'].mean()

print(f"교통사고 발생건수 : {total_accident}")
print(f"교통사고 사망자수 : {total_death}")
print(f"교통사고 부상자수 : {total_wound}")

print(f"월평균 교통사고 발생건수 : {avg_accident:.2f}")
print(f"월평균 교통사고 사망자수 : {avg_death:.2f}")
print(f"월평균 교통사고 부상자수 : {avg_wound:.2f}")

교통사고 발생건수 : 3084976
교통사고 사망자수 : 73436
교통사고 부상자수 : 4751813
월평균 교통사고 발생건수 : 18362.95
월평균 교통사고 사망자수 : 437.12
월평균 교통사고 부상자수 : 28284.60


In [6]:
df.describe()

Unnamed: 0,년도,월,발생건수,사망자수,부상자수
count,168.0,168.0,168.0,168.0,168.0
mean,2011.5,6.5,18362.952381,437.119048,28284.60119
std,4.04318,3.462373,1631.62801,84.555605,2420.496992
min,2005.0,1.0,13244.0,266.0,21501.0
25%,2008.0,3.75,17787.75,377.25,26758.0
50%,2011.5,6.5,18635.0,432.0,28570.5
75%,2015.0,9.25,19388.5,499.25,29849.75
max,2018.0,12.0,21587.0,701.0,33282.0


In [25]:
df.drop("년도", axis = 1).groupby("월")["발생건수", "사망자수", "부상자수"].mean()

  df.drop("년도", axis = 1).groupby("월")["발생건수", "사망자수", "부상자수"].mean()


Unnamed: 0_level_0,발생건수,사망자수,부상자수
월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,16209.571429,408.142857,25538.0
2,14889.0,358.857143,23368.142857
3,17563.785714,398.928571,26715.071429
4,18415.714286,405.857143,28256.214286
5,19566.714286,438.785714,30056.071429
6,18413.785714,413.214286,27851.142857
7,19065.714286,430.285714,29426.785714
8,18900.571429,443.928571,29899.071429
9,19094.857143,463.642857,29236.428571
10,20142.571429,527.285714,30838.285714


In [7]:
data_traffic

{'년도': [2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2005,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2006,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2007,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2008,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2009,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2010,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2011,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2012,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2013,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2014,
  2015,
  2015,
  2015,
  2015,
  

### 강사님 풀이

In [10]:
with open("traffic_acc.csv", "r", encoding = "utf-8") as f:
    csv = f.readlines()

#### csv 파일의 내용을 Python 자료 구조로 변환

- 딕셔너리를 원소로 갖는 리스트

In [13]:
# 변환된 데이터를 저장할 빈 리스트
data = []

for i, v in enumerate(csv):
    # 제목행 건너뛰기
    if i == 0:
        continue

    # 하나의 행을 리스트로 분리
    line = v.strip().split(",")
    # print(line)

    # 하나의 행을 딕셔너리로 정의
    item = {"년도":int(line[0]), "월":int(line[1]), "발생건수":int(line[2]), "사망자수":int(line[3]), "부상자수":int(line[4]),}

    # 변환 결과를 미리 준비한 빈 리스트에 넣음
    data.append(item)

#### 추출한 데이터로부터 총 합 구하기

In [14]:
발생건수_합계 = 0
사망자수_합계 = 0
부상자수_합계 = 0

for item in data:
    발생건수_합계 += item['발생건수']
    사망자수_합계 += item['사망자수']
    부상자수_합계 += item['부상자수']

print("발생건수_합계 : %d건" % 발생건수_합계)
print("사망자수_합계 : %d건" % 사망자수_합계)
print("부상자수_합계 : %d건" % 부상자수_합계)

발생건수_합계 : 3084976건
사망자수_합계 : 73436건
부상자수_합계 : 4751813건


#### 월 평균

In [15]:
개월수 = len(data)

print("발생건수_평균 : %0.1f건" % (발생건수_합계/개월수))
print("사망자수_평균 : %0.1f건" % (사망자수_합계/개월수))
print("부상자수_평균 : %0.1f건" % (부상자수_합계/개월수))

발생건수_평균 : 18363.0건
사망자수_평균 : 437.1건
부상자수_평균 : 28284.6건


#### 월별 평균

In [28]:
발생건수_합계 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
사망자수_합계 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
부상자수_합계 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

발생건수 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
사망자수 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
부상자수 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

발생건수_평균 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
사망자수_평균 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
부상자수_평균 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

for item in data:
    # item -> {"년도":2005, "월":1, "발생건수":15494, "사망자수":504, "부상자수":25413}
    monthIndex = item['월'] - 1
    발생건수_합계[monthIndex] += item['발생건수']
    발생건수[monthIndex] += 1

    사망자수_합계[monthIndex] += item['사망자수']
    사망자수[monthIndex] += 1

    부상자수_합계[monthIndex] += item['부상자수']
    부상자수[monthIndex] += 1

for i, v in enumerate(발생건수_합계):
    발생건수_평균[i] = v / 발생건수[i]

for i, v in enumerate(사망자수_합계):
    사망자수_평균[i] = v / 사망자수[i]
    
for i, v in enumerate(부상자수_합계):
    부상자수_평균[i] = v / 부상자수[i]

print("발생건수_평균 : %s\n" % 발생건수_평균)
print("사망자수_평균 : %s\n" % 사망자수_평균)
print("부상자수_평균 : %s\n" % 부상자수_평균)

발생건수_평균 : [16209.57142857143, 14889.0, 17563.785714285714, 18415.714285714286, 19566.714285714286, 18413.785714285714, 19065.714285714286, 18900.571428571428, 19094.85714285714, 20142.571428571428, 19639.714285714286, 18453.428571428572]

사망자수_평균 : [408.14285714285717, 358.85714285714283, 398.92857142857144, 405.85714285714283, 438.7857142857143, 413.2142857142857, 430.2857142857143, 443.92857142857144, 463.64285714285717, 527.2857142857143, 493.64285714285717, 462.85714285714283]

부상자수_평균 : [25538.0, 23368.14285714286, 26715.071428571428, 28256.214285714286, 30056.071428571428, 27851.14285714286, 29426.785714285714, 29899.071428571428, 29236.428571428572, 30838.285714285714, 29863.0, 28367.0]

