# CSV 파일 다루기 (CSV File Handling)

**수업 시간**: 3시간  
**구성**: 강의 및 실습 2시간 + 퀴즈 1시간  
**수준**: 중급  
**선수 학습**: 파일 입출력, 함수, 반복문, 조건문, 리스트, 딕셔너리

---

## 학습 목표

이 수업을 마친 후 학생들은 다음을 할 수 있습니다:

- CSV 파일이 무엇이고 왜 유용한지 이해하기
- 파이썬을 사용하여 CSV 파일에서 데이터 읽기
- CSV 파일에 데이터 쓰기
- CSV 데이터 처리 및 정리하기

---

## 1. CSV 파일이란?

**CSV**는 **Comma-Separated Values**의 줄임말입니다. 어떤 프로그램이든 읽을 수 있는 간단한 스프레드시트라고 생각하면 됩니다.

### 왜 CSV 파일을 사용하나요?

- **범용성**: Excel, Google Sheets, 파이썬 등에서 모두 작동
- **단순함**: 값 사이에 쉼표가 있는 텍스트 형태
- **가벼움**: 작은 파일 크기로 효율적

### CSV 예시

```
name,age,city,salary
김철수,25,서울,5000
이영희,30,부산,6000
박민수,28,대구,5500
```

이것은 테이블처럼 보입니다:

| name   | age | city | salary |
|--------|-----|------|--------|
| 김철수 | 25  | 서울 | 5000   |
| 이영희 | 30  | 부산 | 6000   |
| 박민수 | 28  | 대구 | 5500   |

### 영남이공대학교 소프트웨어융합과 학생 데이터 예시

```
student_id,name,major,grade
20240001,김개발,소프트웨어융합과,95
20240002,이코딩,소프트웨어융합과,88
20240003,박프로그래밍,소프트웨어융합과,92
```

---

## 2. csv 모듈 사용

파이썬에는 CSV 파일 작업을 쉽게 만들어주는 내장 **csv 모듈**이 있습니다.

### csv 모듈 가져오기

In [None]:
import csv

이것만으로 끝입니다! 이제 모든 CSV 함수를 사용할 수 있습니다.

---

## 3. CSV 파일 읽기

### 방법 1: csv.reader (기본 읽기)

In [None]:
import csv

# CSV 파일 읽기
with open('students.csv', 'r', encoding='utf-8') as file:
    csv_reader = csv.reader(file)
    
    # 헤더 읽기 (첫 번째 행)
    header = next(csv_reader)
    print("헤더:", header)
    
    # 데이터 행 읽기
    for row in csv_reader:
        print(row)

### 방법 2: csv.DictReader (딕셔너리로 읽기)

열 이름을 사용할 수 있어서 더 편리합니다!

In [None]:
import csv

with open('students.csv', 'r', encoding='utf-8') as file:
    csv_reader = csv.DictReader(file)
    
    for row in csv_reader:
        print(f"이름: {row['name']}, 나이: {row['age']}")

### 예시: 영남이공대학교 학생 데이터 읽기

In [None]:
import csv

def read_student_data():
    students = []
    
    with open('yeungnam_students.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        
        for row in csv_reader:
            student = {
                'name': row['name'],
                'student_id': row['student_id'],
                'major': row['major'],
                'grade': float(row['grade'])
            }
            students.append(student)
    
    return students

# 함수 사용
student_list = read_student_data()
for student in student_list:
    print(f"{student['name']} ({student['student_id']}): {student['grade']}점")

---

## 4. CSV 파일 쓰기

### 방법 1: csv.writer (기본 쓰기)

In [None]:
import csv

# 샘플 데이터
data = [
    ['name', 'age', 'city'],
    ['김철수', '22', '서울'],
    ['이영희', '25', '부산'],
    ['박민수', '23', '대구']
]

# CSV에 쓰기
with open('people.csv', 'w', newline='', encoding='utf-8') as file:
    csv_writer = csv.writer(file)
    
    for row in data:
        csv_writer.writerow(row)

print("파일이 성공적으로 생성되었습니다!")

### 방법 2: csv.DictWriter (딕셔너리로 쓰기)

In [None]:
import csv

# 딕셔너리 형태의 샘플 데이터
people = [
    {'name': '김철수', 'age': 22, 'city': '서울'},
    {'name': '이영희', 'age': 25, 'city': '부산'},
    {'name': '박민수', 'age': 23, 'city': '대구'}
]

# 열 이름
fieldnames = ['name', 'age', 'city']

# CSV에 쓰기
with open('people.csv', 'w', newline='', encoding='utf-8') as file:
    csv_writer = csv.DictWriter(file, fieldnames=fieldnames)
    
    # 헤더 쓰기
    csv_writer.writeheader()
    
    # 데이터 쓰기
    for person in people:
        csv_writer.writerow(person)

print("파일이 성공적으로 생성되었습니다!")

### 영남이공대학교 소프트웨어융합과 학생 데이터 저장

In [None]:
import csv

def save_student_grades():
    students = [
        {'student_id': '20240001', 'name': '김개발', 'subject': '파이썬프로그래밍', 'grade': 95},
        {'student_id': '20240002', 'name': '이코딩', 'subject': '파이썬프로그래밍', 'grade': 88},
        {'student_id': '20240003', 'name': '박프로그래밍', 'subject': '파이썬프로그래밍', 'grade': 92}
    ]
    
    fieldnames = ['student_id', 'name', 'subject', 'grade']
    
    with open('sw_students_grades.csv', 'w', newline='', encoding='utf-8') as file:
        writer = csv.DictWriter(file, fieldnames=fieldnames)
        writer.writeheader()
        
        for student in students:
            writer.writerow(student)
    
    print("영남이공대학교 소프트웨어융합과 성적 데이터가 저장되었습니다!")

save_student_grades()

---

## 5. 데이터 처리 및 정리 (Data Processing and Cleaning)

실제 CSV 데이터는 종종 정리가 필요합니다. 다음은 일반적인 작업들입니다:

### 데이터 필터링

In [None]:
import csv

def filter_high_grades():
    good_students = []
    
    with open('students.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        
        for row in csv_reader:
            if float(row['grade']) >= 80:
                good_students.append(row)
    
    return good_students

# 필터링된 데이터 저장
def save_filtered_data(students):
    with open('good_students.csv', 'w', newline='', encoding='utf-8') as file:
        fieldnames = ['name', 'grade', 'subject']
        csv_writer = csv.DictWriter(file, fieldnames=fieldnames)
        
        csv_writer.writeheader()
        for student in students:
            csv_writer.writerow(student)

# 함수 사용
high_performers = filter_high_grades()
save_filtered_data(high_performers)

### 누락 데이터 처리

In [None]:
import csv

def clean_student_data():
    clean_records = []
    
    with open('messy_student_data.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        
        for row in csv_reader:
            # 이름이 누락된 행은 건너뛰기
            if not row['name'].strip():
                continue
            
            # 나이가 누락된 경우 기본값 설정
            if not row['age'].strip():
                row['age'] = '0'
            
            # 정리해서 리스트에 추가
            clean_record = {
                'name': row['name'].strip(),
                'age': int(row['age']),
                'email': row['email'].strip().lower()
            }
            clean_records.append(clean_record)
    
    return clean_records

---

## 실습 문제

### 실습 1: 성적 관리 프로그램

**문제**: 과목별, 학기별 성적 분석을 위한 프로그램을 만드세요.

**먼저 'student_grades.csv' 파일을 다음과 같이 만드세요:**

```
name,subject,semester,grade
김철수,수학,1학기,85
김철수,영어,1학기,90
김철수,과학,1학기,88
이영희,수학,1학기,78
이영희,영어,1학기,82
이영희,과학,1학기,80
김철수,수학,2학기,92
김철수,영어,2학기,88
이영희,수학,2학기,85
이영희,영어,2학기,86
```

**정답**:

In [None]:
import csv

def read_grades():
    grades = []
    with open('student_grades.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        for row in csv_reader:
            grades.append(row)
    return grades

def calculate_subject_average(grades, subject):
    total = 0
    count = 0
    for grade in grades:
        if grade['subject'] == subject:
            total += int(grade['grade'])
            count += 1
    return total / count if count > 0 else 0

def calculate_student_average(grades, student_name):
    total = 0
    count = 0
    for grade in grades:
        if grade['name'] == student_name:
            total += int(grade['grade'])
            count += 1
    return total / count if count > 0 else 0

# 성적 읽기 및 분석
all_grades = read_grades()

# 평균 계산
math_avg = calculate_subject_average(all_grades, '수학')
english_avg = calculate_subject_average(all_grades, '영어')
kimcs_avg = calculate_student_average(all_grades, '김철수')

print(f"수학 평균: {math_avg:.1f}점")
print(f"영어 평균: {english_avg:.1f}점")
print(f"김철수 평균: {kimcs_avg:.1f}점")

### 실습 2: 고객 정보 관리 시스템

**문제**: CSV 기반 고객 관리 시스템을 만드세요.

**먼저 'customers.csv' 파일을 다음과 같이 만드세요:**

```
name,email,phone,city
김고객,kim@email.com,010-1234-5678,서울
이구매,lee@email.com,010-5678-1234,부산
박주문,park@email.com,010-9999-7777,대구
최소비,choi@email.com,010-7777-3333,광주
```

**정답**:

In [None]:
import csv

def read_customers():
    customers = []
    with open('customers.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        for row in csv_reader:
            customers.append(row)
    return customers

def add_customer(name, email, phone, city):
    with open('customers.csv', 'a', newline='', encoding='utf-8') as file:
        csv_writer = csv.writer(file)
        csv_writer.writerow([name, email, phone, city])

def search_by_city(city_name):
    customers = read_customers()
    found_customers = []
    for customer in customers:
        if customer['city'] == city_name:
            found_customers.append(customer)
    return found_customers

# 시스템 테스트
print("전체 고객:")
all_customers = read_customers()
for customer in all_customers:
    print(f"{customer['name']} - {customer['city']}")

print("\n서울 고객:")
seoul_customers = search_by_city("서울")
for customer in seoul_customers:
    print(f"{customer['name']} - {customer['email']}")

# 새 고객 추가
add_customer("신고객", "new@email.com", "010-1111-2222", "인천")
print("\n새 고객이 추가되었습니다!")

### 실습 3: 엑셀 데이터 처리 프로그램

**문제**: CSV 형식을 사용하여 엑셀과 같은 데이터를 파이썬으로 처리하는 프로그램을 만드세요.

**먼저 'sales_data.csv' 파일을 다음과 같이 만드세요:**

```
month,product,sales,profit
1월,노트북,50000,10000
1월,스마트폰,30000,8000
2월,노트북,45000,9000
2월,스마트폰,35000,9000
3월,노트북,60000,12000
3월,스마트폰,40000,10000
```

**정답**:

In [None]:
import csv

def read_sales_data():
    data = []
    with open('sales_data.csv', 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        for row in csv_reader:
            data.append(row)
    return data

def calculate_monthly_total(data, month):
    total_sales = 0
    total_profit = 0
    for row in data:
        if row['month'] == month:
            total_sales += int(row['sales'])
            total_profit += int(row['profit'])
    return total_sales, total_profit

def find_best_product(data):
    product_totals = {}
    for row in data:
        product = row['product']
        sales = int(row['sales'])
        if product in product_totals:
            product_totals[product] += sales
        else:
            product_totals[product] = sales
    
    best_product = max(product_totals, key=product_totals.get)
    return best_product, product_totals[best_product]

# 데이터 처리
sales_data = read_sales_data()

# 1월 총계 계산
jan_sales, jan_profit = calculate_monthly_total(sales_data, '1월')
print(f"1월 - 매출: {jan_sales:,}원, 수익: {jan_profit:,}원")

# 최고 판매 제품 찾기
best_product, best_sales = find_best_product(sales_data)
print(f"최고 판매 제품: {best_product}, 총 매출: {best_sales:,}원")

# 요약 보고서 생성
with open('monthly_summary.csv', 'w', newline='', encoding='utf-8') as file:
    csv_writer = csv.writer(file)
    csv_writer.writerow(['월', '총 매출', '총 수익'])
    
    months = ['1월', '2월', '3월']
    for month in months:
        sales, profit = calculate_monthly_total(sales_data, month)
        csv_writer.writerow([month, sales, profit])

print("요약 보고서가 monthly_summary.csv에 저장되었습니다")

---

## 퀴즈

### 퀴즈 1: 기본 CSV 읽기

**문제**: 'title', 'author', 'price' 열이 있는 'books.csv' 파일을 읽고 가격이 20000원 미만인 책만 출력하는 프로그램을 작성하세요. csv.DictReader를 사용하세요.

**답안 작성 공간**:

In [None]:
# 여기에 코드를 작성하세요

### 퀴즈 2: 사용자 입력으로 CSV 쓰기

**문제**: 사용자에게 이름, 나이, 좋아하는 색깔을 묻고 이 정보를 'users.csv' 파일에 저장하는 프로그램을 만드세요. 파일이 존재하지 않으면 적절한 헤더와 함께 생성하세요.

**답안 작성 공간**:

In [None]:
# 여기에 코드를 작성하세요

### 퀴즈 3: 데이터 처리 및 필터링

**문제**: 'name', 'department', 'salary' 열이 있는 'employees.csv'를 읽고 '개발팀' 부서에서 연봉이 5000만원 이상인 직원만 포함하는 새 CSV 파일을 만드는 프로그램을 작성하세요. 결과를 'dev_high_salary.csv'로 저장하세요.

**답안 작성 공간**:

In [None]:
# 여기에 코드를 작성하세요

---

## 참고 자료

1. **파이썬 CSV 공식 문서**: https://docs.python.org/ko/3/library/csv.html
   - CSV 모듈에 대한 공식 파이썬 문서

2. **점프 투 파이썬 - 파일 읽고 쓰기**: https://wikidocs.net/26
   - 한국어로 된 파일 처리 설명

3. **코딩 도장 - CSV 파일**: https://dojang.io/mod/page/view.php?id=2327
   - CSV 파일 처리 상세 설명

4. **Real Python - CSV 처리**: https://realpython.com/python-csv/
   - CSV 파일 처리 튜토리얼

5. **파이썬으로 데이터 다루기**: https://www.programiz.com/python-programming/csv
   - CSV 작업에 대한 종합 가이드

---

## 핵심 포인트

### 기억해야 할 것들

1. **CSV = Comma-Separated Values** (쉼표로 구분된 값)
2. **csv.DictReader 사용하면 열 접근이 쉬움**
3. **CSV 쓸 때 항상 'newline=""' 사용**
4. **데이터 처리 전에 정리 작업 수행**

### 모범 사례

- 파일 처리에는 항상 'with open()' 사용
- 한글 파일은 'encoding="utf-8"' 지정
- 누락되거나 잘못된 데이터를 우아하게 처리
- 의미 있는 변수명 사용
- 먼저 작은 데이터로 테스트

### 실무 활용 팁

#### 1. 한글 파일 처리 시 주의사항

In [None]:
# 한글이 포함된 CSV 파일 읽기/쓰기
with open('한글파일.csv', 'r', encoding='utf-8') as file:
    # 파일 처리 코드

#### 2. 대용량 파일 처리

In [None]:
# 메모리 효율적인 처리
def process_large_csv():
    with open('large_file.csv', 'r', encoding='utf-8') as file:
        reader = csv.DictReader(file)
        for row in reader:  # 한 번에 하나씩 처리
            # 처리 로직
            pass

#### 3. 데이터 검증

In [None]:
def validate_data(row):
    # 필수 필드 확인
    if not row.get('name'):
        return False
    
    # 숫자 필드 검증
    try:
        float(row.get('grade', 0))
        return True
    except ValueError:
        return False

---

## 숙제

### 기본 과제

1. **실습 완료**: 3개 실습 모두 완료하기
2. **개인 CSV**: 개인 데이터로 자신만의 CSV 파일 생성 및 읽기/쓰기 연습하기
3. **실제 데이터**: 인터넷에서 실제 CSV 데이터를 다운로드하여 처리해보기

### 심화 과제

1. **영남이공대학교 학사 관리 시스템**:
   - 학생 정보 관리 (student_info.csv)
   - 수강 신청 관리 (course_registration.csv)
   - 성적 관리 (grades.csv)
   - 통합 보고서 생성

2. **소프트웨어융합과 프로젝트 관리**:
   - 프로젝트 목록 관리
   - 팀원별 역할 분담
   - 진행 상황 추적
   - 완료 현황 보고서

3. **COVID-19 데이터 분석**:
   - 공공데이터 포털에서 CSV 다운로드
   - 지역별/기간별 데이터 분석
   - 통계 요약 및 시각화 준비

### 추가 연습 문제

1. **온라인 쇼핑몰 주문 관리**: 상품, 고객, 주문 데이터를 CSV로 관리
2. **도서관 대출 시스템**: 도서, 회원, 대출 정보를 CSV로 처리
3. **급식 메뉴 관리**: 요일별, 영양소별 메뉴 데이터 분석

CSV 파일은 데이터 작업의 기본이며, 이를 마스터하면 엑셀, 데이터베이스, 웹 스크래핑 등 다양한 데이터 소스와 연동할 수 있습니다. 실무에서 매우 자주 사용되는 기술이므로 충분히 연습해 보시기 바랍니다.