# Matplotlib 기초 - 데이터 시각화 (Matplotlib Basics - Data Visualization)

**수업 시간**: 3시간  
**구성**: 강의 및 실습 2시간 + 퀴즈 1시간  
**수준**: 중급

---

## 🎯 학습 목표

이 수업을 마친 후 학생들은 다음을 할 수 있습니다:

- matplotlib 라이브러리 설치 및 가져오기
- 간단한 선 그래프(Line Graph) 생성하기
- 데이터 비교용 막대 그래프(Bar Chart) 만들기
- 그래프에 제목과 라벨(Label) 추가하기
- 히스토그램(Histogram)으로 데이터 분포 시각화하기

---

## 📊 1. Matplotlib 소개

**Matplotlib**은 그래프와 차트를 만들어주는 파이썬 라이브러리입니다. 숫자로 그림을 그리는 디지털 붓이라고 생각하세요.

### 그래프를 사용하는 이유

- **이해하기 쉬움**: 그림이 숫자보다 이해하기 쉽습니다
- **패턴 발견**: 트렌드를 빠르게 확인할 수 있습니다
- **데이터 비교**: 나란히 비교가 가능합니다
- **효과적인 의사소통**: 복잡한 데이터를 간단하게 전달

### 데이터 시각화의 중요성

데이터 시각화는 현대 사회에서 매우 중요한 기술입니다:

```
예시: 코로나19 확산 현황
- 숫자로만: "확진자 1,234명, 완치자 987명"
- 그래프로: 시간에 따른 증감 곡선을 한눈에 파악
```

---

## ⚙️ 2. Matplotlib 설치하기

matplotlib을 사용하기 전에 **pip**를 사용해서 설치해야 합니다.

### 설치 명령어

In [None]:
%%bash
pip install matplotlib

### Matplotlib 가져오기

In [None]:
import matplotlib.pyplot as plt

이것이 그래프 그리기를 위해 matplotlib을 가져오는 표준 방법입니다.

### 한글 폰트 설정 (선택사항)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 한글 폰트 설정 (Windows)
plt.rcParams['font.family'] = 'Malgun Gothic'
# 또는 Mac의 경우
# plt.rcParams['font.family'] = 'AppleGothic'

# 음수 기호 깨짐 방지
plt.rcParams['axes.unicode_minus'] = False

---

## 📈 3. 선 그래프 (Line Graph)

선 그래프는 시간에 따른 데이터 변화를 보여줍니다. 자라면서 키를 추적하는 것과 같습니다.

### 간단한 선 그래프

In [None]:
import matplotlib.pyplot as plt

# 데이터
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# 선 그래프 생성
plt.plot(x, y)
plt.show()

### 라벨이 있는 선 그래프

In [None]:
import matplotlib.pyplot as plt

# 월별 매출 데이터
월별 = ['1월', '2월', '3월', '4월', '5월']
매출 = [1000, 1500, 1200, 1800, 2000]

# 그래프 생성
plt.plot(월별, 매출)
plt.title('월별 매출 현황')
plt.xlabel('월')
plt.ylabel('매출 (만원)')
plt.show()

### 여러 선이 있는 그래프

In [None]:
import matplotlib.pyplot as plt

# 두 제품의 월별 판매량 데이터
월별 = ['1월', '2월', '3월', '4월', '5월']
제품A = [100, 150, 120, 180, 200]
제품B = [80, 130, 140, 160, 190]

# 여러 선 그래프
plt.plot(월별, 제품A, label='제품 A', marker='o')
plt.plot(월별, 제품B, label='제품 B', marker='s')
plt.title('제품별 월별 판매량')
plt.xlabel('월')
plt.ylabel('판매량 (개)')
plt.legend()  # 범례 표시
plt.grid(True)  # 격자 표시
plt.show()

---

## 📊 4. 막대 그래프 (Bar Chart)

막대 그래프는 서로 다른 카테고리를 비교합니다. 서로 다른 건물의 높이를 비교하는 것과 같습니다.

### 간단한 막대 그래프

In [None]:
import matplotlib.pyplot as plt

# 과목별 점수
과목들 = ['수학', '영어', '과학']
점수들 = [85, 90, 78]

# 막대 그래프 생성
plt.bar(과목들, 점수들)
plt.title('과목별 점수')
plt.ylabel('점수')
plt.show()

### 컬러풀한 막대 그래프

In [None]:
import matplotlib.pyplot as plt

# 과일 판매량
과일들 = ['사과', '바나나', '오렌지', '포도']
판매량 = [50, 30, 40, 25]
색상들 = ['red', 'yellow', 'orange', 'purple']

# 컬러풀한 막대 그래프 생성
plt.bar(과일들, 판매량, color=색상들)
plt.title('과일별 판매량')
plt.xlabel('과일 종류')
plt.ylabel('판매량 (개)')
plt.show()

### 수평 막대 그래프

In [None]:
import matplotlib.pyplot as plt

# 도시별 인구 데이터
도시들 = ['서울', '부산', '대구', '인천', '광주']
인구 = [9720, 3390, 2420, 2950, 1440]

# 수평 막대 그래프
plt.barh(도시들, 인구, color='skyblue')
plt.title('도시별 인구 현황')
plt.xlabel('인구 (만명)')
plt.ylabel('도시')

# 각 막대에 수치 표시
for i, 값 in enumerate(인구):
    plt.text(값 + 50, i, f'{값}만명', va='center')

plt.show()

---

## 📊 5. 히스토그램 (Histogram)

히스토그램은 서로 다른 값들이 얼마나 자주 나타나는지 보여줍니다. 서로 다른 성적을 받은 학생 수를 세는 것과 같습니다.

### 간단한 히스토그램

In [None]:
import matplotlib.pyplot as plt

# 학생 키 데이터 (cm)
키_데이터 = [160, 165, 170, 175, 168, 172, 158, 180, 162, 169, 
           166, 171, 163, 174, 167, 159, 173, 161, 176, 164]

# 히스토그램 생성
plt.hist(키_데이터, bins=5, color='lightblue', edgecolor='black')
plt.title('학생 키 분포')
plt.xlabel('키 (cm)')
plt.ylabel('학생 수')
plt.show()

### 자세한 히스토그램

In [None]:
import matplotlib.pyplot as plt

# 시험 점수 데이터
점수들 = [75, 82, 90, 88, 76, 95, 68, 84, 91, 77, 
         86, 79, 92, 85, 73, 89, 78, 83, 87, 94, 
         71, 80, 93, 88, 74, 96, 69, 81, 85, 90]

# 히스토그램 생성
plt.hist(점수들, bins=8, color='lightgreen', alpha=0.7, edgecolor='black')
plt.title('시험 점수 분포')
plt.xlabel('점수')
plt.ylabel('학생 수')
plt.grid(True, alpha=0.3)

# 평균선 표시
평균점수 = sum(점수들) / len(점수들)
plt.axvline(평균점수, color='red', linestyle='--', label=f'평균: {평균점수:.1f}')
plt.legend()
plt.show()

print(f"평균 점수: {평균점수:.1f}")
print(f"최고 점수: {max(점수들)}")
print(f"최저 점수: {min(점수들)}")

---

## 🎨 6. 그래프 꾸미기

그래프를 더 좋아 보이고 정보가 풍부하게 만들기.

### 필수 그래프 요소들

In [None]:
import matplotlib.pyplot as plt

# 주간 온도 데이터
요일들 = ['월', '화', '수', '목', '금', '토', '일']
온도 = [22, 25, 23, 27, 24, 26, 21]

# 꾸며진 그래프 생성
plt.figure(figsize=(10, 6))  # 그래프 크기 설정
plt.plot(요일들, 온도, color='blue', marker='o', linewidth=3, markersize=8)
plt.title('주간 온도 변화', fontsize=16, fontweight='bold')
plt.xlabel('요일', fontsize=12)
plt.ylabel('온도 (°C)', fontsize=12)
plt.grid(True, alpha=0.3)

# 각 점에 온도 값 표시
for i, temp in enumerate(온도):
    plt.annotate(f'{temp}°C', (i, temp), textcoords="offset points", 
                xytext=(0,10), ha='center')

plt.tight_layout()
plt.show()

### 그래프 스타일 옵션

- **색상(Colors)**: 'red', 'blue', 'green', 'orange', '#FF5733' (헥스 코드)
- **마커(Markers)**: 'o' (원), 's' (사각형), '^' (삼각형), '*' (별)
- **선 스타일(Line styles)**: '-' (실선), '--' (점선), ':' (점점선), '-.' (일점쇄선)

### 서브플롯(Subplot)으로 여러 그래프 동시에 보기

In [None]:
import matplotlib.pyplot as plt

# 데이터
월별 = ['1월', '2월', '3월', '4월', '5월', '6월']
매출 = [1000, 1500, 1200, 1800, 2000, 1700]
비용 = [800, 1100, 900, 1300, 1400, 1200]

# 2x1 서브플롯 생성
plt.figure(figsize=(12, 8))

# 첫 번째 서브플롯: 매출
plt.subplot(2, 1, 1)
plt.plot(월별, 매출, 'go-', linewidth=2)
plt.title('월별 매출')
plt.ylabel('매출 (만원)')
plt.grid(True)

# 두 번째 서브플롯: 비용
plt.subplot(2, 1, 2)
plt.plot(월별, 비용, 'ro-', linewidth=2)
plt.title('월별 비용')
plt.xlabel('월')
plt.ylabel('비용 (만원)')
plt.grid(True)

plt.tight_layout()
plt.show()

---

## 🔧 실습

### 실습 1: CSV 데이터 시각화

**문제**: CSV 데이터를 읽고 다른 종류의 그래프를 만드세요.

**먼저 'monthly_data.csv' 파일을 다음과 같이 만드세요:**

```
month,temperature,rainfall
1월,15,45
2월,18,38
3월,22,52
4월,25,40
5월,28,35
6월,32,20
```

**해답**:

In [None]:
import matplotlib.pyplot as plt
import csv

# CSV 데이터 읽기
월별 = []
온도 = []
강수량 = []

with open('monthly_data.csv', 'r', encoding='utf-8') as file:
    csv_reader = csv.DictReader(file)
    for row in csv_reader:
        월별.append(row['month'])
        온도.append(int(row['temperature']))
        강수량.append(int(row['rainfall']))

# 온도용 선 그래프와 강수량용 막대 그래프 생성
plt.figure(figsize=(12, 5))

# 첫 번째 서브플롯: 온도
plt.subplot(1, 2, 1)
plt.plot(월별, 온도, color='red', marker='o', linewidth=2)
plt.title('월별 온도 변화')
plt.xlabel('월')
plt.ylabel('온도 (°C)')
plt.grid(True, alpha=0.3)

# 두 번째 서브플롯: 강수량
plt.subplot(1, 2, 2)
plt.bar(월별, 강수량, color='blue', alpha=0.7)
plt.title('월별 강수량')
plt.xlabel('월')
plt.ylabel('강수량 (mm)')

plt.tight_layout()
plt.show()

# 데이터 분석 출력
print(f"가장 더운 달: {월별[온도.index(max(온도))]} ({max(온도)}°C)")
print(f"강수량이 가장 많은 달: {월별[강수량.index(max(강수량))]} ({max(강수량)}mm)")

### 실습 2: 주식 가격 추이 그래프

**문제**: 주식 가격 추이 시각화를 만드세요.

**데이터:**

In [None]:
# 주식 가격 데이터
기간 = ['1주차', '2주차', '3주차', '4주차', '5주차', '6주차']
주식가격 = [100, 105, 98, 110, 115, 108]

**해답**:

In [None]:
import matplotlib.pyplot as plt

# 주식 가격 데이터
기간 = ['1주차', '2주차', '3주차', '4주차', '5주차', '6주차']
주식가격 = [100, 105, 98, 110, 115, 108]

# 주식 가격 그래프 생성
plt.figure(figsize=(12, 7))
plt.plot(기간, 주식가격, color='green', marker='o', linewidth=3, markersize=10)

# 스타일링 추가
plt.title('주식 가격 추이', fontsize=18, fontweight='bold')
plt.xlabel('기간', fontsize=14)
plt.ylabel('가격 (만원)', fontsize=14)
plt.grid(True, alpha=0.3)

# 각 점에 가격 라벨 추가
for i, 가격 in enumerate(주식가격):
    plt.annotate(f'{가격}만원', (i, 가격), textcoords="offset points", 
                xytext=(0,15), ha='center', fontsize=12, fontweight='bold')

# 색깔로 상승/하락 구분
for i in range(1, len(주식가격)):
    if 주식가격[i] > 주식가격[i-1]:
        plt.plot([i-1, i], [주식가격[i-1], 주식가격[i]], 'g-', linewidth=3)
    else:
        plt.plot([i-1, i], [주식가격[i-1], 주식가격[i]], 'r-', linewidth=3)

plt.tight_layout()
plt.show()

# 수익/손실 계산 및 표시
시작가격 = 주식가격[0]
종료가격 = 주식가격[-1]
변화량 = 종료가격 - 시작가격
수익률 = (변화량 / 시작가격) * 100

print(f"시작 가격: {시작가격}만원")
print(f"종료 가격: {종료가격}만원")
print(f"변화량: {변화량:+}만원")
print(f"수익률: {수익률:+.1f}%")

### 실습 3: 설문조사 결과 시각화

**문제**: 다양한 설문조사 데이터를 여러 그래프로 시각화하세요.

**데이터:**

In [None]:
# 설문조사 데이터
연령대 = ['10대', '20대', '30대', '40대', '50대 이상']
응답자수 = [25, 45, 35, 28, 17]

만족도 = ['매우 불만', '불만', '보통', '만족', '매우 만족']
만족도_수 = [5, 12, 30, 38, 15]

선호제품 = ['제품A', '제품B', '제품C', '제품D']
선호도 = [30, 25, 35, 10]

**해답**:

In [None]:
import matplotlib.pyplot as plt

# 설문조사 데이터
연령대 = ['10대', '20대', '30대', '40대', '50대 이상']
응답자수 = [25, 45, 35, 28, 17]

만족도 = ['매우\n불만', '불만', '보통', '만족', '매우\n만족']
만족도_수 = [5, 12, 30, 38, 15]

선호제품 = ['제품A', '제품B', '제품C', '제품D']
선호도 = [30, 25, 35, 10]

# 2x2 서브플롯 생성
plt.figure(figsize=(15, 12))

# 1. 연령대별 응답자 수 (막대 그래프)
plt.subplot(2, 2, 1)
색상1 = ['lightblue', 'lightgreen', 'lightcoral', 'lightyellow', 'lightpink']
bars1 = plt.bar(연령대, 응답자수, color=색상1, edgecolor='black')
plt.title('연령대별 응답자 수', fontsize=14, fontweight='bold')
plt.xlabel('연령대')
plt.ylabel('응답자 수 (명)')

# 각 막대에 숫자 표시
for bar, 수 in zip(bars1, 응답자수):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5, 
             f'{수}명', ha='center', va='bottom', fontweight='bold')

# 2. 만족도 분포 (수평 막대 그래프)
plt.subplot(2, 2, 2)
색상2 = ['red', 'orange', 'yellow', 'lightgreen', 'green']
bars2 = plt.barh(만족도, 만족도_수, color=색상2, edgecolor='black')
plt.title('서비스 만족도', fontsize=14, fontweight='bold')
plt.xlabel('응답자 수 (명)')

# 각 막대에 숫자 표시
for bar, 수 in zip(bars2, 만족도_수):
    plt.text(bar.get_width() + 0.5, bar.get_y() + bar.get_height()/2, 
             f'{수}명', ha='left', va='center', fontweight='bold')

# 3. 제품 선호도 (원형 그래프)
plt.subplot(2, 2, 3)
색상3 = ['gold', 'lightcoral', 'lightskyblue', 'lightgreen']
웨지, 텍스트, 자동텍스트 = plt.pie(선호도, labels=선호제품, colors=색상3, 
                               autopct='%1.1f%%', startangle=90)
plt.title('제품 선호도', fontsize=14, fontweight='bold')

# 4. 연령대와 만족도 비교 (선 그래프)
plt.subplot(2, 2, 4)
plt.plot(연령대, 응답자수, 'bo-', label='응답자 수', linewidth=2, markersize=8)
plt.plot(만족도[:3], 만족도_수[:3], 'ro-', label='만족도 (하위 3개)', linewidth=2, markersize=8)
plt.title('연령대별 응답 현황', fontsize=14, fontweight='bold')
plt.xlabel('구분')
plt.ylabel('수량')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 통계 요약
print("=== 설문조사 결과 요약 ===")
print(f"총 응답자 수: {sum(응답자수)}명")
print(f"가장 많은 연령대: {연령대[응답자수.index(max(응답자수))]} ({max(응답자수)}명)")
print(f"만족 이상 응답자: {만족도_수[3] + 만족도_수[4]}명 ({((만족도_수[3] + 만족도_수[4])/sum(만족도_수)*100):.1f}%)")
print(f"가장 인기 제품: {선호제품[선호도.index(max(선호도))]} ({max(선호도)}%)")

---

## 📝 퀴즈

### 퀴즈 1: 기본 선 그래프

**문제**: x = [1, 2, 3, 4, 5]와 y = [2, 4, 6, 8, 10]으로 선 그래프를 그리고 적절한 제목과 축 라벨을 추가하세요.

**답을 여기에 작성하세요**:

In [None]:
# 여기에 코드를 작성하세요

### 퀴즈 2: 과목 점수 막대 그래프

**문제**: subjects = ['수학', '영어', '과학']와 scores = [85, 90, 78]로 막대 그래프를 그리고 "과목별 점수" 제목을 설정하세요. 적절한 라벨도 추가하세요.

**답을 여기에 작성하세요**:

In [None]:
# 여기에 코드를 작성하세요

### 퀴즈 3: 키 분포 히스토그램

**문제**: heights = [160, 165, 170, 175, 168, 172, 158, 180, 162, 169]로 히스토그램을 그리고 적절한 구간으로 설정하세요. 제목과 라벨을 추가하세요.

**답을 여기에 작성하세요**:

In [None]:
# 여기에 코드를 작성하세요

---

## 📖 참고 자료

1. **Matplotlib 공식 튜토리얼**: https://matplotlib.org/stable/tutorials/index.html
   - 공식 문서와 튜토리얼

2. **Matplotlib 기본 예제**: https://matplotlib.org/stable/gallery/index.html
   - 다양한 그래프 예제 모음

3. **Python Graph Gallery**: https://python-graph-gallery.com/
   - 아름다운 그래프 예제들

4. **Real Python Matplotlib 가이드**: https://realpython.com/python-matplotlib-guide/
   - 실용적인 matplotlib 가이드

---

## 💡 핵심 포인트

### 기억할 점
1. **먼저 가져오기**: 항상 matplotlib.pyplot을 plt로 가져오기
2. **plt.show()**: 그래프 보여주는 것 잊지 말기
3. **라벨 추가**: 제목, x라벨, y라벨이 그래프를 명확하게 만듦
4. **올바른 그래프 선택**: 트렌드는 선 그래프, 비교는 막대 그래프

### 일반적인 그래프 유형
- **선 그래프(Line Graph)**: 시계열, 트렌드 분석
- **막대 그래프(Bar Chart)**: 카테고리 비교
- **히스토그램(Histogram)**: 값의 분포 확인
- **원형 그래프(Pie Chart)**: 전체 대비 비율

### 그래프 작성 체크리스트
- [ ] 적절한 그래프 유형 선택
- [ ] 제목과 축 라벨 추가
- [ ] 범례(Legend) 필요시 추가
- [ ] 색상과 스타일 적용
- [ ] 격자(Grid) 표시 여부 결정

---

## 📋 숙제

1. 3개 실습을 모두 완료하고 다양한 스타일 적용해보기
2. 자신만의 데이터로 다른 종류의 그래프 만들기 연습
3. 서로 다른 색상과 스타일 옵션 시도해보기
4. 이전 주에 만든 CSV 파일로 그래프 생성하기
5. 한 개의 그래프에 여러 데이터 시리즈 표시해보기

**그래프는 데이터를 생생하게 만듭니다 - 숫자만으로는 할 수 없는 이야기를 들려줍니다!** 📊