# AI활용프로그래밍 Week 11 — Matplotlib 그래프 (따라하기 노트북)

- 이 노트북은 **PPT 예시 코드**를 학생들이 **그대로 따라 실행**할 수 있게 정리한 버전입니다.
- 각 Step은 **독립적으로 실행**되도록 구성했습니다.
- 그래프는 `plt.show()`로 출력됩니다.


## 학습 목표
- Matplotlib의 기본 흐름(그리기 → 라벨링 → 표시)을 이해한다.
- 선그래프/막대그래프/히스토그램/산점도를 작성할 수 있다.
- 제목/축/범례/저장 등 그래프 해석에 필요한 요소를 추가할 수 있다.
- Pandas 데이터로 간단한 시각화를 수행할 수 있다.
- LLM을 활용해 차트 선택/디버깅/해석을 연습한다.


## Step 0. 실행 환경 준비(Colab/Jupyter)

### 해야 할 것
1) 새 노트북(Colab/Jupyter) 생성
2) 아래 코드 실행
3) 버전이 출력되면 OK

### 체크
- `matplotlib / pandas / numpy` 버전이 출력된다.

In [None]:
import sys
import numpy as np
import pandas as pd
import matplotlib

print('python', sys.version.split()[0])
print('numpy', np.__version__)
print('pandas', pd.__version__)
print('matplotlib', matplotlib.__version__)


## Step 1. Matplotlib 기본 패턴(최소 코드)

### 해야 할 것
- import → 데이터 준비
- `plt.plot()`으로 그리기
- `title/xlabel/ylabel` 넣고 `show()`

### 체크
- 선그래프 1개가 뜨고 제목/축 라벨이 보인다.

In [None]:
import matplotlib.pyplot as plt

x = [1, 2, 3, 4]
y = [10, 20, 15, 25]

plt.plot(x, y)
plt.title('Line Plot')
plt.xlabel('x')
plt.ylabel('y')
plt.show()


## Step 2. 선그래프(Line) — 시간에 따른 변화

### 해야 할 것
- x축=시간(또는 순서), y축=값
- `marker='o'`로 점 확인
- `grid(True)`로 격자 표시

### 체크
- 요일별 걸음 수 추세를 선으로 읽을 수 있다.

In [None]:
import matplotlib.pyplot as plt

days = ['Mon','Tue','Wed','Thu','Fri']
steps = [5200, 7400, 6800, 9100, 8000]

plt.plot(days, steps, marker='o')
plt.title('Daily Steps')
plt.xlabel('Day')
plt.ylabel('Steps')
plt.grid(True)
plt.show()


## Step 3. 막대그래프(Bar) — 범주 비교

### 해야 할 것
- `labels=범주`, `values=값`
- label이 길면 회전(rotation) 고려

### 체크
- A/B/C 막대가 나타나고 B가 가장 크다.

In [None]:
import matplotlib.pyplot as plt

labels = ['A', 'B', 'C']
values = [5, 8, 3]

plt.bar(labels, values)
plt.title('Bar Chart')
plt.xlabel('Group')
plt.ylabel('Value')
plt.show()


## Step 4. 히스토그램(Histogram) — 분포 보기

### 해야 할 것
- `data`는 숫자 리스트/배열
- `bins`로 구간 수 조절

### 체크
- 연속 구간 막대가 나오며 분포 모양을 관찰할 수 있다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)  # (선택) 실행할 때마다 비슷한 결과를 보고 싶다면
data = np.random.randn(1000)

plt.hist(data, bins=20)
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Count')
plt.show()


## Step 5. 산점도(Scatter) — 두 변수 관계

### 해야 할 것
- x=변수1, y=변수2
- 점의 퍼짐을 보고 관계/이상치(outlier)를 관찰

### 체크
- 점들이 찍히고 관계를 추측할 수 있다.

In [None]:
import matplotlib.pyplot as plt

x = [1,2,3,4,5]
y = [2,4,1,5,3]

plt.scatter(x, y)
plt.title('Scatter')
plt.xlabel('x')
plt.ylabel('y')
plt.show()


## Step 6. 여러 선 + 범례(legend)

### 해야 할 것
- 각 선에 `label` 지정
- `plt.legend()`로 범례 표시

### 체크
- A/B 두 선이 보이고 범례에 A, B가 표시된다.

In [None]:
import matplotlib.pyplot as plt

x = [1, 2, 3]
a = [10, 20, 15]
b = [8, 18, 25]

plt.plot(x, a, label='A')
plt.plot(x, b, label='B')
plt.title('Two Lines')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.show()


## Step 7. 그래프 저장(`savefig`) — `show()`보다 먼저

### 해야 할 것
- 파일명(경로 포함) 정하기
- `plt.savefig()`는 `plt.show()`보다 먼저 호출

### 체크
- 현재 폴더에 `figure.png`가 생긴다.

In [None]:
import matplotlib.pyplot as plt

plt.plot([1,2,3], [2,3,5])
plt.title('Save Example')
plt.xlabel('x')
plt.ylabel('y')

plt.savefig('figure.png')
plt.show()

print('saved: figure.png')


## Step 8. Pandas로 빠르게 그리기(`plot kind`)

### 해야 할 것
- DataFrame 생성(또는 CSV 읽기)
- `df[col].plot(kind=...)`

### 체크
- score 분포 히스토그램이 뜨고, `bins=5`라 구간이 5개로 보인다.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({'score':[70,85,90,60,75,88,95]})
# df = pd.read_csv('data.csv')

df['score'].plot(kind='hist', bins=5)
plt.title('Score Distribution')
plt.xlabel('score')
plt.show()


## 실습: CSV로 그래프 2개 + 해석 2줄

### 체크리스트
- CSV 1개 선택(수업 제공/개인 데이터)
- 그래프 2종류 이상(선+히스토그램 등)
- 각 그래프에 제목/축 라벨 포함
- 그래프에서 읽은 결론 2줄 작성
- 가능하면 `savefig`로 1개 저장

아래는 **연습용 CSV를 생성**해서 실습하는 예시입니다.

In [None]:
import pandas as pd

# (예시) 간단한 CSV 데이터 생성
data = {
    'date': pd.date_range('2026-01-01', periods=7, freq='D'),
    'study_time': [1, 2, 2.5, 3, 1.5, 4, 3.5],
    'score': [60, 65, 70, 75, 68, 85, 80]
}
df = pd.DataFrame(data)
df.to_csv('week11_sample.csv', index=False)
df


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('week11_sample.csv')

# 그래프 1) 날짜별 점수(선그래프)
plt.plot(df['date'], df['score'], marker='o')
plt.title('Score by Date')
plt.xlabel('date')
plt.ylabel('score')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 그래프 2) 점수 분포(히스토그램)
plt.hist(df['score'], bins=5)
plt.title('Score Distribution')
plt.xlabel('score')
plt.ylabel('count')
plt.show()


## 차트 선택 가이드

- 추세(시간 변화): 선그래프
- 범주 비교: 막대그래프
- 분포 확인: 히스토그램
- 관계/상관: 산점도

Tip: **질문을 먼저 정하면 차트가 따라온다**

## 그래프 해석 연습(예시 질문)

1) 최고/최저 값은 언제인가?
2) 전체 추세는 상승/하락/변동인가?
3) 분포가 한쪽으로 치우쳤는가?
4) 이상치(outlier)가 있는가?

→ 해석 한 줄을 꼭 써보자(과제 채점 포인트)

## 자주 발생하는 오류

- 그래프가 안 뜸: `plt.show()` 누락, 실행 환경 문제
- 한글 깨짐: 폰트 설정 필요(환경별 상이)
- 데이터 길이 불일치: x와 y 길이 확인
- NaN 존재: 결측치 처리 후 시각화
- 해결: 에러 메시지 + 데이터 `shape` 확인


## With AI 1: 차트 선택 프롬프트(복사해서 사용)

너는 데이터 분석가야.
내가 가진 데이터 컬럼은 다음과 같아:
- date, steps, sleep_hours, score
질문: "수면시간과 점수의 관계"를 보고 싶어.
어떤 그래프가 좋고, 왜 그런지 설명해줘.
그리고 Matplotlib 코드 예시를 줘.


### (예시) 가상 데이터 생성

실제 데이터가 없을 때 아래처럼 가상 데이터를 만들어 연습할 수 있습니다.

In [None]:
import pandas as pd

data = {
    'sleep_hours': [6, 7, 8, 5, 7.5, 6.5, 9, 5.5, 8.5, 7, 6, 7, 8, 6.5, 7.5, 9, 5, 8, 7, 6],
    'score': [70, 85, 92, 60, 88, 78, 95, 65, 90, 80, 72, 83, 91, 75, 86, 96, 62, 89, 81, 73],
    'study_time': [2, 3, 4, 1, 3.5, 2.5, 5, 1.5, 4.5, 3, 2, 3, 4, 2.5, 3.5, 5, 1, 4, 3, 2],
    'gender': ['Male', 'Female'] * 10,
}
df = pd.DataFrame(data)
df.head()


## With AI 2: 그래프 오류 디버깅(길이 불일치)

에러 메시지 예: `ValueError: x and y must have same first dimension`

아래는 **일부러 에러를 만드는 코드**입니다.

In [None]:
import matplotlib.pyplot as plt

x = [1, 2, 3]
y = [10, 20]  # 길이가 다름!

try:
    plt.plot(x, y)
    plt.show()
except Exception as e:
    print('에러:', type(e).__name__, e)

# 길이 확인
print('len(x)=', len(x), 'len(y)=', len(y))


## With AI 3: 결과 해석 문장 생성(복사해서 사용)

내가 만든 그래프를 설명문으로 쓰고 싶어.
아래 요약 통계를 참고해서 3문장으로 해석을 작성해줘.
조건:
- 과장 금지(사실 기반)
- 한 문장은 이상치/예외에 대한 언급 포함
- 마지막 문장은 다음 분석 제안 1개


## 실습 체크리스트(오늘 완료 기준)

- [ ] Matplotlib로 그래프 2종류 이상 그렸다
- [ ] 제목/축 라벨을 모두 넣었다
- [ ] 그래프를 보고 결론 2줄을 작성했다
- [ ] 에러가 나면 데이터 길이/shape를 확인했다
- [ ] LLM 프롬프트 1개 이상 사용하고 결과를 검증했다


## 미니 퀴즈(개념 확인)

1) 추세(시간 변화)를 볼 때 가장 적절한 그래프는?
   A. 히스토그램  B. 선그래프  C. 원그래프

2) 분포를 확인하는 그래프는?
   A. 히스토그램  B. 산점도  C. 막대그래프

3) 두 변수의 관계를 보는 그래프는?
   A. 산점도  B. 막대그래프  C. 표

4) 그래프가 안 뜰 때 먼저 확인할 것은?
   A. plt.show()  B. print 삭제  C. input 추가

5) x와 y 길이가 다르면 발생할 수 있는 오류는?
   A. ValueError  B. NameError  C. IndentationError

**정답:** 1-B, 2-A, 3-A, 4-A, 5-A
