# Lab 03 — Python for AI

이 랩에서는 AI/데이터 분석에 필요한 Python 기초 문법과 핵심 라이브러리를 학습합니다.

**학습 목표:**
1. Python 기본 문법 (변수, 조건문, 반복문, 함수, 자료구조)
2. NumPy — 배열 연산
3. Pandas — 데이터 탐색
4. Matplotlib / Seaborn — 시각화

---
## Part 1. Python 기본 문법

### 1-1. 변수와 자료형

In [2]:
# 기본 자료형
name = "Alice"          # str (문자열)
age  = 25               # int (정수)
gpa  = 3.85             # float (실수)
enrolled = True         # bool (불리언)

print(type(name), name)
print(type(age),  age)
print(type(gpa),  gpa)
print(type(enrolled), enrolled)

<class 'str'> Alice
<class 'int'> 25
<class 'float'> 3.85
<class 'bool'> True


In [3]:
# 문자열 포매팅
print(f"{name}의 나이는 {age}세이고, GPA는 {gpa:.2f}입니다.")

# 기본 연산
print(10 + 3)   # 더하기
print(10 - 3)   # 빼기
print(10 * 3)   # 곱하기
print(10 / 3)   # 나누기 (float 결과)
print(10 // 3)  # 몫
print(10 % 3)   # 나머지
print(10 ** 3)  # 거듭제곱

Alice의 나이는 25세이고, GPA는 3.85입니다.
13
7
30
3.3333333333333335
3
1
1000


> **Exercise 1-1.** 자신의 이름, 나이, 키(float)를 변수에 저장하고 f-string으로 출력하세요.

In [None]:
# Your code here


### 1-2. 리스트 (List)

In [4]:
scores = [88, 75, 92, 60, 95]

print("전체:", scores)
print("첫 번째:", scores[0])
print("마지막:", scores[-1])
print("슬라이싱:", scores[1:4])
print("길이:", len(scores))

scores.append(80)         # 요소 추가
scores.sort()             # 정렬
print("정렬 후:", scores)
print("최소:", min(scores), "최대:", max(scores), "합계:", sum(scores))

전체: [88, 75, 92, 60, 95]
첫 번째: 88
마지막: 95
슬라이싱: [75, 92, 60]
길이: 5
정렬 후: [60, 75, 80, 88, 92, 95]
최소: 60 최대: 95 합계: 490


### 1-3. 딕셔너리 (Dictionary)

In [5]:
student = {
    "name": "Bob",
    "age": 22,
    "scores": [85, 90, 78]
}

print(student["name"])
print(student["scores"])

student["gpa"] = 3.5      # 새 키 추가
print(student.keys())
print(student.values())

Bob
[85, 90, 78]
dict_keys(['name', 'age', 'scores', 'gpa'])
dict_values(['Bob', 22, [85, 90, 78], 3.5])


### 1-4. 튜플 (Tuple)

절대 변하지 않는 데이터의 묶음

In [1]:
image_shape = (3, 224, 224) 

print("이미지 형태:", image_shape)
print("높이(Height) 값 가져오기:", image_shape[1]) # 리스트처럼 인덱싱 가능

image_shape[0] = 1  

# error occurs!

이미지 형태: (3, 224, 224)
높이(Height) 값 가져오기: 224


TypeError: 'tuple' object does not support item assignment

### 1-4. 조건문 (if / elif / else)

In [6]:
score = 85

if score >= 90:
    grade = "A"
elif score >= 80:
    grade = "B"
elif score >= 70:
    grade = "C"
else:
    grade = "F"

print(f"점수 {score} → 학점 {grade}")

점수 85 → 학점 B


> **Exercise 1-2.** 점수 리스트 `[72, 85, 91, 60, 78]`의 각 점수에 대해 학점을 출력하세요.

In [7]:
# Your code here


### 1-5. 반복문 (for / while)

In [None]:
# for 반복문
fruits = ["apple", "banana", "cherry"]
for fruit in fruits:
    print(fruit)

print()

# range()와 함께
for i in range(5):
    print(i, end=" ")
print()

# enumerate — 인덱스와 값 함께
for i, fruit in enumerate(fruits):
    print(f"{i}: {fruit}")

In [None]:
# 리스트 컴프리헨션 (list comprehension)
squares = [x**2 for x in range(1, 6)]
print("제곱:", squares)

evens = [x for x in range(10) if x % 2 == 0]
print("짝수:", evens)

### 1-6. 함수 (Function)

In [None]:
def greet(name, greeting="Hello"):
    """이름과 인사말을 출력하는 함수"""
    return f"{greeting}, {name}!"

print(greet("Alice"))
print(greet("Bob", "Hi"))

In [None]:
def describe_scores(scores):
    """점수 리스트의 기초 통계를 반환하는 함수"""
    n     = len(scores)
    mean  = sum(scores) / n
    return {"count": n, "mean": round(mean, 2),
            "min": min(scores), "max": max(scores)}

result = describe_scores([88, 75, 92, 60, 95])
print(result)

> **Exercise 1-3.** 숫자 `n`을 입력받아 1부터 n까지의 합을 반환하는 함수 `sum_to_n(n)`을 작성하세요.

In [None]:
# Your code here
def sum_to_n(n):
    pass

print(sum_to_n(10))   # 예상 출력: 55
print(sum_to_n(100))  # 예상 출력: 5050

---
## Part 2. NumPy

In [None]:
import numpy as np

### 2-1. 배열 생성

In [None]:
# 1차원 배열
a = np.array([1, 2, 3, 4, 5])
print("배열:", a)
print("형태:", a.shape)
print("타입:", a.dtype)

# 2차원 배열 (행렬)
m = np.array([[1, 2, 3],
              [4, 5, 6]])
print("\n행렬:\n", m)
print("형태:", m.shape)   # (행, 열)

In [None]:
# 유용한 배열 생성 함수
print(np.zeros((2, 3)))        # 0으로 채운 배열
print(np.ones((2, 3)))         # 1로 채운 배열
print(np.arange(0, 10, 2))    # 0부터 10 미만, 간격 2
print(np.linspace(0, 1, 5))   # 0~1 사이를 5등분

### 2-2. 인덱싱과 슬라이싱

In [None]:
a = np.array([10, 20, 30, 40, 50])

print(a[0])      # 첫 번째
print(a[-1])     # 마지막
print(a[1:4])    # 인덱스 1~3
print(a[a > 25]) # 조건 인덱싱: 25보다 큰 값만

In [None]:
m = np.arange(12).reshape(3, 4)  # 0~11을 3x4 행렬로
print(m)
print("\n1행:", m[1])           # 1번 행 전체
print("2열:", m[:, 2])          # 2번 열 전체
print("부분:\n", m[0:2, 1:3])   # 0~1행, 1~2열

### 2-3. 벡터 연산과 브로드캐스팅

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 원소별 연산 (element-wise)
print(a + b)
print(a * b)
print(np.dot(a, b))   # 내적 (dot product)

# 브로드캐스팅 — 스칼라와의 연산
print(a * 10)         # 모든 원소에 10 곱하기
print(a + 100)

In [None]:
# 집계 함수
data = np.array([4, 7, 2, 9, 1, 5, 8, 3, 6])

print("평균:",   data.mean())
print("표준편차:", data.std())
print("최솟값:",  data.min(), "→ 인덱스:", data.argmin())
print("최댓값:",  data.max(), "→ 인덱스:", data.argmax())
print("정렬:",   np.sort(data))

> **Exercise 2.** 1부터 20까지의 정수 배열을 만들고, 10보다 큰 값의 평균을 구하세요.

In [None]:
# Your code here


---
## Part 3. Pandas

In [None]:
import pandas as pd

### 3-1. DataFrame 생성

In [None]:
df = pd.DataFrame({
    "name":   ["Alice", "Bob", "Charlie", "Diana", "Eve"],
    "age":    [24, 30, 22, 35, 28],
    "score":  [88, 92, 75, 95, 60],
    "passed": [True, True, True, True, False]
})

df

### 3-2. 기본 탐색

In [None]:
print(df.shape)      # (행 수, 열 수)
print(df.dtypes)     # 각 열의 타입
print()
df.info()            # 전체 요약

In [None]:
df.describe()        # 수치형 열의 기술통계

In [None]:
print(df.head(3))    # 처음 3행
print()
print(df.tail(2))    # 마지막 2행

### 3-3. 열 선택과 필터링

In [None]:
# 열 선택
print(df["name"])           # 단일 열 → Series
print()
print(df[["name", "score"]]) # 여러 열 → DataFrame

In [None]:
# 조건 필터링
high_score = df[df["score"] >= 90]
print("점수 90 이상:\n", high_score)

young_pass = df[(df["age"] < 30) & (df["passed"] == True)]
print("\n30세 미만 통과:\n", young_pass)

### 3-4. 새 열 추가와 집계

In [None]:
# 새 열 추가
df["grade"] = df["score"].apply(
    lambda s: "A" if s >= 90 else ("B" if s >= 80 else "C")
)
df

In [None]:
# 그룹별 집계
df.groupby("grade")["score"].agg(["mean", "count"])

### 3-5. 실제 데이터셋 로딩 (Iris)

In [None]:
from sklearn.datasets import load_iris

iris = load_iris(as_frame=True)
df_iris = iris.frame
df_iris.head()

In [None]:
print(df_iris.shape)
df_iris.describe()

In [None]:
# 결측치 확인
print("결측치:\n", df_iris.isnull().sum())

# 클래스별 평균
df_iris.groupby("target").mean().round(2)

> **Exercise 3.** Iris 데이터에서 `sepal length (cm)` 가 5.0 이상인 행만 필터링하고, 그 행 수를 출력하세요.

In [None]:
# Your code here


---
## Part 4. Matplotlib / Seaborn

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.rcParams["font.family"] = "AppleGothic"
plt.rcParams["axes.unicode_minus"] = False

### 4-1. 선 그래프 (Line Plot)

In [None]:
x = np.linspace(0, 2 * np.pi, 100)

plt.figure(figsize=(8, 4))
plt.plot(x, np.sin(x), label="sin(x)", color="steelblue")
plt.plot(x, np.cos(x), label="cos(x)", color="tomato", linestyle="--")
plt.title("삼각함수")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

### 4-2. 히스토그램 (Histogram)

In [None]:
rng = np.random.default_rng(42)
data = rng.normal(loc=70, scale=10, size=200)  # 평균 70, 표준편차 10

plt.figure(figsize=(7, 4))
plt.hist(data, bins=20, color="steelblue", edgecolor="white")
plt.axvline(data.mean(), color="red", linestyle="--", label=f"평균 {data.mean():.1f}")
plt.title("점수 분포")
plt.xlabel("점수")
plt.ylabel("빈도")
plt.legend()
plt.tight_layout()
plt.show()

### 4-3. 산점도 (Scatter Plot)

In [None]:
plt.figure(figsize=(7, 5))
scatter = plt.scatter(
    df_iris["sepal length (cm)"],
    df_iris["petal length (cm)"],
    c=df_iris["target"], cmap="Set1", alpha=0.7
)
plt.colorbar(scatter, label="species")
plt.title("Iris — 꽃받침 길이 vs 꽃잎 길이")
plt.xlabel("Sepal Length (cm)")
plt.ylabel("Petal Length (cm)")
plt.tight_layout()
plt.show()

### 4-4. Seaborn — 박스 플롯

In [None]:
target_names = {0: "setosa", 1: "versicolor", 2: "virginica"}
df_iris["species"] = df_iris["target"].map(target_names)

plt.figure(figsize=(8, 5))
sns.boxplot(data=df_iris, x="species", y="petal length (cm)",
            hue="species", palette="Set2", legend=False)
plt.title("종별 꽃잎 길이 분포")
plt.tight_layout()
plt.show()

### 4-5. Seaborn — 상관관계 히트맵

In [None]:
corr = df_iris.drop(columns=["target", "species"]).corr()

plt.figure(figsize=(6, 5))
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", vmin=-1, vmax=1)
plt.title("Iris 특성 간 상관관계")
plt.tight_layout()
plt.show()

> **Exercise 4.** Iris 데이터에서 `sepal width (cm)` 의 종별 분포를 Seaborn `violinplot`으로 시각화하세요.

In [None]:
# Your code here


---
## Summary

| 라이브러리 | 핵심 개념 |
|---|---|
| Python | 변수, 리스트, 딕셔너리, 조건문, 반복문, 함수 |
| NumPy | ndarray, 슬라이싱, 브로드캐스팅, 집계 함수 |
| Pandas | DataFrame, 필터링, groupby, apply |
| Matplotlib/Seaborn | 선 그래프, 히스토그램, 산점도, 박스플롯, 히트맵 |