# Pandas 핵심실습: Apply와 Lambda 완전정복

---

## 목차
1. Pandas 개요 및 핵심 개념
2. DataFrame 생성과 구조 이해
3. 데이터 선택과 필터링
4. 결측치 처리
5. GroupBy와 집계
6. 데이터 병합과 연결
7. Apply와 Lambda 실전 활용
8. 시각화 및 실습 종합

---

## 시각화 계획

```mermaid
flowchart TD
    A[노트북 시작] --> B[목차 및 시각화 계획]
    B --> C[핵심 개념 구조도]
    C --> D[실습별 시각화]
    D --> E[최종 종합 시각화]
```

```mermaid
pie title Visualization Distribution
    "Mermaid Diagrams" : 40
    "실습 코드" : 35
    "설명 텍스트" : 25
```

> 각 섹션별로 최소 2개 이상의 Mermaid/차트 시각화가 포함됩니다.

---

**본 노트북은 Pandas의 핵심 기능을 실습과 함께 시각적으로 완벽하게 이해할 수 있도록 구성되었습니다. 모든 설명에는 Mermaid 다이어그램 등 시각화가 반드시 포함됩니다.**

## 1. Pandas 개요 및 핵심 개념

Pandas는 데이터 분석을 위한 Python 라이브러리로, 표 형식의 데이터를 쉽고 빠르게 처리할 수 있습니다.

### 주요 객체
- Series: 1차원 데이터
- DataFrame: 2차원 데이터(행/열)

### 핵심 기능
- 데이터 정제, 변환, 집계, 시각화 등

#### 구조도 시각화
```mermaid
graph TD
    A[Pandas] --> B[Series]
    A --> C[DataFrame]
    C --> D["행(Row)"]
    C --> E["열(Column)"]
    C --> F["인덱스(Index)"]
```

#### 활용 흐름도
```mermaid
flowchart TD
    A[데이터 로드] --> B[정제 및 변환]
    B --> C[분석 및 집계]
    C --> D[시각화]
    D --> E[결과 활용]
```

> 위 구조도와 흐름도를 통해 Pandas의 전체적인 데이터 처리 과정을 한눈에 파악할 수 있습니다.

## 2. DataFrame 생성과 구조 이해

Pandas의 DataFrame은 행과 열로 구성된 2차원 데이터 구조입니다.

### DataFrame 생성 예시
- 리스트, 딕셔너리, Numpy 배열 등 다양한 소스에서 생성 가능

#### DataFrame 구조 시각화
```mermaid
graph TD
    A[DataFrame] --> B["행(Row)"]
    A --> C["열(Column)"]
    A --> D["인덱스(Index)"]
```

#### 생성 흐름도
```mermaid
flowchart TD
    A[데이터 소스] --> B[Pandas DataFrame 생성]
    B --> C[구조 확인 및 활용]
```

> DataFrame은 데이터 분석의 기본 단위로, 다양한 소스에서 쉽게 생성할 수 있습니다.

In [None]:
import pandas as pd

# 리스트로 DataFrame 생성
students = pd.DataFrame({
    '이름': ['홍길동', '김철수', '이영희'],
    '국어': [90, 80, 70],
    '영어': [85, 95, 75],
    '수학': [88, 92, 78]
})

# DataFrame 구조 확인
print(students)
print('\n컬럼:', students.columns)
print('인덱스:', students.index)

## 3. 데이터 선택과 필터링

Pandas에서는 다양한 방식으로 원하는 데이터만 선택하거나 조건에 따라 필터링할 수 있습니다.

### 주요 선택 방법
- loc: 라벨 기반 선택
- iloc: 인덱스 기반 선택
- 조건 필터링: 특정 조건에 맞는 행/열 선택

#### 선택/필터링 구조도
```mermaid
graph TD
    A[DataFrame] --> B[loc]
    A --> C[iloc]
    A --> D[조건 필터링]
```

#### 선택/필터링 흐름도
```mermaid
flowchart TD
    A[전체 데이터] --> B[선택/필터링]
    B --> C[결과 DataFrame]
```

> 다양한 선택/필터링 방법을 통해 원하는 데이터만 손쉽게 추출할 수 있습니다.

In [None]:
# loc: 라벨 기반 선택
print(students.loc[0, '이름'])  # 첫 번째 학생 이름
print(students.loc[:, ['이름', '국어']])  # 모든 학생의 이름과 국어 점수

# iloc: 인덱스 기반 선택
print(students.iloc[1, 2])  # 두 번째 학생의 영어 점수
print(students.iloc[:, 1:3])  # 모든 학생의 국어, 영어 점수

# 조건 필터링: 국어 점수가 80점 이상인 학생
print(students[students['국어'] >= 80])

## 4. 결측치 처리

실제 데이터에는 결측치(NaN)가 자주 발생합니다. Pandas는 결측치 탐지, 대체, 삭제 등 다양한 처리를 지원합니다.

### 결측치 처리 방법
- isnull(), notnull()로 탐지
- fillna()로 대체
- dropna()로 삭제

#### 결측치 처리 구조도
```mermaid
graph TD
    A[DataFrame] --> B[결측치 탐지]
    B --> C["대체(fillna)"]
    B --> D["삭제(dropna)"]
```

#### 결측치 처리 흐름도
```mermaid
flowchart TD
    A[원본 데이터] --> B[결측치 탐지]
    B --> C{결측치 있음?}
    C -->|Yes| D[대체 또는 삭제]
    C -->|No| E[그대로 유지]
```

> 결측치 처리는 데이터 분석의 신뢰도를 높이는 데 필수적입니다.

In [None]:
# 결측치가 포함된 DataFrame 생성
students_nan = students.copy()
students_nan.loc[1, '영어'] = None
print(students_nan)

# 결측치 탐지
print(students_nan.isnull())

# 결측치 대체: 영어 점수가 결측치면 0으로 대체
print(students_nan.fillna({'영어': 0}))

# 결측치 삭제: 결측치가 있는 행 삭제
print(students_nan.dropna())

## 5. GroupBy와 집계

GroupBy는 데이터를 특정 기준으로 그룹화하여 집계(합계, 평균 등)할 때 사용합니다.

### 주요 집계 함수
- sum(), mean(), count(), min(), max()

#### GroupBy 구조도
```mermaid
graph TD
    A[DataFrame] --> B[GroupBy]
    B --> C[집계 함수]
    C --> D[결과 DataFrame]
```

#### 집계 흐름도
```mermaid
flowchart TD
    A[원본 데이터] --> B["그룹화(GroupBy)"]
    B --> C[집계 함수 적용]
    C --> D[집계 결과]
```

> GroupBy는 데이터 분석에서 패턴이나 특성을 파악할 때 매우 유용합니다.

In [None]:
# 학생별로 점수 집계 예시
students['반'] = ['A', 'A', 'B']
print(students)

# 반별 국어 점수 평균
print(students.groupby('반')['국어'].mean())

# 반별 전체 점수 합계
print(students.groupby('반').sum(numeric_only=True))

## 6. 데이터 병합과 연결

여러 DataFrame을 하나로 합치거나 연결할 때 merge, concat을 사용합니다.

### 주요 병합/연결 함수
- merge(): 공통 컬럼 기준 병합
- concat(): 단순 연결

#### 병합/연결 구조도
```mermaid
graph TD
    A[DataFrame1] --> C[merge/concat] --> B[DataFrame2]
    C --> D[결과 DataFrame]
```

#### 병합/연결 흐름도
```mermaid
flowchart TD
    A[여러 DataFrame] --> B[병합 또는 연결]
    B --> C[결과 DataFrame]
```

> 데이터 병합과 연결은 다양한 소스의 데이터를 통합할 때 필수적입니다.

In [None]:
# 두 DataFrame 병합 및 연결 예시
df1 = pd.DataFrame({'이름': ['홍길동', '김철수'], '과학': [80, 85]})
df2 = students[['이름', '국어', '영어']]

# merge: 이름 기준 병합
merged = pd.merge(df2, df1, on='이름', how='left')
print(merged)

# concat: 행 방향 연결
concat_df = pd.concat([df2, df1], axis=0, ignore_index=True)
print(concat_df)

## 7. Apply와 Lambda 실전 활용

apply()와 lambda는 반복적인 데이터 처리, 사용자 정의 함수 적용에 매우 강력합니다.

### 주요 활용 예시
- 컬럼별/행별 연산
- 조건부 변환
- 복잡한 데이터 처리

#### Apply/Lambda 구조도
```mermaid
graph TD
    A[DataFrame] --> B["apply()"]
    B --> C[lambda 함수]
    C --> D[결과 Series/DataFrame]
```

#### 활용 흐름도
```mermaid
flowchart TD
    A[원본 데이터] --> B[apply/lambda 적용]
    B --> C[변환 결과]
```

> apply와 lambda를 활용하면 반복적인 데이터 변환을 간결하게 처리할 수 있습니다.

In [None]:
# apply와 lambda 실전 활용
# 국어, 영어, 수학 점수의 평균 컬럼 추가
students['평균'] = students[['국어', '영어', '수학']].apply(lambda x: x.mean(), axis=1)
print(students)

# 영어 점수가 90점 이상이면 '우수', 아니면 '일반' 표시
students['영어_등급'] = students['영어'].apply(lambda x: '우수' if x >= 90 else '일반')
print(students)

## 8. 시각화 및 실습 종합

지금까지 실습한 내용을 시각적으로 종합하여 Pandas 데이터 처리의 전체 흐름을 정리합니다.

#### 전체 실습 흐름도
```mermaid
flowchart TD
    A[데이터 생성] --> B[선택/필터링]
    B --> C[결측치 처리]
    C --> D[그룹화/집계]
    D --> E[병합/연결]
    E --> F[apply/lambda 변환]
    F --> G[최종 결과]
```

#### 핵심 기능 분포 차트
```mermaid
pie title Pandas 핵심 기능 실습 비중
    "DataFrame 생성" : 15
    "선택/필터링" : 15
    "결측치 처리" : 15
    "그룹화/집계" : 15
    "병합/연결" : 15
    "apply/lambda" : 25
```

> 위 시각화로 Pandas의 데이터 처리 전체 흐름과 각 기능의 중요도를 한눈에 파악할 수 있습니다.

---

**이 노트북의 모든 실습과 설명은 시각화 중심으로 구성되어 있으며, 실제 데이터 분석에 바로 적용할 수 있습니다.**