# 9. pandas 핵심 

## 문법 설명

### 1. DataFrame 기본

**정의**: 2차원 표 형태의 데이터 구조입니다.

**생성**:
```python
import pandas as pd
df = pd.DataFrame({"컬럼1": [값1, 값2], "컬럼2": [값3, 값4]})
```

**데이터 로드**:
| 함수 | 설명 | 예시 |
|------|------|------|
| `pd.read_csv()` | CSV 파일 읽기 | `pd.read_csv("file.csv")` |
| `pd.read_json()` | JSON 파일 읽기 | `pd.read_json("file.json")` |
| `pd.read_excel()` | Excel 파일 읽기 | `pd.read_excel("file.xlsx")` |

**기본 정보 확인**:
| 메서드/속성 | 설명 |
|------------|------|
| `df.head(n)` | 처음 n개 행 |
| `df.tail(n)` | 마지막 n개 행 |
| `df.info()` | 데이터 타입, 결측치 정보 |
| `df.describe()` | 기술 통계 |
| `df.shape` | (행 수, 열 수) |
| `df.columns` | 컬럼명 목록 |

---

### 2. 데이터 선택

**컬럼 선택**:
- `df["컬럼명"]`: Series 반환
- `df[["컬럼1", "컬럼2"]]`: DataFrame 반환

**행 선택**:
- `df.loc[인덱스]`: 라벨 기반
- `df.iloc[위치]`: 위치 기반
- `df[조건]`: 불리언 인덱싱

**조건 필터링**:
```python
df[df["컬럼"] > 값]
df[(df["컬럼1"] > 값1) & (df["컬럼2"] < 값2)]
```

---

### 3. 데이터 조작

**결측치 처리**:
| 메서드 | 설명 |
|--------|------|
| `df.isnull()` | 결측치 여부 (True/False) |
| `df.dropna()` | 결측치 행 삭제 |
| `df.fillna(값)` | 결측치 채우기 |

**그룹화 및 집계**:
```python
df.groupby("컬럼")["컬럼2"].agg(["mean", "sum", "count"])
```

**정렬**:
- `df.sort_values("컬럼")`: 값으로 정렬
- `df.sort_index()`: 인덱스로 정렬

**새 컬럼 추가**:
```python
df["새컬럼"] = df["컬럼1"] + df["컬럼2"]
```

---
## 실습 시작

아래 실습을 통해 위 문법들을 직접 사용해봅니다.

---

## 9.1 pandas 기초

### 9.1.1 DataFrame 생성

In [None]:
# 딕셔너리에서 생성

In [None]:
# 리스트에서 생성

### 9.1.2 CSV 파일 읽기

In [None]:
# CSV 파일 읽기

In [None]:
# 처음/마지막 N개 행

### 9.1.3 기본 정보 확인

In [None]:
# 기본 정보

In [None]:
# 통계 요약

In [None]:
# 컬럼 목록

In [None]:
# 데이터 타입

---
## 9.2 데이터 선택과 필터링

### 9.2.1 컬럼 선택

In [None]:
# 단일 컬럼 (Series)

In [None]:
# 여러 컬럼 (DataFrame)

### 9.2.2 행 선택

In [None]:
# 인덱스로 선택 (iloc: 정수 위치)

In [None]:
# 라벨로 선택 (loc)

In [None]:
# 특정 행, 열 선택

### 9.2.3 조건 필터링

In [None]:
# 단일 조건

In [None]:
# 여러 조건 (AND)

In [None]:
# 여러 조건 (OR)

In [None]:
# isin: 여러 값 중 하나

In [None]:
# 문자열 포함 여부

---
## 9.3 정렬과 집계

### 9.3.1 정렬

In [None]:
# 단일 컬럼 정렬

In [None]:
# 여러 컬럼 정렬

### 9.3.2 value_counts()

In [None]:
# 카테고리별 개수

In [None]:
# 점수별 개수

In [None]:
# 비율로 표시

### 9.3.3 groupby와 집계

In [None]:
# 카테고리별 평균 점수

In [None]:
# 여러 집계 함수

---
## 9.4 실습: 보고서용 요약표 만들기

### 요약표 1: 카테고리별 종합 통계

In [None]:
def create_category_summary(df):
    # 전체 합계 행 추가

### 요약표 2: 점수 분포

In [None]:
def create_score_distribution(df):
    # 누적 비율 추가

### 요약표를 딕셔너리/JSON으로 변환

In [None]:
def tables_to_dict(table1, table2):

In [None]:
# JSON 저장

---
## 9.5 새 컬럼 추가와 데이터 변환

In [None]:
# 새 컬럼 추가

In [None]:
# 확인

In [None]:
# apply로 복잡한 변환
def categorize_response(row):