# 9. pandas 핵심 

## 문법 설명

### 1. DataFrame 기본

**정의**: 2차원 표 형태의 데이터 구조입니다.

**생성**:
```python
import pandas as pd
df = pd.DataFrame({"컬럼1": [값1, 값2], "컬럼2": [값3, 값4]})
```

**데이터 로드**:
| 함수 | 설명 | 예시 |
|------|------|------|
| `pd.read_csv()` | CSV 파일 읽기 | `pd.read_csv("file.csv")` |
| `pd.read_json()` | JSON 파일 읽기 | `pd.read_json("file.json")` |
| `pd.read_excel()` | Excel 파일 읽기 | `pd.read_excel("file.xlsx")` |

**기본 정보 확인**:
| 메서드/속성 | 설명 |
|------------|------|
| `df.head(n)` | 처음 n개 행 |
| `df.tail(n)` | 마지막 n개 행 |
| `df.info()` | 데이터 타입, 결측치 정보 |
| `df.describe()` | 기술 통계 |
| `df.shape` | (행 수, 열 수) |
| `df.columns` | 컬럼명 목록 |

---

### 2. 데이터 선택

**컬럼 선택**:
- `df["컬럼명"]`: Series 반환
- `df[["컬럼1", "컬럼2"]]`: DataFrame 반환

**행 선택**:
- `df.loc[인덱스]`: 라벨 기반
- `df.iloc[위치]`: 위치 기반
- `df[조건]`: 불리언 인덱싱

**조건 필터링**:
```python
df[df["컬럼"] > 값]
df[(df["컬럼1"] > 값1) & (df["컬럼2"] < 값2)]
```

---

### 3. 데이터 조작

**결측치 처리**:
| 메서드 | 설명 |
|--------|------|
| `df.isnull()` | 결측치 여부 (True/False) |
| `df.dropna()` | 결측치 행 삭제 |
| `df.fillna(값)` | 결측치 채우기 |

**그룹화 및 집계**:
```python
df.groupby("컬럼")["컬럼2"].agg(["mean", "sum", "count"])
```

**정렬**:
- `df.sort_values("컬럼")`: 값으로 정렬
- `df.sort_index()`: 인덱스로 정렬

**새 컬럼 추가**:
```python
df["새컬럼"] = df["컬럼1"] + df["컬럼2"]
```

---
## 실습 시작

아래 실습을 통해 위 문법들을 직접 사용해봅니다.

---

## 9.1 pandas 기초

### 9.1.1 DataFrame 생성

In [1]:
import pandas as pd

# 딕셔너리에서 생성
data = {
    "이름": ["홍길동", "김철수", "이영희", "박민수"],
    "나이": [25, 30, 28, 35],
    "도시": ["서울", "부산", "서울", "대구"]
}

df = pd.DataFrame(data)
print(df)
print(type(df))

    이름  나이  도시
0  홍길동  25  서울
1  김철수  30  부산
2  이영희  28  서울
3  박민수  35  대구
<class 'pandas.core.frame.DataFrame'>


In [2]:
# 리스트에서 생성
rows = [
    ["홍길동", 25, "서울"],
    ["김철수", 30, "부산"],
    ["이영희", 28, "서울"]
]
df2 = pd.DataFrame(rows, columns=["이름", "나이", "도시"])
print(df2)

    이름  나이  도시
0  홍길동  25  서울
1  김철수  30  부산
2  이영희  28  서울


### 9.1.2 CSV 파일 읽기

In [3]:
# CSV 파일 읽기
df = pd.read_csv("data/survey_responses.csv")
print(f"shape: {df.shape}")  # (행, 열)
df.head()

shape: (50, 5)


Unnamed: 0,id,category,response_text,satisfaction_score,timestamp
0,1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
1,2,서비스,고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.,5,2024-01-15 10:15:00
2,3,제품,품질이 기대 이하였습니다. 사진과 달라요.,2,2024-01-15 11:00:00
3,4,배송,배송 지연이 있었습니다. 예상보다 3일 늦게 도착.,2,2024-01-15 11:45:00
4,5,서비스,교환 절차가 복잡했습니다. 개선이 필요해요.,3,2024-01-15 13:00:00


In [4]:
# 처음/마지막 N개 행
print("=== 처음 3개 ===")
print(df.head(3))

print("\n=== 마지막 3개 ===")
print(df.tail(3))

=== 처음 3개 ===
   id category                  response_text  satisfaction_score  \
0   1       제품  배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!                   5   
1   2      서비스  고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.                   5   
2   3       제품        품질이 기대 이하였습니다. 사진과 달라요.                   2   

             timestamp  
0  2024-01-15 09:30:00  
1  2024-01-15 10:15:00  
2  2024-01-15 11:00:00  

=== 마지막 3개 ===
    id category             response_text  satisfaction_score  \
47  48       배송         경비실에 맡겨주셔서 편했습니다.                   4   
48  49      서비스  쿠폰 사용이 복잡했어요. 중복 적용 안 됨.                   2   
49  50       제품       가격 인상이 있었네요. 아쉽습니다.                   3   

              timestamp  
47  2024-01-19 13:00:00  
48  2024-01-19 13:30:00  
49  2024-01-19 14:00:00  


### 9.1.3 기본 정보 확인

In [5]:
# 기본 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  50 non-null     int64 
 1   category            50 non-null     object
 2   response_text       50 non-null     object
 3   satisfaction_score  50 non-null     int64 
 4   timestamp           50 non-null     object
dtypes: int64(2), object(3)
memory usage: 2.1+ KB


In [6]:
# 통계 요약
df.describe()

Unnamed: 0,id,satisfaction_score
count,50.0,50.0
mean,25.5,3.78
std,14.57738,1.055404
min,1.0,2.0
25%,13.25,3.0
50%,25.5,4.0
75%,37.75,5.0
max,50.0,5.0


In [7]:
# 컬럼 목록
print(df.columns.tolist())

['id', 'category', 'response_text', 'satisfaction_score', 'timestamp']


In [8]:
# 데이터 타입
print(df.dtypes)

id                     int64
category              object
response_text         object
satisfaction_score     int64
timestamp             object
dtype: object


---
## 9.2 데이터 선택과 필터링

### 9.2.1 컬럼 선택

In [9]:
# 단일 컬럼 (Series)
print(df["category"][:10])
print(type(df["category"]))

0     제품
1    서비스
2     제품
3     배송
4    서비스
5     제품
6     제품
7     배송
8    서비스
9     제품
Name: category, dtype: object
<class 'pandas.core.series.Series'>


In [10]:
# 여러 컬럼 (DataFrame)
df[["id", "category", "satisfaction_score"]].head()

Unnamed: 0,id,category,satisfaction_score
0,1,제품,5
1,2,서비스,5
2,3,제품,2
3,4,배송,2
4,5,서비스,3


### 9.2.2 행 선택

In [11]:
# 인덱스로 선택 (iloc: 정수 위치)
print(df.iloc[0])     # 첫 번째 행
print()
df.iloc[0:5]          # 0~2번째 행

id                                                1
category                                         제품
response_text         배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!
satisfaction_score                                5
timestamp                       2024-01-15 09:30:00
Name: 0, dtype: object



Unnamed: 0,id,category,response_text,satisfaction_score,timestamp
0,1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
1,2,서비스,고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.,5,2024-01-15 10:15:00
2,3,제품,품질이 기대 이하였습니다. 사진과 달라요.,2,2024-01-15 11:00:00
3,4,배송,배송 지연이 있었습니다. 예상보다 3일 늦게 도착.,2,2024-01-15 11:45:00
4,5,서비스,교환 절차가 복잡했습니다. 개선이 필요해요.,3,2024-01-15 13:00:00


In [12]:
df = df.set_index('id')

In [13]:
# 라벨로 선택 (loc)
print(df.loc[2])      # 인덱스 라벨 2
print()
df.loc[2:4]    # 라벨 2~4

category                                        서비스
response_text         고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.
satisfaction_score                                5
timestamp                       2024-01-15 10:15:00
Name: 2, dtype: object



Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,서비스,고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.,5,2024-01-15 10:15:00
3,제품,품질이 기대 이하였습니다. 사진과 달라요.,2,2024-01-15 11:00:00
4,배송,배송 지연이 있었습니다. 예상보다 3일 늦게 도착.,2,2024-01-15 11:45:00


In [14]:
# 특정 행, 열 선택
print(df.loc[3, "response_text"])
print(df.iloc[4, 2])  

품질이 기대 이하였습니다. 사진과 달라요.
3


### 9.2.3 조건 필터링

In [15]:
# 단일 조건
high_score = df[df["satisfaction_score"] >= 4]
print(f"높은 점수 응답: {len(high_score)}건")
high_score.head()

높은 점수 응답: 32건


Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
2,서비스,고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.,5,2024-01-15 10:15:00
6,제품,가격 대비 품질이 좋습니다. 재구매 의향 있어요.,4,2024-01-15 14:30:00
7,제품,색상이 예쁘고 사이즈도 딱 맞아요!,5,2024-01-15 15:00:00
8,배송,새벽배송 너무 좋아요. 신선하게 받았습니다.,5,2024-01-15 16:00:00


In [16]:
# 여러 조건 (AND)
condition = (df["category"] == "제품") & (df["satisfaction_score"] >= 4)
filtered = df[condition]
print(f"제품 카테고리 & 고득점: {len(filtered)}건")
filtered.head()

제품 카테고리 & 고득점: 15건


Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
6,제품,가격 대비 품질이 좋습니다. 재구매 의향 있어요.,4,2024-01-15 14:30:00
7,제품,색상이 예쁘고 사이즈도 딱 맞아요!,5,2024-01-15 15:00:00
13,제품,품질 최고입니다. 주변에 추천하고 싶어요.,5,2024-01-16 10:30:00
17,제품,디자인이 세련되고 고급스러워요.,5,2024-01-16 13:00:00


In [17]:
# 여러 조건 (OR)
condition = (df["category"] == "제품") | (df["category"] == "배송")
filtered = df[condition]
print(f"제품 또는 배송: {len(filtered)}건")

제품 또는 배송: 36건


In [18]:
# isin: 여러 값 중 하나
categories = ["제품", "배송"]
filtered = df[df["category"].isin(categories)]
print(f"제품/배송 카테고리: {len(filtered)}건")

제품/배송 카테고리: 36건


In [19]:
# 문자열 포함 여부
contains_delivery = df[df["response_text"].str.contains("배송", na=False)]
print(f"'배송' 포함 응답: {len(contains_delivery)}건")
contains_delivery.head(3)

'배송' 포함 응답: 9건


Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
4,배송,배송 지연이 있었습니다. 예상보다 3일 늦게 도착.,2,2024-01-15 11:45:00
8,배송,새벽배송 너무 좋아요. 신선하게 받았습니다.,5,2024-01-15 16:00:00


---
## 9.3 정렬과 집계

### 9.3.1 정렬

In [20]:
# 단일 컬럼 정렬
df.sort_values("satisfaction_score", ascending=False).head()

Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
13,제품,품질 최고입니다. 주변에 추천하고 싶어요.,5,2024-01-16 10:30:00
44,제품,아이들이 좋아합니다. 재구매할게요.,5,2024-01-19 10:30:00
43,제품,설치가 간편했습니다. 30분이면 끝!,5,2024-01-19 10:00:00
33,제품,가성비 최고의 제품입니다.,5,2024-01-18 10:00:00


In [21]:
# 여러 컬럼 정렬
df.sort_values(["category", "satisfaction_score"], ascending=[True, False]).head(10)

Unnamed: 0_level_0,category,response_text,satisfaction_score,timestamp
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
8,배송,새벽배송 너무 좋아요. 신선하게 받았습니다.,5,2024-01-15 16:00:00
11,배송,택배 기사님이 친절하셨습니다.,5,2024-01-16 09:30:00
19,배송,정확한 시간에 배송됐습니다. 완벽해요!,5,2024-01-16 14:00:00
26,배송,명절에도 빠른 배송 감사합니다.,5,2024-01-17 11:30:00
23,배송,배송 추적이 잘 됩니다. 편리해요.,4,2024-01-17 10:00:00
34,배송,안전하게 잘 도착했습니다.,4,2024-01-18 10:30:00
45,배송,토요일에도 배송되어서 좋았어요.,4,2024-01-19 11:00:00
48,배송,경비실에 맡겨주셔서 편했습니다.,4,2024-01-19 13:00:00
30,배송,부분 배송이 되어서 불편했어요.,3,2024-01-17 14:00:00
38,배송,우체국 택배라서 조금 느렸어요.,3,2024-01-18 13:00:00


### 9.3.2 value_counts()

In [22]:
# 카테고리별 개수
print(df["category"].value_counts())

category
제품     23
서비스    14
배송     13
Name: count, dtype: int64


In [23]:
# 점수별 개수
print(df["satisfaction_score"].value_counts().sort_index())

satisfaction_score
2     8
3    10
4    17
5    15
Name: count, dtype: int64


In [24]:
# 비율로 표시
print(df["category"].value_counts(normalize=True))

category
제품     0.46
서비스    0.28
배송     0.26
Name: proportion, dtype: float64


### 9.3.3 groupby와 집계

In [25]:
# 카테고리별 평균 점수
df.groupby("category")["satisfaction_score"].mean()

category
배송     3.769231
서비스    3.571429
제품     3.913043
Name: satisfaction_score, dtype: float64

In [26]:
# 여러 집계 함수
df.groupby("category")["satisfaction_score"].agg(["count", "mean", "min", "max"])

Unnamed: 0_level_0,count,mean,min,max
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
배송,13,3.769231,2,5
서비스,14,3.571429,2,5
제품,23,3.913043,2,5


---
## 9.4 실습: 보고서용 요약표 만들기

### 요약표 1: 카테고리별 종합 통계

In [27]:
df = df.reset_index()
df.head()

Unnamed: 0,id,category,response_text,satisfaction_score,timestamp
0,1,제품,배송이 빠르고 포장이 꼼꼼했습니다. 매우 만족합니다!,5,2024-01-15 09:30:00
1,2,서비스,고객센터 응대가 친절했어요. 문의 해결이 빨랐습니다.,5,2024-01-15 10:15:00
2,3,제품,품질이 기대 이하였습니다. 사진과 달라요.,2,2024-01-15 11:00:00
3,4,배송,배송 지연이 있었습니다. 예상보다 3일 늦게 도착.,2,2024-01-15 11:45:00
4,5,서비스,교환 절차가 복잡했습니다. 개선이 필요해요.,3,2024-01-15 13:00:00


In [28]:
def create_category_summary(df):
    """카테고리별 종합 통계 테이블 생성"""
    summary = df.groupby("category").agg(
        응답수=("id", "count"),
        평균점수=("satisfaction_score", "mean"),
        최소점수=("satisfaction_score", "min"),
        최대점수=("satisfaction_score", "max"),
        긍정비율=("satisfaction_score", lambda x: (x >= 4).sum() / len(x) * 100)
    ).round(2)
    
    # 전체 합계 행 추가
    total = pd.DataFrame({
        "응답수": [df.shape[0]],
        "평균점수": [df["satisfaction_score"].mean().round(2)],
        "최소점수": [df["satisfaction_score"].min()],
        "최대점수": [df["satisfaction_score"].max()],
        "긍정비율": [(df["satisfaction_score"] >= 4).sum() / len(df) * 100]
    }, index=["전체"])
    
    return pd.concat([summary, total])

In [29]:
summary_table1 = create_category_summary(df)
print("=== 카테고리별 종합 통계 ===")
print(summary_table1)

=== 카테고리별 종합 통계 ===
     응답수  평균점수  최소점수  최대점수   긍정비율
배송    13  3.77     2     5  61.54
서비스   14  3.57     2     5  64.29
제품    23  3.91     2     5  65.22
전체    50  3.78     2     5  64.00


### 요약표 2: 점수 분포

In [30]:
def create_score_distribution(df):
    """점수별 분포 테이블 생성"""
    score_counts = df["satisfaction_score"].value_counts().sort_index()
    score_pct = (score_counts / len(df) * 100).round(1)
    
    distribution = pd.DataFrame({
        "응답수": score_counts,
        "비율(%)": score_pct
    })
    
    # 누적 비율 추가
    distribution["누적(%)"] = distribution["비율(%)"].cumsum()
    
    return distribution

In [31]:
summary_table2 = create_score_distribution(df)
print("=== 점수 분포 ===")
print(summary_table2)

=== 점수 분포 ===
                    응답수  비율(%)  누적(%)
satisfaction_score                   
2                     8   16.0   16.0
3                    10   20.0   36.0
4                    17   34.0   70.0
5                    15   30.0  100.0


### 요약표를 딕셔너리/JSON으로 변환

In [32]:
def tables_to_dict(table1, table2):
    """요약표들을 딕셔너리로 변환"""
    return {
        "category_stats": table1.reset_index().to_dict(orient="records"),
        "score_distribution": table2.reset_index().rename(
            columns={"index": "score"}
        ).to_dict(orient="records")
    }

In [33]:
summary_dict = tables_to_dict(summary_table1, summary_table2)

# JSON 저장
import json
with open("data/pandas_summary.json", "w", encoding="utf-8") as f:
    json.dump(summary_dict, f, ensure_ascii=False, indent=2)

print("요약 데이터 저장 완료: data/pandas_summary.json")

요약 데이터 저장 완료: data/pandas_summary.json


---
## 9.5 새 컬럼 추가와 데이터 변환

In [34]:
# 새 컬럼 추가
df["sentiment"] = df["satisfaction_score"].apply(
    lambda x: "긍정" if x >= 4 else ("부정" if x <= 2 else "중립")
)

In [35]:
# 확인
print(df["sentiment"].value_counts())

sentiment
긍정    32
중립    10
부정     8
Name: count, dtype: int64


In [36]:
# apply로 복잡한 변환
def categorize_response(row):
    """응답을 종합 분류"""
    score = row["satisfaction_score"]
    category = row["category"]
    
    if score >= 4:
        return f"{category}_긍정"
    elif score <= 2:
        return f"{category}_부정"
    else:
        return f"{category}_중립"

df["detailed_label"] = df.apply(categorize_response, axis=1)
print(df["detailed_label"].value_counts())

detailed_label
제품_긍정     15
서비스_긍정     9
배송_긍정      8
제품_중립      6
서비스_부정     4
배송_중립      3
제품_부정      2
배송_부정      2
서비스_중립     1
Name: count, dtype: int64
