# Part 1. Pandas 데이터 구조 이해
이 장은 전처리에서 다루는 '대상'이 무엇인지를 명확히 하는 장이다.<br>
이후 나오는 모든 전처리 작업은 Series와 DataFrame을 정확히 구분하고 있다는 전제 위에서 진행된다.

## 1) 데이터 형태 확인
전처리를 시작할 때 가장 먼저 해야 할 일은 "지금 내가 다루는 데이터의 형태가 무엇인가"를 확인하는 것이다.

## 2) 행(row)과 열(column)이란 무엇인가?
데이터 분석에서 가장 먼저 확인해야 할 것은 각 행과 열이 무엇을 의미하는지다.
- 행(row): 하나의 관측 대상
- 열(column): 관측 대상의 속성

예를 들면
- 고객 데이터라면 한 행은 고객 1명
- 주문 데이터라면 한 행은 주문 1건
- 로그 데이터라면 한 행은 특정 시점의 기록일 수 있다

### 행
행은 하나의 관측 단위다. 
즉, **"분석에서 하나로 묶어 판단하는 대상"**이다.
- 고객 데이터: 고객 1명
- 주문 데이터: 주문 1건
- 로그 데이터: 특정 시점의 기록 1줄

### 열
열은 관측 대상의 속성이다.
즉, **"어떤 특징"** 을 가지고 있는지 보여준다.
- 나이, 성별, 가격, 날짜, 상태값 등

전처리의 대부분은 열을 대상으로 수행하게 된다.
- 자료형 변환
- 값 치환
- 결측치 처리
- 이상치 처리

In [3]:
import pandas as pd

df = pd.DataFrame({
    "date": ["2026-01-01", "2026-01-01", "2026-01-02", "2026-01-03"],
    "menu": ["Americano", "Latte", "Latte", "Mocha"],
    "price": [4500, 5000, None, 5500],
    "qty": [2, 1, 2, None],
    "paid": ["TRUE", "True", "FALSE", True],
})
s = df["paid"]

df

Unnamed: 0,date,menu,price,qty,paid
0,2026-01-01,Americano,4500.0,2.0,True
1,2026-01-01,Latte,5000.0,1.0,True
2,2026-01-02,Latte,,2.0,False
3,2026-01-03,Mocha,5500.0,,True


## 3) 표(tabular) 형태 데이터란 무엇인가?
행과 열이 모이면 표(tabular) 형태 데이터가 된다.
이 형태는 데이터 분석에서 가장 표준적인 구조라고 할 수 있다.
- 사람이 이해하기 쉽고
- 컴퓨터가 처리하기도 쉽다.

#### Pandas?
Pandas는 행/열 기반 표 구조 데이터를 다루기 위한 파이썬 라이브러리다. <br>
즉, Pandas가 행과 열을 만든 것이 아니라 이미 존재하는 개념을 코드로 구현한 것이다.

### DataFrame부터 정확히 정의하자
DataFrame은 행(row)과 열(column)로 구성된 **2차원 표 형태의** 데이터 구조다.<br>
- 한 행은 하나의 관측치 (기록, 사건)
- 한 열은 하나의 변수 (속성)

Pandas에서 분석·전처리·리포트의 기본 단위는 항상 DataFrame이다.<br>
전처리의 목표는 결국 "**분석 가능한 DataFrame을 만드는 것**"이다.

### Series도 정의하자
Series는 하나의 컬럼을 표현하는 **1차원 데이터** 구조다.
- DataFrame의 각 열은 하나의 Series다
- dtype, 결측치, 문자열 처리 등은 대부분 Series 단위로 수행된다

즉,작업은 Series 단위로 결과는 DataFrame 형태로 유지하는 것이 전처리의 기본 패턴이다.

In [4]:
print("DataFrame 출력")
print(df)

print("\nDataFrame 타입 확인")
print(type(df))

print("\n====================\n")

print("Series 출력")
print(s)

print("\nSeries 타입 확인")
print(type(s))

DataFrame 출력
         date       menu   price  qty   paid
0  2026-01-01  Americano  4500.0  2.0   TRUE
1  2026-01-01      Latte  5000.0  1.0   True
2  2026-01-02      Latte     NaN  2.0  FALSE
3  2026-01-03      Mocha  5500.0  NaN   True

DataFrame 타입 확인
<class 'pandas.core.frame.DataFrame'>


Series 출력
0     TRUE
1     True
2    FALSE
3     True
Name: paid, dtype: object

Series 타입 확인
<class 'pandas.core.series.Series'>


## 4) 대괄호 한 개 vs 두 개의 차이
컬럼 선택 시 대괄호의 개수는 반환 타입을 결정한다.
- 대괄호 한 개 → Series 반환
- 대괄호 두 개 → DataFrame 반환

아주 사조해 보이는 차이지만
- 집계
- 병합
- 컬럼 추가
- 후속 전처리 등등

에서는 아주 큰 차이를 만들어낸다.

In [5]:
print(df["paid"])

# 컬럼 하나 → Series
print(type(df["paid"]))

0     TRUE
1     True
2    FALSE
3     True
Name: paid, dtype: object
<class 'pandas.core.series.Series'>


In [6]:
print(df[["paid"]])

print(type(df[["paid"]]))

    paid
0   TRUE
1   True
2  FALSE
3   True
<class 'pandas.core.frame.DataFrame'>


이처럼 표 값은 같으나 속성이 다르다.

## 5) DataFrame vs Series 차이가 중요한 이유
DataFrame과 Series는 겉보기에는 비슷하지만 동작 방식과 사용 목적이 다르다.

이 차이를 이해하지 못하면
- 집계 결과가 예상과 다르게 나온다.
- 다음 단계 코드에서 오류가 발생한다.
- 집계·결합 단계에서 흐름이 끊긴다.

전처리에서 중요한 질문은 항상 이것이다.
> "지금 내가 다루고 있는 건 Series인가, DataFrame인가?"

### 구조의 문제 (DataFrame 단위)
- 컬럼 이름이 이해하기 어렵다
- 필요 없는 컬럼이 많다
- 행과 열의 의미가 불분명하다

이 경우 DataFrame 전체를 다룬다.

### 값 문제 (Series 단위)
- 특정 컬럼에 결측치나 이상치가 있다
- 자료형이 맞지 않는다
- 값의 범위가 이상하다

이 경우 Series 단위로 접근한다.