## 2-1. Series

- 1차원 데이터 (한 컬럼)

- 예: df["paid"]는 Series

### Series의 핵심 구성요소 3가지

- 값(values)

- 인덱스(index)

- dtype

In [2]:
import pandas as pd

# 1) 예시 데이터 만들기 (DataFrame)
df = pd.DataFrame({
    "date": ["2026-01-01", "2026-01-01", "2026-01-02", "2026-01-03"],
    "menu": ["Americano", "Latte", "Latte", "Mocha"],
    "price": [4500, 5000, None, 5500],
    "qty": [2, 1, 2, None],
    "paid": ["TRUE", "True", "FALSE", True],
})

print("=== df (DataFrame) ===")
print(df)
print("\n자료형:", type(df))

# 2) 한 컬럼만 뽑기 → Series
s = df["paid"]   # Series
print("\n=== df['paid'] (Series) ===")
print(s)
print("\n자료형:", type(s))

# 3) Series 핵심 구성요소 3가지: values / index / dtype
print("\n[1] values")
print(s.values)

print("\n[2] index")
print(s.index)

print("\n[3] dtype")
print(s.dtype)

# (추가) df[['paid']] 는 DataFrame임(대괄호 2개 차이)
df_paid = df[["paid"]]
print("\n=== df[['paid']] (DataFrame) ===")
print(df_paid)
print("\n자료형:", type(df_paid))



=== df (DataFrame) ===
         date       menu   price  qty   paid
0  2026-01-01  Americano  4500.0  2.0   TRUE
1  2026-01-01      Latte  5000.0  1.0   True
2  2026-01-02      Latte     NaN  2.0  FALSE
3  2026-01-03      Mocha  5500.0  NaN   True

자료형: <class 'pandas.core.frame.DataFrame'>

=== df['paid'] (Series) ===
0     TRUE
1     True
2    FALSE
3     True
Name: paid, dtype: object

자료형: <class 'pandas.core.series.Series'>

[1] values
['TRUE' 'True' 'FALSE' True]

[2] index
RangeIndex(start=0, stop=4, step=1)

[3] dtype
object

=== df[['paid']] (DataFrame) ===
    paid
0   TRUE
1   True
2  FALSE
3   True

자료형: <class 'pandas.core.frame.DataFrame'>


### 1. DF
### 2. 'paid' Series / type(df)
### 3. values, index, dtype / type(df_paid)

In [None]:
import pandas as pd

# 1. 예시 Series 만들기 (매출 데이터)
# 인덱스(이름표)를 날짜로 지정해줍니다.
s = pd.Series(
    [4500, 5000, 5500], 
    index=["2026-01-01", "2026-01-02", "2026-01-03"], 
    name="price"
)

print("=== 전체 Series 모양 ===")
print(s)
print("\n-----------------------\n")

# 2. 핵심요소 1: 값 (Values) -> 알맹이만 나옴
print("[1. Values] 실제 데이터 알맹이")
print(s.values)

# 3. 핵심요소 2: 인덱스 (Index) -> 이름표만 나옴
print("\n[2. Index] 데이터의 주소/이름표")
print(s.index)

# 4. 핵심요소 3: 타입 (Dtype) -> 재질 확인
print("\n[3. Dtype] 데이터의 자료형")
print(s.dtype)

=== 전체 Series 모양 ===
2026-01-01    4500
2026-01-02    5000
2026-01-03    5500
Name: price, dtype: int64

-----------------------

[1. Values] 실제 데이터 알맹이
[4500 5000 5500]

[2. Index] 데이터의 주소/이름표
Index(['2026-01-01', '2026-01-02', '2026-01-03'], dtype='object')

[3. Dtype] 데이터의 자료형
int64


# 3. dtype(자료형): 전처리의 핵심 엔진

## 3-1. 왜 dtype가 중요할까?

dtype는 “파이썬이 데이터를 어떻게 해석하고 계산할지”를 결정합니다.

- 숫자형이어야 합/평균/정렬이 정상

- datetime이어야 날짜 연산/요일 추출 가능

- bool이어야 True/False 필터가 쉬움

- 범주형이면 그룹핑/집계가 효율적

In [13]:
import pandas as pd

# 1) 예시 DataFrame 만들기 (일부러 dtype가 섞이도록 구성)
df = pd.DataFrame({
    "date": ["2026-01-01", "2026/01/02", "2026-01-03"],   # 문자열(나중에 datetime으로 바꿀 예정)
    "menu": ["Americano", "Latte", "Mocha"],             # 문자열
    "price": ["4500원", "5,000", None],                  # 문자열 + 결측
    "qty": ["2", 1, None],                               # 문자열/숫자 + 결측
    "paid": ["TRUE", "FALSE", True],                     # 문자열/불리언 혼합
})

print("=== df (DataFrame) ===")
print(df)
print("\n자료형:", type(df))


=== df (DataFrame) ===
         date       menu  price   qty   paid
0  2026-01-01  Americano  4500원     2   TRUE
1  2026/01/02      Latte  5,000     1  FALSE
2  2026-01-03      Mocha   None  None   True

자료형: <class 'pandas.core.frame.DataFrame'>


In [12]:

# 2) DataFrame의 핵심 구성요소 확인
print("\n[1] index (행 번호/키)")
print(df.index)

print("\n[2] columns (컬럼 이름/피처)")
print(df.columns)

print("\n[3] dtypes (컬럼별 자료형)  ✅ 포인트!")
print(df.dtypes)



[1] index (행 번호/키)
RangeIndex(start=0, stop=3, step=1)

[2] columns (컬럼 이름/피처)
Index(['date', 'menu', 'price', 'qty', 'paid'], dtype='object')

[3] dtypes (컬럼별 자료형)  ✅ 포인트!
date     object
menu     object
price    object
qty      object
paid     object
dtype: object


In [14]:

# 3) 초보자 흔한 오해 확인: df.dtype는 없다 (Series에만 dtype가 있음)
print("\n[오해 체크] DataFrame에는 df.dtype가 없고, df.dtypes로 '컬럼별' dtype을 봅니다.")
try:
    print(df.dtype)  # 일부러 에러 유도
except Exception as e:
    print("df.dtype 에러:", type(e).__name__, "-", e)



[오해 체크] DataFrame에는 df.dtype가 없고, df.dtypes로 '컬럼별' dtype을 봅니다.
df.dtype 에러: AttributeError - 'DataFrame' object has no attribute 'dtype'


In [15]:

# 4) (추가 실습) 전처리 후 dtypes가 어떻게 바뀌는지 보기
df2 = df.copy()

# date -> datetime
df2["date"] = pd.to_datetime(df2["date"], errors="coerce")

# price -> 숫자 (원, 콤마 제거)
df2["price"] = (
    df2["price"].astype("string")
    .str.replace(",", "", regex=False)
    .str.replace("원", "", regex=False)
)
df2["price"] = pd.to_numeric(df2["price"], errors="coerce")

# qty -> 숫자
df2["qty"] = pd.to_numeric(df2["qty"], errors="coerce")

# paid -> 불리언 통일 (TRUE/FALSE/True 혼합 처리)
df2["paid"] = (
    df2["paid"].astype("string").str.upper()
    .map({"TRUE": True, "FALSE": False})
)

print("\n=== 전처리 후 df2 ===")
print(df2)
print("\n전처리 후 dtypes (컬럼별로 바뀜)")
print(df2.dtypes)


=== 전처리 후 df2 ===
        date       menu  price  qty   paid
0 2026-01-01  Americano   4500  2.0   True
1        NaT      Latte   5000  1.0  False
2 2026-01-03      Mocha   <NA>  NaN   True

전처리 후 dtypes (컬럼별로 바뀜)
date     datetime64[ns]
menu             object
price             Int64
qty             float64
paid               bool
dtype: object


## 3-2. 실무에서 자주 쓰는 dtype 5종(필수)

### (1) Numeric: int / float

qty, price, sales

결측치가 섞이면 int 대신 float로 뜨는 경우 많음(중요!)

### (2) Text: object/string

menu

숫자처럼 보여도 문자인 경우 많음(“5,000원”)

### (3) Boolean: bool

paid

True/False 필터링에서 중요

### (4) Datetime: datetime64

date

날짜 기반 분석(요일/월별 추세/기간 필터)에 필수

### (5) Missing: NaN/None/NaT

“값이 없다”는 의미

수치형은 NaN, 날짜형은 NaT로 나타나는 경우가 많음

In [9]:
import pandas as pd

# 0) 일부러 "실무에서 흔한" 형태로 섞어서 만들기 (문자/숫자/결측/날짜)
df = pd.DataFrame([
    {"date": "2026-01-01", "menu": "Americano", "price": "4,500원", "qty": "2",  "paid": "TRUE"},
    {"date": "2026/01/02", "menu": "Latte",     "price": "5000",   "qty": 1,    "paid": "False"},
    {"date": None,         "menu": "Mocha",     "price": None,     "qty": None, "paid": True},
    {"date": "invalid",    "menu": "Latte",     "price": "5,000원","qty": "3",  "paid": "TRUE"},
])

print("=== 원본 df ===")
print(df)
print("\n원본 dtypes")
print(df.dtypes)


# ============================================================
# 1) Text: object/string  (menu, 그리고 숫자처럼 보이는 price/qty도 원래는 문자일 수 있음)
# ============================================================
df["menu"] = df["menu"].astype("string")   # 명시적으로 string으로
print("\n[Text] menu dtype:", df["menu"].dtype)

# ============================================================
# 2) Datetime: datetime64  (date → datetime)
#    실패/결측은 NaT로 들어감 (Missing의 날짜 버전)
# ============================================================
df["date"] = pd.to_datetime(df["date"], errors="coerce", format="mixed")
print("\n[Datetime] date dtype:", df["date"].dtype)
print("date 컬럼 값 확인 (NaT 포함):")
print(df["date"])

# ============================================================
# 3) Boolean: bool (paid 정리: TRUE/FALSE/True/False 섞임 처리)
#    실무에서 필터링에 매우 중요
# ============================================================
paid_map = {"TRUE": True, "FALSE": False}
df["paid"] = (
    df["paid"]
    .astype("string")
    .str.upper()
    .map(paid_map)
)
print("\n[Boolean] paid dtype(결측이 있으면 boolean이 될 수 있음):", df["paid"].dtype)
print("paid 컬럼 값 확인:")
print(df["paid"])

# ============================================================
# 4) Numeric: int/float  (price, qty → 숫자 변환)
#    결측이 섞이면 int 대신 float로 뜨는 경우가 많음(중요!)
# ============================================================
df["price"] = (
    df["price"]
    .astype("string")
    .str.replace(",", "", regex=False)
    .str.replace("원", "", regex=False)
)
df["price"] = pd.to_numeric(df["price"], errors="coerce")

df["qty"] = pd.to_numeric(df["qty"], errors="coerce")

# 파생 피처(derived feature): sales = price * qty
df["sales"] = df["price"] * df["qty"]

print("\n[Numeric] price dtype:", df["price"].dtype)
print("[Numeric] qty   dtype:", df["qty"].dtype)
print("[Numeric] sales dtype:", df["sales"].dtype)

# (중요) 결측 때문에 int가 float로 보이는 현상 확인
print("\n결측이 섞인 qty는 보통 float64로 보임 (NaN 때문)")
print(df[["qty"]])

# ============================================================
# 5) Missing: NaN/None/NaT 확인
#    - 수치형 결측: NaN
#    - 날짜형 결측: NaT
# ============================================================
print("\n[Missing] 결측치 요약")
print(df.isna().sum())

print("\n수치형 결측(NaN) 예시: price/qty/sales")
print(df[["price", "qty", "sales"]])

print("\n날짜형 결측(NaT) 예시: date")
print(df[["date"]])

# ============================================================
# 최종 결과 & 최종 dtypes
# ============================================================
df[["price", "qty"]] = df[["price", "qty"]].fillna(0)
df["sales"] = df["price"] * df["qty"]
df["date"] = df["date"].ffill().bfill()
print("\n=== 전처리 후 df ===")
print(df)

print("\n전처리 후 dtypes (컬럼별로 확인!)")
print(df.dtypes)

# (추가) paid=True인 행만 필터링 (Boolean 활용)
print("\npaid == True 필터링 결과")
print(df[df["paid"] == True][["date", "menu", "price", "qty", "sales", "paid"]])

=== 원본 df ===
         date       menu   price   qty   paid
0  2026-01-01  Americano  4,500원     2   TRUE
1  2026/01/02      Latte    5000     1  False
2        None      Mocha    None  None   True
3     invalid      Latte  5,000원     3   TRUE

원본 dtypes
date     object
menu     object
price    object
qty      object
paid     object
dtype: object

[Text] menu dtype: string

[Datetime] date dtype: datetime64[ns]
date 컬럼 값 확인 (NaT 포함):
0   2026-01-01
1   2026-01-02
2          NaT
3          NaT
Name: date, dtype: datetime64[ns]

[Boolean] paid dtype(결측이 있으면 boolean이 될 수 있음): bool
paid 컬럼 값 확인:
0     True
1    False
2     True
3     True
Name: paid, dtype: bool

[Numeric] price dtype: Int64
[Numeric] qty   dtype: float64
[Numeric] sales dtype: Float64

결측이 섞인 qty는 보통 float64로 보임 (NaN 때문)
   qty
0  2.0
1  1.0
2  NaN
3  3.0

[Missing] 결측치 요약
date     2
menu     0
price    1
qty      1
paid     0
sales    1
dtype: int64

수치형 결측(NaN) 예시: price/qty/sales
   price  qty    sales
0   4500  2.0   

## 3-3. dtype 확인/변환의 기본 원칙

### 확인: df.dtypes

항상 전처리 전에 확인

“생각한 타입”과 “실제 타입”이 다른 경우가 많음

### 변환: 2가지 방식이 자주 등장

명시적 변환: astype()

파싱 변환: pd.to_numeric, pd.to_datetime

In [14]:
import pandas as pd

# =========================
# 0) 실무형 "더러운" 원본 데이터
# =========================
df = pd.DataFrame([
    {"date": "2026-01-01", "menu": "Americano", "price": "4,500원", "qty": "2",   "paid": "TRUE"},
    {"date": "2026/01/02", "menu": "Latte",     "price": "5000",   "qty": 1,     "paid": "False"},
    {"date": None,         "menu": "Mocha",     "price": None,     "qty": None,  "paid": True},
    {"date": "invalid",    "menu": "Latte",     "price": "5,000원","qty": "3개", "paid": "TRUE"},
])

print("=== [전처리 전] df ===")
print(df)

# =========================
# 1) dtype는 항상 전처리 전에 먼저 확인
# =========================
print("\n=== [전처리 전] df.dtypes ===")
print(df.dtypes)

# "생각한 타입" vs "실제 타입"이 다른 대표 예시
print("\n(오해 예시) price/qty는 숫자처럼 보이지만 실제로는 문자열일 수 있음")
print("price 샘플:", df["price"].tolist())
print("qty 샘플  :", df["qty"].tolist())

# ============================================================
# 2) 변환 방식 1: 명시적 변환 astype()
#   - 형식이 이미 깔끔할 때 잘 됨
#   - 지저분하면 바로 에러가 나는 경우가 많음
# ============================================================
print("\n=== [astype() 테스트] ===")

# 2-1) qty를 int로 바꿔보려 하지만 "3개", None 때문에 실패할 수 있음
try:
    df["qty_int_try"] = df["qty"].astype(int)
    print("qty_int_try 성공:")
    print(df[["qty", "qty_int_try"]])
except Exception as e:
    print("qty -> astype(int) 실패:", type(e).__name__, "-", e)

# 2-2) paid는 "TRUE"/"False" 문자열이 섞여 있어서 bool로 단순 변환하면 의도대로 안될 수 있음
# (주의) 'False' 문자열도 bool('False')는 True가 되어버리는 문제
df["paid_bool_wrong"] = df["paid"].astype(bool)
print("\npaid -> astype(bool) (주의: 문자열 'False'도 True로 나올 수 있음)")
print(df[["paid", "paid_bool_wrong"]])

# ============================================================
# 3) 변환 방식 2: 파싱 변환(pd.to_numeric, pd.to_datetime)
#   - 지저분한 문자열을 "해석해서" 바꿔줌
#   - errors 옵션(coerce/raise/ignore)으로 실패 처리 가능
# ============================================================
print("\n=== [파싱 변환: to_numeric / to_datetime] ===")
df2 = df.copy()

# 3-1) price: "원", "," 제거 → to_numeric
df2["price_num"] = (
    df2["price"].astype("string")
    .str.replace(",", "", regex=False)
    .str.replace("원", "", regex=False)
)
df2["price_num"] = pd.to_numeric(df2["price_num"], errors="coerce")  # 실패는 NaN
df2["price_num"] = df2["price_num"].fillna(0)

# 3-2) qty: 숫자만 남기고 → to_numeric
df2["qty_num"] = (
    df2["qty"].astype("string")
    .str.replace("개", "", regex=False)   # "3개" 같은 케이스
)
df2["qty_num"] = pd.to_numeric(df2["qty_num"], errors="coerce")      # 실패는 NaN
df2["qty_num"] = df2["qty_num"].fillna(0)

# 3-3) date: datetime 변환 (invalid/None → NaT)
df2["date_dt"] = pd.to_datetime(df2["date"], errors="coerce", format="mixed")
df2["date_dt"] = df2["date_dt"].ffill()
print(df2[["price", "price_num", "qty", "qty_num", "date", "date_dt"]])

print("\n=== [파싱 변환 후] df2.dtypes ===")
print(df2[["price_num", "qty_num", "date_dt"]].dtypes)

# ============================================================
# 4) 차이 요약(핵심)
#   - astype(): 형식이 이미 맞아야 잘 됨(빡빡함)
#   - to_numeric/to_datetime(): 지저분한 문자열도 해석 + errors 옵션 제공(유연함)
# ============================================================
print("\n=== [차이 요약 체크] ===")
print("- astype(): 형식이 깨끗하면 빠르고 단순, 더럽거나 결측 섞이면 실패/의도와 다를 수 있음")
print("- to_numeric/to_datetime(): 문자열을 해석해서 변환, errors='coerce'면 실패를 NaN/NaT로 안전하게 처리")

# (보너스) 파생변수: sales = price * qty
df2["sales"] = df2["price_num"] * df2["qty_num"]
print("\n파생변수 sales 생성 결과")
print(df2[["menu", "price_num", "qty_num", "sales"]])



=== [전처리 전] df ===
         date       menu   price   qty   paid
0  2026-01-01  Americano  4,500원     2   TRUE
1  2026/01/02      Latte    5000     1  False
2        None      Mocha    None  None   True
3     invalid      Latte  5,000원    3개   TRUE

=== [전처리 전] df.dtypes ===
date     object
menu     object
price    object
qty      object
paid     object
dtype: object

(오해 예시) price/qty는 숫자처럼 보이지만 실제로는 문자열일 수 있음
price 샘플: ['4,500원', '5000', None, '5,000원']
qty 샘플  : ['2', 1, None, '3개']

=== [astype() 테스트] ===
qty -> astype(int) 실패: TypeError - int() argument must be a string, a bytes-like object or a real number, not 'NoneType'

paid -> astype(bool) (주의: 문자열 'False'도 True로 나올 수 있음)
    paid  paid_bool_wrong
0   TRUE             True
1  False             True
2   True             True
3   TRUE             True

=== [파싱 변환: to_numeric / to_datetime] ===
    price  price_num   qty  qty_num        date    date_dt
0  4,500원       4500     2        2  2026-01-01 2026-01-01
1    5000       50

## 3-4. errors="coerce"의 의미(초보자 필수)

- 변환이 실패하면 에러로 멈추는 대신 결측치(NaN/NaT)로 바꾼다

- 즉 “문제 데이터를 일단 표시(결측)로 바꿔놓고, 다음 단계에서 처리”하는 전략

In [15]:
import pandas as pd

# =========================
# 0) "문제 데이터"가 섞인 실무형 예시
# =========================
df = pd.DataFrame({
    "price_raw": ["4500원", "5,000", "무료", None, "5500", "4O00"],  # '무료', '4O00(영문 O)' 같은 문제값 포함
    "date_raw":  ["2026-01-01", "2026/01/02", "invalid", None, "2026-01-05", "2026-13-01"]  # invalid/불가능한 날짜 포함
})

print("=== 원본 df ===")
print(df)

# =========================
# 1) errors='raise' (기본: 실패하면 에러로 멈춤)
# =========================
print("\n=== errors='raise' (실패하면 멈춤) ===")
try:
    df["price_raise"] = pd.to_numeric(df["price_raw"], errors="raise")
except Exception as e:
    print("to_numeric errors='raise' 실패:", type(e).__name__, "-", e)

try:
    df["date_raise"] = pd.to_datetime(df["date_raw"], errors="raise")
except Exception as e:
    print("to_datetime errors='raise' 실패:", type(e).__name__, "-", e)

# =========================
# 2) errors='coerce' (실패하면 NaN/NaT로 바꿔서 계속 진행)
# =========================
print("\n=== errors='coerce' (실패 -> 결측으로 표시하고 계속 진행) ===")

# 숫자 파싱 전에 원/콤마 제거 (그래도 '무료', '4O00' 같은 건 실패)
clean_price = (
    df["price_raw"].astype("string")
    .str.replace(",", "", regex=False)
    .str.replace("원", "", regex=False)
)

df["price_num"] = pd.to_numeric(clean_price, errors="coerce")  # 실패 -> NaN
df["date_dt"]   = pd.to_datetime(df["date_raw"], errors="coerce")  # 실패 -> NaT

print(df)

print("\nprice_num에서 NaN(수치 결측), date_dt에서 NaT(날짜 결측) 확인")
print("price_num dtype:", df["price_num"].dtype)
print("date_dt   dtype:", df["date_dt"].dtype)

# =========================
# 3) "문제 데이터를 일단 결측으로 표시" 후 다음 단계에서 처리 전략
#    - (A) 채우기(fillna)
#    - (B) 제거(dropna)
# =========================
print("\n=== 다음 단계 처리 전략 예시 ===")

# (A) 결측 채우기: 예) price 결측은 0원으로, date 결측은 가장 많이 나온 날짜로(또는 특정 기준일로)
df_fill = df.copy()
df_fill["price_num"] = df_fill["price_num"].fillna(0)

most_common_date = df_fill["date_dt"].mode(dropna=True)
fallback_date = most_common_date.iloc[0] if len(most_common_date) > 0 else pd.Timestamp("2026-01-01")
df_fill["date_dt"] = df_fill["date_dt"].fillna(fallback_date)

print("\n(A) fillna 적용 후")
print(df_fill)

# (B) 결측 제거: 숫자/날짜 둘 중 하나라도 결측이면 제거
df_drop = df.dropna(subset=["price_num", "date_dt"])
print("\n(B) dropna 적용 후 (정상 변환된 행만 남김)")
print(df_drop)

# =========================
# 4) 실습 연결 메시지(핵심 요약)
# =========================
print("\n[핵심 요약]")
print("errors='coerce'는 '변환 실패 -> 에러로 멈추지 말고 NaN/NaT로 표시하고 다음 단계에서 처리' 전략입니다.")

=== 원본 df ===
  price_raw    date_raw
0     4500원  2026-01-01
1     5,000  2026/01/02
2        무료     invalid
3      None        None
4      5500  2026-01-05
5      4O00  2026-13-01

=== errors='raise' (실패하면 멈춤) ===
to_numeric errors='raise' 실패: ValueError - Unable to parse string "4500원" at position 0
to_datetime errors='raise' 실패: ValueError - time data "2026/01/02" doesn't match format "%Y-%m-%d", at position 1. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

=== errors='coerce' (실패 -> 결측으로 표시하고 계속 진행) ===
  price_raw    date_raw  price_num    date_dt
0     4500원  2026-01-01       4500 2026-01-01
1     5,000  2026/01/02       5000        NaT
2        무료     invalid       <NA>        NaT
3  