# Part 2. 데이터 구조 빠른 점검 루틴 (EDA 최소 세트)
이 장은 본격적으로 데이터를 다루기 전엔 반드시 해야하는 점검을 다룬다.\
전처리는 절대적으로 감으로 시작하지 않는다. 항상 구조를 먼저 파악하고 시작하자

# 1) 데이터 전처리 전에 반드시 해야 하는 것
전처리를 시작하기 전에 반드시 한 번은 전체 데이터를 훑어봐야 한다. <br>
확인해야 할 핵심 정보는 딱 세 가지다.
1. 데이터의 크기 (행 수, 열 수)
2. 각 컬럼의 자료형(dtype)
3. 결측치가 존재하는지 여부

이 세 가지만 알아도 계산 가능 컬럼인지?, 문자열 정제가 필요한지?, 결측치 처리가 필요한지? 등\
전처리 방향의 절반은 결정된다 할 수 있다.


In [1]:
import pandas as pd

df = pd.DataFrame({
    "date": ["2026-01-01", "2026-01-01", "2026-01-02", "2026-01-03"],
    "menu": ["Americano", "Latte", "Latte", "Mocha"],
    "price": [4500, 5000, None, 5500],
    "qty": [2, 1, 2, None],
    "paid": ["TRUE", "True", "FALSE", True],
})

### 코드 설명
```python
데이터프레임.info() : 행 수, 컬럼 수, dtype, 결측치 여부를 한 번에 보여준다.

데이터프레임.shape : 데이터 규모를 빠르게 파악한다. 만약 열 개수가 1이면 Series일 가능성도 의심해볼 수 있다.

데이터프레임.dtypes : 각 컬럼의 자료형을 개별적으로 확인한다. "이 컬럼, 계산해도 되나?"를 판단하는 기준이다.

```

In [2]:
print("데이터 프레임의 종합 정보 확인 (행 수, 컬럼 수, dtype, 결측치)")
df.info()

print("\n\n데이터 프레임의 규모 확인 (행, 열)")
print(df.shape)

print("\n\n컬럼별 dtype 확인")
print(df.dtypes)

데이터 프레임의 종합 정보 확인 (행 수, 컬럼 수, dtype, 결측치)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    4 non-null      object 
 1   menu    4 non-null      object 
 2   price   3 non-null      float64
 3   qty     3 non-null      float64
 4   paid    4 non-null      object 
dtypes: float64(2), object(3)
memory usage: 288.0+ bytes


데이터 프레임의 규모 확인 (행, 열)
(4, 5)


컬럼별 dtype 확인
date      object
menu      object
price    float64
qty      float64
paid      object
dtype: object


# 2) 필요에 따라 해야 하는 것
항상 볼 필요는 없지만, 문제가 생기면 가장 먼저 확인해야 하는 정보들이다.

- 인덱스를 기준으로 병합, 정렬, 필터링을 할 때
- 컬럼명이 예상과 다를 때
- 컬럼 선택 오류가 발생했을 때

즉, 문제가 발생했을 때 원인을 찾기 위한 확인 요소에 가깝다.

### 코드설명
```python
df.index
df.columns # (Series일경우 df.column 사용한다.)
```
1. columns: 컬럼 이름만 빠르게 확인할 때 사용한다.
    - 컬럼명에 공백이 있는지
    - 대소문자가 섞여 있는지
    - 이름이 예상과 다른지

2. index: 행의 기준이 되는 인덱스를 확인한다. (혹은 의미있는 키)
    - 단순 번호인지
    - 의미 있는 키(날짜, ID 등)인지

In [3]:
print("\n데이터 프레임의 인덱스 확인")
print(df.index)

print("\n데이터 프레임의 컬럼 목록 확인")
print(df.columns)


데이터 프레임의 인덱스 확인
RangeIndex(start=0, stop=4, step=1)

데이터 프레임의 컬럼 목록 확인
Index(['date', 'menu', 'price', 'qty', 'paid'], dtype='object')


# 3) 값 분포를 빠르게 훑어보는 도구
이 단계는 구조를 보는 단계와는 다르다.\
데이터 안에 실제로 어떤 값들이 들어 있는지, 그리고 그 분포가 정상적인지 빠르게 확인하는 용도다.

> 이 단계는 본격적인 시각화 이전에 데이터 감을 잡기 위한 최소 탐색 단계다.

### 코드설명
```python
df.describe() : 숫자형 컬럼의 범위, 평균, 이상치를 빠르게 확인한다
df.value_counts() : 범주형 컬럼의 값 종류와 개수를 확인한다
```

In [4]:
print("\n숫자형 컬럼의 범위, 평균, 이상치")
print(df.describe())

print("\n범주형 컬럼의 값 종류와 개수를")
print(df.value_counts())


숫자형 컬럼의 범위, 평균, 이상치
        price       qty
count     3.0  3.000000
mean   5000.0  1.666667
std     500.0  0.577350
min    4500.0  1.000000
25%    4750.0  1.500000
50%    5000.0  2.000000
75%    5250.0  2.000000
max    5500.0  2.000000

범주형 컬럼의 값 종류와 개수를
date        menu       price   qty  paid
2026-01-01  Americano  4500.0  2.0  TRUE    1
            Latte      5000.0  1.0  True    1
Name: count, dtype: int64


# 4) 이 단계가 EDA라고 불리는 이유 (탐색적 데이터 분석)
EDA(Exploratory Data Analysis)는 그래프를 그리는 것부터 시작하지 않는다.

EDA의 시작은 항상 다음 구조로 구성된다.
- 구조 확인
- dtype 확인
- 결측 확인

이 과정을 통해 우리는 다음을 탐색한다.
- 데이터가 어떤 형태인지
- 어떤 문제가 숨어 있는지
- 전처리를 어디부터 해야 할지

때문에 이 구조 점검 단계는 EDA의 가장 기초이자 필수 단계라 할수있다.

# 5) 지금 이 데이터, 분석 가능한 상태인가? 판단 기준
EDA의 최종 목적은 **다음 단계로 넘어가도 되는지?** 판단하는것이다.\
보통 아래 조건을 대부분 만족하면 분석을 시작할 수 있는 상태라고 본다.
- 계산할 컬럼이 숫자형인가?
- 날짜 컬럼이 datetime인가?
- 결측치는 이유를 설명할 수 있는가?
- 문자열 값의 표기가 통일되어 있는가?
- 분석에 필요 없는 컬럼이 섞여 있지 않은가?

이 조건이 만족되지 않으면 다시 전처리를 할 필요가 있다.