## 필요한 상황
- **초기 데이터 탐색**: CSV, Excel 등 외부 소스에서 데이터를 처음 불러왔을 때, 데이터가 올바르게 로드되었는지, 어떤 변수들이 있는지 확인하는 가장 첫 단계에서 사용
- **데이터 클리닝 계획 수립**: `info()`와 `isnull().sum()`을 통해 변수들의 데이터 타입이 적절한지(예: 숫자가 object로 되어있지 않은지), 결측치가 얼마나, 어디에 있는지 파악하여 처리 계획을 세울 때 사용
- **데이터 특징 파악**: `describe()`를 통해 수치형 변수들의 분포(평균, 편차, 범위 등)를 개략적으로 파악하고, 이상치의 존재 가능성을 짐작할 때 사용
- **데이터 조작 후 확인**: 필터링, 결합 등 데이터프레임을 변경하는 작업을 수행한 후, `shape`이나 `head()`를 통해 의도한 대로 데이터가 변경되었는지 확인할 때 사용

In [1]:
import pandas as pd
import numpy as np

# 예제 데이터 생성
data = {'ID': [1, 2, 3, 4, 5],
        'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Age': [25, 30, np.nan, 40, 30],
        'Salary': [70000, 80000, 50000, 95000, 70000],
        'JoinDate': pd.to_datetime(['2020-01-10', '2018-05-20', '2021-09-01', '2017-03-15', '2020-01-10'])}
df = pd.DataFrame(data)

## 1. `head()` / `tail()`

- 데이터의 **일부**를 직접 확인
- 기본값은 5행 출력 / 원하는 행의 수를 지정 가능 (e.g., `df.head(3)`)

In [2]:
# 데이터프레임의 첫 3개 행 출력
print(df.head(3))
'''
   ID     Name   Age  Salary   JoinDate
0   1    Alice  25.0   70000 2020-01-10
1   2      Bob  30.0   80000 2018-05-20
2   3  Charlie   NaN   50000 2021-09-01
'''
# 데이터프레임의 마지막 2개 행 출력
print(df.tail(2))
'''
   ID   Name   Age  Salary   JoinDate
3   4  David  40.0   95000 2017-03-15
4   5    Eve  30.0   70000 2020-01-10
'''

   ID     Name   Age  Salary   JoinDate
0   1    Alice  25.0   70000 2020-01-10
1   2      Bob  30.0   80000 2018-05-20
2   3  Charlie   NaN   50000 2021-09-01
   ID   Name   Age  Salary   JoinDate
3   4  David  40.0   95000 2017-03-15
4   5    Eve  30.0   70000 2020-01-10


'\n   ID   Name   Age  Salary   JoinDate\n3   4  David  40.0   95000 2017-03-15\n4   5    Eve  30.0   70000 2020-01-10\n'

### 2. `info()`

- 데이터프레임의 기술적인 요약 정보 출력
- `Non-Null Count`를 전체 행의 수(`RangeIndex`)와 비교하여 결측치 유무를 빠르게 파악 가능
- `Dtype`을 통해 데이터 타입이 의도와 다른 경우(e.g., 숫자가 `object` 타입)를 확인 가능

In [3]:
df.info()
'''
<class 'pandas.core.frame.DataFrame'>
  RangeIndex: 5 entries, 0 to 4
  Data columns (total 5 columns):
   #   Column    Non-Null Count  Dtype         
  ---  ------    --------------  -----         
   0   ID        5 non-null      int64         
   1   Name      5 non-null      object        
   2   Age       4 non-null      float64       
   3   Salary    5 non-null      int64         
   4   JoinDate  5 non-null      datetime64[ns]
  dtypes: datetime64[ns](1), float64(1), int64(2), object(1)
  memory usage: 328.0+ bytes
'''

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   ID        5 non-null      int64         
 1   Name      5 non-null      object        
 2   Age       4 non-null      float64       
 3   Salary    5 non-null      int64         
 4   JoinDate  5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(1)
memory usage: 328.0+ bytes


"\n<class 'pandas.core.frame.DataFrame'>\n  RangeIndex: 5 entries, 0 to 4\n  Data columns (total 5 columns):\n   #   Column    Non-Null Count  Dtype         \n  ---  ------    --------------  -----         \n   0   ID        5 non-null      int64         \n   1   Name      5 non-null      object        \n   2   Age       4 non-null      float64       \n   3   Salary    5 non-null      int64         \n   4   JoinDate  5 non-null      datetime64[ns]\n  dtypes: datetime64[ns](1), float64(1), int64(2), object(1)\n  memory usage: 328.0+ bytes\n"

- **결과 해석**
  - 전체 5개의 행(`RangeIndex: 5 entries`)이 있음을 알 수 있습니다.
  - `Age` 열은 `4 non-null`이므로 1개의 결측치가 있음을 짐작할 수 있습니다.
  - `Name`은 문자열이므로 `object` 타입, `JoinDate`는 날짜이므로 `datetime64[ns]` 타입으로 올바르게 인식되었습니다.
  - `Age`는 결측치(NaN) 때문에 정수(int)가 아닌 실수(float) 타입으로 저장되었습니다.

### 3. `describe()`

- 수치형 데이터의 분포와 중심 경향성, 산포도를 파악
- 기본적으로 수치형(int, float) 열에 대해서만 통계를 계산
- 범주형이나 날짜형 데이터를 포함하려면 `include` 인자를 사용

In [4]:
# 수치형 데이터에 대한 기술 통계
print(df.describe())
'''
             ID        Age        Salary
count  5.000000   4.000000      5.000000
mean   3.000000  31.250000  73000.000000
std    1.581139   6.291529  16431.676725
min    1.000000  25.000000  50000.000000
25%    2.000000  28.750000  70000.000000
50%    3.000000  30.000000  70000.000000
75%    4.000000  32.500000  80000.000000
max    5.000000  40.000000  95000.000000
'''

# 모든 데이터 타입에 대한 기술 통계
print(df.describe(include='all', datetime_is_numeric=True))
'''
              ID     Name        Age        Salary             JoinDate
count   5.000000        5   4.000000      5.000000                    5
unique       NaN        5        NaN           NaN                  NaN
top          NaN  Charlie        NaN           NaN                  NaN
freq         NaN        1        NaN           NaN                  NaN
mean    3.000000      NaN  31.250000  73000.000000  2019-06-17 19:12:00
min     1.000000      NaN  25.000000  50000.000000  2017-03-15 00:00:00
25%     2.000000      NaN  28.750000  70000.000000  2018-05-20 00:00:00
50%     3.000000      NaN  30.000000  70000.000000  2020-01-10 00:00:00
75%     4.000000      NaN  32.500000  80000.000000  2020-01-10 00:00:00
max     5.000000      NaN  40.000000  95000.000000  2021-09-01 00:00:00
std     1.581139      NaN   6.291529  16431.676725                  NaN
'''

             ID        Age        Salary
count  5.000000   4.000000      5.000000
mean   3.000000  31.250000  73000.000000
std    1.581139   6.291529  16431.676725
min    1.000000  25.000000  50000.000000
25%    2.000000  28.750000  70000.000000
50%    3.000000  30.000000  70000.000000
75%    4.000000  32.500000  80000.000000
max    5.000000  40.000000  95000.000000
              ID Name        Age        Salary             JoinDate
count   5.000000    5   4.000000      5.000000                    5
unique       NaN    5        NaN           NaN                  NaN
top          NaN  Eve        NaN           NaN                  NaN
freq         NaN    1        NaN           NaN                  NaN
mean    3.000000  NaN  31.250000  73000.000000  2019-06-17 19:12:00
min     1.000000  NaN  25.000000  50000.000000  2017-03-15 00:00:00
25%     2.000000  NaN  28.750000  70000.000000  2018-05-20 00:00:00
50%     3.000000  NaN  30.000000  70000.000000  2020-01-10 00:00:00
75%     4.000000  N

'\n              ID     Name        Age        Salary             JoinDate\ncount   5.000000        5   4.000000      5.000000                    5\nunique       NaN        5        NaN           NaN                  NaN\ntop          NaN  Charlie        NaN           NaN                  NaN\nfreq         NaN        1        NaN           NaN                  NaN\nmean    3.000000      NaN  31.250000  73000.000000  2019-06-17 19:12:00\nmin     1.000000      NaN  25.000000  50000.000000  2017-03-15 00:00:00\n25%     2.000000      NaN  28.750000  70000.000000  2018-05-20 00:00:00\n50%     3.000000      NaN  30.000000  70000.000000  2020-01-10 00:00:00\n75%     4.000000      NaN  32.500000  80000.000000  2020-01-10 00:00:00\nmax     5.000000      NaN  40.000000  95000.000000  2021-09-01 00:00:00\nstd     1.581139      NaN   6.291529  16431.676725                  NaN\n'

- **결과 해석**
  - `Age`의 `count`가 4로, 결측치가 있음을 다시 확인할 수 있습니다.
  - `Salary`의 평균(`mean`)은 73000이고, 중앙값(`50%`)은 70000입니다. 평균이 중앙값보다 높은 것으로 보아, 분포가 약간 오른쪽으로 치우쳐 있을 수 있음을 추측할 수 있습니다.
  - `min`과 `max`를 통해 각 변수의 값 범위를 알 수 있습니다.
  - **`include='all'`**: 범주형/날짜형 데이터에 대해 `unique`(고유값 개수), `top`(최빈값), `freq`(최빈값의 빈도) 등이 추가로 표시됩니다.

### 4. `shape`

- 데이터의 크기(행, 열 개수)를 확인
- `shape`은 메서드가 아닌 속성(attribute)이므로, `()` 없이 사용

In [5]:
print(df.shape)
'''
(5, 5)
'''

(5, 5)


'\n(5, 5)\n'

### 5. `isnull().sum()`

- 열별 결측치의 개수를 확인
- `isnull()`은 각 셀이 결측치인지 여부를 True/False로 반환하는 데이터프레임을 생성
  - 여기에 `sum()`을 적용하면, `True`를 1로 간주하여 각 열의 `True` 개수(즉, 결측치 개수)를 합산

In [6]:
print(df.isnull().sum())
'''
ID          0
Name        0
Age         1
Salary      0
JoinDate    0
dtype: int64
'''

ID          0
Name        0
Age         1
Salary      0
JoinDate    0
dtype: int64


'\nID          0\nName        0\nAge         1\nSalary      0\nJoinDate    0\ndtype: int64\n'

- **결과 해석**: `Age` 열에 1개의 결측치가 있고, 나머지 열에는 결측치가 없음을 명확하게 보여줍니다.

## 장단점 및 대안

| 메서드/속성 | 장점 | 단점 | 대안/보완 |
|---|---|---|---|
| **`head()` / `tail()`** | 데이터의 실제 모습을 빠르고 직관적으로 확인 가능 | 데이터 전체가 아닌 일부만 보여주므로 전체적인 특징 파악에는 한계 | `df.sample(5)` (무작위로 5개 행을 샘플링하여 확인) |
| **`info()`** | 데이터프레임의 전체 구조, 메모리 사용량, Dtype, 결측치 유무를 한 번에 요약 | 통계적인 정보는 제공하지 않음 | `describe()` (통계 정보 확인), `df.dtypes` (데이터 타입만 확인) |
| **`describe()`** | 수치 데이터의 분포와 이상치 존재 가능성을 빠르게 파악 | 범주형 데이터에 대한 정보는 기본적으로 제공하지 않음 | `df['col'].value_counts()` (범주형 데이터의 빈도수 확인), 시각화(히스토그램, 박스플롯)를 통해 분포를 더 자세히 파악 |
| **`shape`** | 데이터의 크기를 가장 간결하게 알려줌 | 크기 외 다른 정보는 없음 | `len(df)` (행의 개수만 확인), `df.columns` (열 이름 확인) |
| **`isnull().sum()`** | 열별 결측치 개수를 명확하고 간결하게 보여줌 | 결측치의 비율이나 분포 패턴은 알 수 없음 | `df.isnull().mean()` (열별 결측치 비율 확인), `seaborn.heatmap(df.isnull())` (결측치 분포 시각화) |