# 📊 pandas 데이터 분석 핵심 도구 정리

## ① Overview (데이터 기본 특성 파악)
* 데이터의 구조와 내용을 빠르게 파악할 수 있는 함수들입니다.
| 함수 | 설명 |
|------|------|
| `df.head(n)` | 앞의 n행 출력 (기본 5행) |
| `df.tail(n)` | 뒤의 n행 출력 |
| `df.describe()` | 수치형 열의 요약 통계 |
| `df.info()` | 열 타입, 결측치, 메모리 사용량 등 |
| `df.dtypes` | 각 열의 데이터 타입 확인 |

In [None]:
import pandas as pd
df = pd.read_csv('your_data.csv')
df.head()
df.describe()
df.info()

## ② Outlier (이상치 탐지 및 처리)
* 데이터의 품질을 해치는 이상값을 제거하거나 식별하는 과정입니다.

**방법 요약**
- Z-점수
- IQR 방식
- Boxplot 시각화
- 조건 필터링

In [None]:
# IQR 방식 예제
Q1 = df['fare_amount'].quantile(0.25)
Q3 = df['fare_amount'].quantile(0.75)
IQR = Q3 - Q1
df_clean = df[(df['fare_amount'] >= Q1 - 1.5 * IQR) & (df['fare_amount'] <= Q3 + 1.5 * IQR)]

In [None]:
# Boxplot 시각화 예제
import seaborn as sns
import matplotlib.pyplot as plt
sns.boxplot(x=df['trip_distance'])
plt.show()

## ③ Aggregation (그룹별 요약 통계)
* 특정 기준으로 그룹화한 후 요약값을 계산합니다.

| 함수 | 설명 |
|------|------|
| `groupby()` | 특정 컬럼 기준으로 묶기 |
| `sum()`, `mean()`, `count()` | 그룹 통계 |
| `agg()` | 여러 통계 함수 적용 |
| `std()` | 표준편차 계산 |

In [None]:
# 단일 그룹화
df.groupby('payment_method')['fare_amount'].mean()

# 다중 집계
df.groupby('payment_method')['fare_amount'].agg(['mean', 'max', 'std'])

## ④ Pivot Table
* 특정 열을 행/열 인덱스로 바꾸어 요약 통계 테이블 생성

| 파라미터 | 설명 |
|----------|------|
| `index` | 행 인덱스로 사용할 열 |
| `columns` | 열로 사용할 변수 |
| `values` | 계산할 대상 값 |
| `aggfunc` | 집계 함수 (`mean`, `sum` 등) |

In [None]:
pd.pivot_table(df,
               index='payment_method',
               columns='pickup_day',
               values='fare_amount',
               aggfunc='mean')