* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

1. 데이터 개요 및 형태 확인 (Shape & Counts)
데이터가 몇 행 몇 열인지, 특정 카테고리(범주) 데이터가 몇 개씩 있는지 확인하는 과정입니다.

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

In [None]:
# 1. 실습 데이터 로드 (붓꽃 데이터)
df = sns.load_dataset('iris')
# 2. 행과 열의 개수 확인 (Rows, Columns)
# 결과: (150, 5) -> 150개의 행과 5개의 열이 있음
df.shape

(150, 5)

In [None]:
# 3. 상위 2개 행 미리보기
df.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [None]:
# 4. 범주형 데이터의 빈도수 확인 (중요)
# 'species' 컬럼에 있는 각 품종별 데이터 개수를 셉니다.
# 결과: versicolor 50, setosa 50, virginica 50
df['species'].value_counts()

versicolor    50
setosa        50
virginica     50
Name: species, dtype: int64

In [None]:
# 5. 데이터프레임의 길이(행의 개수) 확인
len(df)

150

In [None]:
# 6. len()과 shape[0]이 같은지 검증 (True 반환)
len(df) == df.shape[0]

True

In [None]:
# 7. 유니크(고유)한 값의 개수 확인
# 'species'에는 3종류의 꽃이 있으므로 3을 반환
df['species'].nunique()

3

2. 요약 통계 정보 확인 (Describe)
describe()는 데이터의 전반적인 통계 정보를 한눈에 보여주는 강력한 메서드입니다.

In [None]:
# 1. 모든 컬럼(수치형 + 범주형)에 대한 요약 통계
# 수치형: mean(평균), std(표준편차), min/max 등
# 범주형: unique(고유값 개수), top(최빈값), freq(빈도수)
# NaN은 해당 데이터 타입에서 계산할 수 없는 항목을 의미합니다.
df.describe(include='all')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,versicolor
freq,,,,,50
mean,5.843333,3.057333,3.758,1.199333,
std,0.828066,0.435866,1.765298,0.762238,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


In [None]:
# 2. 객체(Object/문자열) 타입만 따로 보기
# 범주형 데이터인 'species'에 대한 정보만 출력됩니다.
df.describe(include=[np.object])

Unnamed: 0,species
count,150
unique,3
top,versicolor
freq,50


In [None]:
# 3. 수치형(Number) 타입만 보기 (범주형 제외)
# describe()의 기본 동작과 같으며, 숫자로 된 컬럼들의 통계만 보여줍니다.
df.describe(exclude=[np.object])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [None]:
# 수치형 데이터만 보기
df.describe(include=[np.number]) 

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


3. 개별 통계 함수 (Sum, Mean, Var, Std)
전체 요약이 아닌, 특정 통계량만 따로 계산할 때 사용하는 함수들입니다.

In [None]:
# 1. 합계 (Sum)
df['petal_width'].sum()

179.90000000000003

In [None]:
# 2. 개수 (Count) - 결측치(NaN)를 제외한 데이터의 개수
df['petal_width'].count()

In [None]:
# 3. 중앙값 (Median)
# 데이터를 크기순으로 나열했을 때 딱 중간에 위치한 값입니다.
# 이상치(Outlier)의 영향을 덜 받습니다.
df.median()

In [None]:
# 4. 평균 (Mean)
# 모든 값을 더해서 개수로 나눈 값입니다.
df.mean()

In [None]:
# 5. 분위수 (Quantile)
# 데이터를 0%~100%로 줄 세웠을 때 특정 위치(0.25=25%, 0.75=75%)의 값입니다.
df['petal_width'].quantile([0.25,0.75])

In [None]:
# 6. 최솟값 (Min)
df.min()

In [None]:
# 7. 최댓값 (Max)
df.max()

In [None]:
# 8. 분산 (Variance)
# 데이터가 평균으로부터 얼마나 퍼져있는지를 나타내는 지표입니다.
df.var()

In [None]:
# 9. 표준편차 (Standard Deviation)
# 분산에 루트를 씌운 값으로, 평균적으로 얼마나 떨어져 있는지를 보여줍니다.
df.std()

### apply(function)

4. 함수 적용 (Apply)
Pandas의 내장 함수 외에, 사용자가 직접 만든 함수를 데이터에 적용할 때 apply()를 사용합니다.

In [None]:
# 사용자 정의 함수 만들기
def smp(x):
    # 뒤에서 3번째까지의 문자를 가져오는 함수
    x = x[-3:]
    return x

In [None]:
# 1. Lambda(익명 함수) 사용
# 'species' 컬럼의 각 값(x)에 대해 앞에서 3글자(x[:3])만 잘라서 'species_3' 컬럼 생성
# 예: 'setosa' -> 'set'
df['species_3'] = df['species'].apply(lambda x : x[:3])

In [None]:
# 2. 사용자 정의 함수(smp) 사용
# 'species' 컬럼에 위에서 만든 smp 함수를 적용하여 'species-3' 컬럼 생성
# 예: 'setosa' -> 'osa'
df['species-3'] = df['species'].apply(smp)

In [None]:
# 결과 확인
df