# 📊 Pandas 기초 - 데이터 분석의 핵심

Pandas는 파이썬에서 데이터 분석을 위한 필수 라이브러리입니다.
AI/ML에서 데이터 전처리와 분석에 가장 많이 사용됩니다.

## 🎯 학습 목표
- DataFrame과 Series 이해하기
- 데이터 로딩과 저장
- 데이터 필터링과 변환
- AI를 위한 데이터 전처리 패턴들


In [1]:
import pandas as pd
import numpy as np

print(f"Pandas 버전: {pd.__version__}")
print(f"NumPy 버전: {np.__version__}")


ModuleNotFoundError: No module named 'pandas'

## 1. DataFrame 생성하기 (AI 데이터의 기본 형태)


In [None]:
# 딕셔너리에서 DataFrame 생성 (AI 데이터셋의 일반적 형태)
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'age': [25, 30, 35, 28, 32],
    'salary': [50000, 60000, 70000, 55000, 65000],
    'department': ['IT', 'HR', 'IT', 'Finance', 'IT']
}

df = pd.DataFrame(data)
print("DataFrame:")
print(df)
print(f"\n데이터 타입:\n{df.dtypes}")
print(f"\n기본 정보:")
print(df.info())


## 2. 데이터 탐색과 필터링 (AI 전처리의 핵심)


In [None]:
# 데이터 탐색
print("첫 3행:")
print(df.head(3))
print("\n통계 요약:")
print(df.describe())

# 데이터 필터링 (AI에서 매우 중요!)
print("\nIT 부서 직원들:")
it_employees = df[df['department'] == 'IT']
print(it_employees)

print("\n나이가 30 이상인 사람들:")
older_employees = df[df['age'] >= 30]
print(older_employees[['name', 'age']])

# 여러 조건 필터링
print("\nIT 부서 중 나이 30 이상:")
result = df[(df['department'] == 'IT') & (df['age'] >= 30)]
print(result)


## 3. AI를 위한 핵심 데이터 전처리


In [None]:
# 1. 범주형 데이터를 숫자로 변환 (AI 모델이 이해할 수 있게)
df_copy = df.copy()
df_copy['department_encoded'] = pd.Categorical(df_copy['department']).codes
print("부서를 숫자로 변환:")
print(df_copy[['department', 'department_encoded']])

# 2. 원핫 인코딩 (AI에서 매우 자주 사용)
dept_dummies = pd.get_dummies(df['department'], prefix='dept')
print("\n원핫 인코딩:")
print(dept_dummies)

# 3. 데이터 정규화 (AI 학습을 위해 필수)
from sklearn.preprocessing import StandardScaler
df_copy['salary_normalized'] = StandardScaler().fit_transform(df_copy[['salary']])
print("\n급여 정규화:")
print(df_copy[['salary', 'salary_normalized']])

# 4. 결측값 처리 (실제 데이터에서 흔한 문제)
df_with_nan = df.copy()
df_with_nan.loc[1, 'salary'] = np.nan  # 임의로 결측값 생성
print(f"\n결측값 확인: {df_with_nan.isnull().sum()}")

# 결측값 채우기
df_filled = df_with_nan.fillna(df_with_nan['salary'].mean())
print("평균값으로 결측값 채움:")
print(df_filled)
