- 수치형 데이터 전처리
    - 수치형 데이터는 머신러닝 모델이나 데이터 분석에서 매우 중요한 역할
    - 이 데이터를 잘 활용하려면 구간화(Binning)와 스케일링(Scaling) 같은 전처리 기법 적용 필요

- 구간화 하기
    - 구간화(Binning)는 수치형 데이터를 여러 구간으로 나누어 범주형으로 데이터를 변환하는 방법
    - 예를 들어, 나이 데이터를 "10대", "20대" 처럼 그룹으로 나누는 것을 의미
    - 이를 통해 데이터를 더 쉽게 이해할 수 있고, 그룹 간의 패턴을 찾기 용이
    

- 구간화 사용 이유
    - 데이터 이해가 더 쉬워짐
    - 특정 패턴이나 그룹을 발견하기 쉬움
    - 모델에서 범주형 데이터를 활용 가능

- 구간화의 기본 사용법
    - Pandas의 cut() 메서드를 사용하면 데이터를 구간화 가능
    - ex> pd.cut(x, bins, labels=None, right=True)
    - x : 구간화할 수치형 데아터
    - bins : 구간을 나누는 기준
    - labels :  구간에 붙일 이름
    - right : 구간의 오른쪽 끝 포함 여부 (기본값 : True)

In [2]:
# 나이 데이터 구간화 하기

import pandas as pd

# 데이터 생성
data = {"Age": [15, 22, 35, 50, 72]}
df = pd.DataFrame(data)

# 나이를 구간화 (10대, 20대, 30대)
bins = [0, 20, 40, 60, 80]                                            # 구간의 경계 설정
labels = ["10대", "20대", "30대", "40대 이상"]                          # 각 구간의 이름         
df["Age_Group"] = pd.cut(df["Age"], bins=bins, labels=labels)        

# 결과 출력
print(df)

   Age Age_Group
0   15       10대
1   22       20대
2   35       20대
3   50       30대
4   72    40대 이상


- import pandas as pd
    - 설명 : Pandas는 테이터를 다루는 데 유용한 라이브러리, import는 라이브러리를 가져오는 명령어, as pd 는 Pandas를 간단이 pd로 호출 할 수 있게 별칭 지정
- data = {"Age": [15, 22, 35, 50, 72]}
    - 설명: 데이터를 딕셔너리 형태로 생성, 딕셔너리는 키(Key)와 값(Value)으로 이루어진 데이터 구조, Age 라는 키에는 나이 값이 배열로 저장
- df - pd.DataFrame(data)
    - 설명 : Pandas의 DataFrame함수를 사용하여 딕셔너리를 표 형태(엑셀과 비슷한 구조)로 변환
- bins = [0, 20, 30, 40, 60, 80]
    - 설명 : 구간을 나누는 기준값(경계선)을 리스트로 정의
- labels = ["10대", "20대", "30대", "40대 이상"]
    - 설명 : 각 구간에 부여할 이름을 리스트로 정의
- pd.cut(df["Age"], bins=bins, labels=labels)
    - 설명 : Pandas의 cut() 함수는 데이터를 지정한 구간(bins)에 따라 나누고 각 구간에 이름(labels)을 붙임

- 구간화를 자동으로 수행하기
    - Pandas의 qcut() 메서드를 사용하면 데이터를 동일한 개수로 나눌 수 있음

In [3]:
# 나이를 자동으로 3개의 구간으로 나누기
df["Age_Quantile"] = pd.qcut(df["Age"], q=3, labels=["하위", "중위", "상위"])

# 결과출력
print(df)

   Age Age_Group Age_Quantile
0   15       10대           하위
1   22       20대           하위
2   35       20대           중위
3   50       30대           상위
4   72    40대 이상           상위


- qcut()은 데이터를 지정한 개수만큼 분위수(quantile) 기준으로 나눔
- qcut(data, q=3)을 사용하면 데이터를 하위 1/3, 중위 1/3, 상위 1/3 로 나눌 수 있음
- 이때 데이터의 분포에 따라 자동으로 구간이 조정

- 구간화 시 주의 할 점
    - 구간 경계를 명확히 설정해야 함, 잘못 설정하면 데이터 분류가 잘못될 수 있음
    - 데이터의 분포를 고려해야 하므 데이터가 특정 구간에 치우쳐 있으면 qcut()을 활용하는 것이 좋음
    - 범주형 데이터로 변환되기 때문에, 이후 분석에서 숫자 연산을 하기 어려움

- 스케일링 변환
    - 스케일링은 수치형 데이터를 일정한 범위로 조정하는 작업
    - 머신러닝 모델은 데이터를 비교할 때 값의 크기에 영향을 받을 수 있기 때문에, 스케일링이 필수적

    - 정규화(Normalization)
        - 정규화는 데이터를 0에서 1 사이로 변환하는 작업
        - 예를 들어 키가 150~200cm 라면 0과 1 사이로 조정하여 모델이 값을 더 잘 비교할 수 있도록 만듬
        - X_norm = X - X_min / X_max - X_min

In [4]:
# MinMaxScaler를 사용한 정규화
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# 데이터 생성
data = {"Height": [150, 160, 170, 180, 190]}
df = pd.DataFrame(data)

# MinMaxScaler 적용
scaler = MinMaxScaler()
df["Height_Normalization"] = scaler.fit_transform(df[["Height"]])

# 결과 출력
print(df)

   Height  Height_Normalization
0     150                  0.00
1     160                  0.25
2     170                  0.50
3     180                  0.75
4     190                  1.00


- from sklearn.preprocessing import MinMaxScaler
    - 설명 : scikit-learn 라이브러리에서 MinMaxScaler를 가져옴, scikit-learn은 머신러닝과 데이터 전처리에 유용한 라이브러리
- date = {"Height": [150, 160, 170, 180, 190]}
    - 설명 : 키 데이터를 딕셔너리 형태로 정의
- scaler = MinMaxScaler()
    - 설명 : MinMaxScaler 객체를 생성, 이 객체는 데이터를 정규화 하는데 사용
- scaler.fit_transform(df[["Height"]])
    - 설명 : fit_transform()은 데이터를 학습(fit)하고, 정규화(transform) 수행, Height 데이터를 0~1 사이의 값으로 변환

- 표준화(Stndardization)
    - 표준화는 데이터를 평균 0, 표준편차 1로 변환하는 작업, 이 방법은 데이터의 분포를 표준 정규분포처럼 만들어 줌
    - X_std = X - 평균 / 표준편차

In [5]:
# StandardScaler를 사용한 표준화

from sklearn.preprocessing import StandardScaler
import pandas as pd

# 데이터 생성
data = {"Weight": [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# StandardScaler 적용
scaler = StandardScaler()
df["Weight_Standardized"] = scaler.fit_transform(df[["Weight"]])

# 결과 출력
print(df)

   Weight  Weight_Standardized
0      50            -1.414214
1      60            -0.707107
2      70             0.000000
3      80             0.707107
4      90             1.414214


- from sklearn.preprocessing import StandardScaler
    - 설명 : scikit-learn 라이브러리에서 StandardScaler를 가져옴
- scaler = StandardScaler()
    - 설명 : StandardScaler 객체를 생성
- scaler.fit_transform(df[["Weight"]])
    - 설명 : 데이터를 학습(fit)하고 표준화(transform) 수행, Weight 데이터를 평균 0, 표준편차 1로 변환

- 스케일링의 필요성
    - 속도 향상 : 머신러닝 모델이 데이터를 처리하는 속도가 빨라짐
    - 성능 개선 : 값의 크기가 서로 다르면, 특정 값이 모델이 더 큰 영상을 미칠 수 있음
    - 알고리즘의 요구사항 : KNN, SVN, 로지스틱 회귀 등은 스케일된 데이터를 요구

In [6]:
# 스케일링 전체 코드

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 데이터 생성
data = {"Age": [15, 22, 35, 50, 72], "Weight": [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# 구간화
bins = [0, 20, 40, 60, 80]
labels = ["10대", "20대", "30대", "40대 이상"]
df["Age_Group"] = pd.cut(df["Age"], bins=bins, labels=labels)

# 정규화
minmax_scaler = MinMaxScaler()
df["Weight_Normalized"] = minmax_scaler.fit_transform(df[["Weight"]])

# 표준화
std_scaler = StandardScaler()
df["Weight_Standardized"] = std_scaler.fit_transform(df[["Weight"]])

print(df)


   Age  Weight Age_Group  Weight_Normalized  Weight_Standardized
0   15      50       10대               0.00            -1.414214
1   22      60       20대               0.25            -0.707107
2   35      70       20대               0.50             0.000000
3   50      80       30대               0.75             0.707107
4   72      90    40대 이상               1.00             1.414214


- import pandas as pd
    - Pandas는 데이터를 표 형태로 다룰 수 있는 Python 라이브러리, as pd 는 Pandas를 간단히 호출할 수 있도록 별칭을 지정한 것
    - Pandas의 함수 pandas,DataFrame() 대신 pd.DataFrame() 으로 사용 가능
- from sklearn.preprocessing import MinMaxScaler, StandardScaler
    - scikit-learn은 머신러닝과 데이터 전처리에 사용되는 라이브러리
    - MinMaxScaler : 데이터를 0과 1 사이로 변환하는 도구(정규화)
    - StandardScaler : 데이터를 평균 0, 표준편차 1로 변환하는 도구(표준화)
- data = {"Age": [15, 22, 35, 50, 72], "Weight": [50, 60, 70, 80, 90]}
    - 딕셔너리 형태로 데이터를 생성, "Age": 나이 데이터, "Weight": 몸무게 데이터
    - 딕셔너리 구조는 "키": 값 형대로 저장, ex> "Age": [15, 22, 35, 50, 72]
- df = pd.DataFrame(data)
    - Pandas의 DataFrame 함수를 사용해 데이터를 표(엑셀과 비슷한 형대)로 변환
- bins = [0, 20, 40, 60, 80]
    - 나이를 나눌 구간의 경계값을 설정, ex> 0020, 2040, 4060, 6080
- labels = ["10대", "20대", "30대", "40대 이상"]
    - 각 구간에 부여할 이름(레이블)을 리스트로 정의, ex> 0020은 "10대", 2040은 "20대"
- df["Age_Group"] = pd.cut(df["Age"], bins=bins, labels=labels)
    - Pandas의 cut() 함수로 Age 데이터를 구간화, 결과를 새로운 열 Age_Group에 저장
- minmax_scaler = MinMaxScaler()
    - MinMaxScaler 객체를 생성, 이 객체는 데이터를 0과 1사이의 값으로 변환
- df[["Weight"]]
    - 데이터 프레임에서 Weight 열을 선택, fit_transform() 함수는 2차원 배열을 전달해야 되기 때문에 열 이름에 이중 대괄호 [[]]로 감싼
    - df["Weight"] 는 1차원 Series 이고 []로 한번 더 감싸야 2차원 DataFrame(배열 구조)이 됨
- minmax_scaler.fit_transform(df[["Weight"]])
    - fit_transform() : fit() -> 데이터의 최소값과 최대값을 학습, transform() -> 학습한 최소/최대값을 이용해 데이터를 변환
- df["Weight_Normalized"]
    - 변환된 값을 새로운 열 Weight_Normalized에 저장
- std_scaler = StandardScaler()
    - StardardScaler 객체를 생성, 이 객체는 데이터를 평균 0, 표준편타 1로 변환
- std_scaler.fit_transform(df[["Weight"]])
    - fit_transform() : fit() -> 데이터의 평균과 표준편차 학습, transform() -> 학습한 평균/표준편차를 이용해 데이터를 변환
- df["Weighr_Standardized"]
    - 변환된 값을 새로운 열 Weight_Normalized에 저장

- 범주형 데이터 전처리
    - 범주형 데이터는 데이터 값이 숫자가 아니라, 글자(문자)나 분류(category)로 이루어진 데이터
    - 예를 들어, "서울", "부산", "대구"와 같은 도시 이름이나 "남성", "여성"과 같은 성별 정보는 범주형 데이ㅓ
    - 범주형 데이터를 그대로 사용하면 머신러닝 모델이 이해하지 못하므로, 이를 숫자로 변환하는 과정이 필요

    - 범주형 데이터 전처리 주요 기법
        - 레이블 인코딩(Label Encoding) : 범주형 데이터를 숫자형으로 변환, ex> "서울" -> 0, "부산" -> 1, "대구" -> 2
        - 원핫 인코딩(One-Hot Encoding) : 범주형 데이터를 0과 1로 이루어진 이진 벡터로 변환, ex> "서울" -> [1, 0, 0], "부산" -> [0, 1, 0], "대구" -> [0, 0, 1]

- 레이블 인코딩
    - 레이블 인코딜은 각 범주형 값에 고유한 숫자(Label)를 매기는 방식, 간단한 데이터 변환에 유용, 숫자의 크기 비교가 발생할 수 있는 단점

In [7]:
# 레이블 인코딩

import pandas as pd
from sklearn.preprocessing import LabelEncoder  # 레이블 인코딩을 위한 라이브러리

# 데이터 생성
data = {"City": ["서울", "부산", "대구", "서울", "부산"]}
df = pd.DataFrame(data)

# 레이블 인코딩
encoder = LabelEncoder()    # 레이블 인코더 생성
df["City_Encoder"] = encoder.fit_transform(df["City"])

print(df)

  City  City_Encoder
0   서울             2
1   부산             1
2   대구             0
3   서울             2
4   부산             1


- from sklearn.preprocessiong import LabelEncoder
    - 설명 : sckit-leaen 라이브러리에서 LabelEncoder를 가져옴, LabelEncoder는 범주형 데이터를 숫자로 변환하는 도구
- encoder = LabelEncoder()
    - 설명 : LabelEncoder 객체를 생성
- encoder.fit_transform(df["City"])
    - 설명 : fit()은 데이터를 학습하여 고유한 숫자로 매칭, transform()은 학습된 내용을 바탕으로 데이터를 숫자로 변환
        - ex> "서울" -> 2, "부산" -> 1, "대구" -> 0
- df["City_Encoded"]
    - 설명 : 변환된 숫자 데이터를 데이터프레임의 새로운 열로 추가

- 원핫 인코딩
    - 원핫 인코딩은 각 범주를 0과 1로 이루어진 이진 벡터로 변환하는 방식
        - ex> "서울" -> [1, 0, 0], "부산" -> [0, 1, 0], "대구" -> [0, 0, 1]

In [8]:
# 원핫 인코딩

import pandas as pd

# 데이터 생성
data = {"City": ["서울", "부산", "대구", "서울", "부산"]}
df = pd.DataFrame(data)

# 원핫 인코딩
df_encoded = pd.get_dummies(df, columns=["City"])       # City 열을 원핫 인코딩

# 결과 출력
print(df_encoded)

   City_대구  City_부산  City_서울
0    False    False     True
1    False     True    False
2     True    False    False
3    False    False     True
4    False     True    False


- pd.get_dummies()
    - 설명 : Pandas의 get_dummies() 함수는 데이터를 원핫 인코딩으로 변환
- columns = ["City"] : 원핫 인코딩할 열을 지정
    - 변환 결과 : City_대구, City_부산, City_서울이라는 열이 생성, 각 범주는 0(False)과 1(Trun)로 표시

- 참고 : 어떤 방법을 선택해야 할까?
    - 레이블 인코딩 : 데이터에 순서(서열)가 있는 경우 적합
        - ex> "초급" -> 0, "중급" -> 1, "고급" -> 2
    - 원핫 인코딩 : 데이터에 순서가 없는 경우 적합
        - ex> "서울", "부산", "대구"와 같은 도시 이름

- 기존 데이터 삭제
    - 데이터 정제 과정에서 기존 데이터를 삭제하는 작업은 분석 목표와 데이터 품질을 고려하여 필수적으로 수행
    - 불필요한 데이터나 품질이 낮은 데이터가 포함되어 있다면, 이들이 분석 결과에 부정적인 영향을 미칠 수 있기 때문에 신중히 삭제

- 기존 데이터 삭제의 필요성
    - 분석과 무관한 데이터 삭제 : 분석에 필요하지 않은 열이나 행을 삭제
        - ex> 고객 데이터에서 "주소" 정보가 분석에 필요 없는 경우
    - 품질이 낮은 데이터 삭제 : 결측치가 많거나, 이상치가 너무 많아 사용할 수 없는 데이터를 제거
    - 중복 데이터 삭제 : 동일한 데이터가 여러 번 반복되는 경우 중복된 데이터를 제거
- Pandas를 활용한 데이터 삭제
    - Pandas 라이브러리를 사용하여 데이터프레임에서 불필요한 데이터를 삭제하는 방법
        - 특정 행(Row) 삭제
            - Pandas의 drop() 메서드를 사용하여 특정 행을 삭제, 아래 예씨

In [9]:
import pandas as pd

# 데이터 생성
data = {"Name": ["Alice", "Bob", "Charlie", "David"], "Age": [25, 30, 35, 40], "Score": [90, 85, 75, 60]}
df = pd.DataFrame(data)

# 특정 핼 삭제 (ex> 인덱스 2번 삭제)
df_dropped = df.drop(index=2)

print("특정 행 삭제 후 데이터 : ")
print(df_dropped)

특정 행 삭제 후 데이터 : 
    Name  Age  Score
0  Alice   25     90
1    Bob   30     85
3  David   40     60


- df.drop(index=2)는 데이터프레임에서 특정 행(ex> 2번 인덱스)을 삭제하는 명령, index=2는 삭제하려는 행의 인덱스 번호를 지정, 이 경우 인덱스 2에 해당하는 행만 삭제
- 기본적으로 drop() 메서드는 원본 데이터를 수정하지 않고, 수정된 데이터를 반황, 원본 데이터를 수정하려면 inplace=True 옵션을 추가

- 특정 열(column) 삭제
    - 특정 열을 삭제하려면 drop() 메서드에 column="컬럼 명" 옵션을 사용하거나, ["컬럼 명"], axis=1을 사용

In [10]:
# 특정 열 삭제 (ex> "Score" 열 삭제)

df_dropped = df.drop(columns=["Score"])

print("특정 열 삭제 후 데이터")
print(df_dropped)

특정 열 삭제 후 데이터
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40


- df.drop(columns=["Score"])는 데이터프레임에서 특정 열(ex> "Score")을 삭제
- columns=["Scoer"]는 삭제할 열의 이름을 리스트로 지정, 삭제 후, "Score" 열은 데이터프레임에서 사라짐
- 기본적으로 axis=1이 자동으로 설정되어 열을 삭제하도록 작동, inplace=True를 사용하면 원본 데이터프레임이 수정

- 결측치가 많은 행(Row) 삭제
    - dropna() 메서드를 사용하여 결측치가 포함된 데이터를 삭제할 수 있음

In [11]:
# 결측치가 있는 데이터 생성
data_with_na = {"Name": ["Alice", "Bob", "Charlie", "David"], "Age": [25, None, 35, 40], "Score": [90, 85, None, 60]}
df_whth_na = pd.DataFrame(data_with_na)

# 결측치가 포함된 행 삭제
df_cleaned = df_whth_na.dropna()
print("결측치가 포함된 행 삭제 후 데이터: ")
print(df_cleaned)

결측치가 포함된 행 삭제 후 데이터: 
    Name   Age  Score
0  Alice  25.0   90.0
3  David  40.0   60.0


- df.dropna()는 결측치가 포함된 모든 행을 삭제, dropna() 메서드는 기본적으로 결측치가 포함된 행을 삭제
- 결측치가 있는 행을 삭제하려면 axis=1 옵션을 사용
- 삭제 전에 결측치의 개수를 확인하려면 df.isnull().sum()을 사용하여 각 열의 결측치 개수를 확인할 수 있음
- inplace=True 옵션을 추가하면 원본 데이터에서 결측치가 포함된 행이 삭데

- 중복 데이터 삭제
    - drop_duplicates() 메서드를 사용하여 중복된 행을 제거 가능

In [12]:
# 중복 데이터 생성
data_with_duplicates = {"Name": ["Alice", "Bob", "Alice", "David"], "Age": [25, 30, 25, 40], "Score": [90, 85, 90, 60]}

df_with_duplicates = pd.DataFrame(data_with_duplicates)

# 중복된 행 삭제
df_unique = df_with_duplicates.drop_duplicates()

print("중복 데이터 삭제 후 데이터")
print(df_unique)

중복 데이터 삭제 후 데이터
    Name  Age  Score
0  Alice   25     90
1    Bob   30     85
3  David   40     60


- df.drop_duplicates()는 데이터프레임에서 중복된 행을 삭제
- 기본적으로 모든 열의 값을 비교하여 중복 여부를 판단
- 중복 판단 기준 열을 지정하려면 subset 파라미터를 사용
    - ex> df.drop_duplicates(subset=["Name"])는 "Name" 열을 기준으로 중복 여부를 판단
- keep 파라미터로 중복 데이터 중 남길 데이터를 선택 가능
- keep="first" (기본값) : 첫 번째 중복 행을 유지하고 나머지 삭제
- keep="last" : 마지막 중복 행을 유지하고 나머지 삭제
- keep=False : 모든 중복 행 삭제

In [13]:
# 데이터 삭제

import pandas as pd

# 데이터 생성
data = {"Name": ["Alice", "Bob", "Charlie", "David", "Eve"], "Age": [25, None, 35, 40, 29], "Score": [90, 85, 75, 60, 85]}
df = pd.DataFrame(data)

# 1. 특정 행 삭제 (예: 인덱스 1번 삭제)
df = df.drop(index=1)

# 2. 특정 열 삭제 (예: "Score" 열 삭제)
df = df.drop(columns=["Score"])

# 3. 결측치가 포한된 행 삭제
df = df.dropna()

print("정제된 데이터: ")
print(df)

정제된 데이터: 
      Name   Age
0    Alice  25.0
2  Charlie  35.0
3    David  40.0
4      Eve  29.0


- 데이터 생성 : 딕셔너리 형태로 데이터를 생성한 후, Pandas의 DataFrame 함수로 표 형태로 변환
    - ex> 이름, 나이, 점수 데이터를 가진 데이터프레임을 생성
- 특정 행 삭제 : df.drop(index=1)를 사용해 인덱스 번호가 1인 행을 삭제, 이때 삭제된 결과는 새로운 데이터프레임으로 반환, 원본 데이터 프레임은 수정되지 않음
- 특정 열 삭제 : df.drop(columns=["Score"])를 사용해 "Score" 열을 삭제, 열 이름은 리스트 형태로 지정하며, 여러 열을 동시에 삭제 가능, 삭제 후 "Score" 열이 데이터프레임에서 제거
- 결측치 삭제 : dropna()를 사용해 결측치가 포함된 모든 행을 삭제, 삭제 전에 isnull().sum()을 사용해 결측치의 개수를 확인, 만약 결측치가 포함된 열을 삭제하려면 axis=1 옵션을 사용
- 중복 데이터 삭제 : drop_duplicates()를 사용해 데이터프레임에서 중복된 행을 삭제, 모든 열을 비교하여 중복 여부 판단, 중복된 첫 번째 행만 유지, 특정 열만 기준으로 중복 삭제 시 subset 파라미터 설정
- 결과 출력 : 최종적으로 삭제된 결과를 출력, 데이터프레임이 정제되었는지 확인, 

- 컬럼명 변경
    - 컬럼명 변경의 필요성
        - 컬럼명은 데이터프레임에서 각 열(column)을 식별할 수 있는 이름, 컬럼명은 데이터의 의미를 담고 이어야 데이터를 쉽게 이해하고, 효율적으로 다룰 수 있음
        - 하지만 현실에서 제공되는 데이터는 그렇지 않은 경우가 많음, 아래의 이유로 컬럼명을 변경해야 할 필요 발생

        - 컬럼명이 직관적이지 않은 경우
            - 데이터셋이 처음 제공될때 컬럼명이 추상적이거나 의미를 이해하기 여럽게 설정된 경우
            - ex> "col1", "col2"와 같은 이름은 어떤 데이터를 나타내는 지 파악이 어려움
            - 이를 "이름", "나이", "점수"와 같이 직관적인 이름으로 변경하면 데이터의 의미를 쉽게 파악 가능
        - 언어 통일의 필요성
            - 데이터셋이 여러 언어포 혼합된 컬렁명을 가지고 있는 경우, 분석의 일관성을 유지하기 위해 하나의 언어로 통일이 필요,
            - ex> "Name"과 "이름"이 혼합된 데이터를 모두 영어, 혹은 한글로 통일하면 협업과 분석 과정에서 혼란 감소
        - 분석 목적에 맞게 간소화
            - 컬럼명이 지나치게 길거나 복잡한 경우, 이를 간소화 하면 가독성이 종아지고, 분석 과정에서의 실수를 줄일 수 있음
            - ex> "고객연령(만나이)"이라는 컬럼명을 "나이"로 간소화하면 더욱 효율적으로 데이터를 다룰 수 있음
    - 컬럼 명 변경 방법
        - Pandas를 사용하면 데이터프레임의 컬럼명을 특정 컬럼만 변경하거나, 전체 컬럼을 한 번에 변경 가능, 각각의 방법은 데이터셋의 특성과 필요에 따라 선택적으로 사용

- 데이터셋 설명
    - Heart Dataset은 심장 질환 여부를 예측하기 위한 다양한 건강지표와 환자 정보를 포함한 데이터 셋, 이 데이터 셋은 머신러닝 모델을 활용하여 심장 질환을 가진 환자와 그렇지 않은 환자를 분류하거나. 특정 건강 지표와 심장 질환 간의 관계를 분석하는 데 사용
    - 데이터 파일 구조
        - 파일 이름 : heart.csv
        - 파일 형식 : CSV(Comma-Separated Values) 파일
        - 행(row) : 각 행은 한 명의 환자 정보를 나타냄
        - 열(column) :  각 열은 특정 건강 지표나 정보를 나타냄
        - 컬럼(열) 설명
            - age (나이) : 환자의 나이, 나이는 심장 질환 발생 위험을 예측하는 제 중요한 변수 
            - sex (성별) : 성별 정보, 1: 남성, 0: 여성으로 표시
            - cp (흉통 유형) : 흉통 유형 정보, 1: 전형적인 협심증, 2: 비전형적인 협심증, 3: 비흉통성 통증, 4: 무증상
            - trtbps(안정 시 혈압) : 안정된 상태에서 측정된 혈압 (단위: mm Hg), 고혈압은 심장 질환의 주요 위험 요소 중 하나
            - chol (콜레스트롤) : 혈중 콜레스트롤 수치를 나타냄 (단위: mg/dl), 콜레스트롤 수치가 높으면 심장 질환 위험이 증가
            - fbs (공복 혈당) : 공복 혈당이 120 mg/dl 보다 높은지 여부를 나타냄, 1: 참, 0: 거짓
            - thalachh (최대 심박수) : 운동 중 측정된 최대 심박수, 심박수는 심장의 상태를 나타내는 중요한 지표
            - oldpeak (ST 우울증) : 운동 중 ST 세그먼트의 변화를 나타냄, 높은 값은 심장 기능 이상을 나타낼 수 있음
            - output (심방 질환 여부) : 심장 질환이 있는 지 여부를 나타냄, 1: 심장 질환 있음, 0: 심장 질환 없음

- 데이터 로드와 확인
    - Pandas 라이브러리를 사용하여 데이터를 불러오고, 컬럼명을 확인

In [14]:
import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 출력
print("컬럼명 확인: ")
print(df.columns)

컬럼명 확인: 
Index(['age', 'sex', 'cp', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp', 'caa', 'thall', 'output'],
      dtype='object')


- import pandas as pd
    - Pandas 라이브러리를 불러옴, Pandas는 데이터를 표 향태로 다룰 수 있는 도구
- pd.read_csv(file_path)
    - 지정된 파일 경로에서 CSV 파일을 읽어와 데이터프레임으로 변환, 여기서 file_path는 데이터셋의 위치를 저장
- df.columns
    - 데이터프레임의 컬럼명을 리스트형태로 반환, 이 리스트를 출력하여 기존 컬럼명 확인 가능

- 기존 컬럼명 분석
    - 각 컬럼명이 약어로 되어 있어 의미를 쉽게 이해하기가 어려움, 이를 명확하게 변경하기 위해 아래와 같이 새 이름 정의

|기존 컬럼명|의미|변경 후 컬럼명|
|--|--|--|
|age|나이|나이|
|sex|성별 (1: 남성, 0: 여성)|성별|
|cp|흉통 유형|흉통유형|
|trtbps|안정 시 혈압|안정시혈압|
|chol|콜레스테롤|콜레스테롤|
|fbs|공복 혈당 (1: >120mg/dl)|공복혈당|
|restecg|안정 심전도 결과|심전도|
|thalachh|최대 심박수|최대심박수|
|exng|운동 유발 협심증 (1: 있음)|운동유발협심증|
|oldpeak|ST 우울증|ST우울증|
|slp|운동 후 ST 경사|운동후ST경사|
|caa|주요 혈관 수|주요혈관수|
|thall|결과 유형|결과유형|
|output|심장질환 여부 (1: 있음, 0: 없음)|심장질환여부|

- 컬럼명 변경
    - 컬럼명을 변경하는 방법은 두 가지가 있음, rename() 메서드를 사용하여 특정 컬럼만 변경하거나. columns 속성을 사용하여 전체 컬럼명을 한 번에 변경 가능

In [15]:
# 방법 1: rename() 메서드로 특정 컬럼명 변경

df.rename(columns={"age": "나이", "sex": "성별", "cp": "흉통유형"}, inplace=True)

# 변경 후 컬럼명 확인
print("변경 된 컬럼명 (일부 변경) : ")
print(df.columns)

변경 된 컬럼명 (일부 변경) : 
Index(['나이', '성별', '흉통유형', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp', 'caa', 'thall', 'output'],
      dtype='object')


- columns 파라미터
    - 변경할 컬럼명을 딕셔너리 형태로 전달, 키(key): 기존 컬럼명 - "age", 값(value): 새 컬럼명 = "나이"
- inplace=True
    - 변경 사항을 원본 데이터프레임에 바로 적용
- df.columns
    - 변경된 컬럼명을 확인하여 원하는 대로 수정되었는지 확인

In [16]:
# 방법 2: columns 속성으로 전체 컬럼명 변경

df.columns = ["나이", "성별", "흉통유형", "안정시혈압", "콜레스테롤", "공복혈당", "심전도", 
              "최대심박수", "운동유발협심증", "ST우울증", "운동후ST경사", "주요혈관수", 
              "결합유형", "심장질환여부"]

# 변경 후 컬럼명 확인
print("변경된 컬럼명 (전체 변경) : ")
print(df.columns)

변경된 컬럼명 (전체 변경) : 
Index(['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도', '최대심박수', '운동유발협심증',
       'ST우울증', '운동후ST경사', '주요혈관수', '결합유형', '심장질환여부'],
      dtype='object')


- df.columns
    - 데이터프레임의 컬럼명을 리스트 형태로 반환하거나 설정
- 컬럼명 리스트 설정
    - 새 이름을 리스트 형태로 지정하여 전체 컬럼명을 일괄적으로 변경, 리스트 순서는 기존 컬럼명과 동일해야 하며, 컬럼 개수가 일치해야 함

In [17]:
# 컬럼명 변경 후 데이터 확인
# 각 컬럼명이 약어로 되어 있어 의미를 쉽게 이해하기 어렵기 때문에 아래와 같이 새 이름 정의

print("변경된 데이터 상위 5개 행: ")
df.head()

변경된 데이터 상위 5개 행: 


Unnamed: 0,나이,성별,흉통유형,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결합유형,심장질환여부
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


- 주의사항
    - 컬럼명 중복 방지 : 변경 후 컬럼명이 중복되지 않도록 확인
    - 원본 데이터 수정 여부 : inplace=True를 사용할 경우 원본데이터가 수정됨, 필요하다면 변경전 데이터 백업
    - 컬럼 순서 유지 : 전체 컬럼명을 변결할 때, 기존 순서를 유지해야 오류가 발생하지 않음

- 데이터 정렬
    1. 데이터 정렬의 필요성
        - 데이터 정렬은 데이터프레임내의 행 또는 열을 특정 기준에 따라 정리하는 과정, 정렬을 통해 데이터를 더 체계적으로 다룰 수 있으며, 분석 과정에서 특정 값의 순서를 확인하거나 필요한 데이터를 효율적으로 추출 가능, 데이터 정렬이 필요한 경우는 다음과 같음
            - 값의 크기나 순서대로 정리하고 싶을 때
                - ex> 성적 데이터를 높은 점수 순으로 정렬하여 순위를 매기거나, 시간 데이터를 정렬하여 트렌드를 확인 가능
            - 중복된 데이터가 있을 때
                - 정렬을 통해 중복 데이터를 쉽게 확인하거나, 특정 기준에 따라 중복된 데이터를 제거 가능
            - 데이터 가독성을 높이고 싶을 때
                - 정렬된 데이터는 분석과 시각화를 더 쉽게 가능
    2. 데이터 정렬 방법
        - Pandas 라이브러리는 데이터프레임을 행(row) 또는 열(column) 기준으로 정렬할 수 있는 다양한 옵션을 제공, 주요 메시드는 다음과 같음
            - 행(row) 정렬 : sort_values() 메서드
                - sort_values()는 특정 열(column)의 값을 기준으로 데이터를 정렬
            - 주요 파라미터 : 
                - by : 정렬 기준이 되는 열 이름
                - ascending : 오름차순(True) 또는 내림차순(False), 기본값은 True
                - inplace : 원본 데이터 수정 여부, 기본값은 False
            - 열(column) 정렬 : sort_index() 메서드  
                - sort_index()는 데이터프레임의 인덱스 또는 열 이름을 기준으로 정렬
            - 주요 파라미터 : 
                - axis : 정렬 방향, axis=0이면 행, axis=1이면 열 기준으로 정렬
                - ascending : 오름차순(True) 또는 내림차순(False)

In [18]:
# heart.csv 파일을 사용하여 다양한 정렬 방법을 실습

import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 데이터 확인
print("원본 데이터 : ")
df.head()

원본 데이터 : 


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


- import pandas as pd
    - Pandas 라이브러리를 로드. Pandas는 데이터를 다루는 데 유용한 도구로 csv 파일 읽기와 데이터 정렬 기능 제공
- file_path = "datasets/heart.csv"
    - 데이터 파일의 경로를 지정, datasets/heart.csv는 심장 질환 관련 데이터를 포함한 CSV 파일
- pd.read_csv(file_path)
    - 지정한 경로에서 CSV 파일을 읽어와 데이터 프레임으로 변환, 데이터프레임은 엑셀처럼 행(row)과 열(column)로 구성된 표 형태의 데이터 구조
- df.head()
    - 데이터프레임의 상위 5개 행(5개가 기본값, 임의 지정 가능)을 출력, 데이터 구조와 내용 확인

In [19]:
# 특정 열 기준으로 정렬 (sort_values)

# 나이(age) 기준으로 오름차순 정렬
df_sorted_by_age = df.sort_values(by="age", ascending=True)

# 정렬된 데이터 확인
print("나이(age) 기준 오름차순 정렬: ")
df_sorted_by_age.head()

나이(age) 기준 오름차순 정렬: 


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
72,29,1,1,130,204,0,0,202,0,0.0,2,0,2,1
58,34,1,3,118,182,0,0,174,0,0.0,2,0,2,1
125,34,0,1,118,210,0,1,192,0,0.7,2,0,2,1
65,35,0,0,138,183,0,1,182,0,1.4,2,0,2,1
227,35,1,0,120,198,0,1,130,1,1.6,1,0,3,0


- df.sort_values(by="age", ascending=True)
    - sort_values() 메서드는 데이터프레임의 행을 지정된 열("age") 값을 기준으로 정렬
- by="age" 
    - "age" 열을 정렬 기준으로 설정
- ascending=True 
    - 오름차순(작은 값 -> 큰 값)으로 정렬, 내림차순으로 정렬하려면 ascending=False로 설정
- df_sorted_by_age
    - 정렬된 데이터프레임이 새로운 변수에 저장. 원본 데이터프레임(df)은 변경되지 않음
- df_sorted_by_age.head()
    - 정렬된 데이터의 상위 5개 행을 출력하여 결과 확인

In [20]:
# 여러 열 기준으로 정렬

# 나이(age)와 최대심박수(thalachh) 기준으로 정렬, 각각 오름차순, 내림차순
df_sorted_by_multiple = df.sort_values(by=["age", "thalachh"], ascending=[True, False])

# 정렬된 데이터 확인
print("나이(age)와 최대심박수(thalachh) 기준 정렬: ")
df_sorted_by_multiple.head()

나이(age)와 최대심박수(thalachh) 기준 정렬: 


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
72,29,1,1,130,204,0,0,202,0,0.0,2,0,2,1
125,34,0,1,118,210,0,1,192,0,0.7,2,0,2,1
58,34,1,3,118,182,0,0,174,0,0.0,2,0,2,1
65,35,0,0,138,183,0,1,182,0,1.4,2,0,2,1
157,35,1,1,122,192,0,1,174,0,0.0,2,0,2,1


- by=["age", "thalachh"] : 여러 열을 정렬 기준으로 설정
    - "age"를 첫 번째 기준, "thalachh"를 두 번째 기준
- ascending=[True, False]
    - "age"는 오름차순으로, "thalachh"는 내림차순으로 정렬, 여러 열을 정렬할 때 각 열의 정렬 방향을 리스토르 지정
    - "age"값이 동일한 경우, "thalachh" 값을 기준으로 내림차순으로 정렬

In [21]:
# 인덱스(Index) 기분으로 정렬
df_sorted_by_index = df.sort_index(ascending=False)

# 정렬된 데이터 확인
print("인덱스 기준 내림차순 정렬")
df_sorted_by_index.head()

인덱스 기준 내림차순 정렬


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
302,57,0,1,130,236,0,0,174,0,0.0,1,1,2,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0


- df.sort_index(ascending=False)
    - 데이터프레임의 행 인덱스를 기준으로 내림차순으로 정렬, ascending=True로 설정하면 오름차순으로 정렬
- df_sorted_by_index
    - 정렬된 데이터프레임을 새로운 변수에 저장
    - 행 번호(인덱스)가 튼 값에서 작은 값 순으로 정렬

- 데이터프레리에서 인덱스(Index)란?
    1. 인덱스(Index)의 정의
        - 인덱스(Index)는 데이터프레임에서 각 행(row)을 고유하게 식별할 수 있는 레이블(이름), 엑셀의 행 번호와 비슷한 역할을 수행, 데이터를 빠르게 찾고, 수정하거나 정렬할 때 사용
    2. 인덱스 역할
        - 행(row)을 구분 : 각 행의 데이터를 고유하게 식별 가능, 예를 들어, "첫 번때 행" 또는 "다섯 번째 행"을 인덱스를 통해 쉽게 지정가능
        - 데이터 검색 : 특정 인덱스 값을 사용해 해당 행의 데이터를 빠르게 검색 가능
        - 정렬 및 그룹화 : 인덱스를 기준으로 데이터를 정렬하거나 그룹화할 수 있음
    3. 기본 인덱스의 특징
        - 자동 생성 : 데이터프레임을 만들 때, Pandas는 기본적으로 0부터 시작하는 숫자 인덱스를 자동으로 생성
            - ex> 0, 1, 2, 3, .....
            - 고유값 : 기본적으로 인덱스는 각 행을 고유하게 식별하기 때문에 중복되지 않음
            - 수정 가능 : 필요에 따라 인덱스를 새 값으로 변경하거나, 특정 열(column)을 인덱스로 설정 가능
    4. 1. 데이터 생성 시 기본 인덱스 소스코드

In [22]:
import pandas as pd

# 데이터 생성
data = {"Name": ["Alice", "Bob", "Charlie"], "Age": [25, 30, 35]}
df = pd.DataFrame(data)

# 데이터프레임 출력
print("기본 데이터프레임")
print(df) 

기본 데이터프레임
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35


- 설명:
    - Pandas는 기본적으로 0부터 시작하는 숫자 인덱스를 자동으로 생성, 위 데이터프레임에서 인덱스는 0, 1, 2
    - 각 행은 고유한 인덱스를 가지고 있으며, 이를 통해 특정 행을 선택 가능

    4. 2. 특정 행 선택 (인덱스 사용)

In [23]:
# 인덱스를 사용하여 특정 행 선택
row = df.loc[1]     # 인덱스가 1인 행 선택

print("\n인덱스 1의 데이터:")
print(row)


인덱스 1의 데이터:
Name    Bob
Age      30
Name: 1, dtype: object


- 설명 : 
    - df.loc[1]: 인덱스 1에 해당하는 데이터를 선택, loc[]는 행 인덱스를 기반으로 데이터를 선택하는 메서드
    - 결과 : 선택된 데이터는 Name: Bob, Age: 30으로 표시

    4. 3. 인덱스를 특정 열로 설정
        - 기본 숫자 인덱스를 다른 열의 값으로 변경 가능

In [24]:
# Name 열을 인덱스로 설정
df.set_index("Name", inplace=True)

# 변경된 데이터프레임 출력
print("\nName 열을 인덱스로 설정한 데이터프레임: ")
print(df)


Name 열을 인덱스로 설정한 데이터프레임: 
         Age
Name        
Alice     25
Bob       30
Charlie   35


- 설명:
    - df.set_index("Name")
        - "Name" 열의 값을 인덱스로 설정, 기존의 숫자 인덱스가 "Name" 값으로 대체
    - inplace=True
        - 원본 데이터프레임에서 인덱스를 직접 변경
        - 결과: "Name" 열이 인덱스로 설정되고, 데이터프레임에서 "Name" 열은 제거

    4. 4. 인덱스를 기본값으로 재설정
        - 설정된 인덱스를 다시 기본 숫자 인덱스로 변경 가능

In [25]:
# 인덱스를 기본값으로 재설정
df.reset_index(inplace=True)

# 재설정된 데이터프레임 출력
print("\n인덱스를 기본값으로 재설정한 데이터프레임: ")
print(df)


인덱스를 기본값으로 재설정한 데이터프레임: 
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35


- 설명:
    - df.reset_index(): 기존 인덱스를 "열"로 이동시키고, 기본 숫자 인덱스를 다시 생성
    - inplace=True : 원본 데이터프레임을 수정하여 변경 사항을 바고 적용

    4. 5. 인덱스를 기준으로 정렬

In [26]:
# 인덱스 기준으로 내림차순 정렬
df.set_index("Name", inplace=True)
df_sorted = df.sort_index(ascending=False)

# 정렬된 데이터프레임 출력
print("\n인덱스 기준 내림차순 정렬: ")
print(df_sorted)


인덱스 기준 내림차순 정렬: 
         Age
Name        
Charlie   35
Bob       30
Alice     25


- 설명:
    - sord_index(ascending=False) : 인덱스를 기준으로 내림차순으로 정렬
    - ascending=True를 설정하면 오름차순으로 정렬
    - 결과: "Name" 인덱스가 알파벳 역순으로 정렬

In [27]:
# 열 이름 기준으로 오름차순 정렬 전
print("열 이름 기준 오름차순 정렬 전:")
df = pd.read_csv(file_path)
df.head()

열 이름 기준 오름차순 정렬 전:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [28]:
# 열 이름 기준으로 오름차순 정렬
df_sorted_by_columns = df.sort_index(axis=1, ascending=True)

# 정렬된 데이터 확인
print("열 이름 기준 오름차순 정렬:")
df_sorted_by_columns.head()

열 이름 기준 오름차순 정렬:


Unnamed: 0,age,caa,chol,cp,exng,fbs,oldpeak,output,restecg,sex,slp,thalachh,thall,trtbps
0,63,0,233,3,0,1,2.3,1,0,1,0,150,1,145
1,37,0,250,2,0,0,3.5,1,1,1,0,187,2,130
2,41,0,204,1,0,0,1.4,1,0,0,2,172,2,130
3,56,0,236,1,0,0,0.8,1,1,1,2,178,2,120
4,57,0,354,0,1,0,0.6,1,1,0,2,163,2,120


- axis=1 : axis=1은 열(column)을 기준으로 정렬한다는 의미, 기본값은 axis=0으로, 행(row)을 기준으로 정렬
- ascending=True : 열 이름을 알파벡 순서로 오름차순 정렬
- 결과 해석 : 열 이름이 "age", "chol", "cp"와 같은 알파벳 순서로 정렬

- 데이터 정렬 시 주의사항
    - 결측치 처리
        - 정렬을 수행하기 전에 결측치(NaN)를 처리해야 함, 정렬 시 NaN 값은 기본적으로 맨 아래에 위치
    - 원본 데이터 수정 여부
        - inplace=True를 사용하면 원본 데이터프레임이 직접 수정, 원본 데이터를 유지하려면 inplace=False(기본값)을 사용
    - 여러 기준 정렬
        - 여러 열을 기준으로 정렬할 때, 기준 순서와 정렬 방향을 명확히 정의해야 함 

- 데이터 전처리 함수
    - 수치형 데이터 파생 함수 (숫자 데이터 다루기) : (실습파일: heart.csv)
        - 수치형 데이터는 숫자로 구성된 컬럼, age, chol, thalach와 같은 값이 있음
        - 수치형 데이터는 연산, 비교, 요약통계 등을 의미 있는 새로운 값을 만들 수 있음, 이 숫자를 이용해 평균, 합계, 비율, 순위 등 다양한 정보를 만들 수 있음
        - 이렇게 새로운 수치형 데이터를 만드는 과정을 파생 변수 생성이라고 함
        - 비율, 차이, 합계, 평균, 범위 등의 파생 컬럼은 분류/예측 성능을 높이거나 EDA(탐색 분석) 단계에서 인사이트를 제공

- 자주 쓰는 함수와 연산

|함수/연산|설명|예시|
|--|--|--|
| .mean() | 평균값 | df["age"].mean() |
| .sum() | 합계 | df["chol"].sum() |
| .max() / .min() | 최대값 / 최소값 | df["thalach"].max |
| .std() | 표준편차 | df["age"].std() |
| .var() | 분산 | df["age"].var() | 
| .median() | 중앙값 | df["age"].median() |
| .quantile(0.75) | 분위수 | df["age"].quantile(0.25) |
| .diff() | 바로 전 값과의 차이 | df["age"].diff() |
| .cumsum() | 누적 합 | df["chol"].cumsum() |
| .rank() | 순위 | df["thalach"].rank() |
| .round(n) | 소수점 반올림 | .round(1) |
| .astype(int) | 정수형 변환 | is_high.astype(int)
| /, *, +, -, | 연산자 | df["chol"] / df["age"] |

In [29]:
import pandas as pd

# 예제 데이터프레임 생성
df = pd.read_csv("datasets/heart.csv")

# (1) 최대 심박수 대비 나이 비율
df["heart_age_ratio"] = (df["thalachh"] / df["age"]).round(2)

# (2) 콜레스테롤 누적합
df["chol_cumsum"] = df["chol"].cumsum()

# (3) 나이 그룹화 (10년 단위)
df["age_group"] = (df["age"] // 10) * 10

# (4) 심박수 순위
df["thalachh_rank"] = df["thalachh"].rank()

# (5) 콜레스테롤 변화량 (diff)
df["chol_diff"] = df["chol"].diff()

print(df[["age", "thalachh", "chol", "heart_age_ratio", "chol_cumsum", "age_group", "thalachh_rank", "chol_diff"]].head())

   age  thalachh  chol  heart_age_ratio  chol_cumsum  age_group  \
0   63       150   233             2.38          233         60   
1   37       187   250             5.05          483         30   
2   41       172   204             4.20          687         40   
3   56       178   236             3.18          923         50   
4   57       163   354             2.86         1277         50   

   thalachh_rank  chol_diff  
0          136.0        NaN  
1          297.0       17.0  
2          253.0      -46.0  
3          276.0       32.0  
4          214.0      118.0  


- 문자형 데이터 파생 함수
    - 문자형 데이터는 사람이 읽을 수 있는 글자(문자열), 이름, 이메일, 주소, 성별 등
    - 문자형 데이터를 다루면 특정 글자 포함 여부, 길이 계산, 분리 및 추출 등을 통해 분류 분석에 활용

- 자주 쓰는 함수와 연산

|함수/연산|설명|예시|
|--|--|--|
| .str.upper() / .str.lower() | 문자열 길이 계산 | "홍길동".len() -> 3 |
| .str.contains("문자") | 대문자 / 소문자 변환 | "kim".upper() -> "KIM" |
| .str.replace("기존", "새값") | 문자 바꾸지 | "Male".replace("Male", "남성") |
| .str.slice(start, end) | 글자 잘라내기 | "홍길동".slice(0, 1) -> "홍" |
| .str.split("구분자") | 문자열 나누기 | "kim@naver.com".split("@") | 
| + | 문자열 연결 | "홍" + "길동" -> "홍길동" | 

In [30]:
import pandas as pd

# 예제 데이터프레임 생성
df = pd.DataFrame({
    "name": ["김철수 ", "이영희", "박민수", "정수진", "이서준"],
    "email": ["kim@naver.com", "lee@gmail.com", "park@daum.net", "jung@hanmail.net", "seo@korea.kr"],
    "gender_eng": ["Male", "Female", "Male", "Female", "Male"]
})

# (1) 문자열 길이 계산
df["name_length"] = df["name"].str.len()

# (2) 대문자/소문자 변환
df["gender_upper"] = df["gender_eng"].str.upper()
df["gender_lower"] = df["gender_eng"].str.lower()

# (3) 특정 문자 포함 여부 확인 (이름에 "수"가 포함되었는지 여부)
df["has_수"] = df["name"].str.contains("수")

# (4) 문자열 바꾸기 (영문 -> 한글)
df["gender_kr"] = df["gender_eng"].str.replace("Male", "남성").str.replace("Female", "여성")

# (5) 문자열 자르기 (이름 첫 글자)
df["first_letter"] = df["name"].str.slice(0, 1)

# (6) 문자열 나누기: 이메일에서 도메인 추출
df["email_domain"] = df["email"].str.split("@").str[1]

# (7) 공백 제거 
df["name_stripped"] = df["name"].str.strip()

# (8) 문자열 연결: 이름 + 도메인 합치기
df["name_email_concat"] = df["name_stripped"] + "_" + df["email_domain"]

print(df[["name", "name_length", "name_stripped", "first_letter", "has_수",
         "gender_eng", "gender_upper", "gender_lower", "gender_kr",
         "email", "email_domain", "name_email_concat"]])

   name  name_length name_stripped first_letter  has_수 gender_eng  \
0  김철수             4           김철수            김   True       Male   
1   이영희            3           이영희            이  False     Female   
2   박민수            3           박민수            박   True       Male   
3   정수진            3           정수진            정   True     Female   
4   이서준            3           이서준            이  False       Male   

  gender_upper gender_lower gender_kr             email email_domain  \
0         MALE         male        남성     kim@naver.com    naver.com   
1       FEMALE       female        여성     lee@gmail.com    gmail.com   
2         MALE         male        남성     park@daum.net     daum.net   
3       FEMALE       female        여성  jung@hanmail.net  hanmail.net   
4         MALE         male        남성      seo@korea.kr     korea.kr   

  name_email_concat  
0     김철수_naver.com  
1     이영희_gmail.com  
2      박민수_daum.net  
3   정수진_hanmail.net  
4      이서준_korea.kr  


- 날짜형 데이터 파생 함수
    - 날짜형 데이터는 단순산 날짜가 아니라, 그로부터 연도, 월, 요일, 경과일수 등 다양한 정보를 뽑아낼 수 있는 소중한 데이터
    - 이런 날짜 정보를 분해해서 새로운 열로 생성하면 분석에 큰 도움이 됨

| 함수/연산 | 설명 | 예시 |
|--|--|--|
| pd.to_datetime() | 문자열을 날짜로 변환 | "2023-01-01" -> datetime |
| .dt.year, .dt.month, .dt.day | 연도, 월, 일 추출 | 2024-03-15 -> 2024, 3, 15 |
| .dt.day_name() | 요일명 (월요일 ~ 일요일) | Friday |
| .dt.weekday | 요일 번호 (0=월, 6=일) | 0 -> 월요일 |
| .dt.is_month_Start | 월 시작일 여부 | True / False |
| .dt.is_month_end | 월 마지막일 여부 | True/ False |
| .dt.quater | 분기 추출 (1 ~ 4) | 3월 -> 1분기 |
| .dt.isocalender().week | ISO 기분 주차 | 2024-03-15 -> 11주차 |
| 날짜 연산 (-, +) | 날짜 차이 계산 | today - 가입일 -> 며칠 지남 |

In [31]:
import pandas as pd

# (1) 예제 데이터 생성
df = pd.DataFrame({
    "가입일": pd.to_datetime(["2022-01-15", "2023-03-10", "2023-12-01", "2024-05-03", "2024-10-20"])
})

# (2) 기준일 설정
df["today"] = pd.to_datetime("2025-05-05")

# (3) 날짜 파생변수 생성
df["가입연도"] = df["가입일"].dt.year                           # 연도
df["가입월"] = df["가입일"].dt.month                            # 월
df["가입일자"] = df["가입일"].dt.day                            # 일
df["가입요일"] = df["가입일"].dt.day_name()                     # 요일명
df["가입요일번호"] = df["가입일"].dt.weekday                    # 0=월, 6=일
df["가입_분기"] = df["가입일"].dt.quarter                       # 1 ~ 4분기
df["가입_주차"] = df["가입일"].dt.isocalendar().week            # ISO 기준 주차
df["월_시작일_여부"] = df["가입일"].dt.is_month_start           # 월 첫날?
df["월_마지막일_여부"] = df["가입일"].dt.is_month_end           # 월 마지막일?
df["가입후_경과일수"] = (df["today"] - df["가입일"]).dt.days    # 경과 일수

# (4) 주말 여부 판단
df["주말가입여부"] = df["가입요일번호"].isin([5, 6])            # 토/일 = True

print(df)

         가입일      today  가입연도  가입월  가입일자      가입요일  가입요일번호  가입_분기  가입_주차  \
0 2022-01-15 2025-05-05  2022    1    15  Saturday       5      1      2   
1 2023-03-10 2025-05-05  2023    3    10    Friday       4      1     10   
2 2023-12-01 2025-05-05  2023   12     1    Friday       4      4     48   
3 2024-05-03 2025-05-05  2024    5     3    Friday       4      2     18   
4 2024-10-20 2025-05-05  2024   10    20    Sunday       6      4     42   

   월_시작일_여부  월_마지막일_여부  가입후_경과일수  주말가입여부  
0     False      False      1206    True  
1     False      False       787   False  
2      True      False       521   False  
3     False      False       367   False  
4     False      False       197    True  


- 데이터 구조 변경
    - 데이터 분석 과정에서 데이터를 더 효율적으로 처리하거나 가독성을 높이기 위헤 데이터 구조를 변경해야 하는 경우, 데이터를 그룹화하고, 피벗테이블을 생성하며, 인덱스와 컬럼 계층을 변경하는 방법

In [32]:
# Heart Dataset 불러오기 및 컬럼명 변경

import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 변경
df.columns = ["나이", "성별", "흉통유형", "안정시혈압", "콜레스테롤", "공복혈당", "심전도", 
              "최대심박수", "운동유발협심증", "ST우울증", "운동후ST경사", "주요혈관수", "결합유형", "심장질환여부"]

# 데이터 확인
print("변경된 데이터프레임 컬럼명: ")
print(df.columns)
print("\n데이터 상위 5개 행")
print(df.head())

변경된 데이터프레임 컬럼명: 
Index(['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도', '최대심박수', '운동유발협심증',
       'ST우울증', '운동후ST경사', '주요혈관수', '결합유형', '심장질환여부'],
      dtype='object')

데이터 상위 5개 행
   나이  성별  흉통유형  안정시혈압  콜레스테롤  공복혈당  심전도  최대심박수  운동유발협심증  ST우울증  운동후ST경사  \
0  63   1     3    145    233     1    0    150        0    2.3        0   
1  37   1     2    130    250     0    1    187        0    3.5        0   
2  41   0     1    130    204     0    0    172        0    1.4        2   
3  56   1     1    120    236     0    1    178        0    0.8        2   
4  57   0     0    120    354     0    1    163        1    0.6        2   

   주요혈관수  결합유형  심장질환여부  
0      0     1       1  
1      0     2       1  
2      0     2       1  
3      0     2       1  
4      0     2       1  


- pd.read_csv(file_path): 데이터셋을 불러옴, datasets/heart.csv는 심장 질환 데이터를 포하한 CSV 파일
- 컬럼명 변경: 데이터프레임의 컬럼명을 한글로 변경하여 의미를 명확히 함
- df.columns: 데이터프레임의 컬럼명을 출력하여 변경이 잘 적용되었는지 확인

- 그룹화의 집계
    - 그룹화(Grouping)는 데이터를 특정 기준에 따라 묶는 작업
    - 집계(Aggregation)는 묶인 데이터를 요약하는 작업, 평균(mean), 합계(sum), 개수(count) 등의 통계값을 계산
    - 이 두 작업은 데이터 분석에서 가장 기본적이면서도 강력한 도구로, 데이터를 요약하고 중요한 인사이트를 도출하는 데 사용

    - 그룹화와 집계의 활용 사례
        - 카테고리별 데이터 요약
            - ex> 성별별 평균 나이, 심장 질환 여부에 따른 평균 콜레스테롤 수치
        - 트렌드 파악
            - ex> 연령대별 심장 질환 발생 비율
        - 데이터 정리 및 시각화 전처리
            - 그룹화 후 요약 데이터를 기반으로 시각화 작업을 수행
    - Heart Dataset으로 그룹화 실습
        - Pandas의 groupby() 메서도를 사용하여 데이터를 특정 열을 기준으로 그룹화

In [33]:
# 성별 기준 그룹화

# 성별을 기준으로 데이터 그룹화
grouped = df.groupby("성별")

# 그룹별 데이터 확인
print("그룹화된 데이터 (성별 기준): ")
grouped.size()      # 각 그룹의 행 개수 출력

그룹화된 데이터 (성별 기준): 


성별
0     96
1    207
dtype: int64

- df.groupby("성별")
    - "성별" 열의 값이 동일한 행을 하나의 그룹으로 묶음, 남성(1), 여성(0)으로 그룹화
- .size()
    - 각 그룹에 포함된 행(row)의 개수를 계산

In [34]:
# 성별별 주요 열의 평균 집계

# 성별별 평균 계산
grouped_mean = grouped.mean()

# 그룹화 후 평균값 출력
print("\n성별 별 주요 열의 평균: ")
print(grouped_mean)


성별 별 주요 열의 평균: 
           나이      흉통유형       안정시혈압       콜레스테롤     공복혈당       심전도  \
성별                                                                   
0   55.677083  1.041667  133.083333  261.302083  0.12500  0.572917   
1   53.758454  0.932367  130.946860  239.289855  0.15942  0.507246   

         최대심박수   운동유발협심증     ST우울증   운동후ST경사     주요혈관수      결합유형    심장질환여부  
성별                                                                          
0   151.125000  0.229167  0.876042  1.427083  0.552083  2.125000  0.750000  
1   148.961353  0.371981  1.115459  1.386473  0.811594  2.400966  0.449275  


- grouped.mean() : 각 그룹에서 나머지 열의 평균값을 계산
    - ex> 남성과 여성의 "최대심박수", "콜레스테롤" 평균값
- 결과 해석
    - 남성과 여성 건강 지표 평균값 비교 가능

In [35]:
# 여러 집계 함수 적용
# Pandas의 agg() 메서드를 사용하면 여러 집계 함수를 동시에 적용 가능

# 성별별 최대값과 최소값 계산
grouped_stats = grouped.agg({
    "나이": ["max", "min"],             # 나이의 최대값과 최소값
    "콜레스테롤": ["mean", "std"]        # 콜레스테롤의 평균과 표준편차
})

# 결과 출력
print("\n성별별 나이와 콜레스테롤 통계: ")
grouped_stats


성별별 나이와 콜레스테롤 통계: 


Unnamed: 0_level_0,나이,나이,콜레스테롤,콜레스테롤
Unnamed: 0_level_1,max,min,mean,std
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,76,34,261.302083,65.088946
1,77,29,239.289855,42.782392


- agg() : 여러 열에 대해 다양한 집계 함수를 동시에 적용, 딕셔너리 형태로 열 이름과 함수 목록을 지정
    - ex> "나이": ["max", "min"] -> "나이"의 최대값과 최소값 계산, "콜레스테롤": ["mean", "std"] -> "콜레스테롤"의 평균과 표준편차 계산

- 결과 해석
    - 성별별로 "나이"와 "콜레스테롤"의 주요 통계값이 출력

In [36]:
# 다중 그룹화 집계
# 여러 열을 기준으로 데이터를 그룹화

# 성별과 흉통유형을 기준으로 그룹화
grouped_multi = df.groupby(["성별", "흉통유형"]).mean()

# 결과 출력
print("\n성별과 흉통유형별 주요 열의 평균: ")
grouped_multi


성별과 흉통유형별 주요 열의 평균: 


Unnamed: 0_level_0,Unnamed: 1_level_0,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결합유형,심장질환여부
성별,흉통유형,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


- groupby(["성별", "흉통유형"]) : "성별"과 "흉통유형" 열의 조합을 기준으로 데이터를 그룹화, 다중 인덱스를 가지는 데이터 프레임 생성
- 결과 해석 : 각 성별과 흉통유형 조합에 해당하는 주요 일의 평균값이 출력

- 데이터 그룹화 및 집계시 유의사항
    - 그룹화 후 결과 확인, 그룹화된 데이터를 출력하여 의도한 대로 그룹화 되었는지 확인
    - 집계 함수 선택, 데이트럴 요약하는 데 적합한 통계 함수를 선택
    - 결측치 처리, 그룹화 및 집계 전, 결측치(NaN)가 있는 데이터를 처리해야 정확한 통계값을 얻을 수 있음

- 파이썬 괄호 조합표
    - 파이썬에서는 괄호를 조합해 사용하는 경우를 쉽게 이해할 수 있도록 각 조합의 일상적인 설명, 주요 용처, 그리고 예시와 설명을 포함한 표 정리

| 조합 | 의미 | 일상적인 비유 | 주요 용처 | 예시 |
|--|--|--|--|--|
| [] | 리스트 | 물건을 담는 상자 | 리스트, 데이터프레임 열 선택 | [1, 2, 3] |
| {} | 딕셔너리 | 단어와 뜻을 연결한 사전 | 키(key) - 값(value) 데이터 저장 | {"이름": "철수"} |
| () | 튜플 | 고정된 데이터를 묶는 묶음 | 고정 데이터, 함수 호출 | (1, 2, 3) |
| [[]] | 리스트 안의 리스트 | 큰 상자 안에 작은 상자들이 들어 있는 경우 | 2차원 데이터, 데이터프레임 | [[1, 2], [3, 4]] |
| ({}) | 튜플 안의 딕셔너리 | 묶음 안에 사전이 들어 있는 경우 | 고정된 키-값 데이터 묶음 | ({"이름": "철수"}) |
| {[]} | 딕셔너리 안의 리스트 | 단어의 뜻이 여러 가지인 사전 | 키와 여러 값을 연결 | {"과일": ["사과", "바나나"]} |
| [{}] | 리스트 안의 딕셔너리 | 여러 사람의 정보를 저장한 상자 | 객체 배열 | [{"이름": "철수"}, {"이름": "영희"}] |
| [{[]}] | 리스트 안의 딕셔너리 안의 리스트 | 상자 안의 사전 안의 또 다른 목록이 들어 있는 경우 | 복잡한 데이터 구조 | [{"과일": ["사과", "바나나"]}]|

- 조합별 설명과 예시
1. [] 리스트
    - 설명: 데이터를 순서대로 저장하고 관리할 때 사용, 일상 비유 : 여러 물건을 하나의 상자에 담은 경우
    - ex> fruits = ["사과", "바나나", "딸기"], print(fruits[0]) # 첫전때 과일 : 사과

2. {} 딕셔너리
    - 설명: 데이터를 "키 - 값" 쌍으로 저장할 때 사용, 일상 비유 : 단어(키)와 뜻(값)을 연결한 사전
    - ex> fruit_prices = {"사과": 1000, "바나나": 500}, print(fruit_prices["사과"]) # 사과의 가격: 1000

3. () 튜플
    - 설명: 고정된 데이터의 묶음을 만들 때 사용, 일상 비유 : 고정된 순서로 저장한 묶음
    - ex> point = (3, 5), print(point[0])   # X 좌표: 3

4. [[]] 리스트 안의 리스트
    - 설명: 리스트 안에 또 다른 리스트가 있는 구조, 일상 비유: 큰 상자 안에 작은 상자들이 여러 개 들어 있는 경우,
    - ex> matrix = [[1, 2], [3, 4]] # 2차원 리스트, print(matrix[0][1]) # 첫번째 리스트의 두 번째 값: 2

5. ({}) 튜플 안의 딕셔너리
    - 설명: 튜플의 항목으로 딕셔너리가 들어가는 경우, 일상 비유 : 묶음 안에 사전이 들어 있는 경우
    - ex> data = ({"이름": "철수"}, {"이름": "영희"})   # 튜플 안의 딕셔너리, print(data[0]["이름"])    # 첫 번째 사람 이름: 철수

6. {[]} 딕셔너리 안의 리스트
    - 설명: 딕셔너리의 값이 리스트인 구조, 일상 비유 : 단어의 뜻(값)이 여러 가지인 사전
    - ex> categories = {"과일": ["사과", "바나나", "딸기"]} # 과일 분류, print(categories["과일"][1])   # 두 번째 과일: 바나나

7. [{}] 리스트 안의 딕셔너리
    - 설명: 리스트의 각 항목이 딕셔너리인 구조, 일상 비유 : 여러 사라의 정보를 저장한 상자
    - ex> people = [{"이름": "철수", "나이": 25}, {"이름": "영희", "나이": 30}]

8. [{[]}] 리스트 안의 딕셔너리 안의 리스트
    - 설명: 리스트 안의 딕셔너리에 또 다른 리스트가 들어가는 구조, 일상 비유 : 상자 안의 사전 안에 또 다른 목록이 들어 있는 경우
    - ex> data = [{"과일": ["사과", "바나나"], "채소": ["당근", "오이"]}]   # 복잡한 데이터 구조, print(data[0]["과일"][0]) # 첫 번째 과일: 사과
    - 조합의 시각적 이해
    - # 복잡한 데이터 구조
    - [ => 리스트 시작
        - { => 딕셔너리 시작
            - "과일": [ => 딕셔너리 안의 리스트 시작
                - "사과", "바나나"
            - ] => 딕셔너리 안의 리스트 끝
        - } => 딕샤너리 끝
    - ] => 리스트 끝

    - [{"과일": ["사과", "바나나"]}]

- 괄호를 단계적으로 해석: 괄호가 중첩될수록 바깥쪽에서 부터 해석
- ex> data[0]["과일"][1] =>
    - data[0]: 리스트의 첫 번째 항목인 딕셔너리
    - ["과일"] : 딕셔너리에서 "과일" 키의 값인 리스트
    - [1] : "과일" 키의 값인 리스트에서 두 번째 항목
- 일상적인 비유 활용: 리스트는 상자, 딕셔너리는 사전, 튜플은 고정된 데이터 묶음

- 피벗테이블 조작
    - 피벗테이블(Pivot Table)은 데이터를 특정 기준에 따라 요약하거나 변환하는 데 사용하는 강력한 도구
    - Pandas 라이브러리에서 제공하는 피벗테이블 기능은 Excel의 피벗 테이블과 유사, 데이터를 행(row), 열(column), 값(value)으로 구성하여 다양한 방식으로 요약

    - 피벗테이블의 주요 활용 사례
        - 데이터 요약: 데이터를 특정 기준으로 그룹화하여 합계, 평균, 최대값 등을 계산
            - ex> 성별에 따른 평균 최대심박수
        - 데이터 비교: 두 개 이상의 기준에 따른 데이터를 비교
            - ex> 성별과 흉통유형에 따른 평균 콜레스테롤
        - 데이터 시각화 전처리: 요약된 데이터를 기반으로 차트나 그래프를 생성

In [37]:
# Heart Dataset으로 그룹화

# 데이터 준비

import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 변경
df.columns = ["나이", "성별", "흉통유형", "안정시혈압", "콜레스테롤", "공복혈당", "심전도", 
              "최대심박수", "운동유발협심증", "ST우울증", "운동후ST경사", "주요혈관수", 
              "결함유형", "심장질환여부"]

- pd.read_csv(file_path): Heart Dataset CSV 파일을 읽어옴, 이 파일에는 심장 질환 관련 데이터가 포함
- 컬럼명 변경: 데이터를 분석하기 쉽도록 컬럼명을 한글로 변경, 기존 컬럼명(age, sex)이 한글 컬럼명(나이, 성별)으로 변경

In [38]:
# 기본 피벗테이블 생성

# 피벗테이블 생성
pivot  = df.pivot_table(index="성별", columns="흉통유형", values="최대심박수", aggfunc="mean")

# 결과 출력
print("성별과 흉통유형별 평균 최대 심박수: ")
pivot

성별과 흉통유형별 평균 최대 심박수: 


흉통유형,0,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,145.282051,162.833333,151.8,149.5
1,138.759615,162.1875,158.173077,157.315789


- df.pivot_table(): 데이터프레임에서 피벗 테이블을 생성하는 메서드
- 파라미타 설명:
    - index = "성별": "성별"을 각 행 인덱스로 설정, 각 행은 성별(0: 여성, 1: 남성)을 나타냄
    - columns="흉통유형": "흉통유형"을 열로 설정, 각 열은 흉통 유형(1 ~ 4)을 나타냄
    - values="최대심박수": "최대심박수" 값을 피벗테이블에서 요약할 데이터로 사용
    - aggfunc="mean": "최대심박수"의 평균값을 계산

- 결과 해석
    - "성별" 0(여성)과 1(남성)을 기준으로 "흉통유형"별 평균 "최대심박수"를 계산한 결과
    - ex> 여성(0), 흉통유형 1 => 평균 최대심박수: 150.4
    - ex> 남성(1), 흉통유형 2 => 평균 최대심박수: 165.8

In [39]:
# 여러 집계 함수 적용

# 피벗테이블 생성
pivot = df.pivot_table(index="성별", columns="흉통유형", values="최대심박수", aggfunc=["mean", "max"])

# 결과 출력
print("성별과 흉통유형별 최대심박수 평균 및 최대값: ")
pivot

성별과 흉통유형별 최대심박수 평균 및 최대값: 


Unnamed: 0_level_0,mean,mean,mean,mean,max,max,max,max
흉통유형,0,1,2,3,0,1,2,3
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
0,145.282051,162.833333,151.8,149.5,182,192,179,171
1,138.759615,162.1875,158.173077,157.315789,186,202,194,190


- aggfunc["mean", "max"]: 평균(mean)과 최대값(max)을 동시에 계산, 결과는 다중 계층 컬럼 구조로 나타남
- 결과 해석: 다우 계층 컬럼이 생성, 첫 번째 계층은 집계함수(mean, max), 두 번째 계층은 "흉통유형", 
- 평균(mean)과 최대값(max)이 나란히 표시
    - ex> 여성(0), 흉통유형 1 => 평균 최대심박수: 150.4, 최대값: 170.0
    - ex> 남성(1), 흉통유형 3 => 평균 최대심박수: 147.9, 최대값: 155.0

In [40]:
# 다중 인덱스 피벗테이블

# 다중 인덱스 피벗테이블 생성
pivot_multi_index = df.pivot_table(index=["성별", "흉통유형"], values="최대심박수", aggfunc="mean")

# 결과 출력
print("\n성별과 흉통유형을 인덱스로 한 피벗테이블: ")
print(pivot_multi_index)


성별과 흉통유형을 인덱스로 한 피벗테이블: 
              최대심박수
성별 흉통유형            
0  0     145.282051
   1     162.833333
   2     151.800000
   3     149.500000
1  0     138.759615
   1     162.187500
   2     158.173077
   3     157.315789


- index=["성별", "흉통유형"]: "성별"과 "흉통유형"을 다중 인덱스로 설정, 첫 번째 인덱스는 "성별", 두 번째 인덱스는 "흉통유형"
- 결과 해석: 다중 인덱스 구조로 성별과 흉통유형별 평균 최대심박수가 표시, 성별과 흉통유형 조합마다 평균 최대심박수를 계산
- ex> 여성(0), 흉통유형 1 => 평균 최대심박수: 150.4
- ex> 남성(1), 흉통유형 3 => 평균 최대심박수: 147.9

- 피벗 테이블 생성과 주요 옵션 정리

| 옵션 | 설명 | 예시 |
|--|--|--|
| index | 행 인덱스로 설정할 열 | index="성별" |
| columns | 열로 설정할 데이터 | columns="흉통유형" |
| values | 요약할 테이터 | values="최대심박수" |
| aggfunc | 집계 함수 지정 | aggfunc="mean" |
| fill_value | 결측값을 대체할 값 | fill_value=0 |

In [41]:
# 피벗테이블 결측값 처리를 위한 예제

import pandas as pd

# 데이터 생성
data = {
    "성별": ["남성", "여성", "남성", "여성"],
    "흉통유형": [1, 2, 3, 1],
    "최대심박수": [150, 160, 155, 145]
}

df = pd.DataFrame(data)

# 피벗테이블 생성
pivot = df.pivot_table(index="성별", columns="흉통유형", values="최대심박수", aggfunc="mean")

# 결과 출력
print("피벗테이블 (결측치 포함): ")
pivot

피벗테이블 (결측치 포함): 


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,,155.0
여성,145.0,160.0,


- 결측값(NaN)의 의미
    - "남성, 흉통유형 2"의 값이 NaN, 원본 데이터에 "남성"과 "흉통유형 2" 조합에 해당하는 "최대심박수" 값이 없기 때문에 NaN으로 표시
    - "여성, 흉통유형 3"의 값이 NaN, 원본 데이터에 "여성"과 "흉통유형 3" 조합에 해당하는 "최대심박수" 값이 없기 때문에 NaN으로 표시

- 피벗테이블에서 결측값 처리
    - 피벗테이블의 결측값(NaN)을 처리하기 위해 다양한 방법 사용 가능

In [42]:
# 특정값으로 대체
# 결측값을 0으로 대체
pivot_filled = df.pivot_table(index="성별", columns="흉통유형", values="최대심박수", aggfunc= "mean", fill_value=0)

# 결과 출력
print("\n결측값을 0으로 대체한 피벗테이블")
pivot_filled


결측값을 0으로 대체한 피벗테이블


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,0.0,155.0
여성,145.0,160.0,0.0


- fill_value=0: 결측값(NaN)을 0으로 대체, 값이 없는 조합에 대해 0으로 표시
- 결과 해석: "남성, 흉통유형 2"와 "여성, 흉통유형 3"의 결측값이 0으로 대체

In [43]:
# 평균값으로 대체
# 피벗테이블 생성 후 열 기준 평균값으로 대체
pivot_mean_filled = pivot.apply(lambda x: x.fillna(x.mean()), axis=0)

# 결과 출력
print("\n열 기준 평균값으로 대체한 피벗테이블: ")
pivot_mean_filled


열 기준 평균값으로 대체한 피벗테이블: 


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,160.0,155.0
여성,145.0,160.0,155.0


- apply(lambda x: x.fillna(x.mean()), axis=0): 각 열의 평균값을 계산하여 결측값을 채움, 흉통유형 2의 평균값(160.0), 흉통유형 3의 평균값(155.0)으로 결측값이 대체
- 결과 해석: "남성, 흉통유형 2"와 "여성, 흉통유형 3"의 결측값이 해당 열의 평균값으로 대체

In [44]:
# 특정값으로 설정
# 피벗테이블 생성 후 결측값을 999으로 대체
pivot_specitic_value = pivot.fillna(999)

# 결과 출력
print("\n결측값을 특정 값(999)으로 대체한 피벗테이블: ")
pivot_specitic_value


결측값을 특정 값(999)으로 대체한 피벗테이블: 


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,999.0,155.0
여성,145.0,160.0,999.0


- fillna(999): 결측값(NaN)을 999로 대체, "남성, 흉통유형 2"와 "여성, 흉통유형 3"이 999로 표시
- 결과 해석: 특정 값으로 결측값을 대체할 때 사용

- 요약: 피벗테이블에서 결측값 처리 방법

| 처리 방법 | 코드 | 설명 |
|--|--|--|
| 특정 값으로 대체 | fill_value=0 | 결측값을 0으로 대체 |
| 열 기준 평균값으로 대체 | apply(lambda x: x.fillna(x.mean), axis=0) | 각 열의 평균값으로 대체 |
| 행 기분 평균값으로 대체 | apply(lambda x: x.fillna(x.mean), axis=1) | 각 행의 평균값으로 대체 |
| 특정 값으로 대체 (fillna) | fillna(999) | 결측값을 999 등 임의 값으로 대체 |

- 인덱스와 컬럼 계층 변경
    - 인덱스와 컬럼에 대해서 설명하기 위해 dataset폴더의 heart.csv 예제 활용
    - 인덱스 계층(MultiIndex)
        - 인덱스 계층은 여러 개의 인덱스 레벨을 사용 해 데이터를 계측적으로 관리하는 방식, 예를 들어, "성별"과 "흉통유형"을 두 개의 인덱스로 사용하면, 데이터를 성별과 흉통유형별로 계층적으로 정리
    - 컬럼 계층(MultiColumn)
        - 컬럼 계층은 여러 개의 컬럼 레벨을 사용해 데이터를 다차원적으로 표현하는 방식, 예를 들어, "최대심박수"와 "콜레스테롤"을 열로 두고, 그 위에 "평균"과 "최대값" 레벨을 추가하면 데이터를 다차원적으로 정리

In [45]:
import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 변경
df.columns = ["나이", "성별", "흉통유형", "안정시혈압", "콜레스테롤", "공복혈당", "심전도", 
              "최대심박수", "운동유발협심증", "ST우울증", "운동후ST경사", "주요혈관수", 
              "결함유형", "심장질환여부"]

# 데이터 확인
print("데이터프레임 상위 5개 행: ")
print(df.head())

데이터프레임 상위 5개 행: 
   나이  성별  흉통유형  안정시혈압  콜레스테롤  공복혈당  심전도  최대심박수  운동유발협심증  ST우울증  운동후ST경사  \
0  63   1     3    145    233     1    0    150        0    2.3        0   
1  37   1     2    130    250     0    1    187        0    3.5        0   
2  41   0     1    130    204     0    0    172        0    1.4        2   
3  56   1     1    120    236     0    1    178        0    0.8        2   
4  57   0     0    120    354     0    1    163        1    0.6        2   

   주요혈관수  결함유형  심장질환여부  
0      0     1       1  
1      0     2       1  
2      0     2       1  
3      0     2       1  
4      0     2       1  


- import pandas as pd
    - Pandas 라이브러리를 로드, Pandas는 데이터를 표 형태로 다룰 수 있는 강력한 도구
- pd.read_csv(file_path)
    - Heart Dataset CSV 파일을 읽어 데이터프레임으로 변환
- 컬럼명 변경
    - 데이터를 분석하기 쉽게 컬럼명을 한글로 변경
- df.head()
    - 데이터프레임의 상위 5개 행을 출력하여 데이터 구조를 확인

In [46]:
# 그룹화 후 다중 인덱스 생성
# 성별롸 흉통유형을 기준으로 그룹화하여 평균 계산
grouped = df.groupby(["성별", "흉통유형"]).mean()

# 그룹화된 데이터 확인
print("\n성별과 흉통유형 기준 다중 인덱스: ")
grouped


성별과 흉통유형 기준 다중 인덱스: 


Unnamed: 0_level_0,Unnamed: 1_level_0,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
성별,흉통유형,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


- groupby(["성별", "흉통유형"])
    - "성별"과 "흉통유형"을 기준으로 데이터를 그룹화, 그룹화된 데이터는 다중 인덱스(MultiIndex)를 가지며, "성별"이 첫 번째 레벨, "흉통유형"이 두 번째 레벨로 설정
- .mean()
    - 각 그룹에서 나머지 열(ex> "최대심박수", "콜레스테롤")의 평균값을 계산
- 결과 해석
    - "성별"과 "흉통유형" 조합별로 평균값이 정리된 다중 인덱스 데이터프레임이 생성
        - ex> "남성"과 "흉통유형 1"의 평균 나이, 최대심박수, 콜레스테롤 값 등이 표시

In [47]:
# 다중 인덱스 초기화
grouped_reset = grouped.reset_index()

print("\n다중 인덱스 초기화: ")
grouped_reset


다중 인덱스 초기화: 


Unnamed: 0,성별,흉통유형,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
0,0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
1,0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
2,0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
3,0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
4,1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
5,1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
6,1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
7,1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


- reset_index()
    - 다중 인덱스를 초기화하여 기본 인덱스로 변환, 기존의 다중 인덱스 값은 데이터프레임의 열로 이동
- 결과 해석
    - "성별"과 "흉통유형"이 열로 이동하여 일반 데이터프레임으로 변화, 다중 인덱스가 필요하지 않은 상황에서 데이터를 간소화할 대 유용

In [48]:
# 다중 컬럼 피벗테이블 생성
pivot = df.pivot_table(index="성별", columns=["흉통유형", "운동후ST경사"], values="최대심박수", aggfunc="mean")

print("\n다중 컬럼 피벗테이블")
pivot


다중 컬럼 피벗테이블


흉통유형,0,0,0,1,1,1,2,2,2,3,3,3
운동후ST경사,0,1,2,0,1,2,0,1,2,0,1,2
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,146.0,139.0,161.4,,160.5,164.0,160.0,149.153846,153.047619,114.0,,161.333333
1,126.75,128.431034,157.052632,168.5,139.833333,167.25,171.25,147.25,164.107143,147.5,159.272727,157.0


- pivot_table() 메서드
    - 피벗테이블을 생성
    - 파라미터 설명:
        - index="성별": "성별"을 행 인덱스로 설정
        - columns=["흉통유형", "운동후ST경사"]: "흉통유형"과 "운동후ST경사"를 다중 컬럼으로 설정
        - values="최대심박수": 피벗테이블에 표시할 값으로 "최대심박수"를 선택
        - aggfunc="mean": 각 조합으 평균값을 계산
- 결과 해석: 각 "성별"에 대해 "흉통유형"과 "운동후ST경사" 조합별 최대심박수가 다중 컬렁므로 표시

In [49]:
# 컬럼 계층 초기화
pivot_reset = pivot.reset_index()
pivot_reset.columns = ["_".join(map(str, col)).strip() for col in pivot_reset.columns]

print("\n컬럼 계층 초기화: ")
pivot_reset


컬럼 계층 초기화: 


Unnamed: 0,성별_,0_0,0_1,0_2,1_0,1_1,1_2,2_0,2_1,2_2,3_0,3_1,3_2
0,0,146.0,139.0,161.4,,160.5,164.0,160.0,149.153846,153.047619,114.0,,161.333333
1,1,126.75,128.431034,157.052632,168.5,139.833333,167.25,171.25,147.25,164.107143,147.5,159.272727,157.0


- reset_index(): 피벗테이블의 인덱스를 기본 인덱스로 초기화
- ["_".join(map(str, col)) for col in pivot_reset.columns]: for col in pivot_reset.columns
    - 데이터프레임의 모든 컬럼을 하나씩 가져온
    - ex> 
    - pivot_reset.columns = [("흉통유형", 0), ("흉통유형", 1), ("흉통유형", 2)]
        - 반복문에서 col은 각각 ("흉통유형", 0), ("흉통유형", 1) 등이 됨
- map(str, col)
    - map 함수는 각 항목에 특정 함수를 적용, 여기서 str 함수는 col의 각 항목(ex> "흉통유형", 0)을 문자열로 반환
    - 작동 예시:
        - 입력: col = ("흉통유형", 0), 처리: map(str, col) -> ["흉통유형", "0"]
- join(map(str, col)): join 함수는 리스트 또는 이터러블의 요소를 특정 문자열(여기서는 "_")로 연결
    - 작동 예시
        - 입력: map(str, col) -> ["흉통유형", "0"], 처리: "_".join(...) -> "흉통유형_0"
- .strip(): 문자열의 앞뒤에 불필요한 공백을 제거, 이 경우 컬럼 이름에 공백이 없다면 큰 효과가 없음
- pivot_reset.columns: 새로 만들어진 데이터프레임 pivot_reset의 컬럼 이름을 설정
- 결과 해석: 다중 컬럼이 단일 컬럼으로 변환된 데이터프레임이 출력

In [50]:
# 컬럼 계층 전환
# 다중 컬럼을 다중 인덱스로 전환
pivot_stack = pivot.stack()

print("\n다중 컬럼을 다중 인덱스로 전환: ")
pivot_stack


다중 컬럼을 다중 인덱스로 전환: 


  pivot_stack = pivot.stack()


Unnamed: 0_level_0,흉통유형,0,1,2,3
성별,운동후ST경사,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0,146.0,,160.0,114.0
0,1,139.0,160.5,149.153846,
0,2,161.4,164.0,153.047619,161.333333
1,0,126.75,168.5,171.25,147.5
1,1,128.431034,139.833333,147.25,159.272727
1,2,157.052632,167.25,164.107143,157.0


- stack(): 다중 컬럼을 다중 인덱스로 전환, 데이터의 열을 행 기반으로 변환하여 다중 인덱스 구조를 생성
- 결과 해석: 피벗테이블의 각 조합이 계층적으로 정리된 다중 인덱스로 나타남

- 인덱스 및 컬럼 계층 관련 함수 요약

| 작업 | 메서드 | 설명 |
|--|--|--|
| 다중 인덱스 생성 | groupby(["열1", "열2"]) | 여러 열을 기준으로 데이터를 그룹화하여 계층적으로 인덱스 생성 |
| 인덱스 초기화 | reset_index() | 다중 인덱스를 기본 인덱스로 변환 |
| 다중 컬럼 생성 | pivot_table(columns=[...]) | 여러 열을 기반으로 다중 컬럼 생성 |
| 컬럼 초기화 | reset_index() + rename | 다중 컬럼을 단일 컬럼으로 변환 |
| 컬럼 전환 | stack() | 다중 컬럼을 다중 인덱스로 전환 |

- 데이터 병합과 추가
    - 데이터 분석에서는 여러 데이터셋을 결합하거나 추가하여 통합된 데이터를 구성하는 일이 필수적

- 데이터 병합(Join)
    - 병합(Join)은 두 데이터프레임을 공통 열을 기준으로 가로 방향으로 결합, 병합 방식에는 SQL 의 JOIN 연산처럼 내부 조인, 외부 조인 왼쪽 조인, 오른쪽 조인이 있음

In [51]:
# 데이터 병합 실습하기
import pandas as pd

# 첫 번째 데이터 프레임 생성
data1 = {
    "제품ID": [1, 2, 3],
    "제품명": ["노트북", "모니터", "키보드"]
}

df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {
    "제품ID": [1, 2, 4],
    "가격": [1000, 200, 50]
}

df2 = pd.DataFrame(data2)

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("두 번째 데이터프레임: ")
print(df2)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드
두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50


- import pandas as pd
    - Pandas 라이브러리를 불러옴, Pandas는 데이터프레임을 사용하여 데이터를 효율적으로 처리할 수 있도록 도와줌
- data1 및 data2 생성
    - 딕셔너리를 사용해 두 데이터프레임의 데이터를 생성, data1에는 제품ID와 제품며이 포함, data2에는 제품ID와 가격이 포함
- pd.DataFrame()
    - 딕셔너리를 데이터프레임으로 변환
- 데이타 확인
    - print()를 사용해 각 데이터프레임의 내용을 확인

- 내부 조인(Inner Join)
    - 설명
        - 내부 조인은 두 데이터프레임에서 공통된 키 값을 기준으로 결합, 일치하지 않는 키 값이 포함된 행은 결과에서 제외, SQL의 INNER JOIN과 동일한 동작을 수행
    - 특징
        - 결과는 교집합을 기반으로 생성, 일치하는 데이터만 포함되기 때문에 결측값(NaN)이 없음

In [52]:
# 내부 조인
inner_join = pd.merge(df1, df2, on="제품ID", how="inner")

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n내부 조인 결과: ")
print(inner_join)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50

내부 조인 결과: 
   제품ID  제품명    가격
0     1  노트북  1000
1     2  모니터   200


- pd.merge()
    - 두 데이터프레임을 병합
- on="제품ID"
    - "제품ID"를 기준으로 병합, 두 데이터프레임에서 "제품ID"가 일치하는 행만 결합
- how="inner"
    - 내부 조인을 수행, 공통된 키 값(제품ID)이 있는 행만 결과에 포함
- 결과 해석
    - "제품ID"가 1과 2인 행만 병합

- 외부 조인(Outer Join)
    - 설명
        - 외부 조인은 두 데이터프레임의 모든 행을 포함, 공통 키가 없는 경우 결측값(NaN)으로 채움, SQL의 FULL OUTER JOINㅇ과 동일
    - 특징
        - 결과는 합집합을 기반으로 생성, 누락된 값은 결측값(NaN)으로 표시

In [53]:
# 외부 조인
outer_join = pd.merge(df1, df2, on="제품ID", how="outer")

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n외부 조인 결과: ")
print(outer_join)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50

외부 조인 결과: 
   제품ID  제품명      가격
0     1  노트북  1000.0
1     2  모니터   200.0
2     3  키보드     NaN
3     4  NaN    50.0


- how="outer"
    - 외부 조인을 수행, 두 데이터프레임의 모든 행을 포함, 공통 키 값이 없는 경우, 해당 열에는 결측값(NaN)이 추가
- 결과 해석
    - 모든 "제품ID"가 포함, "제품ID"가 3인 경우 가격이 없으므로 결측값(NaN)으로 표시, "제품ID"가 4인 경우 제품명이 없으므로 결측값(NaN)으로 표시

- 왼쪽 조인(left Join)
    - 설명
        - 왼쪽 조인은 첫 번째 데이터프레임의 모든 행을 포함하며, 두 번재 데이터프레임에 해당 키가 앖으면 결측값(NaN)이 추가, SQL의 LEFT OUTER JOIN과 동일
    - 특징
        - 첫 번째 데이터프레임의 모든 데이터를 유지, 결과는 첫 번째 데이터프레임을 기준으로 생성

In [54]:
# 왼쪽 조인
left_join = pd.merge(df1, df2, on="제품ID", how="left")

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n왼쪽 조인 결과: ")
print(left_join)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50

왼쪽 조인 결과: 
   제품ID  제품명      가격
0     1  노트북  1000.0
1     2  모니터   200.0
2     3  키보드     NaN


- how="left"
    - 왼쪽 조인을 수행, 첫 번째 데이터프레임(df1)의 모든 행을 포함, 두 번째 데이터프레임에 해당 키 값이 없는 경우, 결측값(NaN)이 추가
- 결과 해석
    - "제품ID" 1, 2, 3이 포함, "제품ID"가 3인 경우 두 번째 데이터프레임에 해당 키 값이 없으므로 결측값(NaN)으로 표시

- 오른쪽 조인(Right Join)
    - 설명
        - 오른쪽 조인은 두 번째 데이터프레임의 모든 행을 포함하며, 첫 번째 데이터프레임에 해당 키가 없으면 결측값(NaN)이 추가, SQL의 RIGHT OUTER JOIN과 동일
    - 특징
        - 두 번째 데이터프레임의 모든 데이터를 유지, 결과는 두 번째 데이터프레임을 기준으로 생성

In [55]:
# 오른쪽 조인
right_join = pd.merge(df1, df2, on="제품ID", how="right")

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n오른쪽 조인 결과: ")
print(right_join)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50

오른쪽 조인 결과: 
   제품ID  제품명    가격
0     1  노트북  1000
1     2  모니터   200
2     4  NaN    50


- how="right"
    - 오른쪽 조인을 수행, 두 번째 데이터프레임의 모든 행이 포함, "제품ID" 4는 첫 번째 데이터프레임에 없으므로 제품명은 NaN으로 표시

- 교차조인(Cross Join)
    - 설명
        - 교차 조인은 두 데이터프레임의 모든 행 조합을 생성, SQL의 CROSS JOIN과 동일
    - 특징
        - 결과는 두 데이터프레임의 Cartesian Product로 생성, 행의 개수가 급격히 증가할 수 있음

In [56]:
# 교차 조인
corss_join = pd.merge(df1, df2, how="cross")

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n교차 조인 결과: ")
print(corss_join)

첫 번째 데이터프레임: 
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임: 
   제품ID    가격
0     1  1000
1     2   200
2     4    50

교차 조인 결과: 
   제품ID_x  제품명  제품ID_y    가격
0       1  노트북       1  1000
1       1  노트북       2   200
2       1  노트북       4    50
3       2  모니터       1  1000
4       2  모니터       2   200
5       2  모니터       4    50
6       3  키보드       1  1000
7       3  키보드       2   200
8       3  키보드       4    50


- how="cross"
    - 첫 번째 데이터프레임과 두 번째 데이터프레임의 모든 행이 조합, 행의 개수 = 첫 번째 데이터프레임의 행 개수 x 두 번째 데이터프레임의 행 개수

- 조인방식 요약

| 조인 유형 | 설명 | 결과 |
|--|--|--|
| 내부 조인 | 공통 키 값이 있는 행만 포함 | 교집합 |
| 외부 조인 | 두 데이터프레임의 모든 행 포함 | 합집합 |
| 왼쪽 조인 | 첫 번째 데이터프레임의 모든 행 포함 | 첫 번재 데이터프레임 기준 |
| 오른쪽 조인 | 두 번째 데이터프레임의 모든 행 포함 | 두 번재 데이터프레임 기준 |
| 교차 조인 | 두 데이터프레임의 모든 행 조합 | Cartesian Product |

- 데이터 추가(Union)
    - Union은 두 데이터프레임을 세로 방향으로 결합하여 데이터를 확장하는 작업, 이를 통해 행(row)을 추가하고, 더 큰 데이터셋을 구성

In [57]:
# 데이터 준비
# 첫 번째 데이터프레임 생성
data1 = {
    "이름": ["홍길동", "이순신"],
    "나이": [30, 40]
}

df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {
    "이름": ["강감찬", "유관순"],
    "나이": [50, 20]
}

df2 = pd.DataFrame(data2)

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)

첫 번째 데이터프레임: 
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임: 
    이름  나이
0  강감찬  50
1  유관순  20


- 첫 번째 데이터프레임(df1)
    - data1은 이름과 나이를 포함하는 딕셔너리, pd.DataFrame(data1)을 사용하여 데이터를 데이터프레임 형식으로 변환, 이 데이터프레임에는 "홍길동"과 "이순신"의 이름과 나이가 포함
- 두 번째 데이터프레임(df2)
    - data2는 이름과 나이를 포함하는 두 번째 딕셔너리, pd.DataFrame(data2)을 사용하여 데이터를 데이터프레임 형식으로 변환, 이 데이터 프레임에는 "강감찬"과 "유관순"의 이름과 나이가 포함

In [58]:
# 데이터프레임 세로로 결합
union_df = pd.concat([df1, df2], ignore_index=True)

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n유니온 결과: ")
print(union_df)

첫 번째 데이터프레임: 
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임: 
    이름  나이
0  강감찬  50
1  유관순  20

유니온 결과: 
    이름  나이
0  홍길동  30
1  이순신  40
2  강감찬  50
3  유관순  20


- pd.concat()
    - Pandas의 concat() 함수는 두 개 이상의 데이터프렝미을 세로 방향으로 결합, concat()은 기본적으로 행(row)을 추가하는 방식으로 작동
- [df1, df2]
    - concat() 함수에 리스트 형태로 데이터프레임을 전달, 여기서는 df1, df2를 결합, 두 데이터프레임의 열 이름과 데이터타입이 동일해야 결합이 가능
- ignore_index=True
    - 결합 후 인덱스를 재설정, 결합된 데이터프레임에서 인덱스는 0부터 시작하는 새로운 값으로 설정

In [59]:
# 데이터프레임 결합(Union): ignore_index = False

# 인덱스를 유지하면서 데이터 결합
union_with_index = pd.concat([df1, df2], ignore_index=False)

# 데이터프레임 출력
print("첫 번째 데이터프레임: ")
print(df1)
print("\n두 번째 데이터프레임: ")
print(df2)
print("\n인덱스를 유지한 유니온 결과: ")
print(union_with_index)

첫 번째 데이터프레임: 
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임: 
    이름  나이
0  강감찬  50
1  유관순  20

인덱스를 유지한 유니온 결과: 
    이름  나이
0  홍길동  30
1  이순신  40
0  강감찬  50
1  유관순  20


- ignore_index=False
    - 결합된 데이터프레임은 기존의 인덱스를 유지, 첫 번째 데이터프레임(df1)의 인덱스는 0, 1로 유지, 두 번째 데이터프레임(df2)의 인덱스는 0, 1로 중복
- 결과 데이터프레임
    - 결합 후 인덱스가 중복될 수 있으므로, 이후 데이터 처리 시 주의가 필요

In [60]:
# 데이터프레임 열이 다른 경우 결합 (Union)
# 열이 다른 데이터프레임 생성
data3 = {
    "이름": ["정약용", "김유신"],
    "주소": ["서울", "경주"]
}

df3 = pd.DataFrame(data3)

# 데이터프레임 결합
union_with_different_columns = pd.concat([df1, df3], ignore_index=True)

print("\n열이 다른 데이터프레임 결합 결과: ")
print(union_with_different_columns)


열이 다른 데이터프레임 결합 결과: 
    이름    나이   주소
0  홍길동  30.0  NaN
1  이순신  40.0  NaN
2  정약용   NaN   서울
3  김유신   NaN   경주


- 열이 다른 데이터프레임 결합
    - df3에는 "이름"과 "주소" 열이 포함, "주소" 열은 df1 에 없고, "나이" 열은 df3에 없습니다.
- 결과 처리
    - Pandas는 공통된 열만 결합하고, 나머지 열에는 결측값(NaN)을 추가

- 데이터 결합(Union)의 주요 활용 방법
    - 동일한 데이터 구조의 결합, 동일한 구조를 가진 데이터프레임을 결합하여 데이터셋을 확장, ex> 두 달의 판매 데이터를 결합하여 전체 판매 데이터를 구성
    - 열이 다른 데이터 결합, 열이 다른 데이터프레임을 결합하여 결측값(NaN)을 추가, 결합 후 데이터 정리가 필요할 수 있음
    - 인덱스 관리
        - ignore_index=True, 새로운 인덱스를 생성하여 결합
        - ignore_index=False, 기존 인덱스를 유지하며 결합