# <B> 1.데이터 전처리

## 결측치 확인

### <B> isnull()의 기본 사용법

In [58]:
import pandas as pd 

# 예제 데이터프레임 생성 
data = {'Name': ['Alice', 'Bob', 'Charlie'], # 이름 
         'Age': [25, None, 30], # 나이 (Bob의 나이가 비어 있음)
         'Score': [90, 85, None]} # 점수 (Charlie's 점수가 비어 있음) 
df = pd.DataFrame(data) 

# 결측치 여부 확인 
print("결측치 여부 확인:")
print(df.isnull())

결측치 여부 확인:
    Name    Age  Score
0  False  False  False
1  False   True  False
2  False  False   True


### <B> isnull().sum()으로 결측치 개수 확인하기

In [61]:
# 컬럼별 결측치 개수 확인
print("컬럼별 결측치 개수:")
df.isnull().sum()

컬럼별 결측치 개수:


Name     0
Age      1
Score    1
dtype: int64

### <B> 결측치 처리

In [64]:
# 결측치가 있는 행 삭제
df_cleaned = df.dropna()
print("결측치 삭제 후 데이터:")
print(df_cleaned)

결측치 삭제 후 데이터:
    Name   Age  Score
0  Alice  25.0   90.0


In [66]:
# Age 열의 평균값으로 결측치 대체
mean_age = df['Age'].mean()  # 평균값 계산
df['Age'] = df['Age'].fillna(mean_age)
print("\nAge 열 평균값으로 결측치 대체:")
print(df)


Age 열 평균값으로 결측치 대체:
      Name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0    NaN


In [68]:
# Score 열의 결측치를 0으로 대체
df['Score'] = df['Score'].fillna(0)
print("\nScore 열 0으로 결측치 대체:")
print(df)


Score 열 0으로 결측치 대체:
      Name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0    0.0


In [70]:
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, None, 30],
        'Score': [90, 85, None]}
df = pd.DataFrame(data)

# 결측치 확인
print("결측치 확인:")
print(df.isnull().sum())

# 결측치 처리
# 1. Age 열의 결측치를 평균값으로 대체
mean_age = df['Age'].mean()
df['Age'] = df['Age'].fillna(mean_age)

# 2. Score 열의 결측치를 0으로 대체
df['Score'] = df['Score'].fillna(0)

print("\n결측치 처리 후 데이터:")
print(df)

결측치 확인:
Name     0
Age      1
Score    1
dtype: int64

결측치 처리 후 데이터:
      Name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0    0.0


## <b> 기본적인 이상치 확인 방법

In [73]:
import pandas as pd
# 예제 데이터프레임 생성
data = {'Height': [150, 160, 170, 180, 350]}  # 300은 이상치로 가정
df = pd.DataFrame(data)
# 데이터 출력
print("데이터:\n", df)
# 최대값과 최소값 확인
print("\nHeight의 최대값:", df['Height'].max())
print("Height의 최소값:", df['Height'].min())

데이터:
    Height
0     150
1     160
2     170
3     180
4     350

Height의 최대값: 350
Height의 최소값: 150


## <b> IQR(Interquartile Range) 방법

In [76]:
# IQR을 이용한 이상치 확인
Q1 = df['Height'].quantile(0.25)  # 1사분위 값
Q3 = df['Height'].quantile(0.75)  # 3사분위 값
IQR = Q3 - Q1  # IQR 계산
# 이상치 기준 계산
lower_bound = Q1 - 1.5 * IQR  # 하한
upper_bound = Q3 + 1.5 * IQR  # 상한
# 이상치 확인
outliers = df[(df['Height'] < lower_bound) | (df['Height'] > upper_bound)]
print("IQR 기준으로 찾은 이상치:\n", outliers)

IQR 기준으로 찾은 이상치:
    Height
4     350


## <b> Z-스코어를 활용한 이상치 확인

In [79]:
from scipy.stats import zscore

# Z-스코어 계산
df['Z_Score'] = zscore(df['Height'])  # Z-스코어 계산
print("\nZ-스코어:\n", df)

# Z-스코어 기준으로 이상치 탐지
outliers = df[df['Z_Score'].abs() > 3]
print("\nZ-스코어 기준으로 찾은 이상치:\n", outliers)


Z-스코어:
    Height   Z_Score
0     150 -0.696373
1     160 -0.562455
2     170 -0.428537
3     180 -0.294619
4     350  1.981985

Z-스코어 기준으로 찾은 이상치:
 Empty DataFrame
Columns: [Height, Z_Score]
Index: []


## <b> IQR기준 이상치 제거

In [82]:
# IQR 기준으로 이상치 제거
df_cleaned = df[(df['Height'] >= lower_bound) & (df['Height'] <= upper_bound)]
print("\n이상치 제거 후 데이터:\n", df_cleaned)


이상치 제거 후 데이터:
    Height   Z_Score
0     150 -0.696373
1     160 -0.562455
2     170 -0.428537
3     180 -0.294619


## <b> 이상치를 특정 값으로 대체

In [85]:
# 이상치를 중앙값으로 대체
median_value = df[(df['Height'] >= lower_bound) & (df['Height'] <= upper_bound)]['Height'].median()
df['Height'] = df['Height'].apply(lambda x: median_value if (x < lower_bound or x > upper_bound) else x)
print("이상치를 중앙값으로 대체한 데이터:\n", df)

이상치를 중앙값으로 대체한 데이터:
    Height   Z_Score
0   150.0 -0.696373
1   160.0 -0.562455
2   170.0 -0.428537
3   180.0 -0.294619
4   165.0  1.981985


## <b> 이상치 제거 전체코드

In [88]:
import pandas as pd
from scipy.stats import zscore

# 데이터 생성
data = {'Height': [150, 160, 170, 180, 350]}
df = pd.DataFrame(data)
# IQR 방법
Q1 = df['Height'].quantile(0.25)
Q3 = df['Height'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Z-스코어 계산
df['Z_Score'] = zscore(df['Height'])

# 이상치 제거
df_cleaned = df[(df['Height'] >= lower_bound) & (df['Height'] <= upper_bound)]

# 이상치를 중앙값으로 대체
median_value = df_cleaned['Height'].median()
df['Height'] = df['Height'].apply(lambda x: median_value if (x < lower_bound or x > upper_bound) else x)

print("최종 데이터:\n", df)

최종 데이터:
    Height   Z_Score
0   150.0 -0.696373
1   160.0 -0.562455
2   170.0 -0.428537
3   180.0 -0.294619
4   165.0  1.981985


### <B> 수치형 데이터 전처리

### <b> 예제 : 나이 데이터를 구간화하기

In [92]:
import pandas as pd

# 데이터 생성
data = {'Age': [15, 22, 35, 50, 72]}
df = pd.DataFrame(data)

# 나이를 구간화 (10대, 20대, 30대, ...)
bins = [0, 20, 40, 60, 80]  # 구간 경계 설정
labels = ['10대', '20대', '30대', '40대 이상']  # 각 구간의 이름
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels)

# 결과 출력
print(df)

   Age Age_Group
0   15       10대
1   22       20대
2   35       20대
3   50       30대
4   72    40대 이상


## <b> 구간화를 자동으로 수행하기

In [95]:
# 나이를 자동으로 3개의 구간으로 나누기
df['Age_Quantile'] = pd.qcut(df['Age'], q=3, labels=['하위', '중위', '상위'])
# 결과 출력
print(df)

   Age Age_Group Age_Quantile
0   15       10대           하위
1   22       20대           하위
2   35       20대           중위
3   50       30대           상위
4   72    40대 이상           상위


## <b> 예제: MinMaxScaler를 사용한 정규화

In [98]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# 데이터 생성
data = {'Height': [150, 160, 170, 180, 190]}
df = pd.DataFrame(data)

# MinMaxScaler 적용
scaler = MinMaxScaler()
df['Height_Normalized'] = scaler.fit_transform(df[['Height']])

# 결과 출력
print(df)

   Height  Height_Normalized
0     150               0.00
1     160               0.25
2     170               0.50
3     180               0.75
4     190               1.00


## <b> 예제: StandardScaler를 사용한 표준화

In [101]:
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 데이터 생성
data = {'Weight': [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# StandardScaler 적용
scaler = StandardScaler()
df['Weight_Standardized'] = scaler.fit_transform(df[['Weight']])

# 결과 출력
print(df)

   Weight  Weight_Standardized
0      50            -1.414214
1      60            -0.707107
2      70             0.000000
3      80             0.707107
4      90             1.414214


## <b>  스케일링 전체 코드

In [104]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 데이터 생성
data = {'Age': [15, 22, 35, 50, 72], 'Weight': [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# 구간화
bins = [0, 20, 40, 60, 80]
labels = ['10대', '20대', '30대', '40대 이상']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels)

# 정규화
minmax_scaler = MinMaxScaler()
df['Weight_Normalized'] = minmax_scaler.fit_transform(df[['Weight']])

# 표준화
std_scaler = StandardScaler()
df['Weight_Standardized'] = std_scaler.fit_transform(df[['Weight']])
print(df)

   Age  Weight Age_Group  Weight_Normalized  Weight_Standardized
0   15      50       10대               0.00            -1.414214
1   22      60       20대               0.25            -0.707107
2   35      70       20대               0.50             0.000000
3   50      80       30대               0.75             0.707107
4   72      90    40대 이상               1.00             1.414214


## <b> 예제코드 : 레이블 인코딩

In [107]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder  # 레이블 인코딩을 위한 라이브러리

# 데이터 생성
data = {'City': ['서울', '부산', '대구', '서울', '부산']}
df = pd.DataFrame(data)

# 레이블 인코딩
encoder = LabelEncoder()  # 레이블 인코더 생성
df['City_Encoded'] = encoder.fit_transform(df['City'])  # 범주형 데이터를 숫자로 변환
# 결과 출력
print(df)

  City  City_Encoded
0   서울             2
1   부산             1
2   대구             0
3   서울             2
4   부산             1


## <b> 예제코드 : 원핫 인코딩

In [110]:
import pandas as pd

# 데이터 생성
data = {'City': ['서울', '부산', '대구', '서울', '부산']}
df = pd.DataFrame(data)
# 원핫 인코딩
df_encoded = pd.get_dummies(df, columns=['City'])  # City 열을 원핫 인코딩

# 결과 출력
print(df_encoded)

   City_대구  City_부산  City_서울
0    False    False     True
1    False     True    False
2     True    False    False
3    False    False     True
4    False     True    False


## <b> 기존 데이터 삭제 : 특정 행(Row) 삭제


In [162]:
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'Score': [90, 85, 75, 60]}
df = pd.DataFrame(data)

# 특정 행 삭제 (예: 인덱스 2번 삭제)
df_dropped = df.drop(index=2)

print("특정 행 삭제 후 데이터:")
print(df_dropped)

특정 행 삭제 후 데이터:
    Name  Age  Score
0  Alice   25     90
1    Bob   30     85
3  David   40     60


## <b> 기존 데이터 삭제 : 특정 열(column) 삭제


In [165]:
# 특정 열 삭제 (예: 'Score' 열 삭제)
df_dropped = df.drop(columns=['Score'])

print("특정 열 삭제 후 데이터:")
print(df_dropped)

특정 열 삭제 후 데이터:
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40


## <b> 기존 데이터 삭제 : 결측치가 많은 행(Row) 삭제


In [121]:
# 결측치가 있는 데이터 생성
data_with_na = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
                'Age': [25, None, 35, 40],
                'Score': [90, 85, None, 60]}
df_with_na = pd.DataFrame(data_with_na)

# 결측치가 포함된 행 삭제
df_cleaned = df_with_na.dropna()
print("결측치가 포함된 행 삭제 후 데이터:")
print(df_cleaned)

결측치가 포함된 행 삭제 후 데이터:
    Name   Age  Score
0  Alice  25.0   90.0
3  David  40.0   60.0


## <b> 기존 데이터 삭제 : 중복 데이터 삭제



In [124]:
# 중복 데이터 생성
data_with_duplicates = {'Name': ['Alice', 'Bob', 'Alice', 'David'],
                        'Age': [25, 30, 25, 40],
                        'Score': [90, 85, 90, 60]}
df_with_duplicates = pd.DataFrame(data_with_duplicates)

# 중복된 행 삭제
df_unique = df_with_duplicates.drop_duplicates()

print("중복 데이터 삭제 후 데이터:")
print(df_unique)

중복 데이터 삭제 후 데이터:
    Name  Age  Score
0  Alice   25     90
1    Bob   30     85
3  David   40     60


## <b> 기존 데이터 삭제 : 실습 예제


In [167]:
import pandas as pd

# 데이터 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Age': [25, None, 35, 40, 29],
        'Score': [90, 85, 75, 60, 85]}
df = pd.DataFrame(data)

# 1. 특정 행 삭제 (예: 인덱스 1번 삭제)
df = df.drop(index=1)

# 2. 특정 열 삭제 (예: 'Score' 열 삭제)
df = df.drop(columns=['Score'])

# 3. 결측치가 포함된 행 삭제
df = df.dropna()
print("정제된 데이터:")
print(df)

정제된 데이터:
      Name   Age
0    Alice  25.0
2  Charlie  35.0
3    David  40.0
4      Eve  29.0


## <b> 컬럼명 변경

In [173]:
import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 출력
print("컬럼명 확인:")
print(df.columns)

컬럼명 확인:
Index(['age', 'sex', 'cp', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp', 'caa', 'thall', 'output'],
      dtype='object')


### 방법 1: rename() 메서드로 특정 컬럼명 변경

In [176]:
# 특정 컬럼명 변경
df.rename(columns={'age': '나이', 'sex': '성별', 'cp': '흉통유형'}, inplace=True)
# 변경 후 컬럼명 확인
print("변경된 컬럼명 (일부 변경):")
print(df.columns)

변경된 컬럼명 (일부 변경):
Index(['나이', '성별', '흉통유형', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp', 'caa', 'thall', 'output'],
      dtype='object')


### 방법 2: columns 속성으로 전체 컬럼명 변경

In [179]:
# 전체 컬럼명 변경
df.columns = ['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도',
              '최대심박수', '운동유발협심증', 'ST우울증', '운동후ST경사', '주요혈관수',
              '결함유형', '심장질환여부']
# 변경 후 컬럼명 확인
print("변경된 컬럼명 (전체 변경):")
print(df.columns)

변경된 컬럼명 (전체 변경):
Index(['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도', '최대심박수', '운동유발협심증',
       'ST우울증', '운동후ST경사', '주요혈관수', '결함유형', '심장질환여부'],
      dtype='object')


In [181]:
# 변경 후 데이터 확인
print("변경된 데이터 상위 5개 행:")
df.head()

변경된 데이터 상위 5개 행:


Unnamed: 0,나이,성별,흉통유형,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


## <b> 데이터정렬

In [108]:
import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 데이터 확인
print("원본 데이터:")
df.head()

원본 데이터:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


### 특정 열 기준으로 정렬하기

In [111]:
# 나이(age) 기준으로 오름차순 정렬
df_sorted_by_age = df.sort_values(by='age', ascending=True)

# 정렬된 데이터 확인
print("나이(age) 기준 오름차순 정렬:")
df_sorted_by_age.head()

나이(age) 기준 오름차순 정렬:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
72,29,1,1,130,204,0,0,202,0,0.0,2,0,2,1
58,34,1,3,118,182,0,0,174,0,0.0,2,0,2,1
125,34,0,1,118,210,0,1,192,0,0.7,2,0,2,1
239,35,1,0,126,282,0,0,156,1,0.0,2,0,3,0
65,35,0,0,138,183,0,1,182,0,1.4,2,0,2,1


### 여러 열 기준으로 정렬하기

In [114]:
# 나이(age)와 최대심박수(thalachh) 기준으로 정렬
df_sorted_by_multiple = df.sort_values(by=['age', 'thalachh'], ascending=[True, False])

# 정렬된 데이터 확인
print("나이(age)와 최대심박수(thalachh) 기준 정렬:")
df_sorted_by_multiple.head()

나이(age)와 최대심박수(thalachh) 기준 정렬:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
72,29,1,1,130,204,0,0,202,0,0.0,2,0,2,1
125,34,0,1,118,210,0,1,192,0,0.7,2,0,2,1
58,34,1,3,118,182,0,0,174,0,0.0,2,0,2,1
65,35,0,0,138,183,0,1,182,0,1.4,2,0,2,1
157,35,1,1,122,192,0,1,174,0,0.0,2,0,2,1


### 인덱스 기준으로 정렬하기

In [117]:
# 인덱스 기준으로 정렬
df_sorted_by_index = df.sort_index(ascending=False)

# 정렬된 데이터 확인
print("인덱스 기준 내림차순 정렬:")
df_sorted_by_index.head()

인덱스 기준 내림차순 정렬:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
302,57,0,1,130,236,0,0,174,0,0.0,1,1,2,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0


### 열 이름 기준으로 정렬하기

In [120]:
print("열 이름 기준 오름차순 정렬 전:")
df.head()

열 이름 기준 오름차순 정렬 전:


Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [124]:
# 열 이름 기준으로 오름차순 정렬
df_sorted_by_columns = df.sort_index(axis=1, ascending=True)

# 정렬된 데이터 확인
print("열 이름 기준 오름차순 정렬 후:")
df_sorted_by_columns.head()

열 이름 기준 오름차순 정렬 후:


Unnamed: 0,age,caa,chol,cp,exng,fbs,oldpeak,output,restecg,sex,slp,thalachh,thall,trtbps
0,63,0,233,3,0,1,2.3,1,0,1,0,150,1,145
1,37,0,250,2,0,0,3.5,1,1,1,0,187,2,130
2,41,0,204,1,0,0,1.4,1,0,0,2,172,2,130
3,56,0,236,1,0,0,0.8,1,1,1,2,178,2,120
4,57,0,354,0,1,0,0.6,1,1,0,2,163,2,120


## <b>데이터 구조 변경

### <b> Heart Data 불러오기 및 컬럼명 변경

In [128]:
import pandas as pd
# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)
# 컬럼명 변경
df.columns = ['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도',
              '최대심박수', '운동유발협심증', 'ST우울증', '운동후ST경사', '주요혈관수',
              '결함유형', '심장질환여부']
# 데이터 확인
print("변경된 데이터프레임 컬럼명:")
print(df.columns)
print("\n데이터 상위 5개 행:")
print(df.head())

변경된 데이터프레임 컬럼명:
Index(['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도', '최대심박수', '운동유발협심증',
       'ST우울증', '운동후ST경사', '주요혈관수', '결함유형', '심장질환여부'],
      dtype='object')

데이터 상위 5개 행:
   나이  성별  흉통유형  안정시혈압  콜레스테롤  공복혈당  심전도  최대심박수  운동유발협심증  ST우울증  운동후ST경사  \
0  63   1     3    145    233     1    0    150        0    2.3        0   
1  37   1     2    130    250     0    1    187        0    3.5        0   
2  41   0     1    130    204     0    0    172        0    1.4        2   
3  56   1     1    120    236     0    1    178        0    0.8        2   
4  57   0     0    120    354     0    1    163        1    0.6        2   

   주요혈관수  결함유형  심장질환여부  
0      0     1       1  
1      0     2       1  
2      0     2       1  
3      0     2       1  
4      0     2       1  


## <b> 성별기준 그룹화

In [132]:
# 성별을 기준으로 데이터 그룹화
grouped = df.groupby('성별')

# 그룹별 데이터 확인
print("그룹화된 데이터 (성별 기준):")
grouped.size()  # 각 그룹의 행 개수 출력

그룹화된 데이터 (성별 기준):


성별
0     96
1    207
dtype: int64

## <b> 성별기준 열의 평균 집계

In [145]:
# 성별별 평균 계산
grouped_mean = grouped.mean()

# 그룹화 후 평균값 출력
print("\n성별별 주요 열의 평균:")
print(grouped_mean)


성별별 주요 열의 평균:
           나이      흉통유형       안정시혈압       콜레스테롤     공복혈당       심전도  \
성별                                                                   
0   55.677083  1.041667  133.083333  261.302083  0.12500  0.572917   
1   53.758454  0.932367  130.946860  239.289855  0.15942  0.507246   

         최대심박수   운동유발협심증     ST우울증   운동후ST경사     주요혈관수      결함유형    심장질환여부  
성별                                                                          
0   151.125000  0.229167  0.876042  1.427083  0.552083  2.125000  0.750000  
1   148.961353  0.371981  1.115459  1.386473  0.811594  2.400966  0.449275  


## <b> 여러 집계 함수 적용하기

In [147]:
# 성별별 최대값과 최소값 계산
grouped_stats = grouped.agg({
    '나이': ['max', 'min'],  # 나이의 최대값과 최소값
    '콜레스테롤': ['mean', 'std']  # 콜레스테롤의 평균과 표준편차
})
# 결과 출력
print("\n성별별 나이와 콜레스테롤 통계:")
grouped_stats


성별별 나이와 콜레스테롤 통계:


Unnamed: 0_level_0,나이,나이,콜레스테롤,콜레스테롤
Unnamed: 0_level_1,max,min,mean,std
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,76,34,261.302083,65.088946
1,77,29,239.289855,42.782392


## <b> 여러 집계 함수 적용하기

In [149]:
# 성별과 흉통유형을 기준으로 그룹화
grouped_multi = df.groupby(['성별', '흉통유형']).mean()
# 결과 출력
print("\n성별과 흉통유형별 주요 열의 평균:")
grouped_multi


성별과 흉통유형별 주요 열의 평균:


Unnamed: 0_level_0,Unnamed: 1_level_0,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
성별,흉통유형,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


## <b> 피벗테이블

In [153]:
import pandas as pd
# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)
# 컬럼명 변경
df.columns = ['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도',
              '최대심박수', '운동유발협심증', 'ST우울증', '운동후ST경사', '주요혈관수',
              '결함유형', '심장질환여부']

In [155]:
# 피벗테이블 생성
pivot = df.pivot_table(index='성별', columns='흉통유형', values='최대심박수', aggfunc='mean')
# 결과 출력
print("성별과 흉통유형별 평균 최대심박수:")
pivot

성별과 흉통유형별 평균 최대심박수:


흉통유형,0,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,145.282051,162.833333,151.8,149.5
1,138.759615,162.1875,158.173077,157.315789


In [157]:
# 피벗테이블 생성
pivot_multi_agg = df.pivot_table(index='성별', columns='흉통유형', values='최대심박수', aggfunc=['mean', 'max'])

# 결과 출력
print("\n성별과 흉통유형별 평균 및 최대값:")
pivot_multi_agg


성별과 흉통유형별 평균 및 최대값:


Unnamed: 0_level_0,mean,mean,mean,mean,max,max,max,max
흉통유형,0,1,2,3,0,1,2,3
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
0,145.282051,162.833333,151.8,149.5,182,192,179,171
1,138.759615,162.1875,158.173077,157.315789,186,202,194,190


In [159]:
# 피벗테이블 생성
pivot_multi_index = df.pivot_table(index=['성별', '흉통유형'], values='최대심박수', aggfunc='mean')

# 결과 출력
print("\n성별과 흉통유형을 인덱스로 한 피벗테이블:")
pivot_multi_index


성별과 흉통유형을 인덱스로 한 피벗테이블:


Unnamed: 0_level_0,Unnamed: 1_level_0,최대심박수
성별,흉통유형,Unnamed: 2_level_1
0,0,145.282051
0,1,162.833333
0,2,151.8
0,3,149.5
1,0,138.759615
1,1,162.1875
1,2,158.173077
1,3,157.315789


In [163]:
import pandas as pd

# 데이터 생성
data = {
    '성별': ['남성', '여성', '남성', '여성'],
    '흉통유형': [1, 2, 3, 1],
    '최대심박수': [150, 160, 155, 145]
}
df = pd.DataFrame(data)

# 피벗테이블 생성
pivot = df.pivot_table(index='성별', columns='흉통유형', values='최대심박수', aggfunc='mean')

# 결과 출력
print("피벗테이블 (결측값 포함):")
pivot

피벗테이블 (결측값 포함):


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,,155.0
여성,145.0,160.0,


In [165]:
# 결측값을 0으로 대체
pivot_filled = df.pivot_table(index='성별', columns='흉통유형', values='최대심박수', aggfunc='mean', fill_value=0)
# 결과 출력
print("\n결측값을 0으로 대체한 피벗테이블:")
pivot_filled


결측값을 0으로 대체한 피벗테이블:


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,0.0,155.0
여성,145.0,160.0,0.0


In [167]:
# 피벗테이블 생성 후 열 기준 평균값으로 대체
pivot_mean_filled = pivot.apply(lambda x: x.fillna(x.mean()), axis=0)
# 결과 출력
print("\n열 기준 평균값으로 대체한 피벗테이블:")
pivot_mean_filled


열 기준 평균값으로 대체한 피벗테이블:


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,160.0,155.0
여성,145.0,160.0,155.0


In [169]:
# 피벗테이블 생성 후 결측값을 999로 대체
pivot_specific_value = pivot.fillna(999)
# 결과 출력
print("\n결측값을 특정 값(999)으로 대체한 피벗테이블:")
pivot_specific_value


결측값을 특정 값(999)으로 대체한 피벗테이블:


흉통유형,1,2,3
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,150.0,999.0,155.0
여성,145.0,160.0,999.0


## <b> 인덱스와 컬럼 계층 변경

### 데이터준비

In [173]:
import pandas as pd

# 데이터 로드
file_path = "datasets/heart.csv"
df = pd.read_csv(file_path)

# 컬럼명 변경
df.columns = ['나이', '성별', '흉통유형', '안정시혈압', '콜레스테롤', '공복혈당', '심전도',
              '최대심박수', '운동유발협심증', 'ST우울증', '운동후ST경사', '주요혈관수',
              '결함유형', '심장질환여부']

# 데이터 확인
print("데이터프레임 상위 5개 행:")
print(df.head())

데이터프레임 상위 5개 행:
   나이  성별  흉통유형  안정시혈압  콜레스테롤  공복혈당  심전도  최대심박수  운동유발협심증  ST우울증  운동후ST경사  \
0  63   1     3    145    233     1    0    150        0    2.3        0   
1  37   1     2    130    250     0    1    187        0    3.5        0   
2  41   0     1    130    204     0    0    172        0    1.4        2   
3  56   1     1    120    236     0    1    178        0    0.8        2   
4  57   0     0    120    354     0    1    163        1    0.6        2   

   주요혈관수  결함유형  심장질환여부  
0      0     1       1  
1      0     2       1  
2      0     2       1  
3      0     2       1  
4      0     2       1  


### 그룹화 후 다중 인덱스 생성

In [176]:
# 성별과 흉통유형을 기준으로 그룹화하여 평균 계산
grouped = df.groupby(['성별', '흉통유형']).mean()

# 그룹화된 데이터 확인
print("\n성별과 흉통유형 기준 다중 인덱스:")
grouped


성별과 흉통유형 기준 다중 인덱스:


Unnamed: 0_level_0,Unnamed: 1_level_0,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
성별,흉통유형,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


### 인덱스 초기화

In [178]:
# 다중 인덱스 초기화
grouped_reset = grouped.reset_index()

print("\n다중 인덱스 초기화:")
grouped_reset


다중 인덱스 초기화:


Unnamed: 0,성별,흉통유형,나이,안정시혈압,콜레스테롤,공복혈당,심전도,최대심박수,운동유발협심증,ST우울증,운동후ST경사,주요혈관수,결함유형,심장질환여부
0,0,0,57.25641,138.589744,267.538462,0.128205,0.538462,145.282051,0.461538,1.35641,1.179487,0.820513,2.282051,0.461538
1,0,1,51.944444,128.055556,251.444444,0.111111,0.555556,162.833333,0.111111,0.461111,1.666667,0.555556,2.0,0.888889
2,0,2,54.971429,127.885714,261.057143,0.114286,0.6,151.8,0.057143,0.474286,1.571429,0.257143,2.028571,0.971429
3,0,3,63.25,147.5,247.0,0.25,0.75,149.5,0.0,1.575,1.5,0.5,2.0,1.0
4,1,0,55.105769,129.557692,243.605769,0.125,0.451923,138.759615,0.596154,1.393269,1.288462,1.019231,2.509615,0.201923
5,1,1,51.03125,128.59375,241.03125,0.09375,0.65625,162.1875,0.0625,0.234375,1.6875,0.34375,2.21875,0.78125
6,1,2,52.538462,132.057692,231.134615,0.25,0.596154,158.173077,0.173077,1.015385,1.461538,0.807692,2.326923,0.673077
7,1,3,54.315789,139.473684,235.052632,0.210526,0.315789,157.315789,0.210526,1.352632,1.210526,0.473684,2.315789,0.631579


### pandas 라이브러리 데이터프레임 출력의 스타일링 기능

In [184]:
pd.set_option('display.max_columns', None) # 모든 열 출력 
pd.set_option('display.width', 1000) # 데이터프레임 너비 조정
pd.set_option('display.float_format', '{:.2f}'.format) # 소수점 형식 설정

### 다중 컬럼 피벗테이블 생성

In [191]:
# 다중 컬럼 피벗테이블 생성
pivot = df.pivot_table(index='성별', columns=['흉통유형', '운동후ST경사'], values='최대심박수', aggfunc='mean')

print("\n다중 컬럼 피벗테이블:")
pivot


다중 컬럼 피벗테이블:


흉통유형,0,0,0,1,1,1,2,2,2,3,3,3
운동후ST경사,0,1,2,0,1,2,0,1,2,0,1,2
성별,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,146.0,139.0,161.4,,160.5,164.0,160.0,149.15,153.05,114.0,,161.33
1,126.75,128.43,157.05,168.5,139.83,167.25,171.25,147.25,164.11,147.5,159.27,157.0


### 컬럼 계층 초기화

In [196]:
# 컬럼 계층 초기화
pivot_reset = pivot.reset_index()
pivot_reset.columns = ['_'.join(map(str, col)).strip() for col in pivot_reset.columns]

print("\n컬럼 계층 초기화:")
pivot_reset


컬럼 계층 초기화:


Unnamed: 0,성별_,0_0,0_1,0_2,1_0,1_1,1_2,2_0,2_1,2_2,3_0,3_1,3_2
0,0,146.0,139.0,161.4,,160.5,164.0,160.0,149.15,153.05,114.0,,161.33
1,1,126.75,128.43,157.05,168.5,139.83,167.25,171.25,147.25,164.11,147.5,159.27,157.0


### 컬럼 계층 전환

In [203]:
# 다중 컬럼을 다중 인덱스로 전환
pivot_stack = pivot.stack()

print("\n다중 컬럼을 다중 인덱스로 전환:")
pivot_stack


다중 컬럼을 다중 인덱스로 전환:


Unnamed: 0_level_0,흉통유형,0,1,2,3
성별,운동후ST경사,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0,146.0,,160.0,114.0
0,1,139.0,160.5,149.15,
0,2,161.4,164.0,153.05,161.33
1,0,126.75,168.5,171.25,147.5
1,1,128.43,139.83,147.25,159.27
1,2,157.05,167.25,164.11,157.0


### 경고 메시지 차단

In [201]:
import warnings # 경고 메시지 차단 
warnings.filterwarnings('ignore')

# <b> 3.데이터 병합과 추가

## <B> (1) 데이터 병합(join)

### 데이터준비

In [205]:
import pandas as pd

# 첫 번째 데이터프레임 생성
data1 = {
    '제품ID': [1, 2, 3],
    '제품명': ['노트북', '모니터', '키보드']
}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {
    '제품ID': [1, 2, 4],
    '가격': [1000, 200, 50]
}
df2 = pd.DataFrame(data2)

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50


### 내부 조인(Inner Join)

In [207]:
# 내부 조인
inner_join = pd.merge(df1, df2, on='제품ID', how='inner')

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n내부 조인 결과:")
print(inner_join)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50

내부 조인 결과:
   제품ID  제품명    가격
0     1  노트북  1000
1     2  모니터   200


### 외부 조인(Outer Join)

In [215]:
# 외부 조인
outer_join = pd.merge(df1, df2, on='제품ID', how='outer')

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n외부 조인 결과:")
print(outer_join)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50

외부 조인 결과:
   제품ID  제품명      가격
0     1  노트북 1000.00
1     2  모니터  200.00
2     3  키보드     NaN
3     4  NaN   50.00


### 왼쪽 조인(left join)

In [217]:
# 왼쪽 조인
left_join = pd.merge(df1, df2, on='제품ID', how='left')

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n왼쪽 조인 결과:")
print(left_join)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50

왼쪽 조인 결과:
   제품ID  제품명      가격
0     1  노트북 1000.00
1     2  모니터  200.00
2     3  키보드     NaN


### 오른쪽 조인(Right join)

In [219]:
# 오른쪽 조인
right_join = pd.merge(df1, df2, on='제품ID', how='right')

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n오른쪽 조인 결과:")
print(right_join)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50

오른쪽 조인 결과:
   제품ID  제품명    가격
0     1  노트북  1000
1     2  모니터   200
2     4  NaN    50


### 교차 조인(Cross Join)

In [221]:
# 교차 조인 
cross_join = pd.merge(df1, df2, how='cross') 

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n교차 조인 결과:") 
print(cross_join)

첫 번째 데이터프레임:
   제품ID  제품명
0     1  노트북
1     2  모니터
2     3  키보드

두 번째 데이터프레임:
   제품ID    가격
0     1  1000
1     2   200
2     4    50

교차 조인 결과:
   제품ID_x  제품명  제품ID_y    가격
0       1  노트북       1  1000
1       1  노트북       2   200
2       1  노트북       4    50
3       2  모니터       1  1000
4       2  모니터       2   200
5       2  모니터       4    50
6       3  키보드       1  1000
7       3  키보드       2   200
8       3  키보드       4    50


## <B> (3) 데이터 추가(Union)

### 데이터준비

In [223]:
# 첫 번째 데이터프레임 생성
data1 = {
    '이름': ['홍길동', '이순신'],
    '나이': [30, 40]
}
df1 = pd.DataFrame(data1)

# 두 번째 데이터프레임 생성
data2 = {
    '이름': ['강감찬', '유관순'],
    '나이': [50, 20]
}
df2 = pd.DataFrame(data2)

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)

첫 번째 데이터프레임:
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임:
    이름  나이
0  강감찬  50
1  유관순  20


### 데이터프레임 결합(Union) : ignore_index = True

In [228]:
# 데이터프레임 세로로 결합
union_df = pd.concat([df1, df2], ignore_index=True)

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n유니온 결과:")
print(union_df)

첫 번째 데이터프레임:
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임:
    이름  나이
0  강감찬  50
1  유관순  20

유니온 결과:
    이름  나이
0  홍길동  30
1  이순신  40
2  강감찬  50
3  유관순  20


###  데이터프레임 결합(Union) : ignore_index = False

In [230]:
# 인덱스를 유지하면서 데이터프레임 결합
union_with_index = pd.concat([df1, df2], ignore_index=False)

# 데이터프레임 출력
print("첫 번째 데이터프레임:")
print(df1)
print("\n두 번째 데이터프레임:")
print(df2)
print("\n인덱스를 유지한 유니온 결과:")
print(union_with_index)

첫 번째 데이터프레임:
    이름  나이
0  홍길동  30
1  이순신  40

두 번째 데이터프레임:
    이름  나이
0  강감찬  50
1  유관순  20

인덱스를 유지한 유니온 결과:
    이름  나이
0  홍길동  30
1  이순신  40
0  강감찬  50
1  유관순  20


### 데이터프레임 열이 다른 경우 결합(Union) 

In [232]:
# 열이 다른 데이터프레임 생성
data3 = {
    '이름': ['정약용', '김유신'],
    '주소': ['서울', '경주']
}
df3 = pd.DataFrame(data3)

# 데이터프레임 결합
union_with_different_columns = pd.concat([df1, df3], ignore_index=True)

print("\n열이 다른 데이터프레임 결합 결과:")
print(union_with_different_columns)


열이 다른 데이터프레임 결합 결과:
    이름    나이   주소
0  홍길동 30.00  NaN
1  이순신 40.00  NaN
2  정약용   NaN   서울
3  김유신   NaN   경주
