## 6.1.1 결측치 확인하기

In [2]:
import pandas as pd
df = pd.read_csv('data/aug_train.csv') # CSV 파일 불러오기

In [3]:
# 각 열의 결측치 개수 확인
print(df.isnull().sum())

enrollee_id                  0
city                         0
city_development_index       0
gender                    4508
relevent_experience          0
enrolled_university        386
education_level            460
major_discipline          2813
experience                  65
company_size              5938
company_type              6140
last_new_job               423
training_hours               0
target                       0
dtype: int64


In [4]:
# gender 열의 결측치 개수 확인
missing_gender = df['gender'].isna().sum()
print("성별 정보 결측치 개수 :", missing_gender)

성별 정보 결측치 개수 : 4508


In [7]:
# gender 열과 education_level 열이 모두 결측치인 행의 개수 확인
missing_both = df[df['gender'].isnull() & df['education_level'].isnull()]
print("성별과 교육 수준이 모두 결측치인 지원자의 수 :", len(missing_both)) # len()을 통해 행의 개수 반환

성별과 교육 수준이 모두 결측치인 지원자의 수 : 201


## 6.1.2 결측치 제거하기
- DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

In [10]:
print("원본 데이터프레임 행 개수 :", df.shape[0])

# experinece 열의 결측치 개수
missing_experience = df['experience'].isna().sum()
print("근무 경력 결측치 개수 :", missing_experience)

# experience 열의 결측치 제거
df_exp_dropna = df.dropna(subset=['experience'])

print("결측치 제거 후 데이터프레임 크기 :", df_exp_dropna.shape)

원본 데이터프레임 행 개수 : 19158
근무 경력 결측치 개수 : 65
결측치 제거 후 데이터프레임 크기 : (19093, 14)


In [11]:
# 임계값 설정 : 유효한 값이 12개 미만인 행 제거
df_thresh = df.dropna(thresh=12)
print("임계값 적용 후 데이터프레임 크기 :", df_thresh.shape)

임계값 적용 후 데이터프레임 크기 : (16327, 14)


In [12]:
# 모든 값이 결측치인 열 제거하기
df_dropna_cols = df.dropna(axis=1, how='all')
print("원본 데이터프레임의 열 개수 :", df.shape[1])
print("모든 값이 결측치인 열 제거 후의 열 개수 :", df_dropna_cols.shape[1])

원본 데이터프레임의 열 개수 : 14
모든 값이 결측치인 열 제거 후의 열 개수 : 14


- df.drop(labels=None, axis=0, index=None, columns=None, inplace=False, errors='raise')

In [13]:
print("원본 데이터프레임의 열 개수 :", df.shape[1])
# company_type 열 제거
df_drop = df.drop(columns=['company_type'])
print("열 제거 후 데이터프레임 크기 :", df_drop.shape)

원본 데이터프레임의 열 개수 : 14
열 제거 후 데이터프레임 크기 : (19158, 13)


## 6.1.3 결측치 대체하기
- df.fillna(value=None, axis=None, inplace=False, limit=None)

In [14]:
# gender 열의 결측치 대체
df['gender'] = df['gender'].fillna('Not Specified')
print(df['gender'].value_counts()) # value_counts()를 통해 열의 고유 값의 개수를 각각 계산

gender
Male             13221
Not Specified     4508
Female            1238
Other              191
Name: count, dtype: int64


## 6.2.1 데이터 타입 확인하기

In [15]:
print("각 열의 데이터 타입 :")
print(df.dtypes)

각 열의 데이터 타입 :
enrollee_id                 int64
city                       object
city_development_index    float64
gender                     object
relevent_experience        object
enrolled_university        object
education_level            object
major_discipline           object
experience                 object
company_size               object
company_type               object
last_new_job               object
training_hours              int64
target                    float64
dtype: object


### 6.2.2 데이터 타입 변환하기

In [17]:
# target 열을 정수형으로 변환
df['target'] = df['target'].astype(int)
print(df.dtypes['target'])
df.head()

int64


Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0
2,11561,city_21,0.624,Not Specified,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0
3,33241,city_115,0.789,Not Specified,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0


In [18]:
df = pd.DataFrame({
    '입사일': ['2022-01-01', '2023-05-12', '2021-09-30', '잘못된 값']
})
print("원본 데이터프레임")
print(df)

# 입사일 열을 날짜형으로, 변환할 수 없는 값은 NaT처리
df['입사일'] = pd.to_datetime(df['입사일'], errors='coerce')
print("\n입사일 열을 날짜형으로 변환한 데이터프레임")
print(df)

원본 데이터프레임
          입사일
0  2022-01-01
1  2023-05-12
2  2021-09-30
3       잘못된 값

입사일 열을 날짜형으로 변환한 데이터프레임
         입사일
0 2022-01-01
1 2023-05-12
2 2021-09-30
3        NaT


## 6.3.1 열 이름 변경하기

In [22]:
df = pd.read_csv('data/aug_train.csv')

df = df.rename(columns={'city_development_index': 'dev_index', 'relevent_experience': 'relevent_exp'})
print("열 이름 변경 후")
df.head()

열 이름 변경 후


Unnamed: 0,enrollee_id,city,dev_index,gender,relevent_exp,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0.0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0.0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0.0


## 6.3.2 새로운 열 만들기

In [23]:
# 기본값을 설정해 새로운 열 생성
df['training_level'] = 'Low'
df.loc[df['training_hours']>=40, 'training_level'] = 'High'
print("새로운 열 추가 후 :")
print(df[['training_hours', 'training_level']].head())

새로운 열 추가 후 :
   training_hours training_level
0              36            Low
1              47           High
2              83           High
3              52           High
4               8            Low


## 6.3.3 데이터 정렬하기

In [26]:
# dev_index는 오름차순, training_hours는 내림차순으로 정렬
df_sorted = df.sort_values(by=['dev_index', 'training_hours'], ascending=[True, False])
print("정렬 후 데이터프레임")
print(df_sorted[['dev_index', 'training_hours']].head())

정렬 후 데이터프레임
       dev_index  training_hours
16784      0.448             154
5265       0.448              86
7864       0.448              74
5010       0.448              73
15114      0.448              66


## 6.4.1 중복 데이터 처리하기

In [28]:
data = {'ID': [1, 2, 2, 3, 4, 4, 4],
        'Name': ['Alice', 'Bob', 'Bob', 'Charlie', 'David', 'David', 'David']}
df = pd.DataFrame(data)
# 중복 데이터 제거
df_unique = df.drop_duplicates(subset=['ID'], keep='first')
print("중복 제거 후")
print(df_unique)

중복 제거 후
   ID     Name
0   1    Alice
1   2      Bob
3   3  Charlie
4   4    David


### 6.4.2 이상치 처리하기

In [29]:
data = {'ID': [1, 2, 3, 4, 5],
        'Age': [25, 30, 45, 100, 28]}
df = pd.DataFrame(data)

# 이상치 제거
df_no_outliers = df[df['Age'] <60]
print("\n이상치 제거 후 :")
print(df_no_outliers)

# 중앙값으로 이상치 대체
median_age = df['Age'].median()
df.loc[df['Age'] >= 60, 'Age'] = median_age
print("\n이상치를 중앙값으로 대체한 후 :")
print(df)


이상치 제거 후 :
   ID  Age
0   1   25
1   2   30
2   3   45
4   5   28

이상치를 중앙값으로 대체한 후 :
   ID  Age
0   1   25
1   2   30
2   3   45
3   4   30
4   5   28


## 6.4.3 문자열 데이터 정제하기
- 불필요한 공백 제거하기
- 대소문자 일관되게 유지하기

In [32]:
data = {'Name': [' Alice ', 'Bob', ' Charlie ', 'David ', ' Emma']}
df = pd.DataFrame(data)

# 공백 제거
df['Name'] = df['Name'].str.strip()
print("공백 제거 후 :")
print(df)

# 대문자로 변환
df['Name'] = df['Name'].str.upper()
print("\n대문자로 변환 후 :")
print(df)

공백 제거 후 :
      Name
0    Alice
1      Bob
2  Charlie
3    David
4     Emma

대문자로 변환 후 :
      Name
0    ALICE
1      BOB
2  CHARLIE
3    DAVID
4     EMMA


- 기호가 포함된 문자열 데이터를 정제 후 숫자형으로 변환하기

In [33]:
data = {'growth_rate': ['50%', '75%', '100%']}
df = pd.DataFrame(data)

# 기호 제거 및 백분율로 변환
df['growth_rate'] = df['growth_rate'].str.replace('%', '').astype(float) / 100
print("성장률 데이터 변환 후 :")
print(df)

성장률 데이터 변환 후 :
   growth_rate
0         0.50
1         0.75
2         1.00


##  6.5.1 데이터 연결하기

In [35]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35]
})
df2 = pd.DataFrame({
    'ID': [4, 5],
    'Name': ['David', 'Emma'],
    'City': ['New York', 'Los Angeles']
})

## 행 기준으로 데이터프레임 연결
df_concat = pd.concat([df1, df2], axis=0, join='outer', ignore_index=True)
print("행 기준으로 연결 후 :")
print(df_concat)

행 기준으로 연결 후 :
   ID     Name   Age         City
0   1    Alice  25.0          NaN
1   2      Bob  30.0          NaN
2   3  Charlie  35.0          NaN
3   4    David   NaN     New York
4   5     Emma   NaN  Los Angeles


## 6.5.2 데이터 병합하기

In [36]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Score': [85, 90, 95]
})

# Inner Join
df_inner = pd.merge(df1, df2, on='ID', how='inner')
print("Inner Join 결과")
print(df_inner)

Inner Join 결과
   ID   Name  Score
0   1  Alice     85
1   2    Bob     90
