<a href="https://colab.research.google.com/github/redinbluesky/fun-coding-python-data-analysis/blob/main2/06-데이터_전처리.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  목차
* [Chapter 6-1 결측치 처리하기](#chapter6-1)
    * [Chapter 6-1-1 결측치 확인하기](#chapter6-1-1)
    * [Chapter 6-1-2 결측치 제거하기](#chapter6-1-2)    
    * [Chapter 6-1-3 결측치 대체하기](#chapter6-1-3)   
    * [Chapter 6-1-4 실습:HR Analytics 데이터셋의 결측치 대체하기](#chapter6-1-4)   
* [Chapter 6-2 데이터 타입 변환하기](#chapter6-2)
    * [Chapter 6-2-1 데이터 타입 확인하기](#chapter6-2-1)
    * [Chapter 6-2-2 정수형으로 변환하기](#chapter6-2-2)
    * [Chapter 6-2-3 날짜형으로 변환하기](#chapter6-2-3)
* [Chapter 6-3 데이터 재구성하기](#chapter6-3)    
    * [Chapter 6-3-1 열 이름 변경하기](#chapter6-3-1)
    * [Chapter 6-3-2 새로운 열 만들기](#chapter6-3-2)
    * [Chapter 6-3-3 데이터 정렬하기](#chapter6-3-3)
* [Chapter 6-4 데이터 정제하기](#chapter6-4)
    * [Chapter 6-4-1 중복 데이터 처리하기](#chapter6-4-1)
    * [Chapter 6-4-2 이상치 처리하기](#chapter6-4-2)
    * [Chapter 6-4-3 문자열 데이터 정제하기](#chapter6-4-3)

## Chapter 6-1 결측치 처리하기 <a class="anchor" id="chapter5-1"></a>
1. 대부분 원시 데이터는 누락되어거나 비어 있는 값, 불필요한 정보 등을 포함하고 있기 때문에 데이터 전처리 과정이 필요하다.
    - 예를 들어, 설문조사 데이터에 응답이 누락된 경우, 이 값을 적절하게 처리하지 않으면 분석 결과가 외곡될 수 있다.

2. 데이터 분석에서 자주 마주치는 문제 중 하나는 결측치(missing values)이다. 
    - 결측치는 데이터셋에서 누락된 값이나 비어 있는 값을 의미한다. 
    - 이러한 결측치는 분석 결과에 영향을 미칠 수 있기 때문에 적절한 처리가 필요하다.
    - 예를 들어 아래와 같은 표에서 빈칸인 부분이 바로 결측치 이다.
        - 직원이 부서정보를 입력하지 않은 경우
        - 시스템 오류로 입사일이 기록되지 않은 경우 

        ![결측치 예시](image/06_01_missing_values2.png)

### Chapter 6-1-1 결측치 확인하기 <a class="anchor" id="chapter6-1-1"></a>
1. 결측지 확인을 위한 데이터로 캐글에서 제공하는 HR Analytics Employee Attrition 데이터셋을 사용한다. 
    - 이 데이터셋은 직원들의 개인 정보, 업무 관련 정보, 그리고 이직 여부를 포함하고 있다.

In [1]:
# Pandas를 사용해 ./data/aug_train.csv 파일을 불러와서 데이터프레임으로 저장한다.
import pandas as pd

# CSV 파일 경로
file_path = './data/aug_train.csv'

# CSV 파일을 읽어서 데이터프레임으로 저장
df = pd.read_csv(file_path)
df

Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.920,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0.0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0.0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19153,7386,city_173,0.878,Male,No relevent experience,no_enrollment,Graduate,Humanities,14,,,1,42,1.0
19154,31398,city_103,0.920,Male,Has relevent experience,no_enrollment,Graduate,STEM,14,,,4,52,1.0
19155,24576,city_103,0.920,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,50-99,Pvt Ltd,4,44,0.0
19156,5756,city_65,0.802,Male,Has relevent experience,no_enrollment,High School,,<1,500-999,Pvt Ltd,2,97,0.0


In [None]:
# isnull()과 sum() 메서드 체이닝을 사용하여 각 열의 결측치 개수를 확인한다.
#   - isnull() 메서드는 각 셀에 결측치가 있는지 여부를 나타내는 불리언 값을 반환한다.
#   - sum() 메서드는 각 열의 결측치 개수를 계산한다.
missing_values = df.isnull().sum()
print("각열의 결측치 개수:")
print(missing_values)

각열의 결측치 개수:
enrollee_id                  0
city                         0
city_development_index       0
gender                    4508
relevent_experience          0
enrolled_university        386
education_level            460
major_discipline          2813
experience                  65
company_size              5938
company_type              6140
last_new_job               423
training_hours               0
target                       0
dtype: int64


2. 특정 열의 결측치 확인하기
    - 특정 열을 선택한 후 isnull()과 sum() 메서드 체이닝을 사용하여 해당 열의 결측치 개수를 확인한다.

In [6]:
# 'gender' 열의 결측치 개수 확인
missing_gender = df['gender'].isnull().sum()
print("gender' 열의 결측치 개수:")
print(missing_gender)

gender' 열의 결측치 개수:
4508


In [7]:
# isna() 메서드와 sum() 메서드 체이닝을 사용하여 'experience' 열의 결측치 개수를 확인한다.
#   - isna() 메서드는 각 셀에 결측치가 있는지 여부를 나타내는 불리언 값을 반환한다.
#   - sum() 메서드는 'experience' 열의 결측치 개수를 계산한다.
missing_experience = df['experience'].isna().sum()
print("'experience' 열의 결측치 개수:")
print(missing_experience)

'experience' 열의 결측치 개수:
65


3. 여러 열의 결측치 확인하기
    - 논리 연산자 &를 사용하여 여러 열의 결측치를 동시에 확인할 수 있다.

In [None]:
# gender와 education_level 열이 모두 결측치인 행의 개수 확인
#  - df['gender'].isnull()를 통해 True/False 시리즈를 생성하고, df['education_level'].isnull()도 마찬가지로 True/False 시리즈를 생성한다.
#  - & 연산자를 사용하여 두 시리즈를 결합하여 두 열이 모두 결측치인 행을 필터링한다.
both_missing = df[df['gender'].isnull() & df['education_level'].isnull()]
print("'gender'와 'education_level' 열이 모두 결측치인 행의 개수:")
print(len(both_missing))

'gender'와 'education_level' 열이 모두 결측치인 행의 개수:
201


### Chapter 6-1-2 결측치 제거하기 <a class="anchor" id="chapter6-1-2"></a>
1. dropna() 메서드를 사용하여 결측치가 있는 행 또는 열을 제거할 수 있다.
    - axis=0을 지정하면 결측치가 있는 행이 제거되고, axis=1을 지정하면 결측치가 있는 열이 제거된다.
    - how='any'를 지정하면 결측치가 하나라도 있는 행 또는 열이 제거되고, how='all'을 지정하면 모든 값이 결측치인 행 또는 열이 제거된다.
    - thresh 매개변수를 사용하여 결측치가 아닌 값이 일정 개수 이상인 행 또는 열만 유지할 수도 있다.
    - subset 매개변수를 사용하여 특정 열에서 결측치가 있는 행만 제거할 수도 있다.
    - inplace=True를 지정하면 원본 데이터프레임이 변경되고, inplace=False(기본값)를 지정하면 결측치가 제거된 새로운 데이터프레임이 반환된다.
    - index와 columns 매개변수를 사용하여 제거할 행 또는 열의 레이블을 지정할 수도 있다.
    - errors 매개변수를 사용하여 제거할 행 또는 열이 존재하지 않을 때 발생하는 오류를 무시할 수도 있다.

In [None]:
# 데이터 프레임의 크기 확인
print("데이터 프레임의 크기:", df.shape)

# 결측칙가 있는 행 제거
#  - dropna() 메서드는 원본 데이터프레임을 변경하지 않고 결측치가 있는 행을 제거한 새로운 데이터프레임을 반환한다.
df_dropna = df.dropna()
print("결측치가 있는 행 제거 후 데이터 프레임의 크기:", df_dropna.shape)

데이터 프레임의 크기: (19158, 14)
결측치가 있는 행 제거 후 데이터 프레임의 크기: (8955, 14)


In [4]:
# dropna() 메서드의 subset 매개변수를 사용하여 특정 열에 결측치가 있는 행을 제거한다.
#   - 단일 열은 문자열로, 여러 열은 리스트로 지정한다.

# experience 열의 결측치 개수 확인
missing_experience = df['experience'].isnull().sum()
print("'experience' 열의 결측치 개수:", missing_experience)

# 원본 데이터 프레임 행의 개수
print("원본 데이터 프레임의 행 개수:", len(df))

# experience 열의 결측치가 있는 행 제거
df_experience_dropna = df.dropna(subset=['experience'])

# experience 열의 결측치가 있는 행 제거 후 데이터 프레임의 크기 확인
print("experience 열의 결측치가 있는 행 제거 후 데이터 프레임의 크기:", df_experience_dropna.shape)

'experience' 열의 결측치 개수: 65
원본 데이터 프레임의 행 개수: 19158
experience 열의 결측치가 있는 행 제거 후 데이터 프레임의 크기: (19093, 14)


In [5]:
# 여러 열에서 결측치가 있는 행 제거
# gender와 education_level 열의 결측치가 있는 행 제거
df_dorpna_subset = df.dropna(subset=['gender', 'education_level'])

# 제거된 행의 개수 확인
removed_rows = len(df) - len(df_dorpna_subset)
print("제거된 행의 개수:", removed_rows)

# 원본 데이터 프레임 행의 개수
print("원본 데이터 프레임의 행 개수:", len(df))

# 결측치 행 제거 후 데이터 프레임의 크기 확인
print("'gender'와 'education_level' 열의 결측치가 있는 행 제거 후 데이터 프레임의 크기:", df_dorpna_subset.shape)

제거된 행의 개수: 4767
원본 데이터 프레임의 행 개수: 19158
'gender'와 'education_level' 열의 결측치가 있는 행 제거 후 데이터 프레임의 크기: (14391, 14)


In [6]:
# thresh 매개변수를 사용하여 유요한 값의 최소 개수(임계값)를 지정해 결측치가 많은 행을 제거한다.
# 12개의 유효한 값이 있는 행만 유지
df_thresh = df.dropna(thresh=12)
print("thresh 매개변수를 사용하여 유효한 값이 12개 이상인 행만 유지한 데이터 프레임의 크기:", df_thresh.shape)


thresh 매개변수를 사용하여 유효한 값이 12개 이상인 행만 유지한 데이터 프레임의 크기: (16327, 14)


In [7]:
# asix와 how 매개변수를 사용해 결측치 제거
# 모든 값이 결측치인 행을 제거
df_dropna_rows = df.dropna(axis=0, how='all')

# 원본 데이터 프레임 행의 개수
print("원본 데이터 프레임의 행 개수:", len(df))

# 결측치 제거 후 데이터 프레임의 크기 확인
print("모든 값이 결측치인 행 제거 후 데이터 프레임의 크기:", df_dropna_rows.shape[0])

원본 데이터 프레임의 행 개수: 19158
모든 값이 결측치인 행 제거 후 데이터 프레임의 크기: 19158


In [8]:
# asix와 how 매개변수를 사용해 결측치 제거
# 모든 값이 결측치인 열을 제거
df_dropna_columns = df.dropna(axis=1, how='all')

# 원본 데이터 프레임 열의 개수
print("원본 데이터 프레임의 열 개수:", len(df.columns))

# 결측치 제거 후 데이터 프레임의 크기 확인
print("모든 값이 결측치인 열 제거 후 데이터 프레임의 크기:", df_dropna_columns.shape[1])

원본 데이터 프레임의 열 개수: 14
모든 값이 결측치인 열 제거 후 데이터 프레임의 크기: 14


In [9]:
# asix와 how 매개변수를 사용해 결측치 제거
# 하나라도 결측치가 있는 행 제거
df_dropna_any = df.dropna(axis=0, how='any')

# 원본 데이터 프레임 행의 개수
print("원본 데이터 프레임의 행 개수:", len(df))

# 결측치 제거 후 데이터 프레임의 크기 확인
print("하나라도 결측치가 있는 행 제거 후 데이터 프레임의 크기:", df_dropna_any.shape[0])

# 제거된 행의 개수 확인
removed_rows_any = len(df) - len(df_dropna_any)
print("하나라도 결측치가 있는 행 제거로 제거된 행의 개수:", removed_rows_any)

원본 데이터 프레임의 행 개수: 19158
하나라도 결측치가 있는 행 제거 후 데이터 프레임의 크기: 8955
하나라도 결측치가 있는 행 제거로 제거된 행의 개수: 10203


In [11]:
# company_typoe 열의 결측치 비율 확인
missing_ratio = df['company_type'].isnull().sum() / len(df) * 100
print("company_type 열의 결측치 비율: {:.2f}%".format(missing_ratio))

# company_type 열 제거
df_drop_company_type = df.drop(columns=['company_type'])

# 열 제거 후 데이터 프레임의 크기 확인
print("company_type 열 제거 후 데이터 프레임의 크기:", df_drop_company_type.shape)

company_type 열의 결측치 비율: 32.05%
company_type 열 제거 후 데이터 프레임의 크기: (19158, 13)


### Chapter 6-1-3 결측치 대체하기 <a class="anchor" id="chapter6-1-3"></a>

1. fillna() 메서드를 사용하여 결측치를 대체할 수 있다.
    - value 매개변수를 사용하여 특정 값으로 결측치를 대체할 수 있다.
    - limit 매개변수를 사용하여 대체할 최대 개수를 지정할 수도 있다.
    - inplace=True를 지정하면 원본 데이터프레임이 변경되고, inplace=False(기본값)를 지정하면 결측치가 대체된 새로운 데이터프레임이 반환된다.
    - axis=0 또는 axis='index'를 지정하면 행 방향으로 대체되고, axis=1 또는 axis='columns'를 지정하면 열 방향으로 대체된다.

In [14]:
# fillna() 메서드를 사용하여 결측치를 대체할 수 있다

# 예제 데이터 프레임 생성
df = pd.DataFrame({
    'A': [1, None, 3, None, 5],
    'B': [None, 2, None, 4, None]
})

print("원본 데이터 프레임:")
df


원본 데이터 프레임:


Unnamed: 0,A,B
0,1.0,
1,,2.0
2,3.0,
3,,4.0
4,5.0,


In [15]:
# 단일 값으로 결측치 대체하기
df_filled = df.fillna(0)
print("결측치를 0으로 대체한 데이터 프레임:")
df_filled

결측치를 0으로 대체한 데이터 프레임:


Unnamed: 0,A,B
0,1.0,0.0
1,0.0,2.0
2,3.0,0.0
3,0.0,4.0
4,5.0,0.0


In [16]:
# value 매개변수를 사용하여 열마다 다른 값으로 대체하기
values = {'A': df['A'].mean(), 'B': df['B'].median()}

df_filled_columns = df.fillna(value=values)
print("열마다 다른 값으로 결측치를 대체한 데이터 프레임:")
df_filled_columns

열마다 다른 값으로 결측치를 대체한 데이터 프레임:


Unnamed: 0,A,B
0,1.0,3.0
1,3.0,2.0
2,3.0,3.0
3,3.0,4.0
4,5.0,3.0


In [17]:
# limit 매개변수를 사용하여 대체할 최대 개수 지정하기
values = {'A': df['A'].mean(), 'B': df['B'].median()}

df_filled_columns_limit = df.fillna(value=values, limit=1)
print("열마다 다른 값으로 결측치를 대체하되, 최대 1개의 결측치만 대체한 데이터 프레임:")
df_filled_columns_limit

열마다 다른 값으로 결측치를 대체하되, 최대 1개의 결측치만 대체한 데이터 프레임:


Unnamed: 0,A,B
0,1.0,3.0
1,3.0,2.0
2,3.0,
3,,4.0
4,5.0,


In [18]:
# inplace=True를 사용하여 원본 데이터 프레임에서 결측치 대체하기
df.fillna(0, inplace=True)
print("원본 데이터 프레임에서 결측치를 0으로 대체한 결과:")
df

원본 데이터 프레임에서 결측치를 0으로 대체한 결과:


Unnamed: 0,A,B
0,1.0,0.0
1,0.0,2.0
2,3.0,0.0
3,0.0,4.0
4,5.0,0.0


### Chapter 6-1-4 실습: HR Analytics 데이터셋의 결측치 대체하기 <a class="anchor" id="chapter6-1-4"></a>

In [19]:
# 'aug_train.csv' 파일을 불러와서 데이터 프레임으로 저장한다.
df = pd.read_csv('./data/aug_train.csv')

In [20]:
# gender 열의 결측치를 'Not Specified'로 대체한다.
df['gender'] = df['gender'].fillna('Not Specified')
print("gender 열의 결측치를 'Not Specified'로 대체한 결과:")
print(df['gender'].value_counts())

gender 열의 결측치를 'Not Specified'로 대체한 결과:
gender
Male             13221
Not Specified     4508
Female            1238
Other              191
Name: count, dtype: int64


In [21]:
# education_level 열의 결측치를 'Unknown'으로 대체한다.
df['education_level'] = df['education_level'].fillna('Unknown')
print("education_level 열의 결측치를 'Unknown'으로 대체한 결과:")
print(df['education_level'].value_counts())

education_level 열의 결측치를 'Unknown'으로 대체한 결과:
education_level
Graduate          11598
Masters            4361
High School        2017
Unknown             460
Phd                 414
Primary School      308
Name: count, dtype: int64


In [22]:
# experience 열의 결측치를 0으로 대체해 경력 없는 사람으로 간주한다.
df['experience'] = df['experience'].fillna(0)
print("experience 열의 결측치를 0으로 대체한 결과:")
print(df['experience'].value_counts())

experience 열의 결측치를 0으로 대체한 결과:
experience
>20    3286
5      1430
4      1403
3      1354
6      1216
2      1127
7      1028
10      985
9       980
8       802
15      686
11      664
14      586
1       549
<1      522
16      508
12      494
13      399
17      342
19      304
18      280
20      148
0        65
Name: count, dtype: int64


In [23]:
# company_type과 company_size 열의 결측치를 'Not Available'로 대체한다.
df['company_type'] = df['company_type'].fillna('Not Available')
df['company_size'] = df['company_size'].fillna('Not Available')
print("company_typer과 company_size 열의 결측치를 'Not Available'로 대체한 결과:")
print(df[['company_type', 'company_size']].value_counts())

company_typer과 company_size 열의 결측치를 'Not Available'로 대체한 결과:
company_type         company_size 
Not Available        Not Available    5360
Pvt Ltd              50-99            2151
                     100-500          1833
                     10000+           1739
                     1000-4999        1016
                     10/49             910
                     <10               728
                     500-999           622
                     5000-9999         412
                     Not Available     406
Funded Startup       50-99             390
Early Stage Startup  <10               286
Not Available        50-99             222
Funded Startup       100-500           214
                     10/49             193
Early Stage Startup  10/49             176
NGO                  100-500           174
Public Sector        1000-4999         165
Not Available        100-500           152
Public Sector        100-500           151
                     10000+            150
F

## Chapter 6-2 데이터 타입 변환하기 <a class="anchor" id="chapter6-2"></a>
### Chapter 6-2-1 데이터 타입 확인하기 <a class="anchor" id="chapter6-2-1"></a>

In [25]:
# 'aug_train.csv' 파일을 불러와서 데이터 프레임으로 저장한다.
df = pd.read_csv('./data/aug_train.csv')

# head() 메서드를 사용하여 데이터 프레임의 처음 5행을 출력한다.
print("데이터 프레임의 처음 5행:")
df.head()

데이터 프레임의 처음 5행:


Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0.0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0.0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0.0


In [26]:
# 각 열의 데이터 타입 확인
print("각 열의 데이터 타입:")
print(df.dtypes)

각 열의 데이터 타입:
enrollee_id                 int64
city                          str
city_development_index    float64
gender                        str
relevent_experience           str
enrolled_university           str
education_level               str
major_discipline              str
experience                    str
company_size                  str
company_type                  str
last_new_job                  str
training_hours              int64
target                    float64
dtype: object


### Chapter 6-2-2 정수형으로 변환하기 <a class="anchor" id="chapter6-2-2"></a>
1. astype() 메서드를 사용하여 데이터 타입을 변환할 수 있다.
    - int, float, str, bool 등 다양한 데이터 타입으로 변환할 수 있다.
    - dtype 매개변수에 원하는 데이터 타입을 지정하여 변환할 수 있다. 예를 들어, int, float, str, bool 등이 있다.
    - errors 매개변수를 사용하여 변환할 수 없는 값이 있을 때 발생하는 오류를 무시하거나, NaN으로 대체하거나, 예외를 발생시킬
    - copy 매개변수를 사용하여 원본 데이터프레임을 변경할지 여부를 지정할 수 있다. 기본값은 True로, 원본 데이터프레임이 변경되지 않고 새로운 데이터프레임이 반환된다.

In [27]:
# astype() 메서드를 사용하여 'target' 열을 정수형으로 변환한다.
df['target'] = df['target'].astype(int)
print("'target' 열을 정수형으로 변환한 결과:")
print(df['target'].dtype)
df.head()


'target' 열을 정수형으로 변환한 결과:
int64


Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0


### Chapter 6-2-3 날짜형으로 변환하기 <a class="anchor" id="chapter6-2-3"></a>
1. to_datetime() 함수를 사용하여 날짜형으로 변환할 수 있다.
    - format 매개변수를 사용하여 날짜 형식 문자열을 지정할 수 있다. 예를 들어, '%Y-%m-%d'는 '2024-01-01'과 같은 형식을 나타낸다.
    - errors 매개변수를 사용하여 변환할 수 없는 값이 있을 때 발생하는 오류를 무시하거나, NaT로 대체하거나, 예외를 발생시킬 수 있다.
        - 'coerce'를 지정하면 변환할 수 없는 값이 NaT로 대체되고, 'ignore'를 지정하면 변환할 수 없는 값이 원래 값으로 유지된다.
    - dayfirst 매개변수를 True로 설정하면 날짜 형식에서 일(day)이 월(month)보다 먼저 오는 경우에 올바르게 변환할 수 있다. 기본값은 False이다.

In [28]:
# 입사일 데이터 프레임 생성
df_dates = pd.DataFrame({
    '입사일': ['2020-01-15', '2019-06-30', '2021-03-10', '잘못된 값']
})  

print("입사일 데이터 프레임:")
print(df_dates)

입사일 데이터 프레임:
          입사일
0  2020-01-15
1  2019-06-30
2  2021-03-10
3       잘못된 값


In [30]:
# 입사일 열을 날짜형으로 변환, 변환할 수 없는 값은 NaT로 대체
df_dates['입사일'] = pd.to_datetime(df_dates['입사일'], errors='coerce')
print("입사일 열을 날짜형으로 변환한 결과:")
print(df_dates)
print(df_dates.dtypes)

입사일 열을 날짜형으로 변환한 결과:
         입사일
0 2020-01-15
1 2019-06-30
2 2021-03-10
3        NaT
입사일    datetime64[us]
dtype: object


## Chapter 6-3 데이터 재구성하기 <a class="anchor" id="chapter6-3"></a>
### Chapter 6-3-1 열 이름 변경하기 <a class="anchor" id="chapter6-3-1"></a>
1. rename() 메서드를 사용하여 열 이름을 변경할 수 있다.
    - index 매개변수를 사용하여 행 레이블을 변경할 수 있다.
    - columns 매개변수를 사용하여 열 레이블을 변경할 수 있다.

In [33]:
# rename() 메서드를 사용하여 city_development_index 열의 이름을 dev_index로, relevant_experience 열의 이름을 relevant_exp로 변경한다.
df = df.rename(columns={'city_development_index': 'dev_index', 'relevent_experience': 'relevant_exp'})
print("열 이름을 변경한 결과:")
df.head()

열 이름을 변경한 결과:


Unnamed: 0,enrollee_id,city,dev_index,gender,relevant_exp,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
0,8949,city_103,0.92,Male,Has relevent experience,no_enrollment,Graduate,STEM,>20,,,1,36,1
1,29725,city_40,0.776,Male,No relevent experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0
2,11561,city_21,0.624,,No relevent experience,Full time course,Graduate,STEM,5,,,never,83,0
3,33241,city_115,0.789,,No relevent experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1
4,666,city_162,0.767,Male,Has relevent experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0


### Chapter 6-3-2 새로운 열 만들기 <a class="anchor" id="chapter6-3-2"></a>
1. 새로운 열을 만들기 위해서는 기존 열을 사용하여 계산하거나, 조건문을 사용하여 값을 할당할 수 있다.
    - 예를 들어, 'age' 열과 'experience' 열을 더하여 'total_years'라는 새로운 열을 만들 수 있다.

In [34]:
# training_hours 열의 값이 40 이상이면 High, 그렇지 않으면 Low로 표시하는 새로운 열 training_level을 만든다.
df['training_level'] = 'Low'
df.loc[df['training_hours'] >= 40, 'training_level'] = 'High'
print("training_hours 열의 값에 따라 training_level 열을 만든 결과:")
print(df[['training_hours', 'training_level']].head())

training_hours 열의 값에 따라 training_level 열을 만든 결과:
   training_hours training_level
0              36            Low
1              47           High
2              83           High
3              52           High
4               8            Low


### Chapter 6-3-3 데이터 정렬하기 <a class="anchor" id="chapter6-3-3"></a>
1. sort_values() 메서드를 사용하여 데이터프레임을 특정 열을 기준으로 정렬할 수 있다.
    - by 매개변수에 정렬할 열의 이름을 지정한다. 여러 열을 기준으로 정렬하려면 열 이름을 리스트로 전달할 수 있다.
    - ascending 매개변수를 사용하여 오름차순(True) 또는 내림차순(False)으로 정렬할 수 있다. 기본값은 True이다.
    - inplace=True를 지정하면 원본 데이터프레임이 변경되고, inplace=False(기본값)를 지정하면 정렬된 새로운 데이터프레임이 반환된다.

In [36]:
# training_hours 열을 기준으로 내림차순 정렬
df_sorted = df.sort_values(by='training_hours', ascending=False)
print("training_hours 열을 기준으로 내림차순 정렬한 결과:")
print(df_sorted[['training_hours']].head())

training_hours 열을 기준으로 내림차순 정렬한 결과:
       training_hours
7121              336
18458             336
13929             336
6322              336
15615             336


In [37]:
# dev_index는 오름차순, training_hours는 내림차순으로 정렬
df_sorted = df.sort_values(by=['dev_index', 'training_hours'], ascending=[True, False])
print("dev_index는 오름차순, training_hours는 내림차순으로 정렬한 결과:")
print(df_sorted[['dev_index', 'training_hours']].head())

dev_index는 오름차순, training_hours는 내림차순으로 정렬한 결과:
       dev_index  training_hours
16784      0.448             154
5265       0.448              86
7864       0.448              74
5010       0.448              73
15114      0.448              66


In [38]:
# 원본 데이터 프레임을 dev_index 열 기준으로 오름차순 정렬
df.sort_values(by='dev_index', ascending=True, inplace=True)
print("원본 데이터 프레임을 dev_index 열 기준으로 오름차순 정렬한 결과:")
print(df[['dev_index', 'enrollee_id']].head())

원본 데이터 프레임을 dev_index 열 기준으로 오름차순 정렬한 결과:
       dev_index  enrollee_id
18065      0.448        16548
5010       0.448        27970
13549      0.448        28317
16555      0.448        30131
17701      0.448        24256


## Chapter 6-4 데이터 정제하기 <a class="anchor" id="chapter6-4"></a>
### Chapter 6-4-1 중복 데이터 처리하기 <a class="anchor" id="chapter6-4-1"></a>