## 1. 패키지 로드

In [1]:
import pandas as pd
import numpy as np
import re

## 2. 파일 로드

In [2]:
actors_df = pd.read_csv('Actor_namuwiki.csv', encoding='utf-8-sig')
actors_df.head(3)

Unnamed: 0,Name,Name_url,birth_year,activation_content
0,감우성,https://namu.wiki/w/%EA%B0%90%EC%9A%B0%EC%84%B1,1970년,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,..."
1,강경준,https://namu.wiki/w/%EA%B0%95%EA%B2%BD%EC%A4%80,1983년,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ..."
2,강기영,https://namu.wiki/w/%EA%B0%95%EA%B8%B0%EC%98%81,1983년,"tvN 드라마 고교처세왕, 오 나의 귀신님에서 감초역할로 등장하며 이름을 알렸다. ..."


## 3. 전처리

### 1) Name 전처리

In [3]:
actors_df['Name'] = actors_df.Name.str.replace('[^가-힣]', '') # 한글을 제외하고 모두 제거
actors_df.head(3)

  actors_df['Name'] = actors_df.Name.str.replace('[^가-힣]', '') # 한글을 제외하고 모두 제거


Unnamed: 0,Name,Name_url,birth_year,activation_content
0,감우성,https://namu.wiki/w/%EA%B0%90%EC%9A%B0%EC%84%B1,1970년,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,..."
1,강경준,https://namu.wiki/w/%EA%B0%95%EA%B2%BD%EC%A4%80,1983년,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ..."
2,강기영,https://namu.wiki/w/%EA%B0%95%EA%B8%B0%EC%98%81,1983년,"tvN 드라마 고교처세왕, 오 나의 귀신님에서 감초역할로 등장하며 이름을 알렸다. ..."


In [4]:
actors_df = actors_df.dropna(subset='Name')

### 2) birth_year -> age 파생변수 만들기

In [5]:
# 1. birth_year에 null 값이 존재하면 제거
actors_df = actors_df.dropna(subset='birth_year')
actors_df.head(2)

Unnamed: 0,Name,Name_url,birth_year,activation_content
0,감우성,https://namu.wiki/w/%EA%B0%90%EC%9A%B0%EC%84%B1,1970년,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,..."
1,강경준,https://namu.wiki/w/%EA%B0%95%EA%B2%BD%EC%A4%80,1983년,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ..."


In [6]:
# 2. Age 추출하여 파생변수 생성
def extract_age(x):
    x = re.sub('[^0-9]', '', x)
    if x:
        x = 2022 - int(x)
    else: # 전처리 결과 아무것도 남지 않았다면 null 값으로 채움
        x = np.nan
    
    return x

actors_df['Age'] = actors_df.birth_year.apply(extract_age)
actors_df.head(2)

Unnamed: 0,Name,Name_url,birth_year,activation_content,Age
0,감우성,https://namu.wiki/w/%EA%B0%90%EC%9A%B0%EC%84%B1,1970년,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,...",52.0
1,강경준,https://namu.wiki/w/%EA%B0%95%EA%B2%BD%EC%A4%80,1983년,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ...",39.0


In [7]:
# 3. Age에 null 값 존재하면 제거
actors_df = actors_df.dropna(subset='Age')

In [8]:
# 4. Age의 type을 int형으로 변경
actors_df['Age'] = actors_df.Age.astype(int)
actors_df.head(3)

Unnamed: 0,Name,Name_url,birth_year,activation_content,Age
0,감우성,https://namu.wiki/w/%EA%B0%90%EC%9A%B0%EC%84%B1,1970년,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,...",52
1,강경준,https://namu.wiki/w/%EA%B0%95%EA%B2%BD%EC%A4%80,1983년,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ...",39
2,강기영,https://namu.wiki/w/%EA%B0%95%EA%B8%B0%EC%98%81,1983년,"tvN 드라마 고교처세왕, 오 나의 귀신님에서 감초역할로 등장하며 이름을 알렸다. ...",39


## 4. Name, Age, activation_content의 열만 가진 df 생성 및 성별 표시

In [9]:
# 1. Name, Age, activation_content 열만 가진 df 생성
save_df = actors_df[['Name', 'Age', 'activation_content']]
save_df.head(3)

Unnamed: 0,Name,Age,activation_content
0,감우성,52,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,..."
1,강경준,39,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ..."
2,강기영,39,"tvN 드라마 고교처세왕, 오 나의 귀신님에서 감초역할로 등장하며 이름을 알렸다. ..."


In [10]:
save_df = save_df.reset_index(drop=True)

In [11]:
save_df['Sex'] = np.nan

In [12]:
save_df['Sex'][:394] = '남'
save_df['Sex'][394:] = '여'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  save_df['Sex'][:394] = '남'


In [14]:
# 배우, 신화, 년월, 코미디언, 가수, 인피니트, 멀티엔터테이너, 룰라
save_df.Name.to_list()

['감우성',
 '강경준',
 '강기영',
 '강남길',
 '강동원',
 '강성훈배우',
 '강은탁',
 '강이석',
 '강정우배우',
 '강지섭',
 '강훈배우',
 '고수배우',
 '고우림',
 '고윤',
 '고주원',
 '고창석',
 '공형진',
 '구교환',
 '곽도원',
 '곽동연',
 '곽정욱',
 '구자성',
 '권오중',
 '권해성',
 '권해효',
 '권혁수배우',
 '권현상',
 '권화운',
 '김강훈',
 '김광규배우',
 '김기방',
 '김기천',
 '김남길',
 '김도윤배우',
 '김동완신화',
 '김동욱배우',
 '김동희',
 '김동희',
 '김명곤',
 '김명민',
 '김명수배우',
 '엘인피니트',
 '김무생',
 '김민규배우',
 '김민기년월',
 '김민석배우',
 '김민수배우',
 '김민식배우',
 '김민재',
 '김민종',
 '김병세',
 '김산호배우',
 '김상중',
 '김상호배우',
 '김선호',
 '김성수배우',
 '김성오',
 '김수로배우',
 '김수현배우',
 '김승우',
 '김시후',
 '김영광배우',
 '김영대배우',
 '김영준배우',
 '김영철배우',
 '김영훈배우',
 '김용건',
 '김윤석',
 '김일우',
 '김재영배우',
 '김재원배우',
 '김정학',
 '김정현',
 '김종구',
 '김주혁',
 '김준',
 '김지석배우',
 '김지훈배우',
 '김진규배우',
 '김진수코미디언',
 '김진우배우',
 '김진엽',
 '김찬우배우',
 '김창완',
 '김형묵',
 '김형민배우',
 '김흥수배우',
 '김희원배우',
 '나인우',
 '나윤찬',
 '남궁민',
 '남궁원',
 '남다름',
 '남주혁',
 '노종현',
 '노주현',
 '노형욱배우',
 '도상우',
 '독고영재',
 '류경수배우',
 '류담',
 '류수영',
 '류승범',
 '류진배우',
 '문성근',
 '문우진',
 '에릭신화',
 '문태유',
 '문지후',
 '박강현',
 '박건우',
 '박광현',
 '박근형',
 '박동빈',
 '박민수배우',


In [19]:
def remove_word(x):
    x = x.rstrip('배우')
    x = x.rstrip('신화')
    x = x.rstrip('년월')
    x = x.rstrip('코미디언')
    x = x.rstrip('가수')
    x = x.rstrip('인피니트')
    x = x.rstrip('멀티엔터테이너')
    x = x.rstrip('룰라')
    
    if x:
        pass
    else:
        x = np.nan
    
    return x
save_df['Name'] = save_df.Name.apply(remove_word)

In [22]:
save_df = save_df.dropna(subset='Name')
save_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 820 entries, 0 to 820
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Name                820 non-null    object
 1   Age                 820 non-null    int32 
 2   activation_content  477 non-null    object
 3   Sex                 820 non-null    object
dtypes: int32(1), object(3)
memory usage: 28.8+ KB


In [23]:
# 2. df 저장
save_df.to_csv('Actor_namuwiki_clean.csv', encoding='utf-8-sig', index=False)