In [1]:
# 기초 전처리
import pandas as pd

# 컬럼 전체 확인 가능하도록 출력 범위 설정
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 10000)

# 불필요한 경고 표시 생략
import warnings
warnings.filterwarnings(action = 'ignore')

# pandas 결과값의 표현 범위 소수점 2자리수로 변경
pd.options.display.float_format = '{:.2f}'.format

# 파일 로드위한 directory 확인 및 현재 경로로 설정
import os
a = os.getcwd()
os.chdir(a)

In [2]:
# 샘플 데이터 load
df = pd.read_csv("서울시공시지가(2020).csv", encoding='cp949', index_col=0)
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 909537 entries, 30 to 30302880
Data columns (total 12 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   고유번호     909537 non-null  float64
 1   법정동코드    909537 non-null  int64  
 2   법정동명     909537 non-null  object 
 3   특수지구분코드  909537 non-null  int64  
 4   특수지구분명   909537 non-null  object 
 5   지번       909537 non-null  object 
 6   기준연도     909537 non-null  int64  
 7   기준월      909537 non-null  int64  
 8   공시지가     909537 non-null  int64  
 9   공시일자     909537 non-null  object 
 10  표준지여부    909537 non-null  object 
 11  데이터기준일자  909537 non-null  object 
dtypes: float64(1), int64(5), object(6)
memory usage: 90.2+ MB
None


Unnamed: 0,고유번호,법정동코드,법정동명,특수지구분코드,특수지구분명,지번,기준연도,기준월,공시지가,공시일자,표준지여부,데이터기준일자
30,1.11101e+18,1111010100,서울특별시 종로구 청운동,1,일반,1,2020,1,4357000,2020-05-29,N,2021-08-03
43,1.11101e+18,1111010100,서울특별시 종로구 청운동,1,일반,01월 01일,2020,1,1392000,2020-05-29,N,2021-08-03
75,1.11101e+18,1111010100,서울특별시 종로구 청운동,1,일반,01월 02일,2020,1,2520000,2020-05-29,N,2021-08-03
107,1.11101e+18,1111010100,서울특별시 종로구 청운동,1,일반,01월 03일,2020,1,4337000,2020-05-29,N,2021-08-03
120,1.11101e+18,1111010100,서울특별시 종로구 청운동,1,일반,01월 04일,2020,1,1554000,2020-05-29,N,2021-08-03


# string 인덱싱 : str[]

- 데이터 형식이 object인 컬럼
- iloc이나 loc 으로 인덱싱 하는 것과 동일한 방식
- **str.find를 접목**해 원하는 문자열만 잘라서 추출할 수 있다.

In [3]:
# 맨처음부터 5글자 추출 
# 
df['법정동명'].str[:5].head()

30     서울특별시
43     서울특별시
75     서울특별시
107    서울특별시
120    서울특별시
Name: 법정동명, dtype: object

## 원하는 문자열 위치 찾아서 slice 하기

In [4]:
# find로 원하는 문자열 위치 찾아서 idx 번호 확인
print(df['법정동명'].str.find('특').head(1))
print(df['법정동명'].str.find('별').head(1))

30    2
Name: 법정동명, dtype: int64
30    3
Name: 법정동명, dtype: int64


In [5]:
df['법정동명'].str[2:4].head()

30     특별
43     특별
75     특별
107    특별
120    특별
Name: 법정동명, dtype: object

# string split : str.split()

## 데이터를 split해서 컬럼으로 나누기

- str.split("") 에서 "" 사이에 split하는 기준이 될 조건을 입력한다.

In [6]:
df[['법정동코드','법정동명']].head(3)

Unnamed: 0,법정동코드,법정동명
30,1111010100,서울특별시 종로구 청운동
43,1111010100,서울특별시 종로구 청운동
75,1111010100,서울특별시 종로구 청운동


In [7]:
df['법정동명'].str.split(" ") # 공백 = 띄어쓰기 기준으로 split

30          [서울특별시, 종로구, 청운동]
43          [서울특별시, 종로구, 청운동]
75          [서울특별시, 종로구, 청운동]
107         [서울특별시, 종로구, 청운동]
120         [서울특별시, 종로구, 청운동]
                  ...        
30302774    [서울특별시, 강동구, 강일동]
30302784    [서울특별시, 강동구, 강일동]
30302815    [서울특별시, 강동구, 강일동]
30302846    [서울특별시, 강동구, 강일동]
30302880    [서울특별시, 강동구, 강일동]
Name: 법정동명, Length: 909537, dtype: object

In [None]:
# df에 바로 컬럼으로 추가하기(1)
# expand=True 이면 split될때마다 하나의 컬럼으로 구분된다.
df['법정동명'].str.split(" ", expand=True).head()

In [None]:
# df에 바로 컬럼으로 추가하기(2)
# split한 Series 형태의 결과를 DataFrame으로 만들기
split = df['법정동명'].str.split(" ").head()
split = split.apply(lambda x : pd.Series(x))
split

In [None]:
# tip. df.stack()으로 데이터 프레임의 행 <-> 열 바꾸기 도 가능
split.stack()

## 한 데이터를 split으로 여러 행으로 나누기

In [None]:
# 예제 용 df 생성
df2 = pd.DataFrame({'foo': ['a,b,c,d,e', 'd,e,f', 'h,i']})
df2

In [None]:
# split을 사용해서 , 기준으로 데이어를 나누기
df2['foo'].str.split(',')

In [None]:
# 동일 결과
df2.foo.str.split(',')

# 시작하는 글자와 일치하는 문자열 찾기 str.startwith()

- boolean을 반환한다.
- 입력한 글자로 시작하면 True / 아니면 False

In [None]:
# 그냥 조건입력만 하면 T / F로만 나온다.
df['법정동명'].str.startswith("서울")

In [None]:
# 실제 데이터를 보려면 
df[df['법정동명'].str.startswith("서울")].head(2)

In [None]:
# 시작글자가 일치하지 않으면 아무것도 출력되지 않는다. 
df[df['법정동명'].str.startswith("종로구")].head(2)

# 끝 글자와 일치하는 문자열 찾기 str.endswith()

- str.startswith()와 동일방식

In [None]:
# 그냥 조건입력만 하면 T / F로만 나온다.
df['법정동명'].str.endswith("구")

In [None]:
# 실제 데이터를 보려면 
df[df['법정동명'].str.endswith("쌍문동")].head(2)

In [None]:
# 끝글자가 일치하지 않으면 아무것도 출력되지 않는다.
df[df['법정동명'].str.endswith("쌍문")].head(2)

# 문자열을 포함하는 데이터 찾기 str.contains()

- 시작과 끝글자말고, 중간에 있는 글자값을 찾고 싶을때 사용

In [None]:
# str.endswith()에서는 일치하는 결과가 없었지만 이번에는 출력이 된다.
df[df['법정동명'].str.contains("쌍문")].head(2)

In [None]:
# 한글자도 가능하다.
df[df['법정동명'].str.contains("특")].head(2)

# 조건에 부합하는 모든 값 찾기 str.findall()

- 정규표현식을 섞어서 문자 + 숫자 등도 찾을 수 있다.

In [None]:
# 지번 컬럼에서 '\w = 숫자' + '일' 인 데이터 찾기
df['지번'].str.findall('\w+일').head()

# 특정 문자의 위치 찾기 str.find() 

- 시작점 (왼쪽) 부터 검색을 시작해서 위치를 반환한다.
- 일치하는 데이터가 없으면 -1을 return한다.

In [None]:
# 법정동명 컬럼에서 ' ' <- 공백을 찾겠다.
df['법정동명'].str.find(' ').head()

# 모든 값이 '서울특별시 ~구 ~동'형태이다.
# 즉 첫번째 ' '는 서울특별시 바로 뒤 인 5번째 idx 값이다.

## 오른쪽부터 찾기 str.rfind()

- 오른쪽부터 검색을 시작한다.
- sub 옵션으로 부분일치도 찾을 수 있다.

In [None]:
# 법정동명 컬럼의 각 row에서 오른쪽부터 검색했을때 '구'가 처음 등장하는 위치(idx)
df['법정동명'].str.rfind('구').head()

# 문자열 대체하기 str.replace()

In [None]:
# 공백(" ")을 '_'로 replace
df['법정동명'].str.replace(" ",'_').head()

# 원하는 문자열 추출하기 str.extract()

- () 내에 패턴을 지정해야 한다.
- 패턴과 일치하는 단어가 없으면 NaN이 출력된다.

In [None]:
# 단일 조건
df['법정동명'].str.extract('(\w*시)').head()

In [None]:
# 중복조건 : '|' 를 통해 중복 조건을 지정할 수 있다.
# 일치 조건이 없다면 NaN이 출력된다.
df['법정동명'].str.extract('(\w*시)|( \w*동)').head()

# 문자열 길이 채우기 str.pad(width=, side=, fillchar='')

- 문자열 길이가 고정되어 특정 문자열 수 만큼 값을 채워줘야 할때 활용한다.
- with로 총 몇개의 문자열이 되야 하는지
- side로 문자열값의 left / right 어느쪽을 채울건지
- fillchar로 어떤걸로 채울건지 지정할 수 있다.

In [None]:
# 각 rows의 문자열 len()한 값이 20이 되도록
# 문자열값의 오른쪽부터 
# '+'를 사용해서 채운다

df['법정동명'].str.pad(width=20, side='right', fillchar='+').head()

## 좌/우 동시에 width만큼 채워넣기 : str.center()

In [None]:
# side를 생략하고, pad대신에 center을 사용하면 양쪽에 지정한 문자열로 width 값이 될때까지 채운다.
df['법정동명'].str.center(width=30, fillchar='+').head()

## 왼쪽부터 0으로 채우기 : str.zfill()

In [None]:
df['법정동명'].str.zfill(width=20).head()

# 공백 제거 strip()

In [None]:
# 예제용 df
df3 = pd.DataFrame({'col1':['abcde  ',' FFFFghij ','abCCe   '],
                    'col2':['   fgHAAij  ',' fghij ','lmnop   ']})
df3

In [None]:
test1 = df3['col1'].str.strip()  # 앞 뒤 공백을 제거
test1.iloc[1]# 확인

In [None]:
test2 = df3['col1'].str.lstrip()  # 앞 공백을 제거
test2.iloc[1]# 확인

In [None]:
test3 = df3['col1'].str.rstrip()  # 뒤 공백을 제거
test3.iloc[1]# 확인

# 대소문자 변경

## 소문자 변경 str.lower()

In [None]:
df3['col1'].str.lower()

## 대문자 변경 str.upper()

In [None]:
df3['col1'].str.upper()

## 소문자 to 대문자 / 대문자 to 소문자 한번에! swapcase()

In [None]:
df3['col1'].str.swapcase()

# Reference

- [꿀벌개발일지](https://ohgyun.com/768)
- [stackoverflow](https://stackoverflow.com/questions/41087619/pandas-merge-how-to-avoid-unnamed-column/41088706)
- [yg's blog](https://yganalyst.github.io/data_handling/memo_9/)