###### 2020-10-13 화요일 / 2020-10-14 수요일

# Series & DataFrame 다루기


   ### 목차

   ##### 1. index 이름으로 값 변경하기
   ##### 2. index 이름을 이용한 연산
   ##### 3. 결측치(NaN) 처리
   ##### 4. DataFrame
   ##### 5. DataFrame 데이터 갱신
   ##### 6. DataFrame row indexing
   ##### 7. 데이터 입출력
   ##### 8. DataFrame 문자열 처리

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
def seriesinfo(s):
    print('value :', s.values)
    print('value type :', type(s.values))
    print('index :', s.index)
    print('index type :', type(s.index))
    print('index + value :\n', s)

## 1. index 이름으로 값 변경하기

    - 실습을 위한 시리즈를 만들어 줍시다.

In [6]:
price_series = pd.Series([4000, 3000, 3500, 2000],
                        index = ['a', 'b', 'c', 'd'])
seriesinfo(price_series)

value : [4000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    4000
b    3000
c    3500
d    2000
dtype: int64


In [11]:
# index의 이름을 지정해서 값을 변경할 수 있다.
price_series['a'] = 5000
seriesinfo(price_series)

value : [5000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    5000
b    3000
c    3500
d    2000
dtype: int64


In [13]:
# index의 번호를 지정해서 값을 변경할 수 있다.
price_series[0] = 4000
seriesinfo(price_series)

value : [4000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    4000
b    3000
c    3500
d    2000
dtype: int64


In [18]:
# index에 이름을 접근해서 값을 추가할 수도 있다.
price_series['e'] = 1000
seriesinfo(price_series)

value : [4000 3000 3500 2000 1000]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    4000
b    3000
c    3500
d    2000
e    1000
dtype: int64


In [19]:
# index의 이름으로 접근해서 원소값을 삭제할 수도 있다.
del price_series['e']
seriesinfo(price_series)

value : [4000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    4000
b    3000
c    3500
d    2000
dtype: int64


In [21]:
set = pd.Series(list({10 ,20, 30, 40, 50}))
seriesinfo(set)

value : [40 10 50 20 30]
value type : <class 'numpy.ndarray'>
index : RangeIndex(start=0, stop=5, step=1)
index type : <class 'pandas.core.indexes.range.RangeIndex'>
index + value :
 0    40
1    10
2    50
3    20
4    30
dtype: int64


## 2. index 이름을 이용한 연산

In [28]:
ser01 = pd.Series([100, 200, 300, 350],
                 index = ['a', 'o', 'k', 'm'])

ser02 = pd.Series([400, 200, 350, 450],
                 index = ['o', 'a', 'h', 'm'])

seriesinfo(ser01)
seriesinfo(ser02)

value : [100 200 300 350]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'o', 'k', 'm'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    100
o    200
k    300
m    350
dtype: int64
value : [400 200 350 450]
value type : <class 'numpy.ndarray'>
index : Index(['o', 'a', 'h', 'm'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 o    400
a    200
h    350
m    450
dtype: int64


##### 두 가지의 np.Series를 연산할 때,
    - 두 np.Series의 index name이 같아야 연산이 수행된다. 만약 동일한 index 이름이 없다면 결측치(NaN) 값으로 나타난다.

In [30]:
# index의 label이 동일한 행만 연산이 수행된다.
ser03 = ser01 + ser02
seriesinfo(ser03)  # index의 label이 일치하지 않는 경우에는 NaN으로 나타난다.

value : [300.  nan  nan 800. 600.]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    300.0
h      NaN
k      NaN
m    800.0
o    600.0
dtype: float64


##### 만약 동일한 index 이름이 없는데도 연산을 수행하고 싶다면..?
    - `+` `/` `*` 와 같은 수식을 이용한 방법말고, `.add`와 같은 함수에 `fill_value`라는 옵션을 지정해주면 된다.
    - 자세한 설명은 코드를 참조해주세요

In [32]:
# NaN 값을 안뜨게 하려면, 함수를 사용해서 처리하면 된다.
ser04 = ser01.add(ser02, fill_value=0)
seriesinfo(ser04)

value : [300. 350. 300. 800. 600.]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    300.0
h    350.0
k    300.0
m    800.0
o    600.0
dtype: float64


## 3. 결측치(NaN) 처리

    - 파이썬에서는 결측치를 NaN으로 표시한다. 그래서 pd.NaN으로 결측치를 지정할 수 있다.

In [22]:
# Null 값을 확인시켜주는 함수 : pd.isnull
pd.isnull(set)

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [25]:
# python에서는 Null 값을 NaN으로 처리한다,
# Null값을 넣기 위해서는 numpy에서 제공하는 np.NaN을 사용한다.

set[0] = np.NaN
seriesinfo(set)

value : [nan 10. 50. 20. 30.]
value type : <class 'numpy.ndarray'>
index : RangeIndex(start=0, stop=5, step=1)
index type : <class 'pandas.core.indexes.range.RangeIndex'>
index + value :
 0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


##### 결측치를 처리하는 함수
    - [객체].fillna('채워넣을값')

In [37]:
ser03.fillna(np.mean(ser03))

a    300.000000
h    566.666667
k    566.666667
m    800.000000
o    600.000000
dtype: float64

##### 결측치를 제거하는 방법
   - `pd.notnull('결측치를 찾을 객체')`를 이용해서 결측치인 index를 제외한다.

In [41]:
# 결측값을 제거하는 방법
exist_index = pd.notnull(ser03)  # pd.isnull() 함수와 비교하세요
seriesinfo(ser03[exist_index])

value : [300. 800. 600.]
value type : <class 'numpy.ndarray'>
index : Index(['a', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :
 a    300.0
m    800.0
o    600.0
dtype: float64


## 4. DataFrame


    - 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다.
    - 행 인덱스 / 열 인덱스 붙일 수 있다.

In [55]:
# 연도에 해당하는 도시별 인구수를 정의한다면?

data = {
    '2020'   : [9910293, 8384050, 2856372, 9583027],
    '2018'   : [4846293, 2816521, 3952185, 2469165],
    '2016'   : [7846293, 1816521, 8952185, 3469165],
    '2014'   : [8346293, 5715521, 3022185, 7469165],
    '지역'   : ['수도권', '경산권', '수도권', '경상권'],
    '증가율' : [0.2343, 0.0434, 0.0944, 0.0034]
}


columns = ['지역', '2014', '2016', '2018', '2020', '증가율']
pop_df = pd.DataFrame(data,
                     index   = ['서울', '부산', '경기', '대구'],
                     columns = columns)
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944
대구,경상권,7469165,3469165,2469165,9583027,0.0034


In [58]:
# 데이터프레임의 칼럼이름을 보고싶을때
pop_df.columns

Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object')

In [59]:
# 데이터프레임의 행 index이름을 보고싶을때
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

    - 데이터프레임의 index이름과 columns이름을 지정할 때

In [72]:
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944
대구,경상권,7469165,3469165,2469165,9583027,0.0034


In [76]:
def dfinfo(df) :
    print('df shape        : {}' .format(df.shape))
    print('df size         : {}' .format(df.size))
    print('df ndim         : {}' .format(df.ndim))
    print('df index        : {}' .format(df.index))
    print('df index type   : {}' .format(type(df.index)))
    print('df columns      : {}' .format(df.columns))
    print('df columns type : {}' .format(type(df.columns)))

In [77]:
dfinfo(pop_df)

df shape        : (4, 6)
df size         : 24
df ndim         : 2
df index        : Index(['서울', '부산', '경기', '대구'], dtype='object', name='도시')
df index type   : <class 'pandas.core.indexes.base.Index'>
df columns      : Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object', name='특성')
df columns type : <class 'pandas.core.indexes.base.Index'>


#### pd.DataFrame 출력
   - 데이터프레임을 출력할때, `print()`함수를 사용하게 되면, 문자 형식으로 출력된다.
   - 그러므로 표 형식으로 출력하고자 할때는 `display()`함수를 사용한다

In [73]:
# print("데이터프레임")으로 하면 그리드 형식으로 프레임이 출력되지 않는다
# 그래서 display() 함수를 사용하면 된다.

display(pop_df)

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944
대구,경상권,7469165,3469165,2469165,9583027,0.0034


##### 실습!

In [313]:
## 실습
# 아무의미 없는 데이터로 데이터프레임을 한번 만들어 보자

from datetime import date, datetime, timedelta

# 열의 개수와 행의 개수가 각각 5개이상이어야 한다
# 열에는 정수, 문자열, 실수, 날짜데이터가 각각 1개 이상 포함되어야 한다.


#### 칼럼 만들기

# 정수 칼럼
random_int = np.random.randint(1, 100, 10)

# 표준정규분포난수 칼럼
random_gaussian = np.random.randn(10)

# 균일분포난수 칼럼
random_uniform = np.random.rand(10)

# 날짜 칼럼
first_day = datetime(2020, 10, 13)
days = [first_day + timedelta(day) for day in range(0, 10)]

# 문자 칼럼
moonja = ['배고파', '뭐먹지', '메뉴', '추천좀', '해주세요', '치킨', '먹고', '싶다', '먹으로', '갈사람?']

#### 데이터 조합
data = {
        '정수'             : random_int,
        '표준정규분포난수' : random_gaussian,
        '균일분포난수'     : random_uniform,
        '문자'             : moonja,
        '날짜'             : days
        }


#### 데이터프레임 만들기
alpha = 'ABCDEFGHIJ'
df = pd.DataFrame(data,
                  columns = ['날짜', '문자', '정수', '표준정규분포난수', '균일분포난수'],
                  index   = [element for element in alpha])
display(df)
dfinfo(df)
display(df.T)

Unnamed: 0,날짜,문자,정수,표준정규분포난수,균일분포난수
A,2020-10-13,배고파,9,0.799992,0.523944
B,2020-10-14,뭐먹지,67,-0.508377,0.800418
C,2020-10-15,메뉴,46,-0.738264,0.497684
D,2020-10-16,추천좀,67,-0.193731,0.977954
E,2020-10-17,해주세요,99,1.684797,0.950934
F,2020-10-18,치킨,77,0.741927,0.970611
G,2020-10-19,먹고,86,-1.071301,0.8847
H,2020-10-20,싶다,32,-0.113964,0.912154
I,2020-10-21,먹으로,82,-2.36002,0.123777
J,2020-10-22,갈사람?,93,-0.226112,0.088913


df shape        : (10, 5)
df size         : 50
df ndim         : 2
df index        : Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')
df index type   : <class 'pandas.core.indexes.base.Index'>
df columns      : Index(['날짜', '문자', '정수', '표준정규분포난수', '균일분포난수'], dtype='object')
df columns type : <class 'pandas.core.indexes.base.Index'>


Unnamed: 0,A,B,C,D,E,F,G,H,I,J
날짜,2020-10-13 00:00:00,2020-10-14 00:00:00,2020-10-15 00:00:00,2020-10-16 00:00:00,2020-10-17 00:00:00,2020-10-18 00:00:00,2020-10-19 00:00:00,2020-10-20 00:00:00,2020-10-21 00:00:00,2020-10-22 00:00:00
문자,배고파,뭐먹지,메뉴,추천좀,해주세요,치킨,먹고,싶다,먹으로,갈사람?
정수,9,67,46,67,99,77,86,32,82,93
표준정규분포난수,0.799992,-0.508377,-0.738264,-0.193731,1.6848,0.741927,-1.0713,-0.113964,-2.36002,-0.226112
균일분포난수,0.523944,0.800418,0.497684,0.977954,0.950934,0.970611,0.8847,0.912154,0.123777,0.0889126


## 5. DataFrame 데이터 갱신
    - 데이터의 삭제, 추가, 변경 등을 배워보자

In [314]:
# 위에서 만들었던 pop_df를 사용해 봅시다.
display(pop_df)

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944
대구,경상권,7469165,3469165,2469165,9583027,0.0034


##### 칼럼(열) 추가

In [315]:
# 칼럼 추가

pop_df['2014-2016 증가율'] = ( ( ( pop_df['2016'] - pop_df['2014'] ) / pop_df['2014'] ) * 100 ).round(2)
display(pop_df)

특성,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343,-5.99
부산,경산권,5715521,1816521,2816521,8384050,0.0434,-68.22
경기,수도권,3022185,8952185,3952185,2856372,0.0944,196.22
대구,경상권,7469165,3469165,2469165,9583027,0.0034,-53.55


##### 칼럼(열) 삭제

In [316]:
# 칼럼 삭제
del pop_df['2014-2016 증가율']

display(pop_df)

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944
대구,경상권,7469165,3469165,2469165,9583027,0.0034


In [130]:
pop_df[ ['지역', '증가율'] ]

특성,지역,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,수도권,0.2343
부산,경산권,0.0434
경기,수도권,0.0944
대구,경상권,0.0034


In [133]:
# 뽑아낸 하나의 칼럼의 type을 Series가 아니라 DataFrame으로 뽑아내고 싶다면?

print(type(pop_df['증가율']))
print(type(pop_df[['증가율']]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [135]:
test_df = pd.DataFrame(np.arange(12).reshape(3, 4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [136]:
test_df[2]

0     2
1     6
2    10
Name: 2, dtype: int32

## 6. DataFrame row indexing
  - 열 indexing의 경우 `dataframe['칼럼이름']` 으로 지정했지만
  - 행 indexing의 경우 `dataframe[ : '칼럼이름']` 으로 항상 슬라이싱( `:` )을 해야 행 indexing이 적용된다.
  - index의 번호뿐만아니라 지정한 이름을 통해서 슬라이싱이 가능하다.

In [147]:
# 지금까지 열 indexing을 다루어 보았다
# 이제 행 indexing을 다루어 보자

display(pop_df.T['서울'])
display(pop_df[:'서울'])
display(pop_df[ '서울' : '경기' ])

특성
지역          수도권
2014    8346293
2016    7846293
2018    4846293
2020    9910293
증가율      0.2343
Name: 서울, dtype: object

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343


특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8346293,7846293,4846293,9910293,0.2343
부산,경산권,5715521,1816521,2816521,8384050,0.0434
경기,수도권,3022185,8952185,3952185,2856372,0.0944


In [169]:
# 서울의 2020년 수치만 뽑아서 출력하라

print('첫번째 방법')
print(pop_df[:'서울']['2020'])

print()
print('줄바꿈==============================================')
print()

print('두번째 방법')
print(pop_df['2020']['서울'])

첫번째 방법
도시
서울    9910293
Name: 2020, dtype: int64


두번째 방법
9910293


##### 실습!

In [239]:
score_data = {
    'kor'  : [80, 90, 70, 30],
    'eng'  : [90, 70, 60, 40],
    'math' : [90, 60, 90, 70]
    
}
columns = ['kor', 'eng', 'math']
index   = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data,
                      index   = index,
                      columns = columns)
display(exec_df)




### 실습
## 위에서 만든 exec_df라는 데이터프레임을 사용해서 다음 문제를 풀어보자

# 모든 학생의 국어와 영어 점수만을 데이터프레임으로 만들어라
display(exec_df[[ 'kor', 'eng' ]])

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)

# 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산하라.
exec_df['eng']['최호진'] = 90
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)

# 김지은 학생의 점수를 데이터프레임으로 출력하라
display(exec_df[:'김지은'])

# 김정수 학생의 점수를 시리즈로 출력하라
display(exec_df.T['김정수'])

# 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균점수도 다시 계산하라
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100

exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
exec_df

Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,40,70,46.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667


kor        70.000000
eng        60.000000
math       90.000000
average    73.333333
Name: 김정수, dtype: float64

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


## 7. 데이터 입출력

##### 매직명령어 : %%
    - 아래의 코드는 csv파일을 매직명령어를 통해 만들어보는 작업 입니다.

In [252]:
%%writefile sample01.csv
co101, col02, col03
1,1,1
2,2,2
3,3,3

Writing sample01.csv


##### 데이터 불러오기
   - `pd.read_csv` 함수를 사용하여 실습데이터를 불러와 봅시다.

In [317]:
court_df = pd.read_csv('./실습데이터/court_code.txt', sep='\t', encoding='CP949')
court_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [318]:
dfinfo(court_df)

df shape        : (46180, 3)
df size         : 138540
df ndim         : 2
df index        : RangeIndex(start=0, stop=46180, step=1)
df index type   : <class 'pandas.core.indexes.range.RangeIndex'>
df columns      : Index(['법정동코드', '법정동명', '폐지여부'], dtype='object')
df columns type : <class 'pandas.core.indexes.base.Index'>


In [319]:
court_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [320]:
court_df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46179,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [321]:
court_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   법정동코드   46180 non-null  int64 
 1   법정동명    46180 non-null  object
 2   폐지여부    46180 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


## 8. DataFrame 문자열 처리

   - 문자열을 처리하기 위해서는 `[시리즈명].str`을 사용해서 처리한다.
   - 실습은 위에서 불러온 `court_df` 데이터 프레임을 사용한다.

In [268]:
# 폐지여부가 존재인 것들만 데이터프레임으로 만든다.
subset_df = court_df[ court_df['폐지여부'] == '존재' ]
display(subset_df)
subset_df.info()
subset_df.head()

### 판다스에서 문자열 전처리
## > 반드시 str을 붙여야 문자열 전처리가 가능하다.
subset_df['법정동명']


Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   법정동코드   20544 non-null  int64 
 1   법정동명    20544 non-null  object
 2   폐지여부    20544 non-null  object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


##### 임의로 문자의 자리수를 지정하여 문자를 출력할 수 있다.

In [272]:
###### 데이터 프레임 문자열 처리!!

# 법정동명 앞 5자리까지만 추출
subset_df['법정동명'].str[:5]


# 법정동명 마지막 한자리만 추출
subset_df['법정동명'].str[-1]



0        시
1        구
2        동
3        동
4        동
        ..
46175    리
46176    리
46177    리
46178    리
46179    리
Name: 법정동명, Length: 20544, dtype: object

##### `[시리즈명].str.[함수]` 형태를 사용하여 문자열을 더욱 다양하게 처리할 수 있다.

##### `[시리즈명].str.split()`
    - 문자열 나누기

In [275]:
# [시리즈명].str 을 좀더 알아볼까요?


# 하나의 시리즈에 포함된 문자열을 공백으로 나눌 수 있다.
display(subset_df['법정동명'].str.split(' '))


# 하나의 시리즈에 포함된 문자열을 공백으로 나누어 데이터프레임으로 만들수있다.
display(subset_df['법정동명'].str.split(' ', expand=True))

0                          [서울특별시]
1                     [서울특별시, 종로구]
2                [서울특별시, 종로구, 청운동]
3                [서울특별시, 종로구, 신교동]
4                [서울특별시, 종로구, 궁정동]
                   ...            
46175    [제주특별자치도, 서귀포시, 표선면, 하천리]
46176    [제주특별자치도, 서귀포시, 표선면, 성읍리]
46177    [제주특별자치도, 서귀포시, 표선면, 가시리]
46178    [제주특별자치도, 서귀포시, 표선면, 세화리]
46179    [제주특별자치도, 서귀포시, 표선면, 토산리]
Name: 법정동명, Length: 20544, dtype: object

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,
...,...,...,...,...,...
46175,제주특별자치도,서귀포시,표선면,하천리,
46176,제주특별자치도,서귀포시,표선면,성읍리,
46177,제주특별자치도,서귀포시,표선면,가시리,
46178,제주특별자치도,서귀포시,표선면,세화리,


##### 특정글자로 시작하는 데이터만 추출하는 방법 : startswith()

In [284]:
# 문제 : 서울로 시작하는 데이터만 필터링 한다면?
seoul_index = subset_df['법정동명'].str.startswith('서울')
subset_df[ seoul_index ]

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
1107,1174010600,서울특별시 강동구 둔촌동,존재
1108,1174010700,서울특별시 강동구 암사동,존재
1109,1174010800,서울특별시 강동구 성내동,존재
1110,1174010900,서울특별시 강동구 천호동,존재


##### 특정글자로 끝나는 데이터만 추출하는 방법 : endswith()

In [285]:
## 문제 : 법정동명 칼럼에서 '동'으로 끝나는 데이터만 필터링 한다면?
dong_index = subset_df['법정동명'].str.endswith('동')
subset_df[ dong_index ]

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
...,...,...,...
46119,5013011800,제주특별자치도 서귀포시 하원동,존재
46120,5013011900,제주특별자치도 서귀포시 색달동,존재
46121,5013012000,제주특별자치도 서귀포시 상예동,존재
46122,5013012100,제주특별자치도 서귀포시 하예동,존재


##### 법정동명 중 특정 글자를 포함하는 데이터만 필터링 : str.contains()

In [287]:
# 강서구를 포함하는 데이터 필터링

gangseogu_index = subset_df['법정동명'].str.contains('강서구')
subset_df[ gangseogu_index ]

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재
744,1150010500,서울특별시 강서구 마곡동,존재
745,1150010600,서울특별시 강서구 내발산동,존재
746,1150010700,서울특별시 강서구 외발산동,존재
747,1150010800,서울특별시 강서구 공항동,존재
748,1150010900,서울특별시 강서구 방화동,존재


##### '법정동명'에서 공백을 다른 문자(__)로 대체하고 싶다면 : str.replace()

In [322]:
subset_df['법정동명'].str.replace(' ', '_')

0                       서울특별시
1                   서울특별시_종로구
2               서울특별시_종로구_청운동
3               서울특별시_종로구_신교동
4               서울특별시_종로구_궁정동
                 ...         
46175    제주특별자치도_서귀포시_표선면_하천리
46176    제주특별자치도_서귀포시_표선면_성읍리
46177    제주특별자치도_서귀포시_표선면_가시리
46178    제주특별자치도_서귀포시_표선면_세화리
46179    제주특별자치도_서귀포시_표선면_토산리
Name: 법정동명, Length: 20544, dtype: object

In [308]:
## 공백이 들어있는 경우 : 공백제거 및 대소문자 처리

empty_df = pd.DataFrame({
    'col01' : ['abcd    ', '   FFFght   ', 'abCCe    '],
    'col02' : ['aaDDD', 'fhhtu', 'sdfdsa']
})

empty_df

Unnamed: 0,col01,col02
0,abcd,aaDDD
1,FFFght,fhhtu
2,abCCe,sdfdsa


### 공백제거 함수들
##### str.strip()   :  왼쪽, 오른쪽 공백을 제거
##### str.lstrip()  :  왼쪽 공백을 제거
##### str.rstrip()  :  오른쪽 공백을 제거

In [309]:
display( empty_df['col01'].str.rstrip()[1] )
display( empty_df['col01'].str.lstrip()[1] )
display( empty_df['col01'].str.strip()[1] )

'   FFFght'

'FFFght   '

'FFFght'

### 대소문자 변경 함수들
##### str.lower()      :  대문자를 소문자로
##### str.upper()      :  소문자를 대문자로
##### str.swapcase()   :  대문자는 소문자, 소문자는 대문자로

In [311]:
display( empty_df['col02'].str.lower()[0] )
display( empty_df['col02'].str.upper()[0] )
display( empty_df['col02'].str.swapcase()[0] )

'aaddd'

'AADDD'

'AAddd'