## Pandas
- Pandas 패키지에는 데이터를 다루기 위한 Series 와 DataFrame 클래스를 제공한다
- 분석을 위한 전처리

In [58]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

print (np.__version__)
print (pd.__version__)

1.19.2
1.1.3


### Series 클래스
- Numpy 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.
- 데이터 자체는 값(value)라고 한다.
- 시리즈(Series) = 인덱스(index) + 값(value)

In [59]:
# vector

ary = np.array([1,2,3,4,'jslim'], dtype=np.object)
print (ary)
print (ary.dtype)

[1 2 3 4 'jslim']
object


In [60]:
# series
ary = pd.Series([1,2,3,4,'jslim'], dtype=np.object)
print (ary)
print (ary.values)
print (type(ary.values))
print (ary.index)
print (type(ary.index))

0        1
1        2
2        3
3        4
4    jslim
dtype: object
[1 2 3 4 'jslim']
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [61]:
def seriesinfo(ary):
    print ('index + value : \n', ary)
    print ('value : ', ary.values)
    print ('value type : ', type(ary.values))
    print ('index : ', ary.index)
    print ('index type : ', type(ary.index))

- 인덱스의 라벨은 정수, 문자, 날짜, 시간

In [62]:
ary = pd.Series([1,2,3,4,5],
                dtype=np.int32,
               index = ['강남','서초','방배','동작','신도림'])

In [63]:
seriesinfo(ary)

index + value : 
 강남     1
서초     2
방배     3
동작     4
신도림    5
dtype: int32
value :  [1 2 3 4 5]
value type :  <class 'numpy.ndarray'>
index :  Index(['강남', '서초', '방배', '동작', '신도림'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [64]:
ary.index.name = '구별'

In [65]:
seriesinfo(ary)

index + value : 
 구별
강남     1
서초     2
방배     3
동작     4
신도림    5
dtype: int32
value :  [1 2 3 4 5]
value type :  <class 'numpy.ndarray'>
index :  Index(['강남', '서초', '방배', '동작', '신도림'], dtype='object', name='구별')
index type :  <class 'pandas.core.indexes.base.Index'>


In [66]:
ary['서초']

2

In [67]:
ary[['서초','강남']]

구별
서초    2
강남    1
dtype: int32

In [68]:
for idx, value in ary.items() :
    print ('idx -> {}, value -> {}'.format(idx,value))

idx -> 강남, value -> 1
idx -> 서초, value -> 2
idx -> 방배, value -> 3
idx -> 동작, value -> 4
idx -> 신도림, value -> 5


In [69]:
for idx in ary.keys() :
    print ('idx -> {}'.format(idx))

idx -> 강남
idx -> 서초
idx -> 방배
idx -> 동작
idx -> 신도림


In [70]:
for value in ary.values() :
    print ('v -> {}'.format(value))

TypeError: 'numpy.ndarray' object is not callable

In [71]:
ary = pd.Series(range(10,21))
seriesinfo(ary)

index + value : 
 0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64
value :  [10 11 12 13 14 15 16 17 18 19 20]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=11, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>


In [72]:
ary = pd.Series({'c' : 1, 'b' : 5, 'a': -8, 'k': 10}, dtype = np.float64)
seriesinfo(ary)

index + value : 
 c     1.0
b     5.0
a    -8.0
k    10.0
dtype: float64
value :  [ 1.  5. -8. 10.]
value type :  <class 'numpy.ndarray'>
index :  Index(['c', 'b', 'a', 'k'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [73]:
ary * 10

c     10.0
b     50.0
a    -80.0
k    100.0
dtype: float64

In [74]:
- fancy indexing & boolean indexing

SyntaxError: invalid syntax (<ipython-input-74-a5e7aba6b688>, line 1)

In [75]:
print ('fancy [0,2] indexing {}'.format(ary[[0,2]]))

fancy [0,2] indexing c    1.0
a   -8.0
dtype: float64


In [76]:
# 2의 배수인 것
print ('boolean ary%2 = 0 indexing {}'.format(ary[ary%2 == 0]))

boolean ary%2 = 0 indexing a    -8.0
k    10.0
dtype: float64


In [77]:
from datetime import date, datetime, timedelta
from dateutil.parser import parse
strDay = datetime(2021, 2, 25)
print(strDay + timedelta(days=1))

2021-02-26 00:00:00


In [78]:
# 평균이 50이고 편차 5인 정규분포 데이터를 만들고 싶다면?

fac01 = pd.Series( [int(x) for x in np.random.normal(50, 5, (10,))],
               index = [ strDay + timedelta(days=day) for day in range(10)] )
seriesinfo(fac01)

index + value : 
 2021-02-25    53
2021-02-26    51
2021-02-27    50
2021-02-28    54
2021-03-01    52
2021-03-02    42
2021-03-03    55
2021-03-04    50
2021-03-05    46
2021-03-06    46
dtype: int64
value :  [53 51 50 54 52 42 55 50 46 46]
value type :  <class 'numpy.ndarray'>
index :  DatetimeIndex(['2021-02-25', '2021-02-26', '2021-02-27', '2021-02-28',
               '2021-03-01', '2021-03-02', '2021-03-03', '2021-03-04',
               '2021-03-05', '2021-03-06'],
              dtype='datetime64[ns]', freq=None)
index type :  <class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [79]:
# 평균이 70이고 편차 8인 정규분포 데이터를 오늘 날짜로 부터 10일간 만들고싶다면?

In [80]:
fac02 = pd.Series( [int(x) for x in np.random.normal(70, 8, (10,))],
               index = [ strDay + timedelta(days=day) for day in range(10)] )
seriesinfo(fac02)

index + value : 
 2021-02-25    73
2021-02-26    84
2021-02-27    64
2021-02-28    72
2021-03-01    59
2021-03-02    79
2021-03-03    65
2021-03-04    79
2021-03-05    68
2021-03-06    67
dtype: int64
value :  [73 84 64 72 59 79 65 79 68 67]
value type :  <class 'numpy.ndarray'>
index :  DatetimeIndex(['2021-02-25', '2021-02-26', '2021-02-27', '2021-02-28',
               '2021-03-01', '2021-03-02', '2021-03-03', '2021-03-04',
               '2021-03-05', '2021-03-06'],
              dtype='datetime64[ns]', freq=None)
index type :  <class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [81]:
fac01 + fac02

2021-02-25    126
2021-02-26    135
2021-02-27    114
2021-02-28    126
2021-03-01    111
2021-03-02    121
2021-03-03    120
2021-03-04    129
2021-03-05    114
2021-03-06    113
dtype: int64

In [82]:
for idx in fac01.index :
    print(idx)

2021-02-25 00:00:00
2021-02-26 00:00:00
2021-02-27 00:00:00
2021-02-28 00:00:00
2021-03-01 00:00:00
2021-03-02 00:00:00
2021-03-03 00:00:00
2021-03-04 00:00:00
2021-03-05 00:00:00
2021-03-06 00:00:00


- 시리즈 인덱싱

In [83]:
fac01

2021-02-25    53
2021-02-26    51
2021-02-27    50
2021-02-28    54
2021-03-01    52
2021-03-02    42
2021-03-03    55
2021-03-04    50
2021-03-05    46
2021-03-06    46
dtype: int64

In [84]:
fac01.index

DatetimeIndex(['2021-02-25', '2021-02-26', '2021-02-27', '2021-02-28',
               '2021-03-01', '2021-03-02', '2021-03-03', '2021-03-04',
               '2021-03-05', '2021-03-06'],
              dtype='datetime64[ns]', freq=None)

In [85]:
fac01[ datetime.strptime('2021-02-26', '%Y-%m-%d') ]

51

In [86]:
price_series = pd.Series([4000,3000,3500,2000],
                        index = ['a','b','c','d'])
seriesinfo(price_series)

index + value : 
 a    4000
b    3000
c    3500
d    2000
dtype: int64
value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [87]:
price_series['a'] = 5000

In [88]:
seriesinfo(price_series)

index + value : 
 a    5000
b    3000
c    3500
d    2000
dtype: int64
value :  [5000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [89]:
price_series['e'] = 1000
seriesinfo(price_series)

index + value : 
 a    5000
b    3000
c    3500
d    2000
e    1000
dtype: int64
value :  [5000 3000 3500 2000 1000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [90]:
seriesinfo(price_series)

index + value : 
 a    5000
b    3000
c    3500
d    2000
e    1000
dtype: int64
value :  [5000 3000 3500 2000 1000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [91]:
del price_series['e']
seriesinfo(price_series)

index + value : 
 a    5000
b    3000
c    3500
d    2000
dtype: int64
value :  [5000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [92]:
seriesinfo(price_series)

index + value : 
 a    5000
b    3000
c    3500
d    2000
dtype: int64
value :  [5000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [93]:
price_series['e'] = np.NaN
seriesinfo(price_series)

index + value : 
 a    5000.0
b    3000.0
c    3500.0
d    2000.0
e       NaN
dtype: float64
value :  [5000. 3000. 3500. 2000.   nan]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [94]:
pd.isnull(price_series)

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [95]:
ser01 = pd.Series ([100, 200, 300, 400],
                  index = ['a', 'o', 'k', 'm'])

ser02 = pd.Series ([500, 600, 700, 800],
                  index = ['o', 'a', 'h', 'm'])



In [96]:
ser03 = ser01 + ser02
seriesinfo(ser03)

index + value : 
 a     700.0
h       NaN
k       NaN
m    1200.0
o     700.0
dtype: float64
value :  [ 700.   nan   nan 1200.  700.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [97]:
ser04 = ser01.add(ser02, fill_value=0)
seriesinfo(ser04)

index + value : 
 a     700.0
h     700.0
k     300.0
m    1200.0
o     700.0
dtype: float64
value :  [ 700.  700.  300. 1200.  700.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [98]:
zser = ser03.fillna(0)
seriesinfo(zser)

index + value : 
 a     700.0
h       0.0
k       0.0
m    1200.0
o     700.0
dtype: float64
value :  [ 700.    0.    0. 1200.  700.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [99]:
zser = ser03.fillna(ser03.mean())
seriesinfo(zser)

index + value : 
 a     700.000000
h     866.666667
k     866.666667
m    1200.000000
o     700.000000
dtype: float64
value :  [ 700.          866.66666667  866.66666667 1200.          700.        ]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>


In [100]:
tuple_ser = pd.Series((10,20,30,40))
seriesinfo(tuple_ser)

index + value : 
 0    10
1    20
2    30
3    40
dtype: int64
value :  [10 20 30 40]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=4, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>


In [101]:
set_ser = pd.Series(list({10,20,30,40}))
seriesinfo(set_ser)

index + value : 
 0    40
1    10
2    20
3    30
dtype: int64
value :  [40 10 20 30]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=4, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>


### DataFrame

In [102]:
data = {'Name' : ['서은상', '이중헌', '최유숙', '박우환', '박현수'],
        'Birth' :[2000, 2001, 2002, 2003, 2004]}
userDF = pd.DataFrame(data)

In [103]:
display (userDF)

Unnamed: 0,Name,Birth
0,서은상,2000
1,이중헌,2001
2,최유숙,2002
3,박우환,2003
4,박현수,2004


In [104]:
userDF.shape

(5, 2)

In [105]:
userDF.size

10

In [106]:
userDF.ndim

2

In [107]:
userDF.index

RangeIndex(start=0, stop=5, step=1)

In [108]:
userDF.columns

Index(['Name', 'Birth'], dtype='object')

In [109]:
def frameinfo(df) :
    print('shape : {}'.format(df.shape))
    print('size : {}'.format(df.size))
    print('ndim : {}'.format(df.ndim))
    print('index : {}'.format(df.index))
    print('index type : {}'.format(type(df.index)))
    print('columns : {}'.format(df.columns))
    print('columns type : {}'.format(type(df.columns)))

In [110]:
print (userDF.values)
print (type(userDF.values))

[['서은상' 2000]
 ['이중헌' 2001]
 ['최유숙' 2002]
 ['박우환' 2003]
 ['박현수' 2004]]
<class 'numpy.ndarray'>


In [111]:
data = {
    "2021" : [9910293, 8384050, 2938485, 1203948],
    "2018" : [8910293, 7384050, 5938485, 3203948],
    "2016" : [7910293, 5384050, 7938485, 6203948],
    "2014" : [5910293, 3384050, 4938485, 4203948],
    "지역" : ['수도권' , '경상권' , '수도권' , '경상권'],
    "증가율" : [0.2343 , 0.0434 , 0.0944 , 0.0034]
}

columns = ["지역", "2014", "2016", "2018", "2021", "증가율"]

popDF = pd.DataFrame(data,
                     index = ['서울', '부산', '경기', '대구'],
                    columns = columns)

In [112]:
popDF 

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [113]:
frameinfo(popDF)

shape : (4, 6)
size : 24
ndim : 2
index : Index(['서울', '부산', '경기', '대구'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
columns : Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object')
columns type : <class 'pandas.core.indexes.base.Index'>


In [114]:
popDF.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [51]:
popDF.columns

Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object')

In [53]:
popDF.index.name = 'city'
popDF.columns.name = 'feature'

In [54]:
popDF

feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [55]:
popDF.T

city,서울,부산,경기,대구
feature,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2014,5910293,3384050,4938485,4203948
2016,7910293,5384050,7938485,6203948
2018,8910293,7384050,5938485,3203948
2021,9910293,8384050,2938485,1203948
증가율,0.2343,0.0434,0.0944,0.0034


### 여러분 스스로 다음 조건을 만족하는 임의의 데이터프레임을 만들어보자
- 열의 갯수와 행의 갯수가 각각 5개 이상 이여야 한다.
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다.

In [115]:
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [117]:
# 정수 컬럼
random_int = np.random.randint(1,100,10)
random_int

array([73, 62, 61,  9, 19, 88, 85, 11, 36, 19])

In [122]:
# 실수 컬럼
random_gaussian = np.random.randn(10)
random_gaussian

array([ 0.4224758 , -0.91020319, -0.54749723, -2.06385837, -0.50371612,
        0.76559719, -0.37680131, -1.82568966,  0.40592394,  0.04249879])

In [123]:
# 실수 컬럼
random_uniform = np.random.rand(10)
random_uniform

array([0.03415878, 0.38948493, 0.73400211, 0.37410901, 0.39998396,
       0.50382572, 0.15167021, 0.53333772, 0.91250133, 0.1119106 ])

In [126]:
# 날짜 컬럼
startDay = datetime(2021, 2, 25)
years = [ startDay + timedelta(day) for day in range(0, 10)]
years

[datetime.datetime(2021, 2, 25, 0, 0),
 datetime.datetime(2021, 2, 26, 0, 0),
 datetime.datetime(2021, 2, 27, 0, 0),
 datetime.datetime(2021, 2, 28, 0, 0),
 datetime.datetime(2021, 3, 1, 0, 0),
 datetime.datetime(2021, 3, 2, 0, 0),
 datetime.datetime(2021, 3, 3, 0, 0),
 datetime.datetime(2021, 3, 4, 0, 0),
 datetime.datetime(2021, 3, 5, 0, 0),
 datetime.datetime(2021, 3, 6, 0, 0)]

In [136]:
# 문자컬럼
moonja = ['배부르다', '뭐먹지', '메뉴', '추천', '치킨',
          '오메가', '케바케', '알로에', '홍삼', '여사친']
moonja

['배부르다', '뭐먹지', '메뉴', '추천', '치킨', '오메가', '케바케', '알로에', '홍삼', '여사친']

In [137]:
data = {
    '정수' : random_int,
    '실수01' : random_gaussian,
    '실수02' : random_uniform,
    '문자'   : moonja,
    '날짜'   : years
}

testDF = pd.DataFrame(data)

In [138]:
testDF

Unnamed: 0,정수,실수01,실수02,문자,날짜
0,73,0.422476,0.034159,배부르다,2021-02-25
1,62,-0.910203,0.389485,뭐먹지,2021-02-26
2,61,-0.547497,0.734002,메뉴,2021-02-27
3,9,-2.063858,0.374109,추천,2021-02-28
4,19,-0.503716,0.399984,치킨,2021-03-01
5,88,0.765597,0.503826,오메가,2021-03-02
6,85,-0.376801,0.15167,케바케,2021-03-03
7,11,-1.82569,0.533338,알로에,2021-03-04
8,36,0.405924,0.912501,홍삼,2021-03-05
9,19,0.042499,0.111911,여사친,2021-03-06


In [139]:
popDF

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [141]:
popDF['2016']

서울    7910293
부산    5384050
경기    7938485
대구    6203948
Name: 2016, dtype: int64

In [142]:
popDF['2014']

서울    5910293
부산    3384050
경기    4938485
대구    4203948
Name: 2014, dtype: int64

In [146]:
# 새로운 컬럼(피처) 추가
popDF['2014~2016 증가율'] = ( (popDF['2016'] - popDF['2014']) / popDF['2014'] * 100).round(2)

In [147]:
popDF

Unnamed: 0,지역,2014,2016,2018,2021,증가율,2014~2016 증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343,33.84
부산,경상권,3384050,5384050,7384050,8384050,0.0434,59.1
경기,수도권,4938485,7938485,5938485,2938485,0.0944,60.75
대구,경상권,4203948,6203948,3203948,1203948,0.0034,47.57


In [148]:
del popDF['2014~2016 증가율']

In [149]:
popDF

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [153]:
popDF['지역'].values

array(['수도권', '경상권', '수도권', '경상권'], dtype=object)

In [154]:
type(popDF['지역'].values)

numpy.ndarray

In [155]:
type(popDF['지역'])

pandas.core.series.Series

In [156]:
popDF['지역']

서울    수도권
부산    경상권
경기    수도권
대구    경상권
Name: 지역, dtype: object

In [158]:
popDF[['지역', '증가율']]

Unnamed: 0,지역,증가율
서울,수도권,0.2343
부산,경상권,0.0434
경기,수도권,0.0944
대구,경상권,0.0034


In [159]:
type (popDF[['지역', '증가율']])

pandas.core.frame.DataFrame

- 행(row) indexing
- 항상 슬라이싱을 해야한다
- 배열 인덱스, 라벨 인덱스 사용이 가능하다

In [161]:
popDF

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [169]:
display(popDF[: 1]) #배열 인덱싱

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343


In [167]:
display(popDF[: '서울']) #라벨 인덱싱

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343


In [174]:
display(popDF[0 : 3]) #배열 인덱싱

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944


In [175]:
display(popDF['서울': '경기']) #라벨 인덱싱

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944


- 개별 인덱싱(특정행, 틀정 컬럼)

In [176]:
popDF

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


In [177]:
popDF.loc["서울", "2021"]

9910293

In [181]:
popDF['2021'][:'서울']

9910293

In [178]:
type(popDF['2021'])

pandas.core.series.Series

In [182]:
type(popDF['2021']['서울'])

numpy.int64

In [1]:
type(popDF['2021'][:'서울'])

NameError: name 'popDF' is not defined

In [187]:
popDF['2021'][['서울','대구']]

서울    9910293
대구    1203948
Name: 2021, dtype: int64

In [188]:
type(popDF['2021'][['서울','대구']])

pandas.core.series.Series

In [189]:
score_data = {
    'kor'  : [80,90,70,30],
    'eng'  : [90,70,60,40],
    'math' : [90,60,90,70] 
}
columns = ['kor','eng','math']
index   = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data , index=index , columns=columns)
exec_df


Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


In [190]:
# 위 데이터를 보고 모든 학생의 수학 점수를 시리즈로 출력하라
# 모든 학생의 국어와 영어 점수를 데이터 프레임으로  만들어라
# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라
# 최호진 학생의 영어 점수를 90점으로 수정하고 평균 점수도 다시 계산하라
# 김지은 학생의 점수를 데이터 프레임으로 만들어라
# 김정수 학생의 점수를 시리즈로 출력하라
# 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균 점수도 다시 계산하라

In [196]:
#type(popDF['2021'][['서울','대구']])

exec_df['math']

pandas.core.series.Series

In [193]:
type(exec_df['math'])

pandas.core.series.Series

In [195]:
exec_df[['kor','eng']]

Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


In [197]:
type(exec_df[['kor','eng']])

pandas.core.frame.DataFrame

In [206]:
# 새로운 컬럼(피처) 추가
# popDF['2014~2016 증가율'] = ( (popDF['2016'] - popDF['2014']) / popDF['2014'] * 100).round(2)

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라

exec_df['avg'] = np.mean(exec_df[['kor','eng','math']].T).round(2)
exec_df

Unnamed: 0,kor,eng,math,avg
김지은,80,90,90,86.67
황인범,90,70,60,73.33
김정수,70,60,90,73.33
최호진,30,40,70,46.67


### pandas 문자함수
- 함수앞에 str

In [209]:
testDF.head()

Unnamed: 0,정수,실수01,실수02,문자,날짜
0,73,0.422476,0.034159,배부르다,2021-02-25
1,62,-0.910203,0.389485,뭐먹지,2021-02-26
2,61,-0.547497,0.734002,메뉴,2021-02-27
3,9,-2.063858,0.374109,추천,2021-02-28
4,19,-0.503716,0.399984,치킨,2021-03-01


In [210]:
testDF.tail()

Unnamed: 0,정수,실수01,실수02,문자,날짜
5,88,0.765597,0.503826,오메가,2021-03-02
6,85,-0.376801,0.15167,케바케,2021-03-03
7,11,-1.82569,0.533338,알로에,2021-03-04
8,36,0.405924,0.912501,홍삼,2021-03-05
9,19,0.042499,0.111911,여사친,2021-03-06


In [214]:
courtDF = pd.read_csv('./data/court_code.txt', sep='\t', encoding='cp949')
courtDF.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [219]:
court_subset_df = courtDF[courtDF['폐지여부'] == '존재']
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [220]:
court_subset_df = courtDF[courtDF['폐지여부'] == '폐지']
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
89,1111090100,서울특별시 종로구 창신1동,폐지
90,1111090200,서울특별시 종로구 창신2동,폐지
91,1111090300,서울특별시 종로구 창신3동,폐지
92,1111090400,서울특별시 종로구 숭인1동,폐지
93,1111090500,서울특별시 종로구 숭인2동,폐지
...,...,...,...
45962,4972032025,제주도 남제주군 표선면 세화리,폐지
45963,4972032026,제주도 남제주군 표선면 토산리,폐지
46025,5011025305,제주특별자치도 제주시 애월읍 귀일리,폐지
46026,5011025306,제주특별자치도 제주시 애월읍 어도리,폐지


In [221]:
courtDF.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [226]:
court_subset_df = courtDF[courtDF['법정동명'].str[:5] == '서울특별시']
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
1107,1174010600,서울특별시 강동구 둔촌동,존재
1108,1174010700,서울특별시 강동구 암사동,존재
1109,1174010800,서울특별시 강동구 성내동,존재
1110,1174010900,서울특별시 강동구 천호동,존재


In [227]:
court_subset_df = courtDF['법정동명'].str[-1]
court_subset_df

0        시
1        구
2        동
3        동
4        동
        ..
46175    리
46176    리
46177    리
46178    리
46179    리
Name: 법정동명, Length: 46180, dtype: object

- 분할 str.split()

In [231]:
court_subset_df = courtDF['법정동명'].str.split(" ")
court_subset_df

0                          [서울특별시]
1                     [서울특별시, 종로구]
2                [서울특별시, 종로구, 청운동]
3                [서울특별시, 종로구, 신교동]
4                [서울특별시, 종로구, 궁정동]
                   ...            
46175    [제주특별자치도, 서귀포시, 표선면, 하천리]
46176    [제주특별자치도, 서귀포시, 표선면, 성읍리]
46177    [제주특별자치도, 서귀포시, 표선면, 가시리]
46178    [제주특별자치도, 서귀포시, 표선면, 세화리]
46179    [제주특별자치도, 서귀포시, 표선면, 토산리]
Name: 법정동명, Length: 46180, dtype: object

In [232]:
type(court_subset_df)

pandas.core.series.Series

In [233]:
court_subset_df = courtDF['법정동명'].str.split(" ", expand = True)
court_subset_df

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,
...,...,...,...,...,...
46175,제주특별자치도,서귀포시,표선면,하천리,
46176,제주특별자치도,서귀포시,표선면,성읍리,
46177,제주특별자치도,서귀포시,표선면,가시리,
46178,제주특별자치도,서귀포시,표선면,세화리,


- str.startwith()

In [239]:
court_subset_df = courtDF [ courtDF['법정동명'].str.startswith('제주')]
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
45607,4900000000,제주도,폐지
45608,4911000000,제주도 제주시,폐지
45609,4911010100,제주도 제주시 일도일동,폐지
45610,4911010200,제주도 제주시 일도이동,폐지
45611,4911010300,제주도 제주시 이도일동,폐지
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


- str.startswith()
- str.endswith()
- str.contains()

In [238]:
court_subset_df = courtDF [ courtDF['법정동명'].str.endswith('시')]
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1112,2100000000,부산직할시,폐지
1566,2200000000,대구직할시,폐지
1900,2300000000,인천직할시,폐지
2123,2400000000,광주직할시,폐지
...,...,...,...
42476,4833000000,경상남도 양산시,존재
45608,4911000000,제주도 제주시,폐지
45656,4913000000,제주도 서귀포시,폐지
45965,5011000000,제주특별자치도 제주시,존재


In [240]:
court_subset_df = courtDF [ courtDF['법정동명'].str.contains('강서') &  courtDF['법정동명'].str.contains('부산')]
court_subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
1541,2144000000,부산직할시 강서구,폐지
1542,2144010100,부산직할시 강서구 대저일동,폐지
1543,2144010200,부산직할시 강서구 대저이동,폐지
1544,2144010300,부산직할시 강서구 강동동,폐지
1545,2144010400,부산직할시 강서구 명지동,폐지
1546,2144010500,부산직할시 강서구 죽림동,폐지
1547,2144010600,부산직할시 강서구 식만동,폐지
1548,2144010700,부산직할시 강서구 죽동동,폐지
1549,2144010800,부산직할시 강서구 봉림동,폐지
1550,2144010900,부산직할시 강서구 송정동,폐지


In [245]:
court_subset_df = courtDF['법정동명'].str.replace(' ','-')
court_subset_df

0                       서울특별시
1                   서울특별시-종로구
2               서울특별시-종로구-청운동
3               서울특별시-종로구-신교동
4               서울특별시-종로구-궁정동
                 ...         
46175    제주특별자치도-서귀포시-표선면-하천리
46176    제주특별자치도-서귀포시-표선면-성읍리
46177    제주특별자치도-서귀포시-표선면-가시리
46178    제주특별자치도-서귀포시-표선면-세화리
46179    제주특별자치도-서귀포시-표선면-토산리
Name: 법정동명, Length: 46180, dtype: object

- str.strip()
- str.lstrip()
- str.rstrip()
- str.lower()
- str.upper()
- str.swapcase()

In [246]:
emptyDF = pd.DataFrame({
    'col01' : ['abcd   ' , ' FFFght '  , 'abCCe    '],
    'col02' : ['   fjHij' , ' ffght '  , 'Ibcce    '],        
})


In [247]:
emptyDF['col01'].str.strip()

0      abcd
1    FFFght
2     abCCe
Name: col01, dtype: object

In [248]:
emptyDF['col01'].str.strip().iloc[0]

'abcd'

In [249]:
emptyDF['col01'].str.lower()

0      abcd   
1      fffght 
2    abcce    
Name: col01, dtype: object