# DataFrame In Pandas
>Pandas를 이용해 DataFrame 만들어보기

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
def serieInfo(s) :
    print('value : ', s.values)
    print('value type : ', type(s.values))
    print('index : ', s.index)
    print('index type : ', type(s.index))
    print('index + value : ', s)

In [3]:
price_series = pd.Series([4000, 3000, 3500, 2000],
                        index=['a','b','c','d'])
serieInfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [4]:
# 배열 인덱싱
price_series['e'] = 1000
serieInfo(price_series)

value :  [4000 3000 3500 2000 1000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
e    1000
dtype: int64


In [5]:
# 삭제
del price_series['e']
serieInfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [6]:
set = pd.Series(list({10,20,30,40,50}))
# set은 순서가 없어서 안되므로 list로 입력해준다.
serieInfo(set)

value :  [40 10 50 20 30]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0    40
1    10
2    50
3    20
4    30
dtype: int64


In [7]:
pd.isnull(set)

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [8]:
# null값을 넣기 위해서는 numpy에서 제공하는 np.NaN 사용해야한다.
set[0] = np.NaN
serieInfo(set)

value :  [nan 10. 50. 20. 30.]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


In [12]:
ser01 = pd.Series([100, 200, 300, 350],
                 index=['l','a','m','e'])
ser02 = pd.Series([400, 200, 350, 450],
                 index=['l','u','k','a'])

In [13]:
ser03 = ser01 + ser02
serieInfo(ser03)

value :  [650.  nan  nan 500.  nan  nan]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'e', 'k', 'l', 'm', 'u'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    650.0
e      NaN
k      NaN
l    500.0
m      NaN
u      NaN
dtype: float64


In [14]:
ser04 = ser01.add(ser02, fill_value=0)
serieInfo(ser04)

value :  [650. 350. 350. 500. 300. 200.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'e', 'k', 'l', 'm', 'u'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    650.0
e    350.0
k    350.0
l    500.0
m    300.0
u    200.0
dtype: float64


>결측값을 채워넣는 함수 : fillna()

In [15]:
zser = ser03.fillna(ser03.mean())
serieInfo(zser)

value :  [650. 575. 575. 500. 575. 575.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'e', 'k', 'l', 'm', 'u'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    650.0
e    575.0
k    575.0
l    500.0
m    575.0
u    575.0
dtype: float64


In [16]:
pd.notnull(ser03)

a     True
e    False
k    False
l     True
m    False
u    False
dtype: bool

In [17]:
subset = ser03[pd.notnull(ser03)]
serieInfo(subset)

value :  [650. 500.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'l'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    650.0
l    500.0
dtype: float64


## DataFrame
- 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다.
- row index, column index를 붙일 수 있다.

In [22]:
# 년도에 해당하는 도시별 인구수를 정의하기
data = {
    '2020' : [9910293, 4581020, 2154565, 9310220],
    '2018' : [7914233, 4512020, 3554565, 6710120],
    '2016' : [4567333, 4132410, 3265124, 5715324],
    '2014' : [3684213, 3561234, 3321540, 5521536],
    '지역' : ['수도권','경상권','수도권','경상권'],
    '증가율' : [0.2343, 0.0415, 0.0944, 0.0086]
}
columns = ['지역', '2014','2016','2018','2020','증가율']
pop_df = pd.DataFrame(data, index=['서울','부산','경기','대구'], columns=columns )
# columns를 지정해줌으로써 열의 순서를 바꿀 수도 있다.
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,3684213,4567333,7914233,9910293,0.2343
부산,경상권,3561234,4132410,4512020,4581020,0.0415
경기,수도권,3321540,3265124,3554565,2154565,0.0944
대구,경상권,5521536,5715324,6710120,9310220,0.0086


In [23]:
pop_df.values
# values만 가져오기

array([['수도권', 3684213, 4567333, 7914233, 9910293, 0.2343],
       ['경상권', 3561234, 4132410, 4512020, 4581020, 0.0415],
       ['수도권', 3321540, 3265124, 3554565, 2154565, 0.0944],
       ['경상권', 5521536, 5715324, 6710120, 9310220, 0.0086]], dtype=object)

In [24]:
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [25]:
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343
부산,경상권,3561234,4132410,4512020,4581020,0.0415
경기,수도권,3321540,3265124,3554565,2154565,0.0944
대구,경상권,5521536,5715324,6710120,9310220,0.0086


In [181]:
def dfInfo(df) :
    print('df shape  : {}'.format(df.shape))                 # (m,n) 으로 m행 n열임을 출력
    print('df size   : {}'.format(df.size))
    print('df ndim   : {}'.format(df.ndim))                  # 차원을 출력
    print('df index  : {}'.format(df.index))                 # index를 출력
    print('df index type  : {}'.format(type(df.index)))
    print('df columns  : {}'.format(df.columns))
    print('df columns type  : {}'.format(type(df.columns)))
    print('df values  : {}'.format(df.values))
    print('df values  type : {}'.format(type(df.values)))

In [182]:
dfInfo(pop_df)

df shape  : (4, 6)
df size   : 24
df ndim   : 2
df index  : Index(['서울', '부산', '경기', '대구'], dtype='object', name='도시')
df index type  : <class 'pandas.core.indexes.base.Index'>
df columns  : Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object', name='특성')
df columns type  : <class 'pandas.core.indexes.base.Index'>
df values  : [['수도권' 3684213 4567333 7914233 9910293 0.2343]
 ['경상권' 3561234 4132410 4512020 4581020 0.0415]
 ['수도권' 3321540 3265124 3554565 2154565 0.0944]
 ['경상권' 5521536 5715324 6710120 9310220 0.0086]]
df values  type : <class 'numpy.ndarray'>


## 다음 조건을 만족하는 임의의 데이터프레임 만들기 [실습]
- 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다.

In [34]:
mydata = {
    'Birthday' : ['1988-03-04', '1989-07-21', '1984-08-24', '1987-10-23', '1992-06-17'],
    'Draftyear' : [2007, 2009, 2003, 2007, 2013],
    'PPG' : [30.4, 26.7, 29.8, 28.6, 27.4],
    'Age' : [30, 29, 37, 32, 26],
    'Name' : ['Curry','Lillard','James','Durant','Embiid']
}
columns = ['Name', 'Birthday','Age','Draftyear','PPG']
player_info = pd.DataFrame(mydata, index=['PG','SG','SF','PF','C'], columns=columns )
player_info

Unnamed: 0,Name,Birthday,Age,Draftyear,PPG
PG,Curry,1988-03-04,30,2007,30.4
SG,Lillard,1989-07-21,29,2009,26.7
SF,James,1984-08-24,37,2003,29.8
PF,Durant,1987-10-23,32,2007,28.6
C,Embiid,1992-06-17,26,2013,27.4


In [35]:
player_info.index.name = 'Position'
player_info.columns.name = 'Char'
player_info

Char,Name,Birthday,Age,Draftyear,PPG
Position,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
PG,Curry,1988-03-04,30,2007,30.4
SG,Lillard,1989-07-21,29,2009,26.7
SF,James,1984-08-24,37,2003,29.8
PF,Durant,1987-10-23,32,2007,28.6
C,Embiid,1992-06-17,26,2013,27.4


## 열과 행을 다루기

In [36]:
# 컬럼 추가
pop_df['2014-2016 증가율'] = ((pop_df['2016'] - pop_df['2014']) / pop_df['2014'] * 100).round(2)

In [37]:
pop_df

특성,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343,23.97
부산,경상권,3561234,4132410,4512020,4581020,0.0415,16.04
경기,수도권,3321540,3265124,3554565,2154565,0.0944,-1.7
대구,경상권,5521536,5715324,6710120,9310220,0.0086,3.51


In [38]:
# 컬럼 삭제
del pop_df['2014-2016 증가율']
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343
부산,경상권,3561234,4132410,4512020,4581020,0.0415
경기,수도권,3321540,3265124,3554565,2154565,0.0944
대구,경상권,5521536,5715324,6710120,9310220,0.0086


In [184]:
print(type(pop_df['지역']))
pop_df['지역']

<class 'pandas.core.series.Series'>


도시
서울    수도권
부산    경상권
경기    수도권
대구    경상권
Name: 지역, dtype: object

In [186]:
# 부분 인덱싱
print(type(pop_df[['지역', '증가율']]))
pop_df[['지역', '증가율']]

<class 'pandas.core.frame.DataFrame'>


특성,지역,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,수도권,0.2343
부산,경상권,0.0415
경기,수도권,0.0944
대구,경상권,0.0086


In [41]:
test_df = pd.DataFrame(np.arange(12).reshape(3,4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [42]:
test_df[2]
# 열 인덱싱을 return한다.

0     2
1     6
2    10
Name: 2, dtype: int32

### Row indexing
- 항상 슬라이싱을 해야 한다.
- 인덱스, 문자 라벨 슬라이싱도 가능하다.

In [48]:
# pop_df에서 1행만 가져오기
pop_df[ : 1]

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343


In [49]:
pop_df[ : '서울']

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343


In [50]:
display(pop_df[ : 1])
display(pop_df[ : '서울'])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343


특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343


In [56]:
display(pop_df[1:2])
display(pop_df[0:3])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3561234,4132410,4512020,4581020,0.0415


특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,3684213,4567333,7914233,9910293,0.2343
부산,경상권,3561234,4132410,4512020,4581020,0.0415
경기,수도권,3321540,3265124,3554565,2154565,0.0944


### 개별 데이터 인덱싱 (특정 행, 특정 컬럼)

In [90]:
pop_df['2020']['서울']
# 순서 주의!! 열을 먼저 입력한다.

9910293

## [실습]
1. 다음 데이터를 보고 모든 학생의 수학 점수를 Series로 출력
2. 모든 학생의 국어와 영어 점수를 DataFrame으로 만들기
3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가
4. 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산
5. 김지은 학생의 점수를 DataFrame으로 만들기
6. 김정수 학생의 점수를 시리즈로 출력
7. 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균 점수도 다시 계산

In [60]:
score_data = {
    'kor'  : [80, 90, 70, 30],
    'eng'  : [90, 70, 60, 40],
    'math' : [90, 60, 90, 70]
}
columns = ['kor', 'eng', 'math']
index   = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data, index=index, columns=columns)
exec_df

Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


In [69]:
# 1.다음 데이터를 보고 모든 학생의 수학 점수를 Series로 출력
pd.Series(exec_df['math'])

김지은    90
황인범    60
김정수    90
최호진    70
Name: math, dtype: int64

In [73]:
# 2. 모든 학생의 국어와 영어 점수를 DataFrame으로 만들기
exec_df[['kor','eng']]

Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


In [74]:
# 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가
exec_df['Avg'] = ((exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3).round(2)
exec_df

Unnamed: 0,kor,eng,math,Avg
김지은,80,90,90,86.67
황인범,90,70,60,73.33
김정수,70,60,90,73.33
최호진,30,40,70,46.67


In [78]:
# 4. 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산
exec_df['eng']['최호진'] = 90
exec_df['Avg'] = ((exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3).round(2)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,kor,eng,math,Avg
김지은,80,90,90,86.67
황인범,90,70,60,73.33
김정수,70,60,90,73.33
최호진,30,90,70,63.33


In [79]:
# 5. 김지은 학생의 점수를 DataFrame으로 만들기
exec_df[ : 1]

Unnamed: 0,kor,eng,math,Avg
김지은,80,90,90,86.67


In [96]:
# 6. 김정수 학생의 점수를 시리즈로 출력
exec_df_T = exec_df.T
print(pd.Series(exec_df_T['김정수']))
type(pd.Series(exec_df_T['김정수']))

kor     70.00
eng     60.00
math    90.00
Avg     73.33
Name: 김정수, dtype: float64


pandas.core.series.Series

In [94]:
print(pd.Series([exec_df['김정수':'김정수']]))
type(pd.Series([exec_df['김정수':'김정수']]))

0         kor  eng  math    Avg
김정수   70   60    90...
dtype: object


pandas.core.series.Series

In [177]:
# 7. 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균 점수도 다시 계산
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100
exec_df['Avg'] = ((exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3).round(2)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,kor,eng,math,Avg
김지은,80,90,90,86.67
황인범,100,70,100,90.0
김정수,70,60,90,73.33
최호진,30,90,70,63.33


### 강사님 답안

In [180]:
score_data = {
    'kor'  : [80,90,70,30],
    'eng'  : [90,70,60,40],
    'math' : [90,60,90,70] 
}
columns = ['kor','eng','math']
index   = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data , index=index , columns=columns)
exec_df

print('1. 모든 학생의 국어와 영어 점수만을 데이터프레임으로 만들어라')
display(exec_df[[ 'kor', 'eng' ]])

print('2. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라')
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)


print('3. 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산하라.')
exec_df['eng']['최호진'] = 90
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)


print('4. 김지은 학생의 점수를 데이터프레임으로 출력하라')
display(exec_df[:'김지은'])

print('5. 김정수 학생의 점수를 시리즈로 출력하라')
display(exec_df.T['김정수']) 

print('6. 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균점수도 다시 계산하라')
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100

exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
exec_df



1. 모든 학생의 국어와 영어 점수만을 데이터프레임으로 만들어라


Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


2. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,40,70,46.666667


3. 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산하라.


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


4. 김지은 학생의 점수를 데이터프레임으로 출력하라


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667


5. 김정수 학생의 점수를 시리즈로 출력하라


kor        70.000000
eng        60.000000
math       90.000000
average    73.333333
Name: 김정수, dtype: float64

6. 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균점수도 다시 계산하라


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


## 데이터 입출력
- 매직명령어 - %%

In [97]:
# 간단한 명령어로 csv 파일을 생성한다.
%%writefile sample01.csv
col01, col02, col03
1,1,1
2,2,2
3,3,3
4,4,4

Writing sample01.csv


## 법원 정보 csv 파일 불러오기

In [192]:
court_df = pd.read_csv('./data/court_code.txt', sep='\t', encoding='cp949')
display(court_df)
dfInfo(court_df)

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재


df shape  : (46180, 3)
df size   : 138540
df ndim   : 2
df index  : RangeIndex(start=0, stop=46180, step=1)
df index type  : <class 'pandas.core.indexes.range.RangeIndex'>
df columns  : Index(['법정동코드', '법정동명', '폐지여부'], dtype='object')
df columns type  : <class 'pandas.core.indexes.base.Index'>
df values  : [[1100000000 '서울특별시' '존재']
 [1111000000 '서울특별시 종로구' '존재']
 [1111010100 '서울특별시 종로구 청운동' '존재']
 ...
 [5013032024 '제주특별자치도 서귀포시 표선면 가시리' '존재']
 [5013032025 '제주특별자치도 서귀포시 표선면 세화리' '존재']
 [5013032026 '제주특별자치도 서귀포시 표선면 토산리' '존재']]
df values  type : <class 'numpy.ndarray'>


In [102]:
court_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [103]:
court_df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46179,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [104]:
court_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    46180 non-null int64
법정동명     46180 non-null object
폐지여부     46180 non-null object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


In [107]:
# 1. 폐지 여부가 존재인 것들만 데이터프레임으로 만들기
subset_df = court_df[court_df['폐지여부'] == '존재']
subset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    20544 non-null int64
법정동명     20544 non-null object
폐지여부     20544 non-null object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


In [108]:
subset_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [109]:
# 판다스에서 문자열 전처리를 할 때는 반드시 str 사용해야 가능하다.

# 법정동명 앞 5자리까지만 추출
subset_df['법정동명'].str[ : 5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [110]:
# 법정동명 마지막 한 글자만 추출
subset_df['법정동명'].str[-1].head()

0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

In [111]:
subset_df['법정동명'].str.split(" ").head()
# split은 list로 들어가는 것을 확인

0              [서울특별시]
1         [서울특별시, 종로구]
2    [서울특별시, 종로구, 청운동]
3    [서울특별시, 종로구, 신교동]
4    [서울특별시, 종로구, 궁정동]
Name: 법정동명, dtype: object

In [112]:
subset_df['법정동명'].str.split(" ", expand=True).head()
# expand 옵션의 역할 확인

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


In [123]:
# 특정 글자로 시작하는 startswith() : boolean
# 서울로 시작하는 데이터만 필터링하기
# subset_df['법정동명'].str.startswith('서울')
# 이렇게 하면 True, False만 반환
subset_df[subset_df['법정동명'].str.startswith('서울')].head(10)

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재


In [120]:
# 법정동명 중 '동'으로 끝나는 데이터만 필터링하기
subset_df[subset_df['법정동명'].str.endswith('동')].head(10)

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재
10,1111010900,서울특별시 종로구 누상동,존재
11,1111011000,서울특별시 종로구 누하동,존재


In [121]:
# 법정동명 중 특정 글자를 포함하는 데이터만 필터링 : str.contains()
# 강서구를 포함하는 데이터 필터링
subset_df[subset_df['법정동명'].str.contains('강서구')].head(10)

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재
744,1150010500,서울특별시 강서구 마곡동,존재
745,1150010600,서울특별시 강서구 내발산동,존재
746,1150010700,서울특별시 강서구 외발산동,존재
747,1150010800,서울특별시 강서구 공항동,존재
748,1150010900,서울특별시 강서구 방화동,존재


In [176]:
# '법정동명'에서 공백을 다른 문자(_)로 대체하기 : str.replace()
subset_df['법정동명'].str.replace(" ", "_").head(10)

0            서울특별시
1        서울특별시_종로구
2    서울특별시_종로구_청운동
3    서울특별시_종로구_신교동
4    서울특별시_종로구_궁정동
5    서울특별시_종로구_효자동
6    서울특별시_종로구_창성동
7    서울특별시_종로구_통의동
8    서울특별시_종로구_적선동
9    서울특별시_종로구_통인동
Name: 법정동명, dtype: object

## 데이터 조작 용어 익히기

In [127]:
# 공백이 들어있는 경우, 공백제거 및 대소문자 처리
empty_df = pd.DataFrame({
    'col01' : ['abcd    ', ' FFFght ', 'abCCe    '],
    'col02' : ['    fgHAij', '  fhhij ', 'lmnop    ']
})
empty_df

Unnamed: 0,col01,col02
0,abcd,fgHAij
1,FFFght,fhhij
2,abCCe,lmnop


In [None]:
# str.strip(), str.lstrip(), str.rstrip()
# 양쪽 공백 제거, 왼쪽 공백 제거, 오른쪽 공백 제거
# str.lower(), str.upper(), str.swapcase()
# 모두 소문자로, 모두 대문자로, 대소문자 swap

In [130]:
empty_df['col01'].str.strip()

0      abcd
1    FFFght
2     abCCe
Name: col01, dtype: object

In [131]:
test_strip = empty_df['col01'].str.strip()
test_strip.iloc[1]
# loc은 이름으로, iloc은 숫자로 인덱싱, 인덱싱이기 때문에 DataFrame에서 많이 쓰일 수 밖에 없음.

'FFFght'

In [140]:
test_lstrip = empty_df['col01'].str.lstrip()
test_lstrip.iloc[1]

'FFFght '

In [142]:
test_rstrip = empty_df['col01'].str.rstrip()
test_rstrip.iloc[1]

' FFFght'

In [143]:
empty_df['col01'].str.lower()

0     abcd    
1      fffght 
2    abcce    
Name: col01, dtype: object

In [144]:
empty_df['col01'].str.upper()

0     ABCD    
1      FFFGHT 
2    ABCCE    
Name: col01, dtype: object

In [145]:
empty_df['col01'].str.swapcase()

0     ABCD    
1      fffGHT 
2    ABccE    
Name: col01, dtype: object

## 날씨 데이터 조작하기 - [실습]

In [147]:
weather_df = pd.read_csv('./data/weather_20201012.csv', sep=',', encoding='cp949')
weather_df.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [148]:
weather_df.columns

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')

In [149]:
weather_df.index

RangeIndex(start=0, stop=40854, step=1)

In [160]:
# 위 데이터에서 기온이 가장 높았던 날은 언제이고 몇도인지를 데이터 프레임으로 출력하기
# weather_df.sort_values(by=['최고기온(℃)'], axis=0, ascending=False).head(1)

# 강사님 답안
weather_df[weather_df['최고기온(℃)'] == weather_df['최고기온(℃)'].max()]

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
40051,2018-08-01,108,33.6,27.8,39.6


## 이름 데이터 조작하기 - [실습]

In [161]:
name_df = pd.read_csv('./data/year2020_baby_name.csv', sep=',', encoding='cp949')
name_df.head()

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300


>- 정렬 : sort_values(by= , ascending= )
- 타입변환 : astype(type)

In [164]:
sort_df = name_df.sort_values(by='COUNT', ascending=False).head(10)
sort_df

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
19698,Jacob,M,21875
1,Sophia,F,20477
19699,Ethan,M,17866
2,Emma,F,17179
19700,Michael,M,17133
19701,Jayden,M,17030
19702,William,M,16870
3,Olivia,F,16860
19703,Alexander,M,16634


In [169]:
rank_df = name_df.sort_values(by='COUNT', ascending=False)['COUNT'].rank(ascending=False)
rank = rank_df.astype('int64')
rank

sort_df['RANK'] = rank
sort_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
19698,Jacob,M,21875,2
1,Sophia,F,20477,3
19699,Ethan,M,17866,4
2,Emma,F,17179,5
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
3,Olivia,F,16860,9
19703,Alexander,M,16634,10


### 성별에 따라 DataFrame을 나누기

In [172]:
# 1. gender를 기준으로 남자 데이터프레임을 만들기
# 2. gender를 기준으로 여자 데이터프레임을 만들기
m_df = sort_df[sort_df['GENDER'] == 'M']
f_df = sort_df[sort_df['GENDER'] == 'F']
display(m_df)
display(f_df)

Unnamed: 0,NAME,GENDER,COUNT,RANK
19698,Jacob,M,21875,2
19699,Ethan,M,17866,4
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
19703,Alexander,M,16634,10


Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
1,Sophia,F,20477,3
2,Emma,F,17179,5
3,Olivia,F,16860,9


### 분리된 DataFrame을 합치기

In [173]:
m_df = m_df.reset_index(drop=True)
m_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Jacob,M,21875,2
1,Ethan,M,17866,4
2,Michael,M,17133,6
3,Jayden,M,17030,7
4,William,M,16870,8
5,Alexander,M,16634,10


In [174]:
gender_df = pd.merge(m_df, f_df, left_index=True, right_index=True)
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y
0,Jacob,M,21875,2,Isabella,F,22731,1
1,Ethan,M,17866,4,Sophia,F,20477,3
2,Michael,M,17133,6,Emma,F,17179,5
3,Jayden,M,17030,7,Olivia,F,16860,9


In [175]:
rank = gender_df['COUNT_x'].rank(ascending=False)
rank = rank.astype('int64')
gender_df['RANK'] = rank
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y,RANK
0,Jacob,M,21875,2,Isabella,F,22731,1,1
1,Ethan,M,17866,4,Sophia,F,20477,3,2
2,Michael,M,17133,6,Emma,F,17179,5,3
3,Jayden,M,17030,7,Olivia,F,16860,9,4
