In [117]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [118]:
def serieInfo(s) :
    print('value :' , s.values)
    print('value type :' , type(s.values))
    print('index : ' , s.index)
    print('index type :' , type(s.index))
    print('index + value : ' , s)

In [119]:
price_series = pd.Series([4000, 3000, 3500, 2000],
                         index = ["a", "b", "c", "d"])
serieInfo(price_series)

value : [4000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [120]:
#배열 인덱싱
price_series[0] = 4000

In [121]:
#라벨 인덱싱
price_series['a'] = 5000

In [122]:
# 값 추가
price_series['e'] = 1000

In [123]:
# 삭제
del price_series['e']

In [124]:
serieInfo(price_series)

value : [5000 3000 3500 2000]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    5000
b    3000
c    3500
d    2000
dtype: int64


In [125]:
set = pd.Series(list({10, 20, 30, 40, 50}))
serieInfo(set)

value : [40 10 50 20 30]
value type : <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type : <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0    40
1    10
2    50
3    20
4    30
dtype: int64


In [126]:
pd.isnull(set)

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [127]:
# null 값을 넣기 위해서는 numpy에서 제공하는 np.NaN을 사용해야 한다.
set[0] = np.NaN
serieInfo(set)

value : [nan 10. 50. 20. 30.]
value type : <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type : <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


In [128]:
ser01 = pd.Series([100, 200, 300, 350],
                  index = ['a', 'o', 'k', 'm'])
ser02 = pd.Series([400, 200, 300, 450],
                  index = ['o', 'a', 'h', 'm'])

In [129]:
ser03 = ser01 + ser02
serieInfo(ser03)

value : [300.  nan  nan 800. 600.]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      NaN
k      NaN
m    800.0
o    600.0
dtype: float64


In [130]:
ser04 = ser01.add(ser02, fill_value=0)
serieInfo(ser04)

value : [300. 300. 300. 800. 600.]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h    300.0
k    300.0
m    800.0
o    600.0
dtype: float64


In [131]:
# 결측치 제거 방법
# 행 제거, 평균으로 대체, 0으로 대체 등. 정해진 방법 X. 분석가의 판단에 좌우

- 결측값을 채워 넣는 함수 : fillna()

In [132]:
#결측값 0으로 대체
zser = ser03.fillna(0)
serieInfo(zser)
#결측값 평균으로 대체
mser = ser03.fillna(ser03.mean())
serieInfo(mser)

value : [300.   0.   0. 800. 600.]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      0.0
k      0.0
m    800.0
o    600.0
dtype: float64
value : [300.         566.66666667 566.66666667 800.         600.        ]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.000000
h    566.666667
k    566.666667
m    800.000000
o    600.000000
dtype: float64


- 결측값 제거

In [133]:
pd.notnull(ser03) #null이면 False, notnull이면 True 
pd.isnull(ser03) #null이면 True, notnull이면 False

a    False
h     True
k     True
m    False
o    False
dtype: bool

In [134]:
subset = ser03[pd.notnull(ser03)]
serieInfo(subset)

value : [300. 800. 600.]
value type : <class 'numpy.ndarray'>
index :  Index(['a', 'm', 'o'], dtype='object')
index type : <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
m    800.0
o    600.0
dtype: float64


### DataFrame

- 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다
- 행 인덱스, 열 인덱스를 붙일 수 있다.

In [135]:
# 연도에 해당하는 도시별 인구수를 정의한다면?
data = {
    "2020" : [9910009, 4639482, 3910398, 1810520],
    "2018" : [9320009, 4219482, 3977398, 1810525],
    "2016" : [7620009, 3719482, 2877398, 2510525],
    "2014" : [5720009, 2419482, 1317398, 6410525],
    "지역" : ['수도권', '경상권', '수도권', '경상권'],
    "증가율" : [0.2343, 0.0434, 0.0955, 0.0034]
}
columns = ["지역", "2014", "2016", "2018", "2020", "증가율"]
pop_df = pd.DataFrame(data, index=['서울', '부산', '경기', '대구'] , columns=columns)
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


In [136]:
pop_df.values

array([['수도권', 5720009, 7620009, 9320009, 9910009, 0.2343],
       ['경상권', 2419482, 3719482, 4219482, 4639482, 0.0434],
       ['수도권', 1317398, 2877398, 3977398, 3910398, 0.0955],
       ['경상권', 6410525, 2510525, 1810525, 1810520, 0.0034]], dtype=object)

In [137]:
pop_df.columns

Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object')

In [138]:
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [139]:
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
display(pop_df)

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


In [142]:
def dfInfo(df) :
    print("df shape : {}".format(df.shape))
    print("df size : {}".format(df.size))
    print("df ndim : {}".format(df.ndim))
    print("df index : {}".format(df.index))
    print("df index type : {}".format(type(df.index)))
    print("df columns : {}".format(df.columns))
    print("df columns type : {}".format(type(df.columns)))
    print("df values : {}".format(df.values)
    print("df values type : {}".format(type(df.values)))

SyntaxError: unexpected EOF while parsing (<ipython-input-142-ee7770b1ff85>, line 10)

In [141]:
dfInfo(pop_df)

NameError: name 'dfInfo' is not defined

In [53]:
# 다음 조건을 만족하는 임의의 데이터프레임을 만들어보자
- 열의 개수와 행의 개수가 각각 5개 이상이여야 한다.
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다.

SyntaxError: invalid syntax (<ipython-input-53-824411e21be5>, line 2)

In [54]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta
from dateutil.parser import parse

In [55]:
dummy_data = { "지역" : ['서울', '대구', '경기', '서울', '충청'], 
               "국어" : [100, 80, 90, 80, 80],
               "수학" : [70, 95, 80, 90, 100],
               "영어" : [98.7, 70.5, 90.8, 95.6, 80.3],
               "시험일자" : [datetime(2020, 7, 30), datetime(2020, 8, 6), datetime(2020, 7, 16), datetime(2020, 10, 1), datetime(2020, 6, 19)]
             }
columns = ["지역", "국어", "수학", "영어", "시험일자"]
dummy_df = pd.DataFrame(dummy_data, index=['호진', '재원', '선림', '한준', '한솔'] , columns=columns)
dummy_df

Unnamed: 0,지역,국어,수학,영어,시험일자
호진,서울,100,70,98.7,2020-07-30
재원,대구,80,95,70.5,2020-08-06
선림,경기,90,80,90.8,2020-07-16
한준,서울,80,90,95.6,2020-10-01
한솔,충청,80,100,80.3,2020-06-19


In [56]:
# 컬럼 만들기 참고

# 정수 컬럼
random_int = np.random.randint(1, 100, 10)

#표준정규분포난수 컬럼
random_gaussian = np.random.randn(10)

#균일분포난수 컬럼
random_uniform = np.random.rand(10)

- 열 데이터의 갱신, 추가, 삭제

In [57]:
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


In [58]:
pop_df['2014-2016 증가율'] = ((pop_df['2016'] - pop_df['2014']) / pop_df['2014'] * 100).round(2)

In [59]:
pop_df

특성,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343,33.22
부산,경상권,2419482,3719482,4219482,4639482,0.0434,53.73
경기,수도권,1317398,2877398,3977398,3910398,0.0955,118.42
대구,경상권,6410525,2510525,1810525,1810520,0.0034,-60.84


In [60]:
# 컬럼 삭제
del pop_df['2014-2016 증가율']
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


In [61]:
type(pop_df['지역']) # 하나의 열 인덱싱은 시리즈 타입으로 리턴

pandas.core.series.Series

In [62]:
type(pop_df[['지역', '증가율']]) # 두개 이상의 열 인덱싱은 데이터프레임 형식으로 리턴, 대괄호도 [[ ]] 로 인덱싱해야 한다.

pandas.core.frame.DataFrame

In [63]:
test_df = pd.DataFrame(np.arange(12).reshape(3,4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [64]:
test_df[2] #열에 대한 인덱싱, 2열의 값들을 리턴

0     2
1     6
2    10
Name: 2, dtype: int32

- row indexing
- 항상 슬라이싱을 해야 한다.
- 인덱스, 문자라벨 슬라이싱도 가능하다.

In [65]:
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


In [66]:
display(pop_df[ : 1])
display(pop_df[ : '서울'])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343


특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343


In [67]:
display(pop_df[0:3])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955


In [68]:
display(pop_df['서울':'경기']) #문자라벨 인덱싱은 -1 적용이 안 된다.

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955


In [69]:
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5720009,7620009,9320009,9910009,0.2343
부산,경상권,2419482,3719482,4219482,4639482,0.0434
경기,수도권,1317398,2877398,3977398,3910398,0.0955
대구,경상권,6410525,2510525,1810525,1810520,0.0034


- 개별 데이터 인덱싱(특정 행, 특정 컬럼)

In [70]:
pop_df['2020']['서울'] #Pandas는 열부터 건드린다. df['특정 열']['특정 행']

9910009

In [71]:
score_data = {
    'kor' : [80, 90, 70, 30],
    'eng' : [90, 70, 60, 40],
    'math' : [90, 60, 90, 70]
}
columns = ['kor', 'eng', 'math']
index = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data, index=index, columns=columns)
exec_df

Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


In [72]:
from ipykernel import kernelapp as app

In [74]:
# 위 데이터를 보고 모든 학생의 수학 점수를 시리즈로 출력하라

exec_df['math']

# 모든 학생의 국어와 영어 점수를 데이터 프레임으로 만들어라

exec_df[['kor', 'eng']]

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라

exec_df['avg'] = (exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3

# 최호진 학생의 영어 점수를 90점으로 수정하고 평균 점수도 다시 계산하라

exec_df['eng']['최호진'] = 90
exec_df['avg'] = (exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3

# 김지은 학생의 점수를 데이터 프레임으로 만들어라

exec_df[['kor', 'eng', 'math']][:1]

# 김정수 학생의 점수를 시리즈로 출력하라

exec_df['kor'][2]
exec_df['eng'][2]
exec_df['math'][2]

# 황인범 학생의 국어 점수와 수학 점수를 100점으로 수정하고 평균 점수도 다시 계산하라

exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100
exec_df['avg'] = (exec_df['kor'] + exec_df['eng'] + exec_df['math']) / 3

exec_df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  from ipykernel import kernelapp as app
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0,kor,eng,math,avg
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


In [84]:
#실습 답안

exec_df = pd.DataFrame(score_data , index=index , columns=columns)
exec_df

# 모든 학생의 국어와 영어 점수만을 데이터프레임으로 만들어라
display(exec_df[[ 'kor', 'eng' ]])

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T) # .T를 붙여 전치행렬 처리해준다.
display(exec_df)


# 최호진 학생의 영어점수를 90점으로 수정하고 평균 점수도 다시 계산하라.
exec_df['eng']['최호진'] = 90
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)


# 김지은 학생의 점수를 데이터프레임으로 출력하라
display(exec_df[:'김지은'])

# 김정수 학생의 점수를 시리즈로 출력하라
display(exec_df.T['김정수']) 

# 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균점수도 다시 계산하라
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100

exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
exec_df.head()

Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,40,70,46.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  from ipykernel import kernelapp as app


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667


kor        70.000000
eng        60.000000
math       90.000000
average    73.333333
Name: 김정수, dtype: float64

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


### 데이터 입출력

- 매직명령어 - %%time

In [85]:
%%writefile sample01.csv
col01, col02, col03
1,1,1
2,2,2
3,3,3
4,4,4

Overwriting sample01.csv


In [103]:
court_df = pd.read_csv('C:/Users/i/data/court_code.txt' , sep='\t', encoding='cp949')
dfInfo(court_df)

NameError: name 'dfInfo' is not defined

In [104]:
court_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [105]:
court_df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46179,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [106]:
court_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    46180 non-null int64
법정동명     46180 non-null object
폐지여부     46180 non-null object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


In [107]:
# 1. 폐지여부가 존재인 것들만 데이터프레임으로 만들어보자

subset_df = court_df[court_df['폐지여부'] == '존재']
subset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    20544 non-null int64
법정동명     20544 non-null object
폐지여부     20544 non-null object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


In [108]:
subset_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [109]:
# Pandas 에서 문자열 전처리를 할 때는 반드시 str 을 붙여줘야 가능하다.

# 법정동명 앞 5자리까지만 추출

subset_df['법정동명'].str[0:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [110]:
# 법정동명 마지막 1자리 추출

subset_df['법정동명'].str[-1].head()


0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

In [111]:
subset_df['법정동명'].str.split(" ", expand=True).head()
#expand=True 를 추가하면 분할된 텍스트 리스트를 데이터프레임으로 만들어준다.

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


In [112]:
# 특정 글자로 시작하는 startswith(), 특정 글자로 끝나는 endswith()
# 서울로 시작하는 데이터만 필터링한다면?
subset_df[subset_df['법정동명'].str.startswith('서울')].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [113]:
# 법정동명이 '동'으로 끝나는 것들만 필터링 
subset_df[subset_df['법정동명'].str.endswith('동')].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재


In [116]:
# 법정동명 중 특정 글자를 포함하는 데이터만 필터링 : str.contains()
# 강서구를 포함하는 데이터 필터링
subset_df[subset_df['법정동명'].str.contains('강서구')]


Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재
744,1150010500,서울특별시 강서구 마곡동,존재
745,1150010600,서울특별시 강서구 내발산동,존재
746,1150010700,서울특별시 강서구 외발산동,존재
747,1150010800,서울특별시 강서구 공항동,존재
748,1150010900,서울특별시 강서구 방화동,존재


In [98]:
# '법정동명'에서 공백을 다른 문자(_) 대체하고 싶다면? str.replace() 사용
subset_df['법정동명'].str.replace(" ", "_")

NameError: name 'subset_df' is not defined

In [99]:
# 공백이 들어 있는 경우 , 공백 제거 및 대소문자 처리
empty_df = pd.DataFrame({
    'col01' : ['abcd   ' , 'FFFght  ' , 'abCCe   '],
    'col02' : ['    fgHaig', ' fhhij' , 'Imnop   ']
})

In [228]:
empty_df

Unnamed: 0,col01,col02
0,abcd,fgHaig
1,FFFght,fhhij
2,abCCe,Imnop


In [243]:
# str.strip() : 공백 제거, strlstrip() : 왼쪽(앞) 공백 제거, str.rstrip() : 오른쪽(뒷) 공백 제거
# str.lower() : 대문자 -> 소문자 변경, str.upper() : 소문자 -> 대문자 변경 , str.swapcase() : 대소문자 변경

In [244]:
test_strip = empty_df['col01'].str.strip()
test_strip.iloc[1] #index location

'FFFght'

In [245]:
test_strip = empty_df['col01'].str.lstrip()
test_strip.iloc[1]

'FFFght  '

In [246]:
test_strip = empty_df['col01'].str.rstrip()
test_strip.iloc[0]

'abcd'

In [247]:
test_strip = empty_df['col01'].str.lower()
test_strip.iloc[0]

'abcd   '

In [248]:
test_strip = empty_df['col01'].str.upper()
test_strip.iloc[0]

'ABCD   '

In [249]:
test_strip = empty_df['col01'].str.swapcase()
test_strip.iloc[0]

'ABCD   '

- [실습] weather_df - pd.read_csv

In [254]:
weather_df = pd.read_csv('./data/weather_20201012.csv', sep=",", encoding='cp949')
weather_df.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [255]:
weather_df.columns

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')

In [256]:
weather_df.index

RangeIndex(start=0, stop=40854, step=1)

In [278]:
# 위 데이터에서 기온이 가장 높았던 날을 언제, 몇 도인지 데이터 프레임으로 출력
weather_df['최고기온(℃)'].max()

39.6

In [279]:
weather_df[weather_df['최고기온(℃)'] == weather_df['최고기온(℃)'].max()]

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
40051,2018-08-01,108,33.6,27.8,39.6


In [280]:
name_df = pd.read_csv('./data/year2020_baby_name.csv', sep=",", encoding='cp949')
name_df.head()

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300


- 정렬 : sort_values(by= , ascending= ) # by는 기준, ascending=True 면 오름차순 False 면 내림차순
- 타입 변환 : astype(type)

In [285]:
#특정 컬럼을 기준으로 정렬, (by=원하는 컬럼 이름)
sort_df = name_df.sort_values(by='COUNT' , ascending=False).head(10) 
sort_df

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
19698,Jacob,M,21875
1,Sophia,F,20477
19699,Ethan,M,17866
2,Emma,F,17179
19700,Michael,M,17133
19701,Jayden,M,17030
19702,William,M,16870
3,Olivia,F,16860
19703,Alexander,M,16634


In [291]:
# 순위형 변수 생성
rank_df = name_df.sort_values(by='COUNT' , ascending=False)['COUNT'].rank(ascending=False)
rank = rank_df.astype('int64')
rank

sort_df['RANK'] = rank

In [292]:
sort_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
19698,Jacob,M,21875,2
1,Sophia,F,20477,3
19699,Ethan,M,17866,4
2,Emma,F,17179,5
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
3,Olivia,F,16860,9
19703,Alexander,M,16634,10


In [301]:
# gender 를 기준으로 M 데이터 프레임을 만들어라

m_df = sort_df[sort_df['GENDER'] == 'M']

# gender 를 기준으로 F 데이터 프레임을 만들어라

f_df = sort_df[sort_df['GENDER'] == 'F']


Unnamed: 0,NAME,GENDER,COUNT,RANK
19698,Jacob,M,21875,2
19699,Ethan,M,17866,4
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
19703,Alexander,M,16634,10


In [303]:
m_df.head(5)

Unnamed: 0,NAME,GENDER,COUNT,RANK
19698,Jacob,M,21875,2
19699,Ethan,M,17866,4
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8


In [304]:
f_df.head(5)

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
1,Sophia,F,20477,3
2,Emma,F,17179,5
3,Olivia,F,16860,9


In [306]:
#인덱스가 같지 않은 경우 merge 되지 않아, 한쪽 인덱스를 리셋해야 한다.
gender_df = pd.merge(m_df, f_df)
gender_df

Unnamed: 0,NAME,GENDER,COUNT,RANK


In [307]:
# 인덱스 리셋
m_df = m_df.reset_index(drop=True)
m_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Jacob,M,21875,2
1,Ethan,M,17866,4
2,Michael,M,17133,6
3,Jayden,M,17030,7
4,William,M,16870,8
5,Alexander,M,16634,10


In [308]:
#행으로 merge
gender_df = pd.merge(m_df, f_df, left_index = True , right_index = True)
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y
0,Jacob,M,21875,2,Isabella,F,22731,1
1,Ethan,M,17866,4,Sophia,F,20477,3
2,Michael,M,17133,6,Emma,F,17179,5
3,Jayden,M,17030,7,Olivia,F,16860,9


In [313]:
rank = gender_df['COUNT_x'].rank(ascending=False)
rank = rank.astype('int64')
gender_df['RANK'] = rank

In [314]:
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y,RANK
0,Jacob,M,21875,2,Isabella,F,22731,1,1
1,Ethan,M,17866,4,Sophia,F,20477,3,2
2,Michael,M,17133,6,Emma,F,17179,5,3
3,Jayden,M,17030,7,Olivia,F,16860,9,4
