In [215]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [216]:
def seriesinfo(s) :
    print('value : ', s.values)
    print('value type : ', type(s.values))
    print('index : ',s.index)
    print('index type : ', type(s.index))
    print('index + value : ', s)

In [6]:
price_series = pd.Series([4000,3000,3500,2000], index = ['a','b','c','d'])
seriesinfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [7]:
# 라벨 인덱싱
price_series['a'] = 5000
seriesinfo(price_series)

value :  [5000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    5000
b    3000
c    3500
d    2000
dtype: int64


In [None]:
# 배열 인덱싱

In [8]:
price_series[0] = 4000
seriesinfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [9]:
# 값 추가
price_series['e'] = 1000
seriesinfo(price_series)

value :  [4000 3000 3500 2000 1000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
e    1000
dtype: int64


In [10]:
# 값 삭제
del price_series['e']
seriesinfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [11]:
set = pd.Series(list({10,20,30,40,50})) # 순서가 있는 형식으로 만들어야 함.Set형태는 불가함 
seriesinfo(set)

value :  [40 10 50 20 30]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0    40
1    10
2    50
3    20
4    30
dtype: int64


In [12]:
pd.isnull(set) #Null이면 True

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [13]:
# null 값을 넣기 위해서는 numpy에서 제공하는 np.NaN사용해야한다.
set[0] = np.NaN
seriesinfo(set)

value :  [nan 10. 50. 20. 30.]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


In [15]:
ser01 = pd.Series([100, 200, 300, 350], index = ['a','o','k','m'])
ser02 = pd.Series([400, 200, 350, 450], index = ['o','a','h','m'])

In [16]:
ser03 = ser01 + ser02
seriesinfo(ser03)     #h,k가 맞는 두개 각각 인덱스가 없어 결측값으로 나옴

value :  [300.  nan  nan 800. 600.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      NaN
k      NaN
m    800.0
o    600.0
dtype: float64


In [17]:
ser04 = ser01.add(ser02, fill_value=0)
seriesinfo(ser04)   #h,k 본연의 값으로 나옴

value :  [300. 350. 300. 800. 600.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h    350.0
k    300.0
m    800.0
o    600.0
dtype: float64


* 결측값을 채워 넣는 함수 : fillna()

In [20]:
zser = ser03.fillna(0) #ser03의 결측값을 0으로 넣음
seriesinfo(zser)
mser = ser03.fillna(ser03.mean())  #ser03의 평균으로 결측값을 채움
seriesinfo(mser)

value :  [300.   0.   0. 800. 600.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      0.0
k      0.0
m    800.0
o    600.0
dtype: float64
value :  [300.         566.66666667 566.66666667 800.         600.        ]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.000000
h    566.666667
k    566.666667
m    800.000000
o    600.000000
dtype: float64


* 결측값 제거

In [21]:
pd.notnull(ser03) # Null이 아니면 True

a     True
h    False
k    False
m     True
o     True
dtype: bool

In [22]:
subset = ser03[pd.notnull(ser03)]
seriesinfo(subset)

value :  [300. 800. 600.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
m    800.0
o    600.0
dtype: float64


# DataFrame

* 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다.
* 행 인덱스, 열 인덱스 붙일 수 있다.

In [30]:
# 연도에 해당하는 도시별 인구수를 정의한다면? 
data = {
    "2020" : [9800000, 1231231, 2999999, 3000000],
    "2018" : [9666666, 1211111, 2000000, 2500000],
    "2016" : [5555555, 2222222, 1000000, 1500000],
    "2014" : [2500000, 3000000, 1500000, 5888888],
    "지역" : ['수도권', '경상권', '수도권', '경상권'],
    "증가율" : [0.2343, 0.0434, 0.0944, 0.0534]
}
columns = ["지역", "2014", "2016", "2018", "2020", "증가율"]
pop_df = pd.DataFrame(data, index=['서울', '부산', '경기', '대구'] , columns = columns)
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944
대구,경상권,5888888,1500000,2500000,3000000,0.0534


In [31]:
pop_df.values

array([['수도권', 2500000, 5555555, 9666666, 9800000, 0.2343],
       ['경상권', 3000000, 2222222, 1211111, 1231231, 0.0434],
       ['수도권', 1500000, 1000000, 2000000, 2999999, 0.0944],
       ['경상권', 5888888, 1500000, 2500000, 3000000, 0.0534]], dtype=object)

In [33]:
pop_df.columns

Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object')

In [34]:
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [35]:
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944
대구,경상권,5888888,1500000,2500000,3000000,0.0534


In [40]:
def dfinfo(df) :
    print("df shape : {}".format(df.shape))
    print("df size : {}".format(df.size))
    print("df ndim : {}".format(df.ndim))
    print("df index : {}".format(df.index))
    print("df index type : {}".format(type(df.index)))
    print("df columns : {}".format(df.columns))
    print("df columns type : {}".format(type(df.columns)))
    print("df values : {}".format(df.values))
    print("df values type : {}".format(type(df.values)))

In [41]:
dfinfo(pop_df)

df shape : (4, 6)
df size : 24
df ndim : 2
df index : Index(['서울', '부산', '경기', '대구'], dtype='object', name='도시')
df index type : <class 'pandas.core.indexes.base.Index'>
df columns : Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object', name='특성')
df columns type : <class 'pandas.core.indexes.base.Index'>
df values : [['수도권' 2500000 5555555 9666666 9800000 0.2343]
 ['경상권' 3000000 2222222 1211111 1231231 0.0434]
 ['수도권' 1500000 1000000 2000000 2999999 0.0944]
 ['경상권' 5888888 1500000 2500000 3000000 0.0534]]
df values type : <class 'numpy.ndarray'>


# 여러분 스스로 다들 조건을 만족하는 임의의 데이터프레임을 만들어보자
* 열의 개수와 행의 개수가 각각 5개 이상이여야 한다.
* 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야한다

In [217]:
data = {
    "이름" : ['김아무개','이아무개','박아무개','한아무개','정아무개'],
    "국적" : ['대한민국','케냐','미국','스페인','호주'],
    "키" : [170,180,172,163,177],
    "몸무게" : [63.2,59.5,66.6,77.4,94.1],
    "생년월일" : [910606,930101,921226,881224,901001]
}

data["생년월일"] = pd.to_datetime(data["생년월일"])

inf_df = pd.DataFrame(data, index = ['1번','2번','3번','4번','5번'])
inf_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 1번 to 5번
Data columns (total 5 columns):
이름      5 non-null object
국적      5 non-null object
키       5 non-null int64
몸무게     5 non-null float64
생년월일    5 non-null datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 240.0+ bytes


* 열 데이터의 갱신, 추가, 삭제

In [60]:
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944
대구,경상권,5888888,1500000,2500000,3000000,0.0534


In [91]:
# 컬럼 추가
pop_df['2014-2016 증가율'] = ((pop_df['2016'] - pop_df['2014']) / pop_df['2014'] * 100).round(2)

In [92]:
pop_df

특성,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343,122.22
부산,경상권,3000000,2222222,1211111,1231231,0.0434,-25.93
경기,수도권,1500000,1000000,2000000,2999999,0.0944,-33.33
대구,경상권,5888888,1500000,2500000,3000000,0.0534,-74.53


In [93]:
#컬럼 삭제
del pop_df['2014-2016 증가율']
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944
대구,경상권,5888888,1500000,2500000,3000000,0.0534


In [62]:
type(pop_df['지역'])

pandas.core.series.Series

In [66]:
type(pop_df[['지역', '증가율']])

pandas.core.frame.DataFrame

In [67]:
test_df = pd.DataFrame(np.arange(12).reshape(3,4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [69]:
test_df[2]

0     2
1     6
2    10
Name: 2, dtype: int32

* row indexing
* 항상 슬라이싱을 해야한다
* 인덱스, 라벨 슬라이싱도 가능하다

In [74]:
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944
대구,경상권,5888888,1500000,2500000,3000000,0.0534


In [79]:
display(pop_df[:1])
display(pop_df[:'서울'])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343


특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343


In [80]:
display(pop_df[0:3])

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,2500000,5555555,9666666,9800000,0.2343
부산,경상권,3000000,2222222,1211111,1231231,0.0434
경기,수도권,1500000,1000000,2000000,2999999,0.0944


* 개별 데이터 인덱싱(특정 행, 특정 칼럼)

In [89]:
pop_df['2020']['서울']

9800000

In [113]:
score_data = {
    'kor' : [80,90,70,30],
    'eng' : [90,70,60,40],
    'math' : [90,60,90,70]
}
columns = ['kor', 'eng', 'math']
index = ['김지은', '황인범', '김정수', '최호진']

exec_df = pd.DataFrame(score_data , index=index, columns=columns)
exec_df

Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


In [119]:
# 위 데이터를 보고 모든 학생의 수학 점수를 시리즈로 출력하라
print(exec_df['math'])

# 모든 학생의 국어와 영어 점수를 데이터 프레임으로 만들어라
display(exec_df[['kor', 'eng']])

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라
exec_df['average'] = np.mean(exec_df[['kor', 'eng', 'math']].T)
display(exec_df)

# 최호진 학생의 영어 점수를 90점으로 평균 점수도 다시 계산하라
exec_df['eng']['최호진'] = 90
exec_df['average'] = np.mean(exec_df[ ['kor', 'eng', 'math'] ].T)
display(exec_df)

# 김지은 학생의 점수를 데이터 프레임으로 만들어라
display(exec_df[:'김지은'])

# 김정수 학생의 점수를 시리즈로 출력하라
display(exec_df.T['김정수'])

# 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균점수도 다시 계산하라
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100

exec_df['average'] = np.mean(exec_df[['kor','eng','math']].T)
exec_df

김지은     90
황인범    100
김정수     90
최호진     70
Name: math, dtype: int64


Unnamed: 0,kor,eng
김지은,80,90
황인범,100,70
김정수,70,60
최호진,30,90


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if sys.path[0] == '':


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667


kor        70.000000
eng        60.000000
math       90.000000
average    73.333333
Name: 김정수, dtype: float64

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


Unnamed: 0,kor,eng,math,average
김지은,80,90,90,86.666667
황인범,100,70,100,90.0
김정수,70,60,90,73.333333
최호진,30,90,70,63.333333


# 데이터 입출력

* 매직명령어 %%

In [121]:
%%writefile sample01.csv
col01, col02, col03
1,1,1
2,2,2
3,3,3
4,4,4

Writing sample01.csv


In [125]:
court_df = pd.read_csv('./data/court_code.txt', sep='\t', encoding='cp949')
dfinfo(court_df)

df shape : (46180, 3)
df size : 138540
df ndim : 2
df index : RangeIndex(start=0, stop=46180, step=1)
df index type : <class 'pandas.core.indexes.range.RangeIndex'>
df columns : Index(['법정동코드', '법정동명', '폐지여부'], dtype='object')
df columns type : <class 'pandas.core.indexes.base.Index'>
df values : [[1100000000 '서울특별시' '존재']
 [1111000000 '서울특별시 종로구' '존재']
 [1111010100 '서울특별시 종로구 청운동' '존재']
 ...
 [5013032024 '제주특별자치도 서귀포시 표선면 가시리' '존재']
 [5013032025 '제주특별자치도 서귀포시 표선면 세화리' '존재']
 [5013032026 '제주특별자치도 서귀포시 표선면 토산리' '존재']]
df values type : <class 'numpy.ndarray'>


In [127]:
court_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [128]:
court_df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46179,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [129]:
court_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    46180 non-null int64
법정동명     46180 non-null object
폐지여부     46180 non-null object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


In [132]:
# 1. 폐지여부가 존재인 것들만 데이터 프레임으로 만들어보자
subset_df = court_df[court_df['폐지여부'] == '존재']
subset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    20544 non-null int64
법정동명     20544 non-null object
폐지여부     20544 non-null object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


In [133]:
subset_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [135]:
# 판다스에서 문자열 전처리를 할때는 반드시 str 가능하다
# 법정동명 앞 5자리까지만 추출
subset_df['법정동명'].str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [136]:
# 법정동명 마지막 한글자만 추출
subset_df['법정동명'].str[-1].head()

0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

In [137]:
subset_df['법정동명'].str.split(" ",expand=True).head()

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


In [142]:
# 특정 글자로 시작하는 startswith() : boolean, 끝 글자 인식 : endswith()
# 서울로 시작하는 데이터만 필터링한다면?
subset_df[subset_df['법정동명'].str.startswith('서울')]

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재


In [143]:
# 법정동명 중 '동'으로 끝나는 데이터만 필터링
subset_df[subset_df['법정동명'].str.endswith('동')]

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재
10,1111010900,서울특별시 종로구 누상동,존재
11,1111011000,서울특별시 종로구 누하동,존재


In [144]:
# 법정동명 중 특정 글자를 포함하는 데이터만 필터링 : str.contains()
# 강서구를 포함하는 데이터 필터링
subset_df[subset_df['법정동명'].str.contains('강서구')]

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재
744,1150010500,서울특별시 강서구 마곡동,존재
745,1150010600,서울특별시 강서구 내발산동,존재
746,1150010700,서울특별시 강서구 외발산동,존재
747,1150010800,서울특별시 강서구 공항동,존재
748,1150010900,서울특별시 강서구 방화동,존재


In [146]:
# '법정동명'에서 공백을 다른 문자(_) 대체 하고싶다면? : str.replace()
subset_df['법정동명'].str.replace(" ", "_ ")

0                          서울특별시
1                     서울특별시_ 종로구
2                서울특별시_ 종로구_ 청운동
3                서울특별시_ 종로구_ 신교동
4                서울특별시_ 종로구_ 궁정동
5                서울특별시_ 종로구_ 효자동
6                서울특별시_ 종로구_ 창성동
7                서울특별시_ 종로구_ 통의동
8                서울특별시_ 종로구_ 적선동
9                서울특별시_ 종로구_ 통인동
10               서울특별시_ 종로구_ 누상동
11               서울특별시_ 종로구_ 누하동
12               서울특별시_ 종로구_ 옥인동
13               서울특별시_ 종로구_ 체부동
14               서울특별시_ 종로구_ 필운동
15               서울특별시_ 종로구_ 내자동
16               서울특별시_ 종로구_ 사직동
17               서울특별시_ 종로구_ 도렴동
18               서울특별시_ 종로구_ 당주동
19               서울특별시_ 종로구_ 내수동
20               서울특별시_ 종로구_ 세종로
21             서울특별시_ 종로구_ 신문로1가
22             서울특별시_ 종로구_ 신문로2가
23               서울특별시_ 종로구_ 청진동
24               서울특별시_ 종로구_ 서린동
25               서울특별시_ 종로구_ 수송동
26               서울특별시_ 종로구_ 중학동
27              서울특별시_ 종로구_ 종로1가
28               서울특별시_ 종로구_ 공평동
29               서울특별시_ 종로구_ 관훈동
          

In [161]:
# 공백이 들어 있는 경우, 공백제거 및 대소문자 처리
empty_df = pd.DataFrame({
    'col01' : ['abcd   ', '  FFFght ', 'abCCe   '],
    'col02' : ['     fghii', ' fhhhh', 'lmnop  ']
})

In [162]:
empty_df

Unnamed: 0,col01,col02
0,abcd,fghii
1,FFFght,fhhhh
2,abCCe,lmnop


In [150]:
# str.strip(), str.lstrip(), str.rstrip()
# str.lower(), str.upper(), str.swapcase()

In [163]:
test_strip = empty_df['col01'].str.strip()
test_strip.iloc[1]

'FFFght'

In [164]:
test_strip = empty_df['col01'].str.lstrip()
test_strip.iloc[1]

'FFFght '

In [165]:
test_strip = empty_df['col01'].str.rstrip()
test_strip.iloc[1]

'  FFFght'

In [167]:
test_strip = empty_df['col01'].str.lower()
test_strip

0      abcd   
1      fffght 
2     abcce   
Name: col01, dtype: object

In [168]:
test_strip = empty_df['col01'].str.upper()
test_strip

0      ABCD   
1      FFFGHT 
2     ABCCE   
Name: col01, dtype: object

In [170]:
test_strip = empty_df['col01'].str.swapcase()
test_strip

0      ABCD   
1      fffGHT 
2     ABccE   
Name: col01, dtype: object

In [171]:
weather_df = pd.read_csv('./data/weather_20201012.csv', sep=',', encoding='cp949')
weather_df.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [183]:
# 위 데이터에서 기온이 가장 높았던 날은 언제이고 몇도인지를 데이터 프레임으로 출력해보자
weather_df['최고기온(℃)'].max()
weather_df[weather_df['최고기온(℃)'] == 39.6]

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
40051,2018-08-01,108,33.6,27.8,39.6


In [184]:
name_df = pd.read_csv('./data/year2020_baby_name.csv', sep=',', encoding='cp949')
name_df.head()

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300


* 정렬 : sort_values(by= , ascending=)
* 타입변환 : astype(type)

In [185]:
sort_df = name_df.sort_values(by='COUNT', ascending=False).head(10)
sort_df

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
19698,Jacob,M,21875
1,Sophia,F,20477
19699,Ethan,M,17866
2,Emma,F,17179
19700,Michael,M,17133
19701,Jayden,M,17030
19702,William,M,16870
3,Olivia,F,16860
19703,Alexander,M,16634


In [191]:
rank_df = name_df.sort_values(by='COUNT', ascending=False)['COUNT'].rank(ascending=False)
rank = rank_df.astype('int64')
rank

sort_df['RANK'] = rank

In [193]:
sort_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
19698,Jacob,M,21875,2
1,Sophia,F,20477,3
19699,Ethan,M,17866,4
2,Emma,F,17179,5
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
3,Olivia,F,16860,9
19703,Alexander,M,16634,10


In [200]:
# gender를 기준으로 M 데이터 프레임을 만들어라
male_df = sort_df[sort_df['GENDER'] == 'M']
print(male_df.head())
# gender를 기준으로 F 데이터 프레임을 만들어라
female_df = sort_df[sort_df['GENDER'] == 'F']
print(female_df.head())

          NAME GENDER  COUNT  RANK
19698    Jacob      M  21875     2
19699    Ethan      M  17866     4
19700  Michael      M  17133     6
19701   Jayden      M  17030     7
19702  William      M  16870     8
       NAME GENDER  COUNT  RANK
0  Isabella      F  22731     1
1    Sophia      F  20477     3
2      Emma      F  17179     5
3    Olivia      F  16860     9


In [201]:
gender_df = pd.merge(male_df, female_df) #0,1,2,3,4 같은 인덱스번호가 달라서 값이 안나옴..따라서 인덱스번지를 한쪽은 지우고 작업해야함
gender_df

Unnamed: 0,NAME,GENDER,COUNT,RANK


In [202]:
male_df = male_df.reset_index(drop=True)
male_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Jacob,M,21875,2
1,Ethan,M,17866,4
2,Michael,M,17133,6
3,Jayden,M,17030,7
4,William,M,16870,8
5,Alexander,M,16634,10


In [206]:
gender_df = pd.merge(male_df, female_df, left_index=True, right_index=True)
gender_df


Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y
0,Jacob,M,21875,2,Isabella,F,22731,1
1,Ethan,M,17866,4,Sophia,F,20477,3
2,Michael,M,17133,6,Emma,F,17179,5
3,Jayden,M,17030,7,Olivia,F,16860,9


In [207]:
rank = gender_df['COUNT_x'].rank(ascending=False)
rank = rank.astype('int64')
gender_df['RANK'] = rank

In [208]:
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y,RANK
0,Jacob,M,21875,2,Isabella,F,22731,1,1
1,Ethan,M,17866,4,Sophia,F,20477,3,2
2,Michael,M,17133,6,Emma,F,17179,5,3
3,Jayden,M,17030,7,Olivia,F,16860,9,4
