In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
def serieInfo(s):
    print('value : ',s.values)
    print('value type : ',type(s.values))
    print('index : ', s.index)
    print('index type : ', type(s.index))
    print('index + value : ',s)

In [122]:
price_series = pd.Series([4000,3000,3500,2000],
                        index = ['a','b','c','d'])
price_series
serieInfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [6]:
#label indexing
price_series['a'] =5000
serieInfo(price_series) #index를 통해 값 추출 및 변경 가능하다

value :  [5000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    5000
b    3000
c    3500
d    2000
dtype: int64


In [11]:
# 배열 indexing
price_series[0] = 4000
serieInfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [12]:
# 값 추가 - label 을 통해 추가 가능하다 
price_series['e'] = 1000
serieInfo(price_series)

value :  [4000 3000 3500 2000 1000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
e    1000
dtype: int64


In [13]:
# 값 삭제
del price_series['e']
serieInfo(price_series)

value :  [4000 3000 3500 2000]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'b', 'c', 'd'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    4000
b    3000
c    3500
d    2000
dtype: int64


In [17]:
set = pd.Series(list({10,20,30,40,50})) # 불가능하다 set은 순서가 없기 때문 그러므로 순서가 있는 list를 해줘야한다
serieInfo(set)

value :  [40 10 50 20 30]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0    40
1    10
2    50
3    20
4    30
dtype: int64


In [18]:
pd.isnull(set) # null이 있는지 없는지 판단 null->True

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [20]:
# null 값을 넣기 위해서는 numpy에서 제공하는 np.NaN 사용해야 한다
set[0] = np.NaN # None도 가능하지만 np.NaN도 가능
serieInfo(set)

value :  [nan 10. 50. 20. 30.]
value type :  <class 'numpy.ndarray'>
index :  RangeIndex(start=0, stop=5, step=1)
index type :  <class 'pandas.core.indexes.range.RangeIndex'>
index + value :  0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


In [21]:
ser01 = pd.Series([100,200,300,350],
                 index = ['a','o','k','m'])
ser02 = pd.Series([100,200,300,350],
                 index = ['o','a','h','m'])

In [22]:
# 동일한 라벨에 대해서만 계산된 것을 확인 할 수 있다.
ser03 = ser01 + ser02
serieInfo(ser03)

value :  [300.  nan  nan 700. 300.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      NaN
k      NaN
m    700.0
o    300.0
dtype: float64


In [24]:
# index가 동일하지 않은 값들의 연산을 위해 fill_value=0 넣어 0을 더해줌 
ser04 = ser01.add(ser02,fill_value=0)
serieInfo(ser04)

value :  [300. 300. 300. 700. 300.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h    300.0
k    300.0
m    700.0
o    300.0
dtype: float64


- 결측값을 채워 넣는 함수 : fillna()

In [28]:
zser = ser03.fillna(0) #() 대체할 값을 넣어주면 된다
serieInfo(zser)
mser = ser03.fillna(ser03.mean())
serieInfo(mser)

value :  [300.   0.   0. 700. 300.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
h      0.0
k      0.0
m    700.0
o    300.0
dtype: float64
value :  [300.         433.33333333 433.33333333 700.         300.        ]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'h', 'k', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.000000
h    433.333333
k    433.333333
m    700.000000
o    300.000000
dtype: float64


- 결측값 제거 

In [29]:
pd.notnull(ser03) # 결측값 -> False

a     True
h    False
k    False
m     True
o     True
dtype: bool

In [31]:
subset = ser03[pd.notnull(ser03)] # pd.notnull(ser03) 이 True 부분만 추출
serieInfo(subset)

value :  [300. 700. 300.]
value type :  <class 'numpy.ndarray'>
index :  Index(['a', 'm', 'o'], dtype='object')
index type :  <class 'pandas.core.indexes.base.Index'>
index + value :  a    300.0
m    700.0
o    300.0
dtype: float64


# DataFrame

- 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다
- 행에 인덱스 열 인덱스 붙일 수 있다.

In [59]:
# 년도에 해당하는 도시별 인구수를 정의한다면?

data = {
    '2020' : [9910293, 8384050, 2938485, 1203948],
    '2018' : [8910293, 7384050, 5938485, 3203948],
    '2016' : [7910293, 5384050, 7938485, 6203948],
    '2014' : [5910293, 3384050, 4938485, 4203948],
    '지역' : ['수도권','경상권','수도권','경상권'],
    '증가율' : [0.2343,0.0434,0.0123,0.0944]
}
columns = ["지역","2014","2016","2018","2020","증가율"] # 열의 순서 변경
pop_df = pd.DataFrame(data,index=['서울','부산','경기','대구'],columns=columns)
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123
대구,경상권,4203948,6203948,3203948,1203948,0.0944


In [39]:
pop_df.values

array([['수도권', 5910293, 7910293, 8910293, 9910293, 0.2343],
       ['경상권', 3384050, 5384050, 7384050, 8384050, 0.0434],
       ['수도권', 4938485, 7938485, 5938485, 2938485, 0.0123],
       ['경상권', 4203948, 6203948, 3203948, 1203948, 0.0944]], dtype=object)

In [40]:
pop_df.columns

Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object')

In [41]:
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [42]:
# 행과 열 index 이름 지정 가능
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123
대구,경상권,4203948,6203948,3203948,1203948,0.0944


In [55]:
def dfInfo(df):
    print("df shape : {}".format(df.shape))
    print("df size : {}".format(df.size)) # 데이터 수
    print("df ndim : {}".format(df.ndim)) # 차원
    print("df index : {}".format(df.index))
    print("df index type : {}".format(type(df.index)))
    print("df columns : {}".format(df.columns))
    print("df columns type : {}".format(type(df.columns)))
    print("df values : {}".format(df.values))
    print("df values type : {}".format(type(df.values)))

In [47]:
dfInfo(pop_df)

df shape : (4, 6)
df size : 24
df ndim : 2
df index : Index(['서울', '부산', '경기', '대구'], dtype='object', name='도시')
df index type : <class 'pandas.core.indexes.base.Index'>
df columns : Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object', name='특성')
df columns type : <class 'pandas.core.indexes.base.Index'>


### 데이터프레임 만들기 실습
- 열의 수와 행의 수가 각각 5개 이상
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다

In [53]:
from datetime import date, datetime, timedelta
from dateutil.parser import parse
day = datetime(2020,10,9)

In [54]:
data = {
    '날짜' : [day + timedelta(days=x) for x in range(5)],
    '날씨' : ['흐림','눈','맑음','비','맑음'],
    '최고기온' : [23.3, 21.5, 20.8, 21.3, 13.1],
    '최저기온' : [12.4, 12.3, 12.7, 12.1, 8.6],
    '평균운량' : [5,5,6,3,3]
}
df = pd.DataFrame(data)
df

Unnamed: 0,날짜,날씨,최고기온,최저기온,평균운량
0,2020-10-09,흐림,23.3,12.4,5
1,2020-10-10,눈,21.5,12.3,5
2,2020-10-11,맑음,20.8,12.7,6
3,2020-10-12,비,21.3,12.1,3
4,2020-10-13,맑음,13.1,8.6,3


In [57]:
dfInfo(df)

df shape : (5, 5)
df size : 25
df ndim : 2
df index : RangeIndex(start=0, stop=5, step=1)
df index type : <class 'pandas.core.indexes.range.RangeIndex'>
df columns : Index(['날짜', '날씨', '최고기온', '최저기온', '평균운량'], dtype='object')
df columns type : <class 'pandas.core.indexes.base.Index'>
df values : [[Timestamp('2020-10-09 00:00:00') '흐림' 23.3 12.4 5]
 [Timestamp('2020-10-10 00:00:00') '눈' 21.5 12.3 5]
 [Timestamp('2020-10-11 00:00:00') '맑음' 20.8 12.7 6]
 [Timestamp('2020-10-12 00:00:00') '비' 21.3 12.1 3]
 [Timestamp('2020-10-13 00:00:00') '맑음' 13.1 8.6 3]]
df values type : <class 'numpy.ndarray'>


- 열 데이터의 갱신, 추가, 삭제

In [60]:
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123
대구,경상권,4203948,6203948,3203948,1203948,0.0944


In [61]:
# 컬럼 추가
pop_df['2014-2016 증가율'] = ((pop_df['2016']-pop_df['2014'])/pop_df['2014']*100).round(2)

In [62]:
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343,33.84
부산,경상권,3384050,5384050,7384050,8384050,0.0434,59.1
경기,수도권,4938485,7938485,5938485,2938485,0.0123,60.75
대구,경상권,4203948,6203948,3203948,1203948,0.0944,47.57


In [64]:
# 컬럼 삭제
#def pop_df[-1] - key에러 뜸
del pop_df['2014-2016 증가율']
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123
대구,경상권,4203948,6203948,3203948,1203948,0.0944


In [65]:
type(pop_df['지역'])

pandas.core.series.Series

In [66]:
pop_df[['지역','증가율']] # 부분 indexing은 list를 해줘야 한다

Unnamed: 0,지역,증가율
서울,수도권,0.2343
부산,경상권,0.0434
경기,수도권,0.0123
대구,경상권,0.0944


In [67]:
test_df = pd.DataFrame(np.arange(12).reshape(3,4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [68]:
test_df[2]

0     2
1     6
2    10
Name: 2, dtype: int32

- row indexing
- 항상 슬라이싱을 해야한다 
- 인덱스, 라벨 슬라이싱도 가능하다

In [81]:
pop_df[:1]
pop_df[:'서울']

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343


In [82]:
pop_df[1:2]

Unnamed: 0,지역,2014,2016,2018,2020,증가율
부산,경상권,3384050,5384050,7384050,8384050,0.0434


In [91]:
# display - 한 셀에 데이터 프레임 여러개 출력을 위해 필요
display(pop_df['서울':'경기'])
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123


Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0123
대구,경상권,4203948,6203948,3203948,1203948,0.0944


- 개별 데이터 인덱싱(특정 행 특정 컬럼)

In [92]:
# pd 에서는 부분 인덱싱을 위해 1)열 2) 행 기준으로 본다
pop_df['2020']['서울'] 

9910293

In [94]:
score_data = {
    'kor' : [80,90,70,30],
    'eng' : [90,70,60,40],
    'math' : [90,60,90,70]
}
columns = ['kor','eng','math']
index = ['김지은','황인범','김정수','최호진']

exec_df = pd.DataFrame(score_data,index=index,columns=columns)
exec_df

Unnamed: 0,kor,eng,math
김지은,80,90,90
황인범,90,70,60
김정수,70,60,90
최호진,30,40,70


In [132]:
# 위 데이터를 보고 모든 학생의 수학 점수를 시리즈로 출력하라
exec_df['math']
pd.Series([exec_df['math']])

0    김지은     90
황인범    100
김정수     90
최호진     70
Na...
dtype: object

In [100]:
# 모든 학생의 국어와 영어 점수를 데이터 프레임으로 만들어라
exec_df[['kor','eng']]

Unnamed: 0,kor,eng
김지은,80,90
황인범,90,70
김정수,70,60
최호진,30,40


In [106]:
# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라
exec_df['mean'] = exec_df.mean(axis=1)
exec_df

# np.mean(exec_df[['kor','eng','math']]) 가능하다

Unnamed: 0,kor,eng,math,mean
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,40,70,46.666667


In [111]:
# 최호진 학생의 영어 점수를 90점으로 수정하고 평균 점수도 다시 계산하라
exec_df['eng']['최호진'] = 90
exec_df['mean'] = exec_df.mean(axis=1)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,kor,eng,math,mean
김지은,80,90,90,86.666667
황인범,90,70,60,73.333333
김정수,70,60,90,73.333333
최호진,30,90,70,59.166667


In [115]:
# 김지은 학생의 점수를 데이터 프레임으로 만들어라
exec_df[:1]

Unnamed: 0,kor,eng,math,mean
김지은,80,90,90,86.666667


In [225]:
# 김정수 학생의 점수를 시리즈로 출력하라
# exec_df[2:3]
# print(exec_df[2:3])
# print(type(exec_df[2:3]))
print(pd.Series([exec_df[2:3]]))
type(pd.Series([exec_df[2:3]]))

display(type(exec_df.T['김정수'])) 

0         kor  eng  math       mean
김정수   70   60  ...
dtype: object


pandas.core.series.Series

In [120]:
# 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균 점수도 다시 계산하라
exec_df['kor']['황인범'] = 100
exec_df['math']['황인범'] = 100
exec_df['mean'] = exec_df.mean(axis=1)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,kor,eng,math,mean
김지은,80,90,90,86.666667
황인범,100,70,100,88.958333
김정수,70,60,90,73.333333
최호진,30,90,70,63.072917


### 데이터 입출력

In [136]:
%%writefile sample01.csv
col01, col02, col03
1,1,2
1,2,3
4,5,6
4,4,4

Overwriting sample01.csv


In [141]:
court_df=pd.read_csv('./data/court_code.txt',sep='\t',encoding='cp949')
dfInfo(court_df)

df shape : (46180, 3)
df size : 138540
df ndim : 2
df index : RangeIndex(start=0, stop=46180, step=1)
df index type : <class 'pandas.core.indexes.range.RangeIndex'>
df columns : Index(['법정동코드', '법정동명', '폐지여부'], dtype='object')
df columns type : <class 'pandas.core.indexes.base.Index'>
df values : [[1100000000 '서울특별시' '존재']
 [1111000000 '서울특별시 종로구' '존재']
 [1111010100 '서울특별시 종로구 청운동' '존재']
 ...
 [5013032024 '제주특별자치도 서귀포시 표선면 가시리' '존재']
 [5013032025 '제주특별자치도 서귀포시 표선면 세화리' '존재']
 [5013032026 '제주특별자치도 서귀포시 표선면 토산리' '존재']]
df values type : <class 'numpy.ndarray'>


In [143]:
court_df.info() # 데이터프레임의 정보를 알 수 있다

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    46180 non-null int64
법정동명     46180 non-null object
폐지여부     46180 non-null object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


In [148]:
# 1. 폐지여부가 존재인 것들만 데이터 프레임으로 만들어 보자
subset_df =court_df[court_df['폐지여부']=='존재']
subset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
법정동코드    20544 non-null int64
법정동명     20544 non-null object
폐지여부     20544 non-null object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


In [149]:
subset_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [151]:
# 판다스에서 문자열 전처리를 할 때는 반드시 str 가능하다
# 법정동명 앞 5자리까지만 추출
subset_df['법정동명'].str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [153]:
# 법정동명 마지막 한글자만 추출
subset_df['법정동명'].str[-1].head()

0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

In [155]:
subset_df['법정동명'].str.split(" ",expand=True).head() # expand=True는 분리된 문자열 리스트로 새로운 데이터프레임을 생성

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


In [159]:
# 특정 글자로 시작하는 startswith() : boolean
# 서울로 시작하는 데이터만 필터링 한다면?
subset_df[subset_df['법정동명'].str.startswith('서울')]

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재


In [160]:
# 동으로 끝나는 데이터만 필터링 한다면? str.endswith
subset_df[subset_df['법정동명'].str.endswith('동')]

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
7,1111010600,서울특별시 종로구 통의동,존재
8,1111010700,서울특별시 종로구 적선동,존재
9,1111010800,서울특별시 종로구 통인동,존재
10,1111010900,서울특별시 종로구 누상동,존재
11,1111011000,서울특별시 종로구 누하동,존재


In [226]:
# 법정동명 중 특정글자로 끝나는 데이터만 필터링 한다면? str.contains()
# 강서구를 포함하는 데이터 필터링
subset_df[subset_df['법정동명'].str.contains('강서구')].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재


In [227]:
# '법정동명' 에서 공백을 다른 문자(-) 대체 하고 싶다면? : str.replace()

subset_df['법정동명'].str.replace(" ","-").head()

0            서울특별시
1        서울특별시-종로구
2    서울특별시-종로구-청운동
3    서울특별시-종로구-신교동
4    서울특별시-종로구-궁정동
Name: 법정동명, dtype: object

In [163]:
# 공백이 들어 있는 경우, 공백 제거 및 대소문자 처리
empty_df = pd.DataFrame({
    'col01' : ['abcd   ',' FFFght ','abCc    '],
    'col02' : ['       fgHAij  ','     fhhij  ' ,'imnop   ']
})

In [164]:
empty_df

Unnamed: 0,col01,col02
0,abcd,fgHAij
1,FFFght,fhhij
2,abCc,imnop


In [None]:
# str.strip() : 앞뒤 공백제거, str.lstrip(), str.rstrip()
# str.lower() , str.upper() , str.swapcase() -> 대문자는 소문자 소문자는 대문자

In [171]:
test_strip=empty_df['col01'].str.strip()
test_strip.iloc[1] #iloc[1] - index location 인덱스로 위치 찾기

'FFFght'

In [172]:
test_strip=empty_df['col01'].str.lstrip()
test_strip.iloc[1]

'FFFght '

In [175]:
test_strip=empty_df['col01'].str.swapcase()
test_strip.iloc[1]

' fffGHT '

- [실습] weather_20201012.csv

In [178]:
weather_df = pd.read_csv('./data/weather_20201012.csv',sep=',',encoding='cp949')
weather_df.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [189]:
# 위 데이터에서 기온이 가장 높았던 날은 언제이고 몇도인지를 데이터 프레임으로 출력해보자
#weather_df['최고기온(℃)'].max()
weather_df[weather_df['최고기온(℃)']==weather_df['최고기온(℃)'].max()]

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
40051,2018-08-01,108,33.6,27.8,39.6


In [235]:
name_df = pd.read_csv('./data/year2020_baby_name.csv',sep=',',encoding='cp949')
name_df.head()

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300


- 정렬 : sort_values(by=,ascending=)
- 타입변환 : astype(type)

In [197]:
sort_df = name_df.sort_values(by='COUNT',ascending=False).head(10) #ascending=True -> 오름차순 /False -> 내림차순
sort_df 

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
19698,Jacob,M,21875
1,Sophia,F,20477
19699,Ethan,M,17866
2,Emma,F,17179
19700,Michael,M,17133
19701,Jayden,M,17030
19702,William,M,16870
3,Olivia,F,16860
19703,Alexander,M,16634


In [200]:
# COUNT에 대한 순위
rank_df=name_df.sort_values(by='COUNT',ascending=False)['COUNT'].rank(ascending=False)
rank=rank_df.astype('int64')
rank

sort_df['RANK'] = rank

In [234]:
# 순서를 다르게 해도 된다
# a = name_df['COUNT'].rank(ascending=False)
# a = rank_df.astype('int64')
# a
# name_df['a']=a
# name_df.sort_values(by='a')

In [202]:
sort_df.head()

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
19698,Jacob,M,21875,2
1,Sophia,F,20477,3
19699,Ethan,M,17866,4
2,Emma,F,17179,5


In [214]:
# gender를 기준으로 M 데이터 프레임을 만들어라
m_df=sort_df[sort_df['GENDER']=='M']
# gender를 기준으로 F 데이터 프레임을 만들어라
f_df=sort_df[sort_df['GENDER']=='F']

In [209]:
m_df.head()

Unnamed: 0,NAME,GENDER,COUNT,RANK
19698,Jacob,M,21875,2
19699,Ethan,M,17866,4
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
19703,Alexander,M,16634,10


In [215]:
f_df.head()

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
1,Sophia,F,20477,3
2,Emma,F,17179,5
3,Olivia,F,16860,9


In [218]:
m_df=m_df.reset_index(drop=True) # 인덱스 배열에 맞게 초기화
m_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Jacob,M,21875,2
1,Ethan,M,17866,4
2,Michael,M,17133,6
3,Jayden,M,17030,7
4,William,M,16870,8
5,Alexander,M,16634,10


In [221]:
# 행으로 merge 
gender_df = pd.merge(m_df,f_df,left_index=True,right_index=True)
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y
0,Jacob,M,21875,2,Isabella,F,22731,1
1,Ethan,M,17866,4,Sophia,F,20477,3
2,Michael,M,17133,6,Emma,F,17179,5
3,Jayden,M,17030,7,Olivia,F,16860,9


In [222]:
rank=gender_df['COUNT_x'].rank(ascending=False)
rank = rank.astype('int64')
gender_df['RANK'] = rank

In [223]:
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y,RANK
0,Jacob,M,21875,2,Isabella,F,22731,1,1
1,Ethan,M,17866,4,Sophia,F,20477,3,2
2,Michael,M,17133,6,Emma,F,17179,5,3
3,Jayden,M,17030,7,Olivia,F,16860,9,4
