In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
def seriesInfo(s):
    print('value: ', s.values)
    print('value type: ',type(s.values))
    print('index: ',s.index)
    print('index type: ',type(s.index))
    print(s)

In [3]:
price_series = pd.Series([4000,3000,3500,2000],
                        index = ['a', 'b','c','d'])
seriesInfo(price_series)

value:  [4000 3000 3500 2000]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'c', 'd'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    4000
b    3000
c    3500
d    2000
dtype: int64


In [6]:
# 라벨 인덱싱
price_series['a']=5000
seriesInfo(price_series)

value:  [5000 3000 3500 2000]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'c', 'd'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    5000
b    3000
c    3500
d    2000
dtype: int64


In [8]:
# 배열 인덱싱
price_series[0]=4000
seriesInfo(price_series)

value:  [4000 3000 3500 2000]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'c', 'd'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    4000
b    3000
c    3500
d    2000
dtype: int64


In [9]:
# 값 추가
price_series['e'] = 10000
seriesInfo(price_series)

value:  [ 4000  3000  3500  2000 10000]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a     4000
b     3000
c     3500
d     2000
e    10000
dtype: int64


In [10]:
# 삭제
del price_series['e']
seriesInfo(price_series)

value:  [4000 3000 3500 2000]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'c', 'd'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    4000
b    3000
c    3500
d    2000
dtype: int64


In [12]:
set = pd.Series(list({10,20,30,40,50})) # 원래 set을 Series로 만들 수 없으나, 리스트 형식으로 적용하면 가능
seriesInfo(set)

value:  [40 10 50 20 30]
value type:  <class 'numpy.ndarray'>
index:  RangeIndex(start=0, stop=5, step=1)
index type:  <class 'pandas.core.indexes.range.RangeIndex'>
0    40
1    10
2    50
3    20
4    30
dtype: int64


In [13]:
pd.isnull(set)  # null 값이 있는지 확인

0    False
1    False
2    False
3    False
4    False
dtype: bool

In [17]:
# null값을 넣기 위해서는 numpy에서 제공하는 np.NaN 사용해야 한다.
set[0] = np.NaN
seriesInfo(set) # null값이 하나라도 있으면 dtype은 float!

value:  [nan 10. 50. 20. 30.]
value type:  <class 'numpy.ndarray'>
index:  RangeIndex(start=0, stop=5, step=1)
index type:  <class 'pandas.core.indexes.range.RangeIndex'>
0     NaN
1    10.0
2    50.0
3    20.0
4    30.0
dtype: float64


In [20]:
series01 = pd.Series([100,200,300,350], index=['a','b','k','m'])
series02 = pd.Series([400,500,330,340], index=['o','h','a','m'])

In [22]:
ser03 = series01 + series02
seriesInfo(ser03)

value:  [430.  nan  nan  nan 690.  nan]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'h', 'k', 'm', 'o'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    430.0
b      NaN
h      NaN
k      NaN
m    690.0
o      NaN
dtype: float64


In [24]:
ser04 = series01.add(series02, fill_value=0)
seriesInfo(ser04)

value:  [430. 200. 500. 300. 690. 400.]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'h', 'k', 'm', 'o'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    430.0
b    200.0
h    500.0
k    300.0
m    690.0
o    400.0
dtype: float64


- 결측값을 채워넣는 함수 : fillna()
- 결측값을 제거하는 함수 : 

In [28]:
zser = ser03.fillna(0)
seriesInfo(zser)

mser = ser03.fillna(ser03.mean())
seriesInfo(mser)

value:  [430.   0.   0.   0. 690.   0.]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'h', 'k', 'm', 'o'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    430.0
b      0.0
h      0.0
k      0.0
m    690.0
o      0.0
dtype: float64
value:  [430. 560. 560. 560. 690. 560.]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'b', 'h', 'k', 'm', 'o'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    430.0
b    560.0
h    560.0
k    560.0
m    690.0
o    560.0
dtype: float64


- 결측값 제거

In [29]:
pd.notnull(ser03)

a     True
b    False
h    False
k    False
m     True
o    False
dtype: bool

In [32]:
subset = ser03[pd.notnull(ser03)]
seriesInfo(subset)

# subset = ser03[ser03.notnull()]
# seriesInfo(subset)

value:  [430. 690.]
value type:  <class 'numpy.ndarray'>
index:  Index(['a', 'm'], dtype='object')
index type:  <class 'pandas.core.indexes.base.Index'>
a    430.0
m    690.0
dtype: float64


## DataFrame
- dataframe은 여러 개의 series로 구성
- 2차원 행렬 데이터에 인덱스를 붙인 것과 동일하다.
- 행 인덱스, 열 인덱스를 붙일 수 있다.

In [67]:
# 연도에 해당하는 도시별 인구수를 정의한다면
data = {
    '2020':[9912390, 8593200, 4959320, 2039435],
    '2018':[8929390, 6859400, 2938470, 2023345],
    '2016':[8923390, 6559400, 2934370, 2043245],
    '2014':[8424590, 6149400, 2634370, 2184245],
    '지역':['수도권','경상권','수도권','경상권'],
    '증가율':[0.2343,0.0145, 0.284,0.0032]
}
columns = ['지역','2014','2016','2018','2020','증가율']
pop_df = pd.DataFrame(data, index=['서울','부산','경기','대구'],columns=columns)
pop_df

Unnamed: 0,지역,2014,2016,2018,2020,증가율
서울,수도권,8424590,8923390,8929390,9912390,0.2343
부산,경상권,6149400,6559400,6859400,8593200,0.0145
경기,수도권,2634370,2934370,2938470,4959320,0.284
대구,경상권,2184245,2043245,2023345,2039435,0.0032


In [68]:
pop_df.values

array([['수도권', 8424590, 8923390, 8929390, 9912390, 0.2343],
       ['경상권', 6149400, 6559400, 6859400, 8593200, 0.0145],
       ['수도권', 2634370, 2934370, 2938470, 4959320, 0.284],
       ['경상권', 2184245, 2043245, 2023345, 2039435, 0.0032]], dtype=object)

In [69]:
pop_df.columns

Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object')

In [70]:
pop_df.index

Index(['서울', '부산', '경기', '대구'], dtype='object')

In [71]:
pop_df.index.name = '도시'
pop_df.columns.name = '특성'
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8424590,8923390,8929390,9912390,0.2343
부산,경상권,6149400,6559400,6859400,8593200,0.0145
경기,수도권,2634370,2934370,2938470,4959320,0.284
대구,경상권,2184245,2043245,2023345,2039435,0.0032


In [41]:
def dfInfo(df):
    print('df shape: {}'.format(df.shape))
    print('df size: {}'.format(df.size))
    print('df ndim: {}'.format(df.ndim))
    print('df index: {}'.format(df.index))
    print('df index type: {}'.format(type(df.index)))
    print('df coloumms: {}'.format(df.columns))
    print('df coloumns type: {}'.format(type(df.columns)))
    print('df values type: {}'.format(type(df.values)))

In [73]:
dfInfo(pop_df)

df shape: (4, 6)
df size: 24
df ndim: 2
df index: Index(['서울', '부산', '경기', '대구'], dtype='object', name='도시')
df index type: <class 'pandas.core.indexes.base.Index'>
df coloumms: Index(['지역', '2014', '2016', '2018', '2020', '증가율'], dtype='object', name='특성')
df coloumns type: <class 'pandas.core.indexes.base.Index'>
df values type: <class 'numpy.ndarray'>


In [74]:
pop_df.T

도시,서울,부산,경기,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2014,8424590,6149400,2634370,2184245
2016,8923390,6559400,2934370,2043245
2018,8929390,6859400,2938470,2023345
2020,9912390,8593200,4959320,2039435
증가율,0.2343,0.0145,0.284,0.0032


#### 여러분 스스로 다음 조건을 만족하는 임의의 데이터프레임을 만들어보자
- 열의 개수와 행의 개수가 각각 5개 이상이어야 한다.
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다.

In [65]:
from datetime import date, datetime, timedelta

data = {'a':[int(x) for x in np.random.normal(50, 5, (5))],
       'b':[timedelta(days=x) for x in range (5)],
       'c':['정수','재원','번영','경현','인범'],
       'd':[x for x in np.random.rand(5)],
       'e':[int(x) for x in np.random.randint(0,10,5)]}

df = pd.DataFrame(data,columns=['e','c','a','b','d'])
df

Unnamed: 0,e,c,a,b,d
0,7,정수,45,0 days,0.698216
1,7,재원,40,1 days,0.43276
2,5,번영,47,2 days,0.530672
3,8,경현,52,3 days,0.510438
4,3,인범,54,4 days,0.970576


### 열 데이터의 갱신, 추가, 삭제

In [75]:
pop_df['2014-2016 증가율'] = (((pop_df['2016'] - pop_df['2014'])/pop_df['2014']) * 100).round(2)
pop_df

특성,지역,2014,2016,2018,2020,증가율,2014-2016 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,8424590,8923390,8929390,9912390,0.2343,5.92
부산,경상권,6149400,6559400,6859400,8593200,0.0145,6.67
경기,수도권,2634370,2934370,2938470,4959320,0.284,11.39
대구,경상권,2184245,2043245,2023345,2039435,0.0032,-6.46


In [76]:
# 컬럼 삭제
del pop_df['2014-2016 증가율']
pop_df

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8424590,8923390,8929390,9912390,0.2343
부산,경상권,6149400,6559400,6859400,8593200,0.0145
경기,수도권,2634370,2934370,2938470,4959320,0.284
대구,경상권,2184245,2043245,2023345,2039435,0.0032


In [78]:
type(pop_df['지역']) # 열이 하나면 Series

pandas.core.series.Series

In [81]:
type(pop_df[['지역']]) # 리스트 형태로 가져가면 DataFrame

pandas.core.frame.DataFrame

In [79]:
pop_df[['지역','증가율']]

특성,지역,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,수도권,0.2343
부산,경상권,0.0145
경기,수도권,0.284
대구,경상권,0.0032


In [80]:
type(pop_df[['지역','증가율']]) # 열이 하나 이상이면 DataFrame

pandas.core.frame.DataFrame

In [82]:
test_df = pd.DataFrame(np.arange(12).reshape(3,4))
test_df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [83]:
test_df[2]

0     2
1     6
2    10
Name: 2, dtype: int32

#### row indexing
- 항상 슬라이싱을 해야 한다.
- 인덱스, 라벨 슬라이싱 가능

In [93]:
pop_df[0:1]

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8424590,8923390,8929390,9912390,0.2343


In [90]:
pop_df['서울':'부산']

특성,지역,2014,2016,2018,2020,증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,8424590,8923390,8929390,9912390,0.2343
부산,경상권,6149400,6559400,6859400,8593200,0.0145


* 개별 데이터 인덱싱(특정 행, 특정 컬럼)

In [96]:
pop_df['2020']['서울']

9912390

In [28]:
score_data = {
    'kor':[80,90,70,30],
    'eng':[60,50,50,80],
    'math':[80,60,40,30]
}

columns = ['kor','math','eng']
index = ['김지은','황인범','김정수','김민경']

exec_df = pd.DataFrame(score_data, index=index, columns=columns)
exec_df

Unnamed: 0,kor,math,eng
김지은,80,80,60
황인범,90,60,50
김정수,70,40,50
김민경,30,30,80


- 위 데이터를 보고 모든 학생의 수학 점수를 시리즈로 출력하라.
- 모든 학생의 국어,영어 점수를 데이터프레임으로 만들어라.
- 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하라.
- 김민경 학생의 영어 점수를 90점으로 수정하고 평균 점수도 다시 계산
- 김지은 학생의 점수를 데이터 프레임으로 만들어라
- 김정수 학생의 점수를 시리즈로 출력하라
- 황인범 학생의 국어점수와 수학점수를 100점으로 수정하고 평균 점수도 다시 계산하라.

In [29]:
print(exec_df['math'])
print(type(exec_df['math']))

김지은    80
황인범    60
김정수    40
김민경    30
Name: math, dtype: int64
<class 'pandas.core.series.Series'>


In [30]:
display(exec_df[['kor','eng']])
print(type(exec_df[['kor','eng']]))

Unnamed: 0,kor,eng
김지은,80,60
황인범,90,50
김정수,70,50
김민경,30,80


<class 'pandas.core.frame.DataFrame'>


In [136]:
# exec_df[['kor','eng','math']].T
exec_df['average'] = np.mean(exec_df[['kor','eng','math']].T)
exec_df

Unnamed: 0,kor,math,eng,average
김지은,80,80,60,73.333333
황인범,100,100,50,83.333333
김정수,70,40,50,53.333333
김민경,30,30,90,50.0


In [32]:
exec_df['eng']['김민경']=90
exec_df['average'] = np.mean(exec_df[['kor','eng','math']].T)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,kor,math,eng,average
김지은,80,80,60,73.333333
황인범,90,60,50,66.666667
김정수,70,40,50,53.333333
김민경,30,30,90,50.0


In [33]:
display(exec_df[0:1])
print(type(exec_df[0:1]))

Unnamed: 0,kor,math,eng,average
김지은,80,80,60,73.333333


<class 'pandas.core.frame.DataFrame'>


In [34]:
display(exec_df.T['김정수'])
print(type(exec_df.T['김정수']))

kor        70.000000
math       40.000000
eng        50.000000
average    53.333333
Name: 김정수, dtype: float64

<class 'pandas.core.series.Series'>


In [35]:
exec_df['kor']['황인범']=100
exec_df['math']['황인범']=100
exec_df['average'] = np.mean(exec_df[['kor','eng','math']].T)
exec_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,kor,math,eng,average
김지은,80,80,60,73.333333
황인범,100,100,50,83.333333
김정수,70,40,50,53.333333
김민경,30,30,90,50.0


### 데이터 입출력

- 매직명령어 ex) %%time

In [36]:
%%writefile sample01.csv
col01, col02, col03
1,1,1
2,2,2
3,3,3
4,4,4

Writing sample01.csv


In [39]:
court_df = pd.read_csv('C:/Users/A/TIL/08_DataScience/court_code.txt', sep='\t', encoding='cp949')
court_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


In [42]:
dfInfo(court_df)

df shape: (46180, 3)
df size: 138540
df ndim: 2
df index: RangeIndex(start=0, stop=46180, step=1)
df index type: <class 'pandas.core.indexes.range.RangeIndex'>
df coloumms: Index(['법정동코드', '법정동명', '폐지여부'], dtype='object')
df coloumns type: <class 'pandas.core.indexes.base.Index'>
df values type: <class 'numpy.ndarray'>


In [43]:
court_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [44]:
court_df.tail()

Unnamed: 0,법정동코드,법정동명,폐지여부
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재
46179,5013032026,제주특별자치도 서귀포시 표선면 토산리,존재


In [45]:
court_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46180 entries, 0 to 46179
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   법정동코드   46180 non-null  int64 
 1   법정동명    46180 non-null  object
 2   폐지여부    46180 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.1+ MB


In [50]:
# 1. 폐지여부가 존재인 것들만 데이터프레임으로 출력
subset_df = court_df[court_df['폐지여부']=='존재']
display(subset_df)
print(type(subset_df))
subset_df.info()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도 서귀포시 표선면 하천리,존재
46176,5013032023,제주특별자치도 서귀포시 표선면 성읍리,존재
46177,5013032024,제주특별자치도 서귀포시 표선면 가시리,존재
46178,5013032025,제주특별자치도 서귀포시 표선면 세화리,존재


<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20544 entries, 0 to 46179
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   법정동코드   20544 non-null  int64 
 1   법정동명    20544 non-null  object
 2   폐지여부    20544 non-null  object
dtypes: int64(1), object(2)
memory usage: 642.0+ KB


In [51]:
subset_df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [56]:
# pandas에서 문자열 전처리는 반드시 str!
subset_df['법정동명'].str[0:5]
subset_df['법정동명'].str[-1].head()

0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

In [59]:
subset_df['법정동명'].str.split(' ', expand=True)
# expand 옵션은 분할된 단어를 가지고 데이터 프레임 생성

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,
...,...,...,...,...,...
46175,제주특별자치도,서귀포시,표선면,하천리,
46176,제주특별자치도,서귀포시,표선면,성읍리,
46177,제주특별자치도,서귀포시,표선면,가시리,
46178,제주특별자치도,서귀포시,표선면,세화리,


In [63]:
# 특정 글자로 시작하는 startswith(), 끝나는 endswith() : boolean으로 리턴
# 서울로 시작하는 데이터 필터링
subset_df[subset_df['법정동명'].str.startswith('서울')]

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
...,...,...,...
1107,1174010600,서울특별시 강동구 둔촌동,존재
1108,1174010700,서울특별시 강동구 암사동,존재
1109,1174010800,서울특별시 강동구 성내동,존재
1110,1174010900,서울특별시 강동구 천호동,존재


In [64]:
# 법정동 명이 동으로 끝나는 데이터 필터링
subset_df[subset_df['법정동명'].str.endswith('동')]

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재
...,...,...,...
46119,5013011800,제주특별자치도 서귀포시 하원동,존재
46120,5013011900,제주특별자치도 서귀포시 색달동,존재
46121,5013012000,제주특별자치도 서귀포시 상예동,존재
46122,5013012100,제주특별자치도 서귀포시 하예동,존재


In [66]:
# 특정 글자 포함하는 데이터 필터링 : str.contains()

subset_df[subset_df['법정동명'].str.contains('강서구')]

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재
742,1150010300,서울특별시 강서구 화곡동,존재
743,1150010400,서울특별시 강서구 가양동,존재
744,1150010500,서울특별시 강서구 마곡동,존재
745,1150010600,서울특별시 강서구 내발산동,존재
746,1150010700,서울특별시 강서구 외발산동,존재
747,1150010800,서울특별시 강서구 공항동,존재
748,1150010900,서울특별시 강서구 방화동,존재


In [139]:
# '법정동명'에서 공백을 다른 문자(_) 대체하고 싶다면? : str.replace()
subset_df['법정동명'].str.replace(' ','_')

0                       서울특별시
1                   서울특별시_종로구
2               서울특별시_종로구_청운동
3               서울특별시_종로구_신교동
4               서울특별시_종로구_궁정동
                 ...         
46175    제주특별자치도_서귀포시_표선면_하천리
46176    제주특별자치도_서귀포시_표선면_성읍리
46177    제주특별자치도_서귀포시_표선면_가시리
46178    제주특별자치도_서귀포시_표선면_세화리
46179    제주특별자치도_서귀포시_표선면_토산리
Name: 법정동명, Length: 20544, dtype: object

In [138]:
subset_df['법정동명'] = subset_df['법정동명'].str.replace(' ','_')
subset_df

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시_종로구,존재
2,1111010100,서울특별시_종로구_청운동,존재
3,1111010200,서울특별시_종로구_신교동,존재
4,1111010300,서울특별시_종로구_궁정동,존재
...,...,...,...
46175,5013032022,제주특별자치도_서귀포시_표선면_하천리,존재
46176,5013032023,제주특별자치도_서귀포시_표선면_성읍리,존재
46177,5013032024,제주특별자치도_서귀포시_표선면_가시리,존재
46178,5013032025,제주특별자치도_서귀포시_표선면_세화리,존재


In [69]:
# 공백이 들어 있는 경우, 공백 제거 및 대소문자 처리
empty_df = pd.DataFrame({
    'col01':['abcd    ','  FFFght', 'abCCe  '],
    'col02':['     fgHa ','fhihgR  ', ' dimf ']
})

In [70]:
empty_df

Unnamed: 0,col01,col02
0,abcd,fgHa
1,FFFght,fhihgR
2,abCCe,dimf


In [89]:
# str.strip(), str.lstrip(), str.rstrip()
# str.lower(), str.upper(), str.swapcase()
print(empty_df['col01'].str.strip().iloc[2])
print(empty_df['col02'].str.strip().iloc[0])
print(empty_df['col01'].str.lstrip().iloc[1])
print(empty_df['col02'].str.rstrip().iloc[2])
print(empty_df['col02'].str.lower())
print(empty_df['col02'].str.upper())
print(empty_df['col02'].str.swapcase())

abCCe
fgHa
FFFght
 dimf
0         fgha 
1      fhihgr  
2         dimf 
Name: col02, dtype: object
0         FGHA 
1      FHIHGR  
2         DIMF 
Name: col02, dtype: object
0         FGhA 
1      FHIHGr  
2         DIMF 
Name: col02, dtype: object


In [85]:
empty_df['col01'].iloc[1] # iloc : 행 요소 리턴

'  FFFght'

In [91]:
weather_df = pd.read_csv('C:/Users/A/TIL/08_DataScience/data/weather_20201012.csv',sep=',',encoding='cp949')
weather_df.head()

Unnamed: 0,날짜,지점,평균기온(℃),최저기온(℃),최고기온(℃)
0,1907-10-01,108,13.5,7.9,20.7
1,1907-10-02,108,16.2,7.9,22.0
2,1907-10-03,108,16.2,13.1,21.3
3,1907-10-04,108,16.5,11.2,22.0
4,1907-10-05,108,17.6,10.9,25.4


In [93]:
weather_df.columns

Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object')

In [99]:
# 위 데이터에서 기온이 가장 높았던 날은 언제이고 몇도인가
max_w = weather_df['최고기온(℃)'].max()
weather_df[weather_df['최고기온(℃)']== max_w][['날짜','최고기온(℃)']]

Unnamed: 0,날짜,최고기온(℃)
40051,2018-08-01,39.6


In [101]:
baby_df = pd.read_csv('C:/Users/A/TIL/08_DataScience/data/year2020_baby_name.csv',sep=',',encoding='cp949')
baby_df.head()

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300


- 정렬 : sort_values(by=, ascending=)
- 타입변환 : astype(type)

In [146]:
baby_df.sort_values(by='COUNT', ascending=False).head(10)
sort_df

Unnamed: 0,NAME,GENDER,COUNT
0,Isabella,F,22731
1,Sophia,F,20477
2,Emma,F,17179
3,Olivia,F,16860
4,Ava,F,15300
...,...,...,...
33833,Zymaire,M,5
33834,Zyonne,M,5
33835,Zyquarius,M,5
33836,Zyran,M,5


In [150]:
rank_df = baby_df.sort_values(by='COUNT', ascending=False)['COUNT'].rank(ascending=False)
rank = rank_df.astype('int64')
rank

sort_df['RANK'] = rank
sort_df

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
19698,Jacob,M,21875,2
1,Sophia,F,20477,3
19699,Ethan,M,17866,4
2,Emma,F,17179,5
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
3,Olivia,F,16860,9
19703,Alexander,M,16634,10


In [124]:
# gender를 기준으로 M,F 데이터 프레임을 만들어라
f_baby = sort_df[sort_df['GENDER']== 'F']
m_baby = sort_df[sort_df['GENDER']== 'M']
display(f_baby)
display(m_baby)

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Isabella,F,22731,1
1,Sophia,F,20477,3
2,Emma,F,17179,5
3,Olivia,F,16860,9


Unnamed: 0,NAME,GENDER,COUNT,RANK
19698,Jacob,M,21875,2
19699,Ethan,M,17866,4
19700,Michael,M,17133,6
19701,Jayden,M,17030,7
19702,William,M,16870,8
19703,Alexander,M,16634,10


In [127]:
m_baby = m_baby.reset_index(drop=True)
m_baby

Unnamed: 0,NAME,GENDER,COUNT,RANK
0,Jacob,M,21875,2
1,Ethan,M,17866,4
2,Michael,M,17133,6
3,Jayden,M,17030,7
4,William,M,16870,8
5,Alexander,M,16634,10


In [129]:
gender_df = pd.merge(m_baby, f_baby, left_index=True, right_index=True)
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y
0,Jacob,M,21875,2,Isabella,F,22731,1
1,Ethan,M,17866,4,Sophia,F,20477,3
2,Michael,M,17133,6,Emma,F,17179,5
3,Jayden,M,17030,7,Olivia,F,16860,9


In [130]:
rank = gender_df['COUNT_x'].rank(ascending=False)
rank = rank.astype('int64')
gender_df['RANK'] = rank
gender_df

Unnamed: 0,NAME_x,GENDER_x,COUNT_x,RANK_x,NAME_y,GENDER_y,COUNT_y,RANK_y,RANK
0,Jacob,M,21875,2,Isabella,F,22731,1,1
1,Ethan,M,17866,4,Sophia,F,20477,3,2
2,Michael,M,17133,6,Emma,F,17179,5,3
3,Jayden,M,17030,7,Olivia,F,16860,9,4
