# Pandas
#### 분석하려는 데이터는 Series 또는 Dataframe(표 형식의 테이블)이 많다.
##### - Series → numpy의 1차원 배열과 비슷 (각 데이터의 의미를 표시하는 인덱스가 존재한다.)
##### - Series : index + value

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action = 'ignore') 

print("numpy version:",np.__version__) 
print("pandas version:",pd.__version__)

numpy version: 1.20.1
pandas version: 1.2.4


In [5]:
def seriesInfo(ary):
    print('data \n', ary)
    print('index : ', type(ary.index), ary.index)
    print('value : ', type(ary.values), ary.values)

In [6]:
ary = pd.Series([1,2,3,4,5,'suyeon'], dtype=np.object) # 문자열과 숫자가 있어서 dtype을 np.object로 줌.
seriesInfo(ary)

data 
 0         1
1         2
2         3
3         4
4         5
5    suyeon
dtype: object
index :  <class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=6, step=1)
value :  <class 'numpy.ndarray'> [1 2 3 4 5 'suyeon']


In [7]:
ary= pd.Series({'a':1, 'b':2, 'c':3}) # 딕셔너리의 key가 index로 들어감.
seriesInfo(ary)

data 
 a    1
b    2
c    3
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c'], dtype='object')
value :  <class 'numpy.ndarray'> [1 2 3]


### - 인덱스의 label로 정수, 문자, 날짜, 시간을 줄 수 있다.

In [8]:
ary = pd.Series([1,2,3,4,5],index = ['강남', '서초', '방배', '동작', '신도림']) 
seriesInfo(ary)

data 
 강남     1
서초     2
방배     3
동작     4
신도림    5
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['강남', '서초', '방배', '동작', '신도림'], dtype='object')
value :  <class 'numpy.ndarray'> [1 2 3 4 5]


#### - name, index.name 속성 존재한다.
#### - name → Series 데이터에 이름을 붙여주는 역할
#### - index.name → Series 인덱스에 이름을 붙여주는 역할

In [12]:
ary.name='별 의미 없음'
ary.index.name = '구 구별'
seriesInfo(ary)

data 
 구 구별
강남     1
서초     2
방배     3
동작     4
신도림    5
Name: 별 의미 없음, dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['강남', '서초', '방배', '동작', '신도림'], dtype='object', name='구 구별')
value :  <class 'numpy.ndarray'> [1 2 3 4 5]


In [18]:
# tuple 타입을 이용한 시리즈 객체 생성

tup_data = ('suyeon','1997-08-31','여',False)
ary = pd.Series(tup_data, dtype=np.object , index= ['이름','생년월일', '성별','결혼여부'])
seriesInfo(ary)

data 
 이름          suyeon
생년월일    1997-08-31
성별               여
결혼여부         False
dtype: object
index :  <class 'pandas.core.indexes.base.Index'> Index(['이름', '생년월일', '성별', '결혼여부'], dtype='object')
value :  <class 'numpy.ndarray'> ['suyeon' '1997-08-31' '여' False]


### Series에서 원소를 선택하기 위해서는?
#### - 정수형 위치 인덱스를 활용하는 방법
#### - 인덱스의 이름을 활용하는 방법

### Series에서 여러 원소를 선택하기 위해서는?
#### - 리스트를 활용하면 된다

In [34]:
print("정수인덱스 (ary[0]) : ", ary[0],type(ary[0]))
print("인덱스이름 (ary['이름']) : ", ary['이름'], type(ary['이름']))
print()
print("정수인덱스 (ary[[0,1]]) : ", ary[[0,1]],"\n")
seriesInfo(ary[[0,1]]) # 여러 원소로 인덱싱하면 Series로 반환
print()
print("인덱스이름 (ary[['이름','성별']]) : ", ary[['이름','성별']],"\n")
seriesInfo(ary[['이름','성별']])

# 슬라이싱도 가능하다 이름 ~ 성별까지
print()
print("인덱스이름 (ary['이름':'성별']) : ", ary['이름':'성별'],"\n")

print("정수인덱스 (ary[0:3]):",ary[0:3])

정수인덱스 (ary[0]) :  suyeon <class 'str'>
인덱스이름 (ary['이름']) :  suyeon <class 'str'>

정수인덱스 (ary[[0,1]]) :  이름          suyeon
생년월일    1997-08-31
dtype: object 

data 
 이름          suyeon
생년월일    1997-08-31
dtype: object
index :  <class 'pandas.core.indexes.base.Index'> Index(['이름', '생년월일'], dtype='object')
value :  <class 'numpy.ndarray'> ['suyeon' '1997-08-31']

인덱스이름 (ary[['이름','성별']]) :  이름    suyeon
성별         여
dtype: object 

data 
 이름    suyeon
성별         여
dtype: object
index :  <class 'pandas.core.indexes.base.Index'> Index(['이름', '성별'], dtype='object')
value :  <class 'numpy.ndarray'> ['suyeon' '여']

인덱스이름 (ary['이름':'성별']) :  이름          suyeon
생년월일    1997-08-31
성별               여
dtype: object 

정수인덱스 (ary[0:3]): 이름          suyeon
생년월일    1997-08-31
성별               여
dtype: object


In [37]:
for idx, value in ary.items(): # 기존 python 문법 활용시,
    print('idx:{} value:{}'.format(idx, value))
print()    
print('idx:{} value:{}'.format(ary.index, ary.values))

idx:이름 value:suyeon
idx:생년월일 value:1997-08-31
idx:성별 value:여
idx:결혼여부 value:False

idx:Index(['이름', '생년월일', '성별', '결혼여부'], dtype='object') value:['suyeon' '1997-08-31' '여' False]


In [39]:
ary=pd.Series(range(10,21))
seriesInfo(ary)
seriesInfo(ary*10) # 벡터화 연산 가능

data 
 0     10
1     11
2     12
3     13
4     14
5     15
6     16
7     17
8     18
9     19
10    20
dtype: int64
index :  <class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=11, step=1)
value :  <class 'numpy.ndarray'> [10 11 12 13 14 15 16 17 18 19 20]
data 
 0     100
1     110
2     120
3     130
4     140
5     150
6     160
7     170
8     180
9     190
10    200
dtype: int64
index :  <class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=11, step=1)
value :  <class 'numpy.ndarray'> [100 110 120 130 140 150 160 170 180 190 200]


In [40]:
# 2의 배수만 출력한다면?
ary[ary%2==0] # boolean 인덱스 활용 가능

0     10
2     12
4     14
6     16
8     18
10    20
dtype: int64

In [46]:
from datetime import date, datetime, timedelta
from dateutil.parser import parse

day = datetime(2021,8,31)
print(day + timedelta(days=1))

2021-09-01 00:00:00


#### 평균이 50이고 편차가 5인 정규분포 데이터를 10일간 만들고 싶다면?


In [54]:
factory01 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                      index=[day + timedelta(days=d) for d in range(10)])

seriesInfo(factory01)
print()
# 평균이 70이고, 표준편차가 8인 데이터
factory02 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                      index=[day + timedelta(days=d) for d in range(10)])
seriesInfo(factory02)

data 
 2021-08-31    42
2021-09-01    46
2021-09-02    58
2021-09-03    58
2021-09-04    58
2021-09-05    48
2021-09-06    51
2021-09-07    53
2021-09-08    48
2021-09-09    56
dtype: int64
index :  <class 'pandas.core.indexes.datetimes.DatetimeIndex'> DatetimeIndex(['2021-08-31', '2021-09-01', '2021-09-02', '2021-09-03',
               '2021-09-04', '2021-09-05', '2021-09-06', '2021-09-07',
               '2021-09-08', '2021-09-09'],
              dtype='datetime64[ns]', freq=None)
value :  <class 'numpy.ndarray'> [42 46 58 58 58 48 51 53 48 56]

data 
 2021-08-31    57
2021-09-01    77
2021-09-02    64
2021-09-03    68
2021-09-04    68
2021-09-05    76
2021-09-06    69
2021-09-07    63
2021-09-08    63
2021-09-09    72
dtype: int64
index :  <class 'pandas.core.indexes.datetimes.DatetimeIndex'> DatetimeIndex(['2021-08-31', '2021-09-01', '2021-09-02', '2021-09-03',
               '2021-09-04', '2021-09-05', '2021-09-06', '2021-09-07',
               '2021-09-08', '2021-09-09'],
       

In [55]:
factory01+factory02 # 두 정규분포끼리 연산 가능 (단, 인덱스가 동일해야함!)

2021-08-31     99
2021-09-01    123
2021-09-02    122
2021-09-03    126
2021-09-04    126
2021-09-05    124
2021-09-06    120
2021-09-07    116
2021-09-08    111
2021-09-09    128
dtype: int64

In [57]:
# 인덱스가 다르다면? NULL값이 들어간 형태로 연산됨
factory01 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                      index=[day + timedelta(days=d) for d in range(10)])

factory02 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                        index=[day + timedelta(d+1)  for d in range(10)])
factory01+factory02

2021-08-31      NaN
2021-09-01    120.0
2021-09-02    114.0
2021-09-03    114.0
2021-09-04     91.0
2021-09-05    129.0
2021-09-06    119.0
2021-09-07    116.0
2021-09-08    101.0
2021-09-09    126.0
2021-09-10      NaN
dtype: float64

#### 데이터 갱신, 추가, 삭제

In [68]:
price_series = pd.Series([4000,3000,3500,2000],
                        index=['a','b','c','d'])
seriesInfo(price_series)

data 
 a    4000
b    3000
c    3500
d    2000
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd'], dtype='object')
value :  <class 'numpy.ndarray'> [4000 3000 3500 2000]


In [69]:
# 데이터 갱신  
price_series['a']=5000 # index 이름으로 갱신
seriesInfo(price_series)

price_series[0]=6000 # 정수 index로 갱신
seriesInfo(price_series)

data 
 a    5000
b    3000
c    3500
d    2000
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd'], dtype='object')
value :  <class 'numpy.ndarray'> [5000 3000 3500 2000]
data 
 a    6000
b    3000
c    3500
d    2000
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd'], dtype='object')
value :  <class 'numpy.ndarray'> [6000 3000 3500 2000]


In [70]:
# 데이터 추가
# 존재하지 않는 인덱스를 주고 data추가
price_series['e'] = 6000
seriesInfo(price_series)

data 
 a    6000
b    3000
c    3500
d    2000
e    6000
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
value :  <class 'numpy.ndarray'> [6000 3000 3500 2000 6000]


In [71]:
# 데이터 삭제
del price_series['e']
seriesInfo(price_series)

data 
 a    6000
b    3000
c    3500
d    2000
dtype: int64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd'], dtype='object')
value :  <class 'numpy.ndarray'> [6000 3000 3500 2000]


In [73]:
# value값을 Null값으로 데이터 추가
price_series['e']=np.NaN
seriesInfo(price_series)

data 
 a    6000.0
b    3000.0
c    3500.0
d    2000.0
e       NaN
dtype: float64
index :  <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
value :  <class 'numpy.ndarray'> [6000. 3000. 3500. 2000.   nan]


In [76]:
print("is null \n", pd.isnull(price_series) ,"\n")
print(price_series[price_series.isnull()]) # boolean 인덱싱
print()
print('notnull \n', pd.notnull(price_series),"\n")
print(price_series[price_series.notnull()]) # boolean 인덱싱

is null 
 a    False
b    False
c    False
d    False
e     True
dtype: bool 

e   NaN
dtype: float64

notnull 
 a     True
b     True
c     True
d     True
e    False
dtype: bool 

a    6000.0
b    3000.0
c    3500.0
d    2000.0
dtype: float64


## DataFrame
- pd.DataFrame() : 데이터프레임 만들어주는 함수

In [89]:
def frmInfo(df):
    display('DataFrame',df)
    print('shape : ', df.shape) # 형태
    print('size : ' , df.size) # 전체 개수
    print('ndim : ' , df.ndim)
    print('index(row) : ', df.index, type(df.index)) # row index
    print('columns : ', df.columns, type(df.columns))
    print('values : \n', df.values, type(df.values))

In [90]:
dict_data={
    'col01':[1,2,3],
    'col02':[4,5,6],
    'col03':[7,8,9],
    'col04':[10,11,12],
    'col05':[13,14,15],
}
temp_df=pd.DataFrame(dict_data)
frmInfo(temp_df)

'DataFrame'

Unnamed: 0,col01,col02,col03,col04,col05
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


shape :  (3, 5)
size :  15
ndim :  2
index(row) :  RangeIndex(start=0, stop=3, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
columns :  Index(['col01', 'col02', 'col03', 'col04', 'col05'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [[ 1  4  7 10 13]
 [ 2  5  8 11 14]
 [ 3  6  9 12 15]] <class 'numpy.ndarray'>


In [93]:
# 리스트를 이용한 생성
temp_df = pd.DataFrame([[20,'M',False],[30,'F',True]],
                      index=['name1','name2'],
                      columns=['나이','성별','결혼여부'])
frmInfo(temp_df)

'DataFrame'

Unnamed: 0,나이,성별,결혼여부
name1,20,M,False
name2,30,F,True


shape :  (2, 3)
size :  6
ndim :  2
index(row) :  Index(['name1', 'name2'], dtype='object') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['나이', '성별', '결혼여부'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [[20 'M' False]
 [30 'F' True]] <class 'numpy.ndarray'>


In [96]:
print('rename함수를 이용한 열 이름 변경')
temp_df.rename(columns={'나이':'연세','성별':'남녀','결혼여부':'혼인여부'}) # 원본엔 반영X, 별도의 subset 리턴
print('원본에 반영하려면 inplace=True로 줘야함!')
temp_df.rename(index={'name1':'학생1','name2':'학생2'},inplace=True) 
print()
frmInfo(temp_df)

rename함수를 이용한 열 이름 변경
원본에 반영하려면 inplace=True로 줘야함!



'DataFrame'

Unnamed: 0,나이,성별,결혼여부
학생1,20,M,False
학생2,30,F,True


shape :  (2, 3)
size :  6
ndim :  2
index(row) :  Index(['학생1', '학생2'], dtype='object') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['나이', '성별', '결혼여부'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [[20 'M' False]
 [30 'F' True]] <class 'numpy.ndarray'>


In [99]:
data = {
    "2021" : [9910293, 8384050, 2938485, 1203948],
    "2018" : [8910293, 7384050, 5938485, 3203948],
    "2016" : [7910293, 5384050, 7938485, 6203948],
    "2014" : [5910293, 3384050, 4938485, 4203948],
    "지역" : ['수도권' , '경상권' , '수도권' , '경상권'],
    "증가율" : [0.2343 , 0.0434 , 0.0944 , 0.0034]
}
# 칼럼의 순서를 정해주고 싶을 때
columns=['지역','2014','2016','2018','2021','증가율']
pop_frm = pd.DataFrame(data,
                      columns=columns,
                      index = ['서울','부산','경기','대구'])
frmInfo(pop_frm)

'DataFrame'

Unnamed: 0,지역,2014,2016,2018,2021,증가율
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


shape :  (4, 6)
size :  24
ndim :  2
index(row) :  Index(['서울', '부산', '경기', '대구'], dtype='object') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [['수도권' 5910293 7910293 8910293 9910293 0.2343]
 ['경상권' 3384050 5384050 7384050 8384050 0.0434]
 ['수도권' 4938485 7938485 5938485 2938485 0.0944]
 ['경상권' 4203948 6203948 3203948 1203948 0.0034]] <class 'numpy.ndarray'>


In [100]:
pop_frm.index.name='city'
pop_frm.columns.name='feature'
frmInfo(pop_frm)

print('index name : ', pop_frm.index, pop_frm.index.name )
print('columns name : ', pop_frm.columns, pop_frm.columns.name )

'DataFrame'

feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


shape :  (4, 6)
size :  24
ndim :  2
index(row) :  Index(['서울', '부산', '경기', '대구'], dtype='object', name='city') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object', name='feature') <class 'pandas.core.indexes.base.Index'>
values : 
 [['수도권' 5910293 7910293 8910293 9910293 0.2343]
 ['경상권' 3384050 5384050 7384050 8384050 0.0434]
 ['수도권' 4938485 7938485 5938485 2938485 0.0944]
 ['경상권' 4203948 6203948 3203948 1203948 0.0034]] <class 'numpy.ndarray'>
index name :  Index(['서울', '부산', '경기', '대구'], dtype='object', name='city') city
columns name :  Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object', name='feature') feature


In [101]:
pop_frm.T # 행열 전환

city,서울,부산,경기,대구
feature,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2014,5910293,3384050,4938485,4203948
2016,7910293,5384050,7938485,6203948
2018,8910293,7384050,5938485,3203948
2021,9910293,8384050,2938485,1203948
증가율,0.2343,0.0434,0.0944,0.0034


#### 열 데이터의 갱신, 추가, 삭제

In [104]:
# 새로운 열 추가
pop_frm['2014-2016증가율']=round((pop_frm['2016']-pop_frm['2014'])/pop_frm['2014']*100,2)
frmInfo(pop_frm)

'DataFrame'

feature,지역,2014,2016,2018,2021,증가율,2014-2016증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343,33.84
부산,경상권,3384050,5384050,7384050,8384050,0.0434,59.1
경기,수도권,4938485,7938485,5938485,2938485,0.0944,60.75
대구,경상권,4203948,6203948,3203948,1203948,0.0034,47.57


shape :  (4, 7)
size :  28
ndim :  2
index(row) :  Index(['서울', '부산', '경기', '대구'], dtype='object', name='city') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['지역', '2014', '2016', '2018', '2021', '증가율', '2014-2016증가율'], dtype='object', name='feature') <class 'pandas.core.indexes.base.Index'>
values : 
 [['수도권' 5910293 7910293 8910293 9910293 0.2343 33.84]
 ['경상권' 3384050 5384050 7384050 8384050 0.0434 59.1]
 ['수도권' 4938485 7938485 5938485 2938485 0.0944 60.75]
 ['경상권' 4203948 6203948 3203948 1203948 0.0034 47.57]] <class 'numpy.ndarray'>


In [105]:
# 열 삭제
del pop_frm['2014-2016증가율']
frmInfo(pop_frm)

'DataFrame'

feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944
대구,경상권,4203948,6203948,3203948,1203948,0.0034


shape :  (4, 6)
size :  24
ndim :  2
index(row) :  Index(['서울', '부산', '경기', '대구'], dtype='object', name='city') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object', name='feature') <class 'pandas.core.indexes.base.Index'>
values : 
 [['수도권' 5910293 7910293 8910293 9910293 0.2343]
 ['경상권' 3384050 5384050 7384050 8384050 0.0434]
 ['수도권' 4938485 7938485 5938485 2938485 0.0944]
 ['경상권' 4203948 6203948 3203948 1203948 0.0034]] <class 'numpy.ndarray'>


In [107]:
# 필요한 열만 추출하기
pop_frm[['지역','증가율']]
frmInfo(pop_frm[['지역','증가율']])

'DataFrame'

feature,지역,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,수도권,0.2343
부산,경상권,0.0434
경기,수도권,0.0944
대구,경상권,0.0034


shape :  (4, 2)
size :  8
ndim :  2
index(row) :  Index(['서울', '부산', '경기', '대구'], dtype='object', name='city') <class 'pandas.core.indexes.base.Index'>
columns :  Index(['지역', '증가율'], dtype='object', name='feature') <class 'pandas.core.indexes.base.Index'>
values : 
 [['수도권' 0.2343]
 ['경상권' 0.0434]
 ['수도권' 0.0944]
 ['경상권' 0.0034]] <class 'numpy.ndarray'>


##### frmInfo(pop_frm[[0,3]]) → 오류 : 열에 대해 정수 인덱싱 불가능

### row Indexing(항상 슬라이싱 해야한다)
#### -배열, 라벨 인덱싱이 가능하다! 

In [121]:
display(pop_frm[0:1]) # 슬라이싱을 안하면 열인덱싱 방법과 똑같아서 반드시 슬라이싱!!
display(pop_frm[:'서울'])

display(pop_frm[0:3])
display(pop_frm['서울':'경기'])

feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343


feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343


feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944


feature,지역,2014,2016,2018,2021,증가율
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,5910293,7910293,8910293,9910293,0.2343
부산,경상권,3384050,5384050,7384050,8384050,0.0434
경기,수도권,4938485,7938485,5938485,2938485,0.0944


#### 개별 인덱싱(특정행,특정열)

In [125]:
pop_frm['2021'][['서울','대구']]

city
서울    9910293
대구    1203948
Name: 2021, dtype: int64

#### 해당 url을 이용한 데이터프레임 생성
- http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=f5eef3421c602c6cb7ea224104795888&targetDt=20120101

In [176]:
import json
import urllib
movie_url = "http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=f5eef3421c602c6cb7ea224104795888&targetDt=20120101"
response_page = urllib.request.urlopen(movie_url)
print("-----page-----")
print(response_page)

json_page = json.loads(response_page.read())
print('json type', type(json_page))
print('-----json-----')
print(json_page['boxOfficeResult']['dailyBoxOfficeList'])

# rank, movieNm, salesAmt를 담는 데이터 프레임을 만든다면?
data= json_page['boxOfficeResult']['dailyBoxOfficeList']
rank=[]
movieNm=[]
salesAmt=[]
for tmp_dict in data: # for문 활용해서 리스트로 데이터 만든 다음, 데이터프레임 만들기 
    r=tmp_dict['rank']
    m = tmp_dict['movieNm']
    s = tmp_dict['salesAmt']
    rank.append(r)
    movieNm.append(m)
    salesAmt.append(s)

# 데이터프레임 만들기

movie_data={
    'rank':rank,
    'title':movieNm,
    'amt':salesAmt
}
movie_frm=pd.DataFrame(movie_data)
frmInfo(movie_frm)

# 2번째 방법
movie_frm = pd.DataFrame(data) # 전체를 데이터프레임을 만들고, 필요한 열만 추출해서 subset으로!
movie_frm[['rank','movieNm','salesAmt']]

-----page-----
<http.client.HTTPResponse object at 0x00000150D70A6D00>
json type <class 'dict'>
-----json-----
[{'rnum': '1', 'rank': '1', 'rankInten': '0', 'rankOldAndNew': 'OLD', 'movieCd': '20112207', 'movieNm': '미션임파서블:고스트프로토콜', 'openDt': '2011-12-15', 'salesAmt': '2776060500', 'salesShare': '36.3', 'salesInten': '-415699000', 'salesChange': '-13', 'salesAcc': '40541108500', 'audiCnt': '353274', 'audiInten': '-60106', 'audiChange': '-14.5', 'audiAcc': '5328435', 'scrnCnt': '697', 'showCnt': '3223'}, {'rnum': '2', 'rank': '2', 'rankInten': '1', 'rankOldAndNew': 'OLD', 'movieCd': '20110295', 'movieNm': '마이 웨이', 'openDt': '2011-12-21', 'salesAmt': '1189058500', 'salesShare': '15.6', 'salesInten': '-105894500', 'salesChange': '-8.2', 'salesAcc': '13002897500', 'audiCnt': '153501', 'audiInten': '-16465', 'audiChange': '-9.7', 'audiAcc': '1739543', 'scrnCnt': '588', 'showCnt': '2321'}, {'rnum': '3', 'rank': '3', 'rankInten': '-1', 'rankOldAndNew': 'OLD', 'movieCd': '20112621', 'movieNm':

'DataFrame'

Unnamed: 0,rank,title,amt
0,1,미션임파서블:고스트프로토콜,2776060500
1,2,마이 웨이,1189058500
2,3,셜록홈즈 : 그림자 게임,1176022500
3,4,퍼펙트 게임,644532000
4,5,프렌즈: 몬스터섬의비밀,436753500
5,6,라이온 킹,507115500
6,7,오싹한 연애,344871000
7,8,극장판 포켓몬스터 베스트 위시「비크티니와 백의 영웅 레시라무」,167809500
8,9,앨빈과 슈퍼밴드3,137030000
9,10,극장판 포켓몬스터 베스트 위시 「비크티니와 흑의 영웅 제크로무」,125535500


shape :  (10, 3)
size :  30
ndim :  2
index(row) :  RangeIndex(start=0, stop=10, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
columns :  Index(['rank', 'title', 'amt'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [['1' '미션임파서블:고스트프로토콜' '2776060500']
 ['2' '마이 웨이' '1189058500']
 ['3' '셜록홈즈 : 그림자 게임' '1176022500']
 ['4' '퍼펙트 게임' '644532000']
 ['5' '프렌즈: 몬스터섬의비밀 ' '436753500']
 ['6' '라이온 킹' '507115500']
 ['7' '오싹한 연애' '344871000']
 ['8' '극장판 포켓몬스터 베스트 위시「비크티니와 백의 영웅 레시라무」' '167809500']
 ['9' '앨빈과 슈퍼밴드3' '137030000']
 ['10' '극장판 포켓몬스터 베스트 위시 「비크티니와 흑의 영웅 제크로무」' '125535500']] <class 'numpy.ndarray'>


#### booklist_json.json파일로부터 데이터를 읽어들여서 데이터프레임을 만들어 보세요.

In [182]:
data=pd.read_json("C:/Users/whgud/data/booklist_json.json") # json파일 불러오기
#print(data)
booklist_df = pd.DataFrame(data) # 데이터프레임 만들기

frmInfo(booklist_df)

'DataFrame'

Unnamed: 0,bookName,link
0,나는 꼭 필요한 것만 남기기로 했다,http://www.hanbit.co.kr/store/books/look.php?p...
1,파이썬과 대스크를 활용한 고성능 데이터 분석,http://www.hanbit.co.kr/store/books/look.php?p...
2,웹어셈블리 인 액션,http://www.hanbit.co.kr/store/books/look.php?p...
3,쉽게 배워 바로 써먹는 디자인 패턴,http://www.hanbit.co.kr/store/books/look.php?p...
4,부의 원칙,http://www.hanbit.co.kr/store/books/look.php?p...
5,만들면서 배우는 픽셀 아트,http://www.hanbit.co.kr/store/books/look.php?p...
6,초보자를 위한 언리얼 엔진 4 입문,http://www.hanbit.co.kr/store/books/look.php?p...
7,분산원장 기술,http://www.hanbit.co.kr/store/books/look.php?p...
8,회사에서 바로 통하는 3ds Max + V-Ray,http://www.hanbit.co.kr/store/books/look.php?p...
9,재미있고 빠른 한글 쓰기 3권 : 교과서 쉬운 낱말,http://www.hanbit.co.kr/store/books/look.php?p...


shape :  (50, 2)
size :  100
ndim :  2
index(row) :  RangeIndex(start=0, stop=50, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
columns :  Index(['bookName', 'link'], dtype='object') <class 'pandas.core.indexes.base.Index'>
values : 
 [['나는 꼭 필요한 것만 남기기로 했다'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B7269609529']
 ['파이썬과 대스크를 활용한 고성능 데이터 분석'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B4595034178']
 ['웹어셈블리 인 액션'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B5654500071']
 ['쉽게 배워 바로 써먹는 디자인 패턴'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B9696096335']
 ['부의 원칙'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B1303121763']
 ['만들면서 배우는 픽셀 아트'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B8144473464']
 ['초보자를 위한 언리얼 엔진 4 입문'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B4792640793']
 ['분산원장 기술'
  'http://www.hanbit.co.kr/store/books/look.php?p_code=B2916452728']
 ['회사에서 바로 통하는 3ds Max + V-Ray'
  'http://www.h

### 다음 조건을 만족하는 임의의 데이터프레임을 만들어보기
- 열의 개수와 행의 개수가 각각 5개 이상이어야 한다.
- 열에는 정수, 문자열, 실수, 날짜 데이터가 각각 1개 이상 포함되어야 한다.

In [185]:
# 영화 데이터프레임 만들어보기
# 제목= 감독, 개봉일, 관객수, 매출액,  순위
명량 = ['김한민',datetime(2014,7,30),17613682,135748398910,1]
극한직업=['이병헌',datetime(2019,1,23),16264944,139647979516,2]
신과함께_죄와벌=['김용화',datetime(2017,12,20),14410754,115698654137,3]
국제시장=['윤제균',datetime(2014,12,17),14257115,110913469630,4]
어벤져스_엔드게임=['루소형제',datetime(2019,4,24),13934592,122182694160,5]
겨울왕국2=['크리스 벅 제니퍼 리',datetime(2019,11,21),13747792,114810421450,6]

movie_rank={
    "명량":명량,
    "극한직업":극한직업,
    "신과함께-죄와벌":신과함께_죄와벌,
    "국제시장":국제시장,
    "어벤져스: 엔드게임":어벤져스_엔드게임,
    "겨울왕국2":겨울왕국2
}
movie_rank_df=pd.DataFrame(movie_rank)

movie_rank_df.index=["감독","개봉일","관객수","매출액","순위"]
movie_rank_df

Unnamed: 0,명량,극한직업,신과함께-죄와벌,국제시장,어벤져스: 엔드게임,겨울왕국2
감독,김한민,이병헌,김용화,윤제균,루소형제,크리스 벅 제니퍼 리
개봉일,2014-07-30 00:00:00,2019-01-23 00:00:00,2017-12-20 00:00:00,2014-12-17 00:00:00,2019-04-24 00:00:00,2019-11-21 00:00:00
관객수,17613682,16264944,14410754,14257115,13934592,13747792
매출액,135748398910,139647979516,115698654137,110913469630,122182694160,114810421450
순위,1,2,3,4,5,6
