## Pandas
- 분석할려는 데이터는 Series 또는 DataFrame
- Series => 넘파이의 1차원배열과 비슷, 다른점은 각 데이터의 index가 존재

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

print('numpy_version',np.__version__)
print('pandas_version',pd.__version__)

numpy_version 1.20.3
pandas_version 1.3.2


## Series
- 인덱싱된 데이터의 1차원 배열이다

In [2]:
def seriesinfo(ary):
    print('data \n',ary)
    print('index:',type(ary.index),ary.index)
    print('value:',type(ary.values),ary.values)

- ndarray와 다른점은 굳이 homogeneous한 배열이 아니여도 된다

In [7]:
ary = pd.Series([1,2,3,4,5,'jslim'],dtype=object)
seriesinfo(ary)

data 
 0        1
1        2
2        3
3        4
4        5
5    jslim
dtype: object
index: <class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=6, step=1)
value: <class 'numpy.ndarray'> [1 2 3 4 5 'jslim']


- 인덱스를 명시 가능하다

In [4]:
ary = pd.Series({'a':1,'b':2,'c':3})
seriesinfo(ary)

data 
 a    1
b    2
c    3
dtype: int64
index: <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c'], dtype='object')
value: <class 'numpy.ndarray'> [1 2 3]


In [6]:
ary = pd.Series([1,2,3,'jslim'],index=['a','b','c','d'],dtype=object)
seriesinfo(ary)

data 
 a        1
b        2
c        3
d    jslim
dtype: object
index: <class 'pandas.core.indexes.base.Index'> Index(['a', 'b', 'c', 'd'], dtype='object')
value: <class 'numpy.ndarray'> [1 2 3 'jslim']


### series의 유용한 속성들

- values 
- index

In [38]:
series01 = pd.Series(range(5),index=['a','b','c','d','e'])
print(series01.values)
print(series01.index)

[0 1 2 3 4]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


- name, index.name 속성이 존재한다
- name은 Series data 자체의 이름을 의미하고 
- index.name 은 시리즈 인덱스의 이름을 의미한다

In [15]:
ary = pd.Series(range(5))
print(ary)
ary.name = '숫자'
ary.index = ['a','b','c','d','e']
ary.index.name = '문자'
print(ary)

0    0
1    1
2    2
3    3
4    4
dtype: int64
문자
a    0
b    1
c    2
d    3
e    4
Name: 숫자, dtype: int64


- series.items()

In [32]:
series01 = pd.Series(range(5),index=['a','b','c','d','e'])
for value,index in series01.items():
    print(value,index)

a 0
b 1
c 2
d 3
e 4


### series 에서 indexing
- 정수형 위치 index활용
- series의 인덱스의 값을 사용하는 방법

In [22]:
ary = pd.Series(range(5),index=['a','b','c','d','e'])

print('정수형 인덱스',ary[0])
print('인덱스 값',ary['a'])

print('정수형 인덱스',ary[[0,1]])
print('인덱스 값',ary[['a','b']])

정수형 인덱스 0
인덱스 값 0
정수형 인덱스 a    0
b    1
dtype: int64
인덱스 값 a    0
b    1
dtype: int64


### Series에서 fancy indexing 
- 두개 이상의 원소가 선택되면 return type이 series가 된다
- 리스트를 이용해서 여러 원소 indexing 가능

In [30]:
ary = pd.Series(range(5),index=['a','b','c','d','e'])
print('정수형 인덱스',ary[[0,1]])
print('인덱스 값',ary[['a','b']])

print(type(ary[['a','b']]))

정수형 인덱스 a    0
b    1
dtype: int64
인덱스 값 a    0
b    1
dtype: int64
<class 'pandas.core.series.Series'>


### Series에서 boolean indexing

In [45]:
series01 = pd.Series(range(5))
print(series01[series01%2==0])

0    0
2    2
4    4
dtype: int64


### Series에서 slicing
- 정수형 슬라이싱은 기존과 동일하다
- index 값을 활용한 슬라이싱에서는 'a':'b' a와 b 둘다 포함이다

In [41]:
ary = pd.Series(range(5),index=['a','b','c','d','e'])
print('정수형 인덱스',ary[0:3])
print('인덱스 값',ary['a':'b']) 

정수형 인덱스 a    0
b    1
c    2
dtype: int64
인덱스 값 a    0
b    1
dtype: int64


### Series끼리의 연산
- index를 기준으로 연산이 된다
- index가 다른 값의 경우는 NaN으로 표기된다

In [55]:
# 평균이 50이고 편차가 5인 정규분포 데이터를 10일간 기록
from datetime import date,datetime,timedelta
from dateutil.parser import parse

days01= [datetime(2021,8,31)+timedelta(days=i) for i in range(10)]
data01 = np.random.normal(50,5,10)

days02= [datetime(2021,9,3)+timedelta(days=i) for i in range(10)]
data02 = np.random.normal(70,5,10)

factory01 = pd.Series(data01,index=days01)
factory02 = pd.Series(data02,index=days02)

In [56]:
factory01+factory02

2021-08-31           NaN
2021-09-01           NaN
2021-09-02           NaN
2021-09-03    119.280921
2021-09-04    134.621140
2021-09-05    117.349924
2021-09-06    126.646308
2021-09-07    110.658507
2021-09-08    118.115236
2021-09-09    110.865389
2021-09-10           NaN
2021-09-11           NaN
2021-09-12           NaN
dtype: float64

### update append delete

In [68]:
series01 = pd.Series(range(5),index=['a','b','c','d','e'])

In [77]:
# indexing을 통한 update
series01[0] = 100
print(series01)
series01['d'] = 300
print(series01)

a     100
b    2000
c    3000
d     300
e       4
dtype: int64
a     100
b    2000
c    3000
d     300
e       4
dtype: int64


In [72]:
# slicing을 통한 update
series01[0:3] = [1000,2000,3000]
print(series01)

a    1000
b    2000
c    3000
d     300
e       4
dtype: int64


In [75]:
# append
series01['f'] = 10000
print(series01)

a     1000
b     2000
c     3000
d      300
e        4
f    10000
dtype: int64


In [76]:
# del
del series01['f']
print(series01)

a    1000
b    2000
c    3000
d     300
e       4
dtype: int64


### DataFrame


In [102]:
def dfinfo(df):
    display(df)
    print('shape:',df.shape)
    print('size:',df.size)
    print('ndim:',df.ndim)
    print('index:',df.index)     # row index
    print('columns:',df.columns) # column inex 
    print('values:\n',df.values,type(df.values)) #ndarray 형식으로 나온다

In [101]:
dict_data = {
    'col01': [1,2,3],
    'col02': [1,2,3],
    'col03': [1,2,3],
    'col04': [1,2,3],
}
df01=pd.DataFrame(dict_data)
dfinfo(df01)

Unnamed: 0,col01,col02,col03,col04
0,1,1,1,1
1,2,2,2,2
2,3,3,3,3


shape: (3, 4)
size: 12
ndim: 2
index: RangeIndex(start=0, stop=3, step=1)
columns: Index(['col01', 'col02', 'col03', 'col04'], dtype='object')
values:
 [[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]] <class 'numpy.ndarray'>


In [110]:
# 리스트를 이용한 생성 1
df01 = pd.DataFrame([[20,'M',False],[34,'F',True]]) # index 와 columns가 자동으로 숫자로 채워진다
display(df01)

Unnamed: 0,0,1,2
0,20,M,False
1,34,F,True


In [109]:
# 리스트를 이용한 생성 2
df01 = pd.DataFrame([[20,'M',False],[34,'F',True]],
                   columns=['나이','성별','결혼'],
                   index =['lee','park'])
display(df01)

Unnamed: 0,나이,성별,결혼
lee,20,M,False
park,34,F,True


In [113]:
# 튜플도 가능하다
df01 = pd.DataFrame([(20,'M',False),(34,'F',True)],
                   columns=['나이','성별','결혼'],
                   index =['lee','park'])
display(df01)

df01 = pd.DataFrame(((20,'M',False),(34,'F',True)),
                   columns=['나이','성별','결혼'],
                   index =['lee','park'])
display(df01)

Unnamed: 0,나이,성별,결혼
lee,20,M,False
park,34,F,True


Unnamed: 0,나이,성별,결혼
lee,20,M,False
park,34,F,True


- rename 함수

In [116]:
df01 = pd.DataFrame([[20,'M',False],[34,'F',True]],
                   columns=['나이','성별','결혼'],
                   index =['lee','park'])
df01.rename(columns={'나이':'age', '성별':'gender', '결혼':'marriage'},inplace=True)
df01.rename(index={'lee':'kim','park':'kwak'},inplace=True)
display(df01)

Unnamed: 0,age,gender,marriage
kim,20,M,False
kwak,34,F,True


In [121]:
# 연습
data = {
    "2021" : [9910293, 8384050, 2938485, 1203948],
    "2018" : [8910293, 7384050, 5938485, 3203948],
    "2016" : [7910293, 5384050, 7938485, 6203948],
    "2014" : [5910293, 3384050, 4938485, 4203948],
    "지역" : ['수도권' , '경상권' , '수도권' , '경상권'],
    "증가율" : [0.2343 , 0.0434 , 0.0944 , 0.0034]
}
# 컬럼의 순서를 바꾸는법 
pop_df = pd.DataFrame(data,columns = ['지역','2014','2016','2018','2021','증가율'])
pop_df.index.name = 'index'
pop_df.columns.name = 'feature'
dfinfo(pop_df)

feature,지역,2014,2016,2018,2021,증가율
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,수도권,5910293,7910293,8910293,9910293,0.2343
1,경상권,3384050,5384050,7384050,8384050,0.0434
2,수도권,4938485,7938485,5938485,2938485,0.0944
3,경상권,4203948,6203948,3203948,1203948,0.0034


shape: (4, 6)
size: 24
ndim: 2
index: RangeIndex(start=0, stop=4, step=1, name='index')
columns: Index(['지역', '2014', '2016', '2018', '2021', '증가율'], dtype='object', name='feature')
values:
 [['수도권' 5910293 7910293 8910293 9910293 0.2343]
 ['경상권' 3384050 5384050 7384050 8384050 0.0434]
 ['수도권' 4938485 7938485 5938485 2938485 0.0944]
 ['경상권' 4203948 6203948 3203948 1203948 0.0034]] <class 'numpy.ndarray'>


In [126]:
# 열데이터 추가 삭제
pop_df['합'] = pop_df['2014'] +pop_df['2016'] +pop_df['2018'] +pop_df['2021'] 

display(pop_df)

del pop_df['합'] 
display(pop_df)

feature,지역,2014,2016,2018,2021,증가율,합
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,수도권,5910293,7910293,8910293,9910293,0.2343,32641172
1,경상권,3384050,5384050,7384050,8384050,0.0434,24536200
2,수도권,4938485,7938485,5938485,2938485,0.0944,21753940
3,경상권,4203948,6203948,3203948,1203948,0.0034,14815792


feature,지역,2014,2016,2018,2021,증가율
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,수도권,5910293,7910293,8910293,9910293,0.2343
1,경상권,3384050,5384050,7384050,8384050,0.0434
2,수도권,4938485,7938485,5938485,2938485,0.0944
3,경상권,4203948,6203948,3203948,1203948,0.0034


In [133]:
# 인덱싱
pop_df[0:3]

feature,지역,2014,2016,2018,2021,증가율
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,수도권,5910293,7910293,8910293,9910293,0.2343
1,경상권,3384050,5384050,7384050,8384050,0.0434
2,수도권,4938485,7938485,5938485,2938485,0.0944


In [139]:
pop_df['2021'][[0,3]]

index
0    9910293
3    1203948
Name: 2021, dtype: int64

#### 해당 url을 이용한 데이터 프레임 생성
- http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=f5eef3421c602c6cb7ea224104795888&targetDt=20120101

In [183]:
import json
import urllib

movie_url = 'http://kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=f5eef3421c602c6cb7ea224104795888&targetDt=20120101'
movie_page = urllib.request.urlopen(movie_url)
print(movie_page)
json_page = json.loads(movie_page.read())
print(type(json_page))
#print(json_page)
#print(json_page['boxOfficeResult']['dailyBoxOfficeList'])

# rank movieNm salesAmt 컬럼으로 데이터 프레임
#df_movie = pd.DataFrame(json_page['boxOfficeResult']['dailyBoxOfficeList'])[['rank','movieNm','salesAmt']]

data = json_page['boxOfficeResult']['dailyBoxOfficeList']
rank_list = []
title_list = []
sales_list = []
for temp_dict in data:
    rank_list.append(temp_dict['rank'])
    title_list.append(temp_dict['movieNm'])
    sales_list.append(temp_dict['salesAmt'])

movie_data = {
    'rank':rank_list,
    'movieNm':title_list,
    'salesAmt':sales_list
}
df_movie = pd.DataFrame(movie_data)
display(df_movie)

# 데이터 타입은
df_movie['salesAmt'] = df_movie['salesAmt'].astype(int)

<http.client.HTTPResponse object at 0x7f906a1769d0>
<class 'dict'>


Unnamed: 0,rank,movieNm,salesAmt
0,1,미션임파서블:고스트프로토콜,2776060500
1,2,마이 웨이,1189058500
2,3,셜록홈즈 : 그림자 게임,1176022500
3,4,퍼펙트 게임,644532000
4,5,프렌즈: 몬스터섬의비밀,436753500
5,6,라이온 킹,507115500
6,7,오싹한 연애,344871000
7,8,극장판 포켓몬스터 베스트 위시「비크티니와 백의 영웅 레시라무」,167809500
8,9,앨빈과 슈퍼밴드3,137030000
9,10,극장판 포켓몬스터 베스트 위시 「비크티니와 흑의 영웅 제크로무」,125535500


#### booklist_json.json 파일로부터 데이터를 읽어들여서 데이터 프레임을 만들어 보자

In [184]:
pd.read_json('/Users/iganghui/TIL/Python/Python_data_science/Data/booklist_json.json')

Unnamed: 0,bookName,link
0,나는 꼭 필요한 것만 남기기로 했다,http://www.hanbit.co.kr/store/books/look.php?p...
1,파이썬과 대스크를 활용한 고성능 데이터 분석,http://www.hanbit.co.kr/store/books/look.php?p...
2,웹어셈블리 인 액션,http://www.hanbit.co.kr/store/books/look.php?p...
3,쉽게 배워 바로 써먹는 디자인 패턴,http://www.hanbit.co.kr/store/books/look.php?p...
4,부의 원칙,http://www.hanbit.co.kr/store/books/look.php?p...
5,만들면서 배우는 픽셀 아트,http://www.hanbit.co.kr/store/books/look.php?p...
6,초보자를 위한 언리얼 엔진 4 입문,http://www.hanbit.co.kr/store/books/look.php?p...
7,분산원장 기술,http://www.hanbit.co.kr/store/books/look.php?p...
8,회사에서 바로 통하는 3ds Max + V-Ray,http://www.hanbit.co.kr/store/books/look.php?p...
9,재미있고 빠른 한글 쓰기 3권 : 교과서 쉬운 낱말,http://www.hanbit.co.kr/store/books/look.php?p...
