- Open API를 이용해서 DataFrame 만들기

In [2]:
import numpy as np
import pandas as pd
import json
import urllib

In [None]:
open_api = 'http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json'
query_string = '?key=c802b4cefc5c250d9013ca769e658871&targetDt=20210114'
open_api_url = open_api + query_string
print(open_api_url)

In [None]:
# url을 이용해서 호출하는 행위 = request
page_obj = urllib.request.urlopen(open_api_url)
#response객체를 얻음, 이 안에 우리가 원하는 json이 포함되있음
print(type(page_obj))
print(page_obj.read())

In [None]:
page_obj = urllib.request.urlopen(open_api_url)
json_page = json.loads(page_obj.read())
print(json_page)
print(type(json_page))

- 하지만 바로 json을 dict로 변환하는게 힘들다
- 원하는 내용을 뽑아서 DataFrame으로 생성해야 한다

In [None]:
page_obj = urllib.request.urlopen(open_api_url)
json_page = json.loads(page_obj.read())

my_dict = dict()
rank_list = list()
title_list = list()
sales_list = list()

# 필요한 데이터를 뽑아서 리스트로 만들기
for tmp_dict in json_page['boxOfficeResult']['dailyBoxOfficeList']:
    rank_list.append(tmp_dict['rank'])
    title_list.append(tmp_dict['movieNm'])
    sales_list.append(tmp_dict['salesAmt'])

# 리스트를 이용해서 dict를 만들기
my_dict['순위'] = rank_list
my_dict['제목'] =title_list
my_dict['매출액'] =sales_list

# dict로 DataFrame을 만들기
df = pd.DataFrame(my_dict)
display(df)

- DataFrame을 만드는 다양한 방법
    1. dict를 통해 직접 데이터를 입력해서 만드는 방법
    2. CSV파일을 이용해서 만드는 방법
    3. DataBase에서 데이터를 불러와서 만드는 방법
    4. Open API를 이용해서 만드는 방법
---

In [None]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점','주소'],index=['하나','둘','셋','넷','다섯'])
display(df)

- DataFrame을 사용하는 방법

In [None]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['하나','둘','셋','넷','다섯'])
display(df)
print(df['이름'])
print(type(df['이름']))

In [None]:
import warnings

# 아래 나오는 경고문 무시 가능
warnings.filterwarnings(action='ignore')
# 경고문 다시 출력
warnings.filterwarnings(action='default')

# 특정 열을 추출하면 view를 만들어냄
stu_name = df['이름']
stu_name['셋'] = 'Z' 
print(stu_name)
# 그래서 원본 DataFrame도 수정됨
display(df)

In [None]:
# copy()를 통해 새로운 객체 생성가능
stu_name = df['이름'].copy()
stu_name['셋'] = 'Z' 
print(stu_name)
# 원본 DataFrame은 그대로
display(df)

- column을 두 개 이상 가져오기
- fancy indexing

In [None]:
# Dataframe을 리턴
df[['이름','학점']]

In [None]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점','등급'],index=['하나','둘','셋','넷','다섯'])
display(df)

In [None]:
# broadcasting
df['등급'] = 'A'
display(df)

In [None]:
# 새로운 값을 리스트로 만들어서 추가 가능
df['등급'] = ['A','C','A','D','F']
display(df)

In [None]:
# 새로운 값을 ndarray로 해도 가능
df['등급'] = np.array(['A','C','A','D', np.nan])
display(df)

In [None]:
# 새로운 값을 추가할때 크기를 맞춰야 한다. 결측값도 명시해야함
df['등급'] = ['A','C','A','D',np.nan]
display(df)

- DataFrame의 column을 추가하기

In [None]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['하나','둘','셋','넷','다섯'])
display(df)

In [None]:
# 새로운 columns을 추가하기
df['등급'] = np.arange(1,10,2)
display(df)

In [None]:
# 행의 갯수가 맞지 않아 오류
df['나이'] = [15,20,25,30]

In [None]:
# series를 추가하기?
# index를 맞춰야 추가 가능
df['나이'] = pd.Series([10,15,20,25,30], index=['하나','둘','셋','넷','다섯'])
display(df)

In [None]:
# index기반이므로 일부 행만 추가 가능
# series는 내부의 데이터 타입이 같다. nan은 실수로 간주되므로 안의 모든 값은 실수로 들어간다
df['나이'] = pd.Series([10,15,20], index=['하나','둘','넷'])
display(df)

- 연산을 통한 새로운 column을 추가

In [None]:
df['장학생여부'] = df['학점'] > 4.0
display(df)

- DataFrame의 column을 삭제하는 방법

In [9]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['하나','둘','셋','넷','다섯'])
display(df)

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7
넷,통계,D,3,4.3
다섯,영어영문,E,4,4.5


In [10]:
# 원본에서 삭제하는 경우 (inplace=True)
# 원본을 보존하고 삭제한 새로운 복사본을 만드는 경우 (inplace=False) - default
new_df = df.drop('학년', axis=1, inplace=False)
display(df)
display(new_df)

df.drop('학년', axis=1, inplace=True)
display(df)

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7
넷,통계,D,3,4.3
다섯,영어영문,E,4,4.5


Unnamed: 0,학과,이름,학점
하나,컴퓨터,A,1.3
둘,철학,B,3.5
셋,수학,C,2.7
넷,통계,D,4.3
다섯,영어영문,E,4.5


Unnamed: 0,학과,이름,학점
하나,컴퓨터,A,1.3
둘,철학,B,3.5
셋,수학,C,2.7
넷,통계,D,4.3
다섯,영어영문,E,4.5


- 여기까지가 DataFrame의 column에 관련된 CRUD
- CRUD(Create, Read, Update, Delete)
---
- column indexing

In [49]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['하나','둘','셋','넷','다섯'])
display(df)

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7
넷,통계,D,3,4.3
다섯,영어영문,E,4,4.5


In [12]:
# column은 slicing이 안됨
print(df['이름':'학년'])

KeyError: '이름'

In [14]:
# fancy indexing은 가능
display(df[['이름','학년']])

Unnamed: 0,이름,학년
하나,A,1
둘,B,2
셋,C,2
넷,D,3
다섯,E,4


In [22]:
# boolean indexing은 column과 상관이 없다. row indexing할때 사용
# row indexing
# 행에 대한 숫자 index로 단일 indexing이 불가
print(df[1])

KeyError: 1

In [24]:
# 행에 대한 slicing은 가능
display(df[1:3])
display(df[0:1])

Unnamed: 0,학과,이름,학년,학점
둘,철학,B,2,3.5
셋,수학,C,2,2.7


In [26]:
# row에 대한 fancy indexing은 안됨
display(df[[1,3]])

KeyError: "None of [Int64Index([1, 3], dtype='int64')] are in the [columns]"

In [43]:
# 지정한 index를 이용하여 indexing하기
# column indexing하는 방식이므로 row indexing은 불가능
print(df['하나'])

KeyError: '하나'

In [56]:
# row slicing은 가능
display(df['하나':'셋'])

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7


In [57]:
# 숫자 index와 일반 index 혼용 사용 불가
display(df['하나':-1])

TypeError: cannot do slice indexing on Index with these indexers [-1] of type int

In [58]:
# column에 대한 fancy indexing이므로 에러
display(df[['하나','셋']])

KeyError: "None of [Index(['하나', '셋'], dtype='object')] are in the [columns]"

- 이러한 문제로 row indexing은 다음과 같은 방법을 이용한다
- DataFrame.loc[]

In [59]:
data = {'이름' : ['A','B','C','D','E'],
        '학과' : ['컴퓨터','철학','수학','통계','영어영문'],
        '학년' : [1,2,2,3,4],
        '학점' : [1.3,3.5,2.7,4.3,4.5]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['하나','둘','셋','넷','다섯'])
display(df)

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7
넷,통계,D,3,4.3
다섯,영어영문,E,4,4.5


In [77]:
# 결과는 series로 리턴
display(df.loc['하나'])

학과    컴퓨터
이름      A
학년      1
학점    1.3
Name: 하나, dtype: object

In [74]:
# 결과로 Dataframe을 리턴
display(df.loc['하나':'넷'])

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
둘,철학,B,2,3.5
셋,수학,C,2,2.7
넷,통계,D,3,4.3


In [75]:
# loc를 이용하면 숫자 index를 사용할 수 없다
display(df.loc[0])

KeyError: 0

In [79]:
# loc를 이용하면 fancy indexing도 가능
display(df.loc[['하나','넷']])

Unnamed: 0,학과,이름,학년,학점
하나,컴퓨터,A,1,1.3
넷,통계,D,3,4.3


- 숫자 인덱스를 사용하기 위해선 DataFrame.iloc[]를 사용해아한다

In [88]:
display(df.iloc[[1,3]])

Unnamed: 0,학과,이름,학년,학점
둘,철학,B,2,3.5
넷,통계,D,3,4.3


In [90]:
# loc[]를 이용해서 행과 열 모두 접근 가능
# 결과는 Series로 리턴
display(df.loc['하나':'셋', '이름'])

하나    A
둘     B
셋     C
Name: 이름, dtype: object

In [91]:
# loc[]를 이용하면 행, 열 모두 slicing 가능
display(df.loc['하나':'셋', '이름':'학년'])

Unnamed: 0,이름,학년
하나,A,1
둘,B,2
셋,C,2


In [94]:
# 학점이 4.0을 초과하는 학생의 이름과 학점을 DataFrame으로 출력
# 이건 내가 생각한 방법인데 좀 불필요한 부분이 있는거 같음
display(df[df['학점'] > 4.0].loc[:,['이름','학점']])

Unnamed: 0,이름,학점
넷,D,4.3
다섯,E,4.5


In [95]:
# 행에 대한 조건을 boolen mask를 이용해서 특정 행만 추려내기
display(df.loc[df['학점'] > 4.0 ,['이름','학점']])

Unnamed: 0,이름,학점
넷,D,4.3
다섯,E,4.5


- 1. 이름이 박동훈인 사람을 찾아 이름과 학점을 DataFrame으로 출력
- 2. 학점이 (1.5, 2.5)인 사람을 찾아 학과, 이름, 학점을 DataFrame으로 출력
- 3. 학점이 3.0을 초과하는 사람을 찾아 등급을 'A'로 설정하세요

In [96]:
data = {'이름' : ['이지은','박동훈','홍길동','강감찬','오혜영'],
        '학과' : ['컴퓨터','기계','철학','컴퓨터','철학'],
        '학년' : [1, 2, 2, 4, 3],
        '학점' : [1.5, 2.0, 3.1, 1.1, 2.7]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점','등급'],index=['one','two','three','four','five'])
display(df)

Unnamed: 0,학과,이름,학년,학점,등급
one,컴퓨터,이지은,1,1.5,
two,기계,박동훈,2,2.0,
three,철학,홍길동,2,3.1,
four,컴퓨터,강감찬,4,1.1,
five,철학,오혜영,3,2.7,


In [98]:
# 1. 이름이 박동훈인 사람을 찾아 이름과 학점을 DataFrame으로 출력
df.loc[df['이름'] == '박동훈', ['이름', '학점']]

Unnamed: 0,이름,학점
two,박동훈,2.0


In [114]:
# 강사님 코드
display(df.loc[df['이름'] == '박동훈', '이름': '학점'])

Unnamed: 0,이름,학년,학점
two,박동훈,2,2.0


In [110]:
# 2. 학점이 (1.5, 2.5)인 사람을 찾아 학과, 이름, 학점을 DataFrame으로 출력
df[df['학점'] > 1.5].loc[df['학점'] < 2.5, ['학과', '학점', '이름']]

Unnamed: 0,학과,학점,이름
two,기계,2.0,박동훈


In [116]:
# 강사님 코드
display(df.loc[(df['학점'] > 1.5) & (df['학점'] < 2.5),'학과':'학점'])

Unnamed: 0,학과,이름,학년,학점
two,기계,박동훈,2,2.0


In [113]:
# 3. 학점이 3.0을 초과하는 사람을 찾아 등급을 'A'로 설정하세요
df.loc[df['학점'] > 3.0, '등급'] = 'A'
display(df)

Unnamed: 0,학과,이름,학년,학점,등급
one,컴퓨터,이지은,1,1.5,
two,기계,박동훈,2,2.0,
three,철학,홍길동,2,3.1,A
four,컴퓨터,강감찬,4,1.1,
five,철학,오혜영,3,2.7,


In [None]:
# 강사님 코드
df.loc[df['학점'] > 3.0 , '등급'] = 'A'
display(df)

- loc를 이용한 row 추가

In [124]:
data = {'이름' : ['이지은','박동훈','홍길동','강감찬','오혜영'],
        '학과' : ['컴퓨터','기계','철학','컴퓨터','철학'],
        '학년' : [1, 2, 2, 4, 3],
        '학점' : [1.5, 2.0, 3.1, 1.1, 2.7]}
df = pd.DataFrame(data, columns=['학과','이름','학년','학점'],index=['one','two','three','four','five'])
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,이지은,1,1.5
two,기계,박동훈,2,2.0
three,철학,홍길동,2,3.1
four,컴퓨터,강감찬,4,1.1
five,철학,오혜영,3,2.7


In [120]:
df.loc['six',:] = ['국어국문', '김길동', 3, 3.7]
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,이지은,1.0,1.5
two,기계,박동훈,2.0,2.0
three,철학,홍길동,2.0,3.1
four,컴퓨터,강감찬,4.0,1.1
five,철학,오혜영,3.0,2.7
six,국어국문,김길동,3.0,3.7


In [121]:
df.drop('학년', axis = 1, inplace=True)
display(df)

Unnamed: 0,학과,이름,학점
one,컴퓨터,이지은,1.5
two,기계,박동훈,2.0
three,철학,홍길동,3.1
four,컴퓨터,강감찬,1.1
five,철학,오혜영,2.7
six,국어국문,김길동,3.7


In [122]:
# axis를 명시하지 않으면 default는 axis=0
df.drop('two', axis = 0, inplace=True)
display(df)

Unnamed: 0,학과,이름,학점
one,컴퓨터,이지은,1.5
three,철학,홍길동,3.1
four,컴퓨터,강감찬,1.1
five,철학,오혜영,2.7
six,국어국문,김길동,3.7


In [123]:
# drop()에서 fancy indexing도 가능
df.drop(['one','three'], axis = 0, inplace=True)
display(df)

Unnamed: 0,학과,이름,학점
four,컴퓨터,강감찬,1.1
five,철학,오혜영,2.7
six,국어국문,김길동,3.7


In [125]:
# slicing은 사용불가
df.drop('one':'three', axis = 0, inplace=True)
display(df)

SyntaxError: invalid syntax (<ipython-input-125-d2b73d5a0c0f>, line 1)