# Pandas
- Pandas는 ndarray(NumPy)를 기본 자료구조로 이용한다.
- 이 ndarray를 가지고 Pandas는 두개의 또 다른 자료 구조를 이용한다.
- `Series`, `DataFrame`

### 1) Series
> 동일한 데이터 타입의 목수개의 성분으로 구성되는 자료구조 -> 1차원

### 2) DataFrame
> - 엑셀/ Database의 Table과 같은 개념
> - 여러개의 Series로 구성되어 있다 -> 2차원
- Pandas 설치 후 진행 : `conda install pandas`



# Pandas의 Series

In [41]:
import numpy as np
import pandas as pd

In [48]:
import numpy as np

# ndarray
arr = np.array([-1, 4, 5, 99], dtype=np.float64)
print(arr)
print()
# [-1.  4.  5. 99.]

# pandas의 Series
s = pd.Series([-1, 4, 5, 99], dtype=np.float64)
print(s)
print()
# 0    -1.0
# 1     4.0
# 2     5.0
# 3    99.0
# dtype: float64

print(s.values)
print()
# [-1.  4.  5. 99.] ndarray

print(s.index)     # RangeIndex
print()
print(s.dtype)     # float64

[-1.  4.  5. 99.]

0    -1.0
1     4.0
2     5.0
3    99.0
dtype: float64

[-1.  4.  5. 99.]

RangeIndex(start=0, stop=4, step=1)

float64


- Series 생성 시 index를 별도로 지정할 수 있다 => list로 지정 가능
- 숫자 index는 기본적으로 사용이 가능하다.

In [43]:
s = pd.Series([1, -8, 5, 10],
             dtype=np.float64,
             index=['a', 'b', 'c', 'd'])
print(s)
print(s['a'])

a     1.0
b    -8.0
c     5.0
d    10.0
dtype: float64
1.0


## Series에서도 Slicing이 가능할까?

In [47]:
print(s[1:3])       # Series로 결과 return 
print()
print(s['b':'d'])  # 문자인덱스로 slicing하면 숫자인덱스로 하는 경우와 다르다.
print()

# Boolean Indexing    
print(s[s % 2 == 0])   # 짝수만 출력!!
print()

# Fancy Indexing
print(s[[0, 2, 3]])
print()

# NumPy에서 했던 여러가지 작업들이 그대로 사용될 수 있다.
print(s.sum())

b   -8.0
c    5.0
dtype: float64

b    -8.0
c     5.0
d    10.0
dtype: float64

b    -8.0
d    10.0
dtype: float64

a     1.0
c     5.0
d    10.0
dtype: float64

8.0


## Series 연습문제를 해결하면서 특성을 좀 더 알아보자

- A공장의 2020-01-01부터 10일간 생산량을 Series로 저장한다.
- 생산량 결정 방법: 
    평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수로 처리)


- B공장의 2020-01-01부터 10일간 생산량을 Series로 저장한다.
- 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 추출

        index   value 
 예) 2020-01-01  53
     2020-01-02  49
         ...     ...

In [64]:
# Series 만들기

import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta

start_day = datetime(2020, 1, 1)
factory_A = pd.Series([int(x) for x in np.random.normal(50, 5, (10, ))],
                      index=[start_day + timedelta(days=x) for x in range(10)])
print("factory_A")
print(factory_A,"\n")

factory_B = pd.Series([int(x) for x in np.random.normal(70, 8, (10, ))],
                      index=[start_day + timedelta(days=x) for x in range(10)])
print("factory_B")
print(factory_B,"\n")

# 날짜별로 모든 공장의 생산량 합계를 구한다.
print("======모든 공장의 생산량 합계=========")
print(factory_A+factory_B, "\n")

factory_A
2020-01-01    57
2020-01-02    45
2020-01-03    53
2020-01-04    56
2020-01-05    48
2020-01-06    57
2020-01-07    51
2020-01-08    46
2020-01-09    51
2020-01-10    41
dtype: int64 

factory_B
2020-01-01    90
2020-01-02    70
2020-01-03    56
2020-01-04    73
2020-01-05    61
2020-01-06    89
2020-01-07    72
2020-01-08    63
2020-01-09    62
2020-01-10    78
dtype: int64 

2020-01-01    147
2020-01-02    115
2020-01-03    109
2020-01-04    129
2020-01-05    109
2020-01-06    146
2020-01-07    123
2020-01-08    109
2020-01-09    113
2020-01-10    119
dtype: int64 



## Series에 데이터 추가와 삭제

In [67]:
s = pd.Series([1, 2, 3, 4])
print(s, "\n")

print("새로운 데이터 추가")
s[4] = 100
print(s, "\n")

print("특정 index 삭제")
s.drop(2)
print(s)

0    1
1    2
2    3
3    4
dtype: int64 

새로운 데이터 추가
0      1
1      2
2      3
3      4
4    100
dtype: int64 

특정 index 삭제
0      1
1      2
2      3
3      4
4    100
dtype: int64


## python의 dictionary를 이용해서 Series를 만들기
- dictionary의 key가 index가 된다.

In [71]:
import numpy as np
import pandas as pd

my_dict = {'서울':1000, '부산':2000, '제주':3000}

s = pd.Series(my_dict)
print(s,'\n')

s.name = '지역별 가격 데이터!!'
print(s,'\n')

s.index.name = '지역명'
print(s,'\n')

서울    1000
부산    2000
제주    3000
dtype: int64 

서울    1000
부산    2000
제주    3000
Name: 지역별 가격 데이터!!, dtype: int64 

지역명
서울    1000
부산    2000
제주    3000
Name: 지역별 가격 데이터!!, dtype: int64 



# Pandas의 DataFrame 
- Python Dictionary를 가지고 만든다.
- dictionary로 DataFrame을 생성할 때 데이터의 개수가 맞지 않으면 Error 발생
- dictionary로 key가 DataFrame의 column으로 들어가게 된다.
- DataFrame은 Series의 집합으로 구성된다. (각각의 colum이 Series)


### Python Dictionary로 DataFrame 만들기

In [17]:
import numpy as np
import pandas as pd

# dictionary
data = {'name' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        'year' : [2015, 2019, 2020, 2013, 2017],
        'points': [3.5, 1.5, 2.0, 3.4, 4.0]
       }

# DataFrame 생성
df = pd.DataFrame(data)

# 출력
# DataFrame 출력 시 display()를 이용 가능
display(df)


# 기억해야 하는 속성
print(df.shape)  # (5, 3) - tuple로 표현됨
print(df.size)   # 15
print(df.ndim)   # 2 - DafaFrame은 2차원이다

Unnamed: 0,name,year,points
0,아이유,2015,3.5
1,김연아,2019,1.5
2,홍길동,2020,2.0
3,강감찬,2013,3.4
4,이순신,2017,4.0


(5, 3)
15
2


### DataFrame의 index, values, colums

In [24]:
import numpy as np
import pandas as pd

# dictionary
data = {'name' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'],
        'year' : [2015, 2019, 2020, 2013, 2017],
        'points': [3.5, 1.5, 2.0, 3.4, 4.0]
       }

# DataFrame 생성
df = pd.DataFrame(data)

# 출력
# DataFrame 출력 시 display()를 이용 가능
display(df)

print(df.index)     # RangeIndex(start=0, stop=5, step=1)
print(df.columns)   # Index(['name', 'year', 'points'], dtype='object')
print(df.values)    # 2차원 ndarray

df.index.name = '학번'
df.columns.name = '학생정보'
display(df)

Unnamed: 0,name,year,points
0,아이유,2015,3.5
1,김연아,2019,1.5
2,홍길동,2020,2.0
3,강감찬,2013,3.4
4,이순신,2017,4.0


RangeIndex(start=0, stop=5, step=1)
Index(['name', 'year', 'points'], dtype='object')
[['아이유' 2015 3.5]
 ['김연아' 2019 1.5]
 ['홍길동' 2020 2.0]
 ['강감찬' 2013 3.4]
 ['이순신' 2017 4.0]]


학생정보,name,year,points
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,아이유,2015,3.5
1,김연아,2019,1.5
2,홍길동,2020,2.0
3,강감찬,2013,3.4
4,이순신,2017,4.0


## DafaFrame을 생성하는 다양한 방법

## 1. CSV 파일을 이용해서 DataFrame 생성
- student.csv
- c:/notebook_dir/data/student.csv 생성하기 (txt 파일로 만든다.)
- notepad로 열어서 값 넣어주기

In [25]:
import pandas as pd

df = pd.read_csv('./data/student.csv')
display(df)

Unnamed: 0,이름,입학연도,성적
0,아이유,2015,1.5
1,김연아,2016,2.0
2,홍길동,2019,3.0
3,강감찬,2020,3.7
4,이순신,2017,3.9


### `head()`, `tail()`

### 수행평가 문제 중 2번 문제는 movies.csv 파일을 읽어들여서 처리하는 것이다.
- 영화번호, 영화제목, 장르
- 이 movies.csv 파일을 읽어 DataFrame으로 만들어 보자

In [28]:
import pandas as pd

df = pd.read_csv('./data/movies.csv')

# 처음부터 5개의 행만 출력하기
display(df.head())

# 끝에서부터 역방향으로 5개의 행 출력
display(df.tail())

# pandas는 문자열 처리 시 numpy보다 훨씬 효율적인 방법을 제공한다.

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,movieId,title,genres
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


## 2. Database를 이용해서 DataFrame 만들기

- 데이터베이스는, 일반적으로 정제된, 연관성 있는 자료의 집합
- CS에서는 이러한 데이터 베이스를 파일에 저장한다.
- 이러한 데이터베이스를 다루기 위한 프로그램이 필요하며, **DBMS(DataBase Management System)**라고 부른다.
- Oracle, Cybase, DB2, Infomix, MySQL, SQLite, etc..


#### MySQL 설치

- MySQL로 데이터베이스를 구축해서 그 안에 있는 데이터를 추출해서 DataFrame으로 생성한다.
    https://dev.mysql.com/downloads/mysql/
    5.6.49 version
- 추후에 프로젝트에서 Database에 쌓여있는 데이터를 가져다가 분석, 학습 작업을 해야하는데 이때 데이터 정제하고 전처리 하는데 pandas가 이용될 것이다.


#### MySQL로 DB 구축하기
- 1) MySQL 5.6 버전을 다운로드 한 후 바탕화면에 압축을 푼다.
- 2) mysqld를 실행 : cmd에서 mysql/bin 폴더 이동 후, mysqld 입력
- 3) MySQL Server를 실행시켰기 때문에 MySQL console에 들어갈 수 있다.( MySQL 시스템에 접속할 수 있다.)
                                     
- 4) MySQL Server 중지 : 
  새로운 command창 띄워서 bin 폴더 이동 후
  - `mysqladmin -6 shutdown`
  
- 5) MySQL Server를 다시 기동시킨 후

- 6) MySQL 시스템에 접속한다 
    => command 창 열어서 다음의 명령어 입력
     - `mysql -u root`
     root 권한으로 생성
- 7) 새로운 사용자 생성
    - `create user data identified by "data";`
    
- 8) 새로운 사용자 하나 더 생성
    - `create user data@localhost identified by "data";`
    
- 9) 데이터베이스 생성
     - `create database library;`
     
- 10) 생성한 라이브러리에 대한 사용권을 새롭게 생성한 data 사용자에게 부여
    - `grant all privileges onlibrary.* to data;`
    생성한 사용자가 data@localhost에도 있기 때문에
    - `grant all privileges on library.* to data@localhost;`
- 11) 지금까지 작업한 권한 부여 작업을 flush
    - `flush privileges;`
    
- 12) 작업이 완료되었으니 console을 종료
    - `exit;`
    
- 13) 제공된 파일을 이용해서 실제 사용할 데이터 베이스를 구축해 보자

- 14) 파일을 복사한 후 mysql/bin 폴더에 복사한 후 명령어를 도스창에서 실행
    - `mysql -u data -p library < _BookTableDump.sql`
 
 
- 데이터베이스 구축이 끝났으니, pandas로 데이터베이스에 접속해서 데이터를 가져다가 DataFrame으로 만들어 보자

- 이때 python으로 MySQL database를 사용하는 기능을 사용한다. => package(module) 필요
- 이 module을 설치 => `pip install pymysql`

In [34]:
import pymysql.cursors
import pandas as pd

# pymysql이라는 module을 이용해서 데이터베이스에 연결

conn = pymysql.connect(host='localhost', 
                       user='data',
                       password='data',
                       db='library',
                       charset='utf8')

# 데이터베이스에 접속되면 SQL문을 실행시켜서 
# Database로부터 데이터를 가져온 후 DataFRame으로 생성
# sql = 'SELECT btitle, bauthor, bprice FROM book'

# 책 제목에 특정 키워드가 들어가 있는 책들만 골라오기
sql = 'SELECT btitle, bauthor, bprice FROM book WHERE btitle like "%java%"'

df = pd.read_sql(sql, con=conn)
display(df)

Unnamed: 0,btitle,bauthor,bprice
0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,뇌를 자극하는 Java 프로그래밍,김윤명,27000
2,모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에...,윤인성,32000
3,"JavaScript+jQuery 정복 : 보고, 이해하고, 바로 쓰는 자바스크립트 공략집",김상형,28000
4,이것이 자바다 : 신용권의 Java 프로그래밍 정복,신용권,30000
5,Head First JavaScript Programming : 게임과 퍼즐로 배우...,"에릭 프리먼, 엘리자베스 롭슨",36000
6,Head First JavaScript : 대화형 웹 애플리케이션의 시작,마이클 모리슨,28000
7,UML과 JAVA로 배우는 객체지향 CBD 실전 프로젝트 : 도서 관리 시스템,채흥석,40000
8,"IT CookBook, 웹 프로그래밍 입문 : XHTML, CSS2, JavaScript","김형철, 안치현",23000
9,자바스크립트 성능 최적화: High Performance JavaScript,니콜라스 자카스,20000


- 이렇게 Database나 CSV 파일로부터 데이터를 읽어들여 DataFrame으로 만들었다.
- 이러한 DataFrame을 JSON 파일로 저장할 수 있다.


#### JSON 파일로 저장할 때 4가지 방식이 있다.
- DataFrame을 json 파일로 저장할 때 총 4가지 서로 다른 형식이 존재한다.
    - `columns`, `records`, `index`, `values`   =>   `orient` 값으로 설정
- unicode로 파일을 생성한 후 데이터를 저장해야 한글이 정상 처리가 된다.
- 파일을 저장할 폴더는 미리 생성되어 있어야 한다.



- `with`: 
> - 일반적으로 파일 처리할 때 순서는, 파일열기 - 내용쓰기 - 파일닫기 순서다. 
> - `with` 구문을 이용하면 resource의 close 처리 (해제 처리)가 자동으로 이루어진다.


https://jsonformatter.curiousconcept.com/#

### Database 안의 book table에서 원하는 내용을 데이터로 가져온 후 DataFrame으로 만들어 JSON 파일로 저장하기 

In [21]:
import pymysql.cursors
import pandas as pd

# pymysql이라는 module을 이용해서 데이터베이스에 연결

conn = pymysql.connect(host='localhost', 
                       user='data',
                       password='data',
                       db='library',
                       charset='utf8')

# 데이터베이스에 접속되면 SQL문을 실행시켜서 
# Database로부터 데이터를 가져온 후 DataFRame으로 생성
# sql = 'SELECT btitle, bauthor, bprice FROM book'

# 책 제목에 특정 키워드가 들어가 있는 책들만 골라오기
sql = 'SELECT btitle, bauthor, bprice FROM book WHERE btitle like "%여행%"'

df = pd.read_sql(sql, con=conn)
display(df)

with open('./data/json/books_columns.json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='columns')
    # orient='columns'로 설정하면 df의 column이 json의 key값으로 들어간다.
    
with open('./data/json/books_records.json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='records')

    
with open('./data/json/books_index.json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='index')
    

with open('./data/json/books_values.json', 'w', encoding='utf-8') as file:
    df.to_json(file, force_ascii=False, orient='values')

Unnamed: 0,btitle,bauthor,bprice
0,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


### 2-1. JSON 으로 DataFrame 만들기

In [11]:
import numpy as np
import pandas as pd
import json

with open('./data/json/books_columns.json', 'r', encoding='utf-8') as file:
    dict_books = json.load(file)   # json 데이터를 python dictionary로
 
print(dict_books)
print(type(dict_books))

{'btitle': {'0': 'IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행', '1': '게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이', '2': '크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지', '3': '도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지'}, 'bauthor': {'0': '성윤정, 김태은', '1': '김아람', '2': '양미석', '3': '여지영, 이진숙'}, 'bprice': {'0': 25000, '1': 15000, '2': 15800, '3': 15000}}
<class 'dict'>


In [12]:
# DataFrame 생성
df = pd.DataFrame(dict_books)

# 출력
# DataFrame 출력 시 display()를 이용 가능
display(df)

Unnamed: 0,btitle,bauthor,bprice
0,"IT CookBook, C++ 하이킹 : 객체지향과 만나는 여행","성윤정, 김태은",25000
1,게스트하우스 창업 A to Z : 청춘여행자의 낭만적 밥벌이,김아람,15000
2,크로아티아의 작은 마을을 여행하다 : 자다르의 일몰부터 두브로브니크의 붉은 성벽까지,양미석,15800
3,도쿄의 오래된 상점을 여행하다 : 소세키의 당고집부터 백 년 된 여관까지,"여지영, 이진숙",15000


## 3. Open API를 이용해서 DataFrame 만들기

- 일일박스오피스 순위를 알려주는 영화진흥위원회 open api를 이용해서 json을 받아온 후
- 이 json을 DataFrame으로 만들어준다.
- network 연결을 통해 open api를 호출한다.

In [2]:
import numpy as np
import pandas as pd
import json
import urllib

# 호출할 open api url이 필요하다. => 영화진흥위원회 open api
openapi_url = 'http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=2d173acf28ecfcec9ee5d02a26927057'

# 일일오피스를 보고 싶은 날짜 
date = 20200907

# request를 보내고 온 response
load_page = urllib.request.urlopen(openapi_url + "&targetDt=" + str(date))

# dictionary를 추출
json_page = json.loads(load_page.read())
print(json_page["boxOfficeResult"]["dailyBoxOfficeList"])

# DataFrame 생성
df = pd.DataFrame(json_page["boxOfficeResult"]["dailyBoxOfficeList"])

# 출력
# DataFrame 출력 시 display()를 이용 가능
display(df)

[{'rnum': '1', 'rank': '1', 'rankInten': '0', 'rankOldAndNew': 'OLD', 'movieCd': '20201122', 'movieNm': '테넷', 'openDt': '2020-08-26', 'salesAmt': '267718110', 'salesShare': '57.5', 'salesInten': '-515117320', 'salesChange': '-65.8', 'salesAcc': '9968624970', 'audiCnt': '29991', 'audiInten': '-52754', 'audiChange': '-63.8', 'audiAcc': '1089789', 'scrnCnt': '1464', 'showCnt': '4026'}, {'rnum': '2', 'rank': '2', 'rankInten': '0', 'rankOldAndNew': 'OLD', 'movieCd': '20193666', 'movieNm': '오! 문희', 'openDt': '2020-09-02', 'salesAmt': '103919730', 'salesShare': '22.3', 'salesInten': '-186575960', 'salesChange': '-64.2', 'salesAcc': '1160232350', 'audiCnt': '12589', 'audiInten': '-20242', 'audiChange': '-61.7', 'audiAcc': '147517', 'scrnCnt': '961', 'showCnt': '2872'}, {'rnum': '3', 'rank': '3', 'rankInten': '0', 'rankOldAndNew': 'OLD', 'movieCd': '20197922', 'movieNm': '다만 악에서 구하소서', 'openDt': '2020-08-05', 'salesAmt': '47419240', 'salesShare': '10.2', 'salesInten': '-59461260', 'salesChange'

Unnamed: 0,rnum,rank,rankInten,rankOldAndNew,movieCd,movieNm,openDt,salesAmt,salesShare,salesInten,salesChange,salesAcc,audiCnt,audiInten,audiChange,audiAcc,scrnCnt,showCnt
0,1,1,0,OLD,20201122,테넷,2020-08-26,267718110,57.5,-515117320,-65.8,9968624970,29991,-52754,-63.8,1089789,1464,4026
1,2,2,0,OLD,20193666,오! 문희,2020-09-02,103919730,22.3,-186575960,-64.2,1160232350,12589,-20242,-61.7,147517,961,2872
2,3,3,0,OLD,20197922,다만 악에서 구하소서,2020-08-05,47419240,10.2,-59461260,-55.6,38266477390,5794,-5869,-50.3,4317687,533,1132
3,4,4,1,OLD,20199883,오케이 마담,2020-08-12,12231160,2.6,-14681660,-54.6,10922108700,1478,-1566,-51.4,1220767,291,405
4,5,5,-1,OLD,20202281,극장판 짱구는 못말려: 신혼여행 허리케인~ 사라진 아빠!,2020-08-20,7286920,1.6,-25150390,-77.5,892088690,923,-2972,-76.3,109626,182,206
5,6,6,0,OLD,20112692,드라이브,2011-11-17,6085760,1.3,-7849320,-56.3,210626850,755,-808,-51.7,26506,107,145
6,7,7,0,OLD,20202961,고스트 오브 워,2020-09-02,5424000,1.2,-5736960,-51.4,54806160,663,-587,-47.0,6417,186,223
7,8,8,2,OLD,20205146,아메리칸 잡,2020-09-03,805500,0.2,-218980,-21.4,4769320,368,-26,-6.6,1660,32,37
8,9,9,0,OLD,20189973,카일라스 가는 길,2020-09-03,2102600,0.5,-2517000,-54.5,16202560,272,-269,-49.7,1971,42,48
9,10,10,2,OLD,19930117,하워즈 엔드,1993-04-10,2301500,0.5,-156800,-6.4,21795100,261,-42,-13.9,2740,44,51
