## Pandas : python의 data analysis의 핵심 library
- pnadas는 고유하게 정의된 두개의 자료구조를 이용(이 자료구조들은 내부적으로 numnpy 자료구조 사용)
    - Series : numpy의 1차원 배열과 유사
        - 안에 저장되는 값들은 같은 데이터 타입을 가짐
    - DataFrame : numpy의 2차원 배열과 유사
        - Series를 여러개 모아놓은 타입(다른 데이터 타입을 가져도 됨)

### Series의 생성

In [28]:
# conda install pandas로 설치해줘야 함
import pandas as pd
# pandas에서 numpy를 사용
import numpy as np

# numpy 배열 (list를 가지고)
arr = np.array([-1,5,10,99])
print(arr.dtype)
# numpy 배열 생성 시 datatype 지정 가능, 지정하지 않으면 알아서 정해줌
arr2 = np.array([-1,5,10,99], dtype=np.float64)
print(arr2.dtype)
# data type을 객체로 잡으면 여러 데이터타입을 갖는 데이터를 numpy array를 만들 수 있다
arr3 = np.array([-1,3.14,"Hello",True], dtype=np.object)
print(arr3.dtype)
print(arr3)
print("="*100)
# 내부적으로는 numpy 자료구조 사용하기때문에 dtype 명시해줄 수 있음
#s = pd.Series([-1,5,10,99], dtype=np.int32)
s = pd.Series([-1,5,10,99])
# list와 dictionary를 합쳐둔걸로 생각하면 됨
# 앞쪽이 index , 뒤쪽이 data
display(s)
# 영역을 가지는 index, 0이상 4미만 step이 1인 index들
print(s.index) #Series에서 index정보만 따로 출력
print(s.values) #Series에서 values정보만 따로 출력 => numpy array(1차원)가 return
print(type(s.values))

int32
float64
object
[-1 3.14 'Hello' True]


0    -1
1     5
2    10
3    99
dtype: int64

RangeIndex(start=0, stop=4, step=1)
[-1  5 10 99]
<class 'numpy.ndarray'>


### Series에 대한 indexing과 slicing
- index를 정해줄 수 있음 => 지정해줘도 숫자 index는 여전히 사용 가능
    - pd.Series의 인자로 index = 지정 값(list 형태로)

In [357]:
# Series를 생성할 때, index를 정해줄 수 있음
s = pd.Series([1,-5,10,99], index = ["c","b","a","k"])
print(s)
print("s[0]의 값은 : {}".format(s["c"]))
print("s[0]의 값은 : {}".format(s[0]))
print(s[:3])
# 지정된 index로 slicing할때는 끝도 포함,
print(s["c":"a"])

c     1
b    -5
a    10
k    99
dtype: int64
s[0]의 값은 : 1
s[0]의 값은 : 1
c     1
b    -5
a    10
dtype: int64
c     1
b    -5
a    10
dtype: int64


In [47]:
s = pd.Series([1,-5,10,99], index = ["c","b","a","k"])
result = 0.0
for tmp in s:
    result += tmp
print(result)
print(s.sum())

105.0
105


### A공장의 2019-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 50이고 표준편차가 5인 정규분표에서 랜덤하게 추출(생산량은 정수로 추출)

- 예) 2019-01-01 54  
2019-01-01 49  
...

### B공장의 2019-01-01부터 10일간 생산량을 Series로 저장
- 생산량은 평균이 70이고 표준편차가 8인 정규분표에서 랜덤하게 추출(생산량은 정수로 추출)

- 예) 2019-01-01 54  
2019-01-01 49  
...

### 10일간 모든 공장의 생산량

In [95]:
from datetime import datetime, timedelta

np_arr1 = np.random.normal(50,5,(10))
np_arr2 = np.random.normal(70,8,(10))
date_list = []
for i in range(10):
    #datetime() 인자로 날짜 주면 그 날짜 데이터 생성, 근데 시분초는 필요없어서
    # 날짜 데이터로만 받게 변환하는 .date 
    # 특정 날짜 더하느s timedelta(~)
    date_list.append((datetime(2019,1,1).date() + timedelta(days=i)))
s1 = pd.Series(np_arr1, dtype = np.int32, index = date_list)
s2 = pd.Series(np_arr2, dtype = np.int32, index = date_list)
print(s1+s2)


2019-01-01    121
2019-01-02    110
2019-01-03    112
2019-01-04    132
2019-01-05    131
2019-01-06    142
2019-01-07     97
2019-01-08    108
2019-01-09    117
2019-01-10    122
dtype: int32


In [107]:
s1 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],\
               index = [datetime(2019,1,1).date() + timedelta(days=x) for x in range(10)])
s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],\
               index = [datetime(2019,1,1).date() + timedelta(days=x) for x in range(10)])
print(s1+s2)

2019-01-01    122
2019-01-02    121
2019-01-03    131
2019-01-04    129
2019-01-05    116
2019-01-06    125
2019-01-07    103
2019-01-08    127
2019-01-09    114
2019-01-10    109
dtype: int64


### Series를 dictionary를 이용해서 만들 수 있음
- Series의 이름도 지정해줄 수 있고
- key값도 줄 수 있고
- Series의 index의 이름을 부여할 수 있다
- index도 수정 가능

In [101]:
my_dict = {"서울":3000,"인천":5000,"제주":2000}
s = pd.Series(my_dict)
# Series 이름 지정
s.name = "지역별 가격 데이터"
# Series의 index의 이름 부여
s.index.name = "지역명"
print(s)
# index 수정
idx = ["SEOUL", "INCHON", "JEJU"]
s.index = idx
print(s)

지역명
서울    3000
인천    5000
제주    2000
Name: 지역별 가격 데이터, dtype: int64
SEOUL     3000
INCHON    5000
JEJU      2000
Name: 지역별 가격 데이터, dtype: int64


## DataFrame 
- 2차원 배열, 행과 열로 구성되어 있는 Table형태의 자료형

### Dataframe 생성(Dictionary 이용)
- index : RangeIndex return
- values : DataFrame이 갖고있는 값들이 numpy array 2차원 배열로 표현
- ndim : 차원
- shape : 형태
- size : 크기

In [162]:
import numpy as np
import pandas as pd

data = {"names":["kim","lee","park","lee","kim"],
        "year":[2015,2016,2017,2015,2019],
        "pointx":[1.5,2.3,3.1,4.0,4.5]}
df = pd.DataFrame(data)
display(df)
# DataFrame의 index 정보
display(df.index)
# data type이 제각각이기 때문에 object타입으로 잡힘
display(df.values) # Data Frame이 갖고있는 값들을 return
display(df.ndim) # 차원
display(df.shape) # 형태
display(df.size) # 크기( 요소 갯수)

Unnamed: 0,names,year,pointx
0,kim,2015,1.5
1,lee,2016,2.3
2,park,2017,3.1
3,lee,2015,4.0
4,kim,2019,4.5


RangeIndex(start=0, stop=5, step=1)

array([['kim', 2015, 1.5],
       ['lee', 2016, 2.3],
       ['park', 2017, 3.1],
       ['lee', 2015, 4.0],
       ['kim', 2019, 4.5]], dtype=object)

2

(5, 3)

15

### DataFrame - column 정보 확인
- columns : index 타입으로 columns 정보 리턴
    - Seriese에는 없음(단일 타입이기 때문,, 1차원)
- index.name : index에 대해서 이름을 지어줄 수 있음
- columns.name : columns에 대해 이름을 지어줄 수 있음

In [174]:
display(df.columns) # column에 대한 기본정보 , list는 아니고 
# index에대해서, columns에 대한 이름을 지어질 수 있음
df.index.name = "순번"
df.columns.name = "학생정보"
display(df)

Index(['names', 'year', 'pointx'], dtype='object')

학생정보,names,year,pointx
순번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,kim,2015,1.5
1,lee,2016,2.3
2,park,2017,3.1
3,lee,2015,4.0
4,kim,2019,4.5


### 일반적으로 데이터를 주고 받기 위해서 데이터를 표현하는 표준
- 1. CSV방식 (comma seprated value)
    - ","를 기준으로 분리해서 data를 표현
    - 장점 : 부가적인 데이터(",")가 상대적으로 작음
        - 많은 양의 데이터를 표현하기에 적합
    - 단점 : 데이터 핸들링이 쉽지 않음, 유지보수의 문제점이 큼
- 2. XML (Extended Markup Language)
    - 유지보수 문제를 해결
    - 장점 : 유지보수성이 높음
    - 계층구조에서의 데이터가 명확, 데이터를 처리하기가 쉬움 - tag구조같은
        - < person >  
             < age > 10 < /age >  
             < name >홍길동< /name >  
             < address >서울< /address>  
           < /person >
    - 단점 : 부가적인 데이터가 많음(< person >, < age > ,,..)
- 3. JSON ( JavaScript Object Notation)
    - 부가적인 데이터가 많은 것을 해결하기 위해
        - { age : 10, name : 홍길동, address : 서울}
    - 장점 : 유지보수성이 높으면서 XML보다 데이터 크기도 작음(부가 데이터가 적음)

### DataFrame 파일 읽어오기
- pd.read_csv("path") :  경로의 파일을 불러옴
- head() : 앞에서 5개, 인자로 개수 지정가능
- tail() : 뒤에서 5개, 인자로 개수 지정가능

In [193]:
import numpy as np
import pandas as pd 

#df = pd.read_csv("./data/sample/student.csv")
df = pd.read_csv("./data/movie/movies.csv")
# 앞에 5개만 끊어서 보려면 head
display(df.head())
# 뒤에 5개 보려면 tail
display(df.tail())
# numpy의 loadtxt는 txt로 부터 불러오기때문에 구분자를 통해 자름을 명시해줘야함
# 그치만 이렇게 할때 구분하는 부분이아닌데 ","가 쓰이면 구분되게 되고 에러발생
# np.loadtxt("./data/movie/movies.csv", delimiter=",")

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,movieId,title,genres
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


### My SQL Download
![image](https://user-images.githubusercontent.com/28910538/52996930-57716780-3462-11e9-88e5-222aaeee0d1f.png)
- bin 폴더안으로 working 폴더를 전환
- mysql 서버를 기동 -> mysqld
    - 만약 서버기동이 안되면(포트가 겹쳐서-mysql이 깔려있어서)
![image](https://user-images.githubusercontent.com/28910538/52997537-25f99b80-3464-11e9-9316-50574ef6b3a2.png)

        - 제어판 - 관리도구 - 서비스 에서 MYSQL 사용안함으로 해줘야함
- 그리고 새로운 콘솔창을 띄워 mySQL에 console 진입 
    - mysql -u root
- 새로운 사용자 생성 
    - create user python identified by "python";
- local 계정을 하나 더 만들어줘야 함 
    - create user python@localhost identified by "python";
        - localhost에서 network접속을 허용하기 위해
- data를 저장할 새로운 database 생성
    - create database library;
- 새로운 사용자가 방금 만든 DB를 사용할 수 있도록 권한 지정
    - grant all privileges on library.* to python;
    - grant all privileges on library.* to python@localhost;
- exit를 실행해서 dos창으로 나감
- _tableDump.sql 파일을 mysql의 bin폴더에 복사
- mysql -u python -p library < ./_talbeDump.sql
    - mysql python user에 -p 옵션을 통해 pw지정을 명시, library DB에 ./_tableDump.sql을 밀어넣음
    - 도스창에서 실행( mysql 나온 상태)
    - pw는 python
- 정상적으로 DB가 구축되었는지 확인
    - mysql -u python -p;
        - pw는 python
- 접속 성공하면 
    - use library
        - library 사용 명시
    - select btitle from books;
- DB를 종료하려면 dos창에서(DB 깨질 수도 있기 때문)
    - mysqladmin -u root shutdown;

### Pandas 정리
- 1. Series
    - numpy 1차원 array와 유사
        - index를 Series 자체에 저장, index가 묵시적으로 사용이 되는게 아니라 명시적으로 지정할 수 있음
            - 또한 기본적인 숫자 index(0~ )를 사용할 수 있음
- 2. DataFrame
    - 여러개의 Series를 모아놓은 Table형식의 자료구조
    - Dictionary를 이용한 DataFrame 생성

In [12]:
# Dictionary를 이용한 DataFrame 생성
import numpy as np
import pandas as pd

my_dict = {"이름" : ["이지안", "박동훈", "홍길동"],
           "학과" : ["컴퓨터", "철학", "수학"],
           "학년" : [1,2,3],
           "평점" : [1.5,4.0,2.3]}

df = pd.DataFrame(my_dict)
display(df)

Unnamed: 0,이름,학과,학년,평점
0,이지안,컴퓨터,1,1.5
1,박동훈,철학,2,4.0
2,홍길동,수학,3,2.3


### DB로부터 data를 읽어서 DataFrame으로 생성
- mysql DB를 이용
- mysql을 접속해서 사용할 수 있도록 도와주는 python module 설치 
    - pymysql module을 이용
        - conda install pymysql

In [88]:
import pymysql.cursors
import numpy as np
import pandas as pd
# mysql, oracle, db2 , ... : DBMS(DataBaseManagementSystem) => DB를 관리해주는
# Database : 데이터의 논리적인 집합
# ip, port번호, user, pw, db, charset을 인자로 받아서 접근
conn = pymysql.connect(host="localhost", # mysql이 설치된 컴퓨터 IP
                       user = "python", # 사용자 계정 ID
                       password = "python", # 사용자 password
                       db = "library", # 사용할 db
                       charset = "utf8" # 어떤 문자셋을 이용해서 db안의 data사용할지
                       )
# SQL을 작성
# 제공한 script 파일에 books라는 table이 있음
keyword = "java"
# %는 0개이상의 문자열을 지칭 어떤글자든 0개거나 여러개거나 
# 즉 여기선 books 테이블에서 btitle요소들 중 
# java라는 단어가 들어가는 모든 요소들의 bisbn,btitle,bauthor,bprice컬럼 값들을 포함하게 리턴
sql = "SELECT bisbn,btitle,bauthor,bprice \
FROM books WHERE btitle LIKE '%{}%'".format(keyword)

# pandas가 sql을 실행시켜서 그 결과를 DataFrame으로 생성
df = pd.read_sql(sql, con = conn)
display(df)
print(type(conn))
conn.close() #Database 연결 종료를 반드시 해줘야함, 안하면 메모리 누수 발생

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-371-0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,89-7914-397-4,뇌를 자극하는 Java 프로그래밍,김윤명,27000
2,978-89-6848-042-3,모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에...,윤인성,32000
3,978-89-6848-132-1,"JavaScript+jQuery 정복 : 보고, 이해하고, 바로 쓰는 자바스크립트 공략집",김상형,28000
4,978-89-6848-147-5,이것이 자바다 : 신용권의 Java 프로그래밍 정복,신용권,30000
5,978-89-6848-156-7,Head First JavaScript Programming : 게임과 퍼즐로 배우...,"에릭 프리먼, 엘리자베스 롭슨",36000
6,978-89-7914-582-3,Head First JavaScript : 대화형 웹 애플리케이션의 시작,마이클 모리슨,28000
7,978-89-7914-659-2,UML과 JAVA로 배우는 객체지향 CBD 실전 프로젝트 : 도서 관리 시스템,채흥석,40000
8,978-89-7914-832-9,"IT CookBook, 웹 프로그래밍 입문 : XHTML, CSS2, JavaScript","김형철, 안치현",23000
9,978-89-7914-855-8,자바스크립트 성능 최적화: High Performance JavaScript,니콜라스 자카스,20000


<class 'pymysql.connections.Connection'>


### JSON형태로 파일에 저장
- pd.read_sql : 인자로 sql문, Connection 객체

In [87]:
conn = pymysql.connect(host="localhost",user="python", password="python",db="library", charset= "utf8" )
keyword = input("키워드 입력")
sql = "SELECT bisbn,btitle,bauthor,bprice FROM books WHERE btitle LIKE '%{}%'".format(keyword)
df = pd.read_sql(sql, con=conn)
# to json 하기위한 path+파일이름지정
df.to_json("./data/sample/books.json")
conn.close()


키워드 입력


In [14]:
df.head(3)

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-371-0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,89-7914-397-4,뇌를 자극하는 Java 프로그래밍,김윤명,27000
2,978-89-6848-042-3,모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에...,윤인성,32000


### JSON file로부터 데이터를 읽어서 dictionary 형태로 만듬
- JSON이라는 데이터표현형태는 python의 Dictionary와 같은 형태를 가짐
    - 형태가 완전 똑같기 때문에 서로 변환하기 굉장히 쉬움
- python의 파일처리기능을 이용하여 file을 읽고 이를 json 형태로 로드함
    - json.load(open(path))

In [55]:
import numpy as np
import pandas as pd
import json
# python의 
# r 모드로 데이터를 읽어옴
file = open("./data/sample/books.json", "r")
my_dict = json.load(file)
# 파일은 다시 닫아줘야함
file.close()
display(my_dict.keys())
for tmp in my_dict["btitle"].values():
    print(tmp)
    
my_df = pd.DataFrame(my_dict)
my_df.head(3)


dict_keys(['bisbn', 'btitle', 'bauthor', 'bprice'])

Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판)
뇌를 자극하는 Java 프로그래밍
모던 웹을 위한 JavaScript + jQuery 입문(개정판) : 자바스크립트에서 제이쿼리, 제이쿼리 모바일까지 한 권으로 끝낸다
JavaScript+jQuery 정복 : 보고, 이해하고, 바로 쓰는 자바스크립트 공략집
이것이 자바다 : 신용권의 Java 프로그래밍 정복
Head First JavaScript Programming : 게임과 퍼즐로 배우는 자바스크립트 입문서
Head First JavaScript : 대화형 웹 애플리케이션의 시작
UML과 JAVA로 배우는 객체지향 CBD 실전 프로젝트 : 도서 관리 시스템
IT CookBook, 웹 프로그래밍 입문 : XHTML, CSS2, JavaScript
자바스크립트 성능 최적화: High Performance JavaScript
IT CookBook, Java for Beginner
IT CookBook, 인터넷 프로그래밍 입문: HTML, CSS, JavaScript


Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-371-0,Head First Java: 뇌 회로를 자극하는 자바 학습법(개정판),"케이시 시에라,버트 베이츠",28000
1,89-7914-397-4,뇌를 자극하는 Java 프로그래밍,김윤명,27000
10,978-89-98756-79-6,"IT CookBook, Java for Beginner","황희정, 강운구",23000


### [영화 진흥 위원회 open api](http://www.kobis.or.kr/kobisopenapi/homepg/apiservice/searchServiceInfo.do)
- http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?key=430156241533f1d058c603178cc3ca0e&targetDt=20120101
- web에서 동작하는 파일들은 xml이나 json형태로 떨어짐 
- open API를 이용해서 JSON data를 받음 다음, 해당 data를 처리해서 DataFrame으로 생성

In [162]:
import numpy as np
import pandas as pd
import json 
import urllib # 외부 url 호출 위한 library

day = "20190219"
movie_url = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json?\
key=430156241533f1d058c603178cc3ca0e&targetDt={}".format(day)
# request를 보내서 특정 url을 염
movie_page = urllib.request.urlopen(movie_url)
print(movie_page)
# 페이지를 read하는데 그걸 또 json.loads 통해 json형식으로,, load는 binary 형태
json_page = json.loads(movie_page.read())
# dictionary 형태를 얻음
print(type(json_page))
# 박스오피스 순위(index) - rank
# 제목, 당일매출액은 column으로
# - movieNm, salesAmt
json_dic = json_page["boxOfficeResult"]["dailyBoxOfficeList"]
rank_list = []
movieNm_list = []
salesAmt_list = []
for d in json_dic:
    rank_list.append(int(d["rank"]))
    movieNm_list.append(d["movieNm"])
    salesAmt_list.append(int(d["salesAmt"]))

movie_df = pd.DataFrame({"movieNm":movieNm_list, "salesAmt":salesAmt_list}, index = rank_list)
display(movie_df)

<http.client.HTTPResponse object at 0x000000000CEAE6D8>
<class 'dict'>


Unnamed: 0,movieNm,salesAmt
1,증인,808446340
2,극한직업,902272650
3,알리타: 배틀 엔젤,279876740
4,해피 데스데이 2 유,204977840
5,기묘한 가족,121602600
6,메리 포핀스 리턴즈,107584630
7,드래곤 길들이기 3,91194700
8,명탐정 코난:전율의 악보,34984400
9,해리포터와 비밀의 방,38248000
10,사바하,34745100


## DataFrame의 열은 순서가 없기 때문에 slicing 할 수 없음

# DataFrame Column(열)에 대한 CRUD ~

### DataFrame의 index와 Column을 재정의
- dataframe을 만들 때 index와 column의 정보를 인자로 줄 수 있음
    - 없는 columns을 주게 되면 NaN값으로 채워서 만들어줌
    - index는 갯수에 맞게 채워줘야 함


In [121]:
import numpy as np
import pandas as pd

data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data)
display(df)
# column의 순서 재정의
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)

Unnamed: 0,이름,학과,학년,학점
0,이지안,컴퓨터,1,2.5
1,박동훈,기계,1,3.3
2,홍길동,철학,2,2.9
3,강감찬,컴퓨터,4,4.3


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


### DataFrame은 기본 분석 함수를 갖고 있음
- describe : 계산 가능한 columns에 대해 기본 집계함수를 한꺼번에 표현(데이터에 대한 전반적인 묘사로 볼 수 있음)


In [135]:
import numpy as np
import pandas as pd

data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df.describe())

Unnamed: 0,학점,학년
count,4.0,4.0
mean,3.25,2.0
std,0.772442,1.414214
min,2.5,1.0
25%,2.8,1.0
50%,3.1,1.5
75%,3.55,2.5
max,4.3,4.0


one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

### 하나의 columns만 선택
- 해당 column의 이름으로 indexing == df.이름

In [139]:
import numpy as np
import pandas as pd

data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)
display(df["이름"]) # df.이름
display(df.이름)
display(type(df["이름"]))

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

pandas.core.series.Series

### DataFrame에서 특정 columns을 추출하면 View
- View 를 수정하면 원본 또한 바뀜
- View가 아닌 복사본 만들기 위해서는 뒤에 .copy를 붙여 줌 => 새로운 Series 생성

In [145]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
new_name = df["이름"]
# 새로운 Series 만들기 위해서는  new_name = df["이름"].copy
display(df)
display(new_name)
new_name["three"] = "ㅇㅇㅇ"
display(df)


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


one      이지안
two      박동훈
three    홍길동
four     강감찬
Name: 이름, dtype: object

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # Remove the CWD from sys.path while we load stuff.


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,ㅇㅇㅇ,2.9,2,
four,컴퓨터,강감찬,4.3,4,


pandas.core.series.Series

### indexing, boolean indexing, fancy indexing, slicing
- 일반 list에서는 fancy indexing이 안됨

In [189]:
import numpy as np

np.random.seed(0)
np_arr = np.random.randint(0,15,(3,4))
print(np_arr)
print(np_arr[1]) # indexing
print(np_arr > 3) # boolean indexing
print((np_arr > 3).sum()) # true의 rotn
print(np_arr[np_arr>3])

[[12  5  0  3]
 [11  3  7  9]
 [ 3  5  2  4]]
[11  3  7  9]
[[ True  True False False]
 [ True False  True  True]
 [False  True False  True]]
7
[12  5 11  7  9  5  4]


### DataFrame에 대해서도 fancy indexing 사용할 수 있음
### [DataFrame indexing](https://datascienceschool.net/view-notebook/704731b41f794b8ea00768f5b0904512/)
- slicing : df.loc[index를 넣어주고, column을 넣어준다]

In [255]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])

display(df[["이름","학과"]])
df["등급"] = "A"
display(df)

df[["이름","등급"]] = [["홍길동", "A"],["김길동", "A"],["박길동", "B"],["최길동", "D"]]
display(df.loc["one":"three","학과":])

Unnamed: 0,이름,학과
one,이지안,컴퓨터
two,박동훈,기계
three,홍길동,철학
four,강감찬,컴퓨터


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,A
two,기계,박동훈,3.3,1,A
three,철학,홍길동,2.9,2,A
four,컴퓨터,강감찬,4.3,4,A


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,2.5,1,A
two,기계,김길동,3.3,1,A
three,철학,박길동,2.9,2,B


### 기존 DataFrame에 새로운 column을 추가
- 새로운 column을 정의하고 그 값을 명시
- scalar, list, numpy array, pandas Series를 이용
    - Series는 index를 기반으로 들어감
        - DataFrame의 index와 다르기 때문에 같지 않으면 들어갈 수 없음
            - Series에 index를 DataFrame의 index와같은 index를 명시해주면 됨
        - index 기반이기 때문에 갯수가 맞지 않아도 됨
            - list 와 numpy는 순서 기반이기 때문에 갯수를 꼭 맞춰야 함

In [245]:
display(df)
df["나이"] = 20 # Error가 아니라 새로운 column을 추가
df["나이"] = [20,22,23,21]
df["나이"] = np.array([20,22,24,27])
df["나이"] = pd.Series([20,28,29,30]) # => 안들어감
df["나이"] = pd.Series([20,28,29,30],index=["one","two","three","four"])
df["나이"] = pd.Series([20,24,29],index=["one","two","four"])
display(df)

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,2.5,1,A,20
two,기계,김길동,3.3,1,A,28
three,철학,박길동,2.9,2,B,29
four,컴퓨터,최길동,4.3,4,D,30


Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,2.5,1,A,20.0
two,기계,김길동,3.3,1,A,24.0
three,철학,박길동,2.9,2,B,
four,컴퓨터,최길동,4.3,4,D,29.0


### DataFrame - 기존 column에 연산을 추가해서 새로운 column을 생성

In [271]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)
df["학점"] = df["학점"] + 1
# mask
df["장학여부"] = df["장학여부"] = df["학점"] > 4
display(df)


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


Unnamed: 0,학과,이름,학점,학년,등급,장학여부
one,컴퓨터,이지안,3.5,1,,False
two,기계,박동훈,4.3,1,,True
three,철학,홍길동,3.9,2,,False
four,컴퓨터,강감찬,5.3,4,,True


### DataFrame - 특정 column을 삭제할 수 있음
- del : 거의 사용하지 않음
- df.drop : 인자로 들어가는 컬럼을 axis 축에서 찾아서 삭제
    - axis = 1 이면 열방향 축이므로 열에서 인자로들어가는 값을 찾아서 삭제함
    - inplace
        - True를 주게되면 원본을 삭제, return = none
        - False를 주게되면 원본은 두고,return = 삭제처리된 결과df

In [283]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)
del df["등급"] # 원본이 변하게 됨 - 하지만 거의 사용되지 않음
display(df)
df["등급"] = None
# 축이 1이면 열방향, axis=1인 부분에서 "등급"을 찾아서 날림
# inplace =True면 원본을 지움 => return을 받지 않음
# inplace = False면 원본은 변하지않음 => 삭제처리 된 값을 return 
df.drop("등급", axis=1, inplace=False)
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


Unnamed: 0,학과,이름,학점,학년
one,컴퓨터,이지안,2.5,1
two,기계,박동훈,3.3,1
three,철학,홍길동,2.9,2
four,컴퓨터,강감찬,4.3,4


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


# DataFrame Row(행)에 대한 CRUD ~

### 행을 선택하기 위해 index를 바로 이용할 수 없음
- 행을 선택하기 위해 index를 바로 이용할 수 없음, 어떤 데이터 타입으로 써야할지 알 수 없기때문에 허용하지 않음
- slicing은 가능, slicing은 view, slicing은 원본에서 부분을 뽑아오는 것이기 때문에 결과는 DataFrame

In [307]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)
# df[0] # 행을 선택하기 위해 index를 바로 이용할 수 없음 - error
display(df[0:1]) # slicing은 원본에서 부분을 뽑아오는 것이기 때문에 결과는 DataFrame
display(df["one":"one"])
# 아래처럼 섞어서는 못씀
# display(df["one":-1])

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,


### DataFrame의 행 제어 (loc)
- indexing이 된다는건 => fancy indexing이 됨
- boolean indexing도 됨
- slicing도 됨
### 숫자 index를 넣어서 사용하려면 iloc

In [332]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
display(df)
df.loc[["one","three","four"]]
df.loc[df["학점"] > 3.0,"이름"]
df.loc["one":"three","학과":"학점"]

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,


Unnamed: 0,학과,이름,학점
one,컴퓨터,이지안,2.5
two,기계,박동훈,3.3
three,철학,홍길동,2.9


## Pandas 정리
- 두 가지 자료구조를 가짐
    - 1. Seriese
    - 2. DataFrame(일반적으로 사용하는 자료구조)
- DataFrame 생성 ( Dictionary 이용)
- DataFrame을 실제로 생성하는 방법
    - 1. 파일처리 (CSV)
    - 2. Database에서 data를 selection해서 DataFrame을 생성
    - 3. Open API처럼 외부 프로그램을 통해 DataFrame을 생성(대부분 JSON)
- DataFrame의 column과 row에 대한 CRUD 처리

In [46]:
import numpy as np
import pandas as pd
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"], 
        "학년":pd.Series([1,2,3,4], index = ["2019001","2019002","2019003","2019004"]), # Series는 index값에 기인
        "학점":np.array([2.5,3.3,2.9,4.3])}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["2019001","2019002","2019003","2019004"])

print(df.shape) # DataFrame 의 형태
print(df.columns) # DataFrame column 정보 ~ index타입으로
print(df.index) # DataFrame의 index정보  ~ index타입으로
df.columns.name = "학생정보" # DataFrame column의 이름을 붙여줌
df.index.name = "학번" #DataFrame index의 이름을 붙여줌

# DataFrame의 column에 대한 CRUD 처리
df["이름"] # 특정 column을 read, 결과는 Serise로 return
df[["학과","이름"]] # fancy indexing, DataFrame으로 return
df["학과"] = "컴공" # indexing은 view를 만들기 때문에 데이터 수정시 원본이 바뀜
df["장학여부"] = True # column에 대한 creating
df.drop("등급", axis=1, inplace = True) # column이나 row에 대해서 지울 수 있으니 축을 명시해서 찾음
# inplace가 True면 원본을 지움, return 값 없음, False면 원본은 냅두고 지운 값을 return 
display(df)

# DataFrame의 row에 대한 CRUD 처리
# df[0] #행을 read 할떄 indexing을 사용할 수 없음
display(df[1:3]) # slicing은 됨 => 결과는 당연히 view , display(df["2019001":"2019003"] 
# loc는 DataFrame이 갖고있는 index값으로 indexing을 사용할 수 있도록 제공
display(df.loc["2019002"])
# iloc는 숫자로 indexing 가능
display(df.iloc[0:3, 1:2])

(4, 5)
Index(['학과', '이름', '학점', '학년', '등급'], dtype='object')
Index(['2019001', '2019002', '2019003', '2019004'], dtype='object')


학생정보,학과,이름,학점,학년,장학여부
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019001,컴공,이지안,2.5,1,True
2019002,컴공,박동훈,3.3,2,True
2019003,컴공,홍길동,2.9,3,True
2019004,컴공,강감찬,4.3,4,True


학생정보,학과,이름,학점,학년,장학여부
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019002,컴공,박동훈,3.3,2,True
2019003,컴공,홍길동,2.9,3,True


학생정보
학과        컴공
이름       박동훈
학점       3.3
학년         2
장학여부    True
Name: 2019002, dtype: object

학생정보,이름
학번,Unnamed: 1_level_1
2019001,이지안
2019002,박동훈
2019003,홍길동


### loc 통한 행 추가

In [69]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
# nan은 내부적으로 실수로 처리
# nan을 주려면 np.nan
df.loc["five",:] = ["기계","최길동",int(4),int(3),np.NaN]
display(df)
for d in df.loc["five",:]:

    print(type(d))

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1.0,
two,기계,박동훈,3.3,1.0,
three,철학,홍길동,2.9,2.0,
four,컴퓨터,강감찬,4.3,4.0,
five,기계,최길동,4.0,3.0,


<class 'str'>
<class 'str'>
<class 'numpy.float64'>
<class 'numpy.float64'>
<class 'float'>


In [70]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[2.5,3.3,2.9,4.3]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년","등급"],
                  index = ["one","two","three","four"])
# 1. 이름이 "박동훈"인 사람을 찾아서 이름과 학점을 출력
df.loc[df["이름"] == "박동훈",["이름","학점"]]

Unnamed: 0,이름,학점
two,박동훈,3.3


x

In [130]:
# 2. 학점이 (1.5,2.5)인 사람을 찾아서 학과, 이름, 학점 출력
# 1.5초과 2.5미만
display((df.loc[(df["학점"] > 1.5)]).loc[df["학점"] < 2.5,["학과","이름","학점"]])

Unnamed: 0,학과,이름,학점


a    1
b    2
c    3
dtype: int64

In [79]:
# 3. 학점이 3.0 이상인 사람을 찾아서 등급을 A로 변경한 후 출력
df.loc[df["학점"] > 3.0,"등급"] = "A"
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,이지안,2.5,1,
two,기계,박동훈,3.3,1,A
three,철학,홍길동,2.9,2,
four,컴퓨터,강감찬,4.3,4,A


### 특정날짜 간격 지정
### columns 통해 열 이름 지정
### Nan값의 처리
- 결측값을 제거
    - df.dropna(how="any", inplace=True) => 원본에 대해 Nan이 단 한개라도 포함된 행은 무조건 삭제
        - NaN이 하나라도 포함된 행을 모두 삭제
    - df.dropna(how="all", inplace=True)
        - 컬럼의 값이 모두 Nan인 경우 해당 행을 삭제
- 다른 값으로 대체처리
    - df.fillna(value =0, inplace=False)
        - Nan을 0으로 바꿈, inplace를 안 넣으면 default로 false들어감
- DataFrame 전체에 대해 NaN에 대한 boolean mask를 생성
    - df.isnull()
        - 전체에 대한 boolean mask 생성 , DataFrame을 return

In [163]:
import numpy as np
import pandas as pd

np.random.seed(4)
arr = np.random.randint(0,10,(4,3))

df = pd.DataFrame(arr)
df.columns = ["A","B","C"]
# 특정 날짜 간격 지정할 수 있음
# 몇 일인지 periods로 지정, 혹은 시작날짜와 끝날짜를 지정 pd.date_range("20190101", "20190104")
df.index = pd.date_range("20190101",periods=4)
df["D"] = [7,np.nan,4,np.nan] #np.nan은 실수로 간주
# 결측값을 제거
# Nan이 포함된 행을 모두 삭제, any는 Nan이 하나라도 있으면 다 찾음
display(df.dropna(how="any", inplace = False))
# 행 전체가 Nan인 경우 지움
df.dropna(how="all", inplace=True)
# inplace 안쓰면 default로 False 들어감
display(df)
display(df.fillna(value=0))
display(df.isnull())


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-03,2,9,7,4.0


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,


Unnamed: 0,A,B,C,D
2019-01-01,7,5,1,7.0
2019-01-02,8,7,8,0.0
2019-01-03,2,9,7,4.0
2019-01-04,7,7,9,0.0


pandas.core.frame.DataFrame

In [184]:
data = {"이름":["이지안", "박동훈", "홍길동", "강감찬"],
        "학과":["컴퓨터","기계","철학","컴퓨터"],
        "학년":[1,1,2,4],
        "학점":[3,2,3,4]}
df = pd.DataFrame(data, columns = ["학과","이름","학점","학년"],
                  index = ["one","two","three","four"])
display(df)
df.loc["five",:] = ["기계","최길동",3,2]
my_sr = pd.Series([1,2,3])
my_sr.astype(np.float32)
df.loc[:,"학점"] = (df.loc[:,"학점"]).astype(np.int32)
display(df)



Unnamed: 0,학과,이름,학점,학년
one,컴퓨터,이지안,3,1
two,기계,박동훈,2,1
three,철학,홍길동,3,2
four,컴퓨터,강감찬,4,4


Unnamed: 0,학과,이름,학점,학년
one,컴퓨터,이지안,3,1.0
two,기계,박동훈,2,1.0
three,철학,홍길동,3,2.0
four,컴퓨터,강감찬,4,4.0
five,기계,최길동,3,2.0


### DataFrame의 집계함수
![image](https://user-images.githubusercontent.com/28910538/53139725-e949b380-35cd-11e9-903b-b5328f81c815.png)
- 평균(mean) : 여러개의 값이 있을 때 그 값들에 대한 합을 개수로 나눈 값, 수학적 확률의 기대치
- 편차(deviation)
    - 확률변수 X와 평균값에 대한 차이
    - 편차의 합은 항상 0으로 떨어짐
        - 값들이 평균에서 얼마나 떨어져 있는지를 보는데 이를 하나의 값으로 표현하기에는 맞지 않음
    - 때문에 편차를 제곱해서 평균을 냄 => 분산
- 분산(variance)  :  편차의 제곱의 평균
- 표준편차(standard deviation)
 -  분산의 제곱근

- 확률변수 : 주사위를 던져서 나오는 값들, 주사위의 눈금 을 지칭(X)
- 기대치 : 주사위를 무한히 던졌을 때 그 평균이 어느 값에 수렴하는지

- 공분산(covariance)은 확률변수를 2개로 함, 확률변수 X와 Y의 관계를 알기위해서 사용하는 값
    - X가 변할때 Y가 변하는 방향을 알기위해서 사용
    - 2개의 확률변수(X,Y)가 서로 독립(관계가 없으면)이면 공분산은 0이 나옴
    - 서로 관계가 있으면 양의 상관관계 음의 상관관계를 가짐
        - 공분산이 양수일경우 X가 증가하면 Y도 증가
        - 공분산이 음수일경우 X가 증가하면 Y는 감사
            - 하나의 값이 높아질때 다른게 따라서 올라가는지, 떨어지는지
            - 크기에 상관없이 양수, 음수로 판단함(단위문제때문에)
            - 서로 관련성이 큰지 작은지 판단 => 상관계수를 통해(두 개의 확률변수가 서로 연관성이 있는지)
                - 상관계수가 0이면 관계가 없, 절대치가 1에 가까울 수록 서로 밀접한 관계
    - 두 확률변수의 관계정도(strength : 강도)를 측정 (== > 상관계수)하기가 좋지 않음
- 공분산으로는 두 확률변수가 얼마나 관계정도가 강한지를 판단하기 힘든 그렇기 때문에 상관계수로 판단
- 상관관계(corelation) : 서로 연관이 있어보이는 관계
    - 성적과 자존감, 온라인 게임과 폭력성
- 상관계수(correlation cofficient) : 두 개의 확률변수에 대해서 
    - 값이 -1 ~ 1 사이의 실수로 표현
        - 0에 가까울 수록 서로 연관성이 없는 관계
        - 절대값이 1에 가까울수록 연관성이 높음, 양의 상관관계 음의 상관관계
    - 두개의 확률변수에 대한 연관성에 대한 지표이지 인과관계를 설명하지 않음
        - 온라인게임을 많이 했기때문에, 폭력성이 높아졌서 라는 인과관계는 아님
            - 단지 온라인 게임과 폭력성은 밀접한 관계를 가질 뿐
    




In [188]:
import numpy as np
# numpy나 pandas다 이러한 집계함수를 제공해줌
arr = np.array([1,2,3,4,5], dtype=np.int32)
print(arr.sum())
print(arr.mean())
#분산
print(arr.var())
#표준편차
print(arr.std())

15
3.0
2.0
1.4142135623730951


### 공분산이 양수인 경우 (KOSPI지수와 삼성전자 주가)
- np.covariance

In [23]:
import numpy as np
import pandas as pd
import datetime
import pandas_datareader.data as pdr #pip install datareader

start = datetime.datetime(2018,1,1)
end = datetime.datetime(2018,12,31)

# Yahoo에서 제공하는 코스피 지수정보를 가져와서 DataFrame
#df_KOSPI = pdr.DataReader("^KS11", "yahoo", start, end)
#df_KOSPI.head()
df_KOSPI = pd.read_json("./data/stock/KOSPI.json")
df_SE = pd.read_json("./data/stock/SE.json")

# 최고가 최저가 시가 종가 거래량(사고/팔고)
# 코스피, 삼성 주가 그 날의 종가를 확률변수 X,Y로
df_KOSPI["Close"] # 이 종가를 확률변수 X로 봄
df_SE["Close"] # 이 종가를 확률변수 Y로 봄
display(df_KOSPI.head())
display(df_SE.head())

# 두 확률변수(KOSPI 종가, 삼성전자 종가)에 대해 공분산을 구함
# 공분산(covariance)
display(np.cov(df_KOSPI["Close"], df_SE["Close"]))

Unnamed: 0,High,Low,Open,Close,Volume,Adj Close
2018-01-02,2481.02002,2465.939941,2474.860107,2479.649902,262200,2479.649902
2018-01-03,2493.399902,2481.909912,2484.629883,2486.350098,331100,2486.350098
2018-01-04,2502.5,2466.449951,2502.5,2466.459961,333800,2466.459961
2018-01-05,2497.52002,2475.51001,2476.850098,2497.52002,308800,2497.52002
2018-01-08,2515.370117,2494.179932,2510.699951,2513.280029,311400,2513.280029


Unnamed: 0,High,Low,Open,Close,Volume,Adj Close
2018-01-02,51400,50780,51380,51020,8474250,31700.921875
2018-01-03,52560,51420,52540,51620,10013500,32073.728516
2018-01-04,52180,50640,52120,51080,11695450,31738.205078
2018-01-05,52120,51200,51300,52120,9481150,32384.400391
2018-01-08,52520,51500,52400,52020,8383650,32322.263672


array([[   24177.23140621,   490222.10530186],
       [  490222.10530186, 11919911.50745463]])

In [28]:
# 공분산이 음수인 경우
df_BUSAN = pd.read_json("./data/stock/부산산업.json")["Close"]
df_LIG = pd.read_json("./data/stock/LIG넥스원.json")["Close"]

np.cov(df_BUSAN, df_LIG)

array([[ 4.64762211e+09, -3.86535936e+08],
       [-3.86535936e+08,  6.35924170e+07]])

In [29]:
# 상관계수
np.corrcoef(df_BUSAN, df_LIG)
# 0 ~ 0.3 약한관계, 0.3~0.7 중간관계 0.7 ~ 1 강한관계

array([[ 1.        , -0.71100361],
       [-0.71100361,  1.        ]])

### 결측값이 있으면 계산이 불확실해짐(NaN), 결측값을 해결해야함
- 삭제나 다른 값으로 대체

In [64]:
import numpy as np
import pandas as pd

data = [[2,np.nan],
        [7,-3],
        [np.nan, np.nan],
        [1, -2]]
df = pd.DataFrame(data, columns=["one","two"], index = ["a","b","c","d"])

display(df)
# axis가 생략, axis = 0 
display(df.sum())
# default 로 NaN은 배제하고 계산
display(df.mean())

display(df.sum(axis=1))


Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64

one    3.333333
two   -2.500000
dtype: float64

a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64

In [65]:
display(df)
# one column의 결측 값은 one column의 평균으로
#df.loc[(df.loc[:,"one"]).isnull(), "one"] = df["one"].mean()
# two column의 결측 값은 two column의 최소값으로 대체
#df.loc[(df.loc[:,"two"]).isnull(), "two"] = df["two"].min()


### 위의 코드와 같은
df["one"] = df["one"].fillna(value = df["one"].mean())
df["two"] = df["two"].fillna(value = df["two"].min())
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


Unnamed: 0,one,two
a,2.0,-3.0
b,7.0,-3.0
c,3.333333,-3.0
d,1.0,-2.0


### DataFrame에서 공분산과 상관계수 구하기
- numpy 보다 편함

In [77]:
import numpy as np
import pandas as pd

df_BUSAN = pd.read_json("./data/stock/부산산업.json")["Close"]
df_LIG = pd.read_json("./data/stock/LIG넥스원.json")["Close"]
df_KOSPI = pd.read_json("./data/stock/KOSPI.json")["Close"]
df_SE = pd.read_json("./data/stock/SE.json")["Close"]

data = {"KOSPI" : df_KOSPI,
        "SE" : df_SE,
        "BUSAN" : df_BUSAN,
        "LIG" : df_LIG}
df = pd.DataFrame(data)
df.head()
#상관 계수 corr
display(df["BUSAN"].corr(df["KOSPI"]))
# 싹 다 공분산
display(df.cov())

-0.5766876815236218

Unnamed: 0,KOSPI,SE,BUSAN,LIG
KOSPI,24177.23,490222.1,-6113070.0,980094.8
SE,490222.1,11919910.0,-110377800.0,17969940.0
BUSAN,-6113070.0,-110377800.0,4647622000.0,-386535900.0
LIG,980094.8,17969940.0,-386535900.0,63592420.0


### DataFrame이 제공하는 유용한 함수
- np.random.permutation() : 인자 값에 대한 랜덤 순열을 줌
- .reindex() : index와 columns을 수정할 수 있음, 
- .sort_index(axis, inplace) : 인덱스를 이용해서 정렬할 수 있음, 

In [91]:
import numpy as np
import pandas as pd 

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0,10,(6,4)),
                  columns=["A","B","C","D"],
                  index=pd.date_range("20190101", periods=6))
# 연속적인 값의 집합(순열)을 랜덤하게 줌
random_index = np.random.permutation(df.index)
print(random_index)
# index는 random_index로 column 값은 다음과 같이 해서 바꿈
df2 = df.reindex(index = random_index, 
                 columns = ["B","D","C","A"])
display(df2)
# sort_index(), 행축으로 원본안바뀌게, 내림차순으로
display(df2.sort_index(axis=0, inplace = False, ascending = False))

['2019-01-03T00:00:00.000000000' '2019-01-06T00:00:00.000000000'
 '2019-01-02T00:00:00.000000000' '2019-01-01T00:00:00.000000000'
 '2019-01-04T00:00:00.000000000' '2019-01-05T00:00:00.000000000']


Unnamed: 0,B,D,C,A
2019-01-03,4,6,7,2
2019-01-06,9,9,8,5
2019-01-02,9,5,3,7
2019-01-01,0,3,3,5
2019-01-04,8,6,1,8
2019-01-05,7,1,8,7


Unnamed: 0,B,D,C,A
2019-01-06,9,9,8,5
2019-01-05,7,1,8,7
2019-01-04,8,6,1,8
2019-01-03,4,6,7,2
2019-01-02,9,5,3,7
2019-01-01,0,3,3,5


### DataFrame 정렬
- np.random.permutation으로 index를 섞어줌
- index를 통해서 정렬(column과 index를 이용해서 행과 열을 바꾸는 작업)
    - df.sort_index() : 행 기반으로 정렬할지 열 기반으로 정렬할지 axis를 준다
        - ascending을 False로 주면 내림차순, inplace True 주면 원본 수정, 리턴 값 X
- 안에 있는 데이터를 통해서 정렬
    - df.sort_values() : 특정 column의 값을 기준으로 정렬
        - by = column , 특정 column으로 정렬할때 그 값이 같아서 다른 column을 비교하고자할때는 리스트로
            - df.sort_values(by=["A","B"])

In [32]:
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(1,10,(6,4)),
                  columns = ["A","B","C","D"],
                  index = pd.date_range("20190101", periods=6))
# list를 랜덤하게 섞어줌 
random_index = np.random.permutation(pd.date_range("20190101", periods=6))
df.index = random_index
df.columns = ["B","A","D","C"]
display(df)
# 정렬하는 방법 (index를 통해서 정렬, 값을 통해서 정렬)
display(df.sort_index(axis=0, ascending=False, inplace =False))


Unnamed: 0,B,A,D,C
2019-01-06,6,1,4,4
2019-01-02,8,4,6,3
2019-01-05,5,8,7,9
2019-01-03,9,2,7,8
2019-01-01,8,9,2,6
2019-01-04,9,5,4,1


Unnamed: 0,B,A,D,C
2019-01-06,6,1,4,4
2019-01-05,5,8,7,9
2019-01-04,9,5,4,1
2019-01-03,9,2,7,8
2019-01-02,8,4,6,3
2019-01-01,8,9,2,6


In [33]:
display(df)
# 값을 통한 정렬 B를 통해서 정렬하고 값이 같으면 A 값으로 정렬
display(df.sort_values(by = ["B","A"]))


Unnamed: 0,B,A,D,C
2019-01-06,6,1,4,4
2019-01-02,8,4,6,3
2019-01-05,5,8,7,9
2019-01-03,9,2,7,8
2019-01-01,8,9,2,6
2019-01-04,9,5,4,1


Unnamed: 0,B,A,D,C
2019-01-05,5,8,7,9
2019-01-06,6,1,4,4
2019-01-02,8,4,6,3
2019-01-01,8,9,2,6
2019-01-03,9,2,7,8
2019-01-04,9,5,4,1


### 유용한 함수들
- df[].unique() : 중복 제거한 요소 np array로 리턴
- df[].value_counts() : 요소 몇개씩 있는지 Series로 리턴
- df[].isin() : 요소가 있는지 boolean mask Series로 리턴
- lambda : 임의의 함수
- df.apply : 함수를 적용할 수 있음, 함수명을 주고 축을 어떤 방향으로 적용할지 적어줌
- join

In [53]:
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame(np.random.randint(1,10,(6,4)),
                  columns = ["A","B","C","D"],
                  index = pd.date_range("20190101", periods=6))
df["E"] = ["AA","BB","CC","DD","CC","CC"]
display(df)
# 중복 제거하고 np.array return
display(df["E"].unique())
# value_counts()
display(df["E"].value_counts())
# isin 통해 컬럼 데이터 안에 해당 요소가 있는지 boolean mask return
display(df["E"].isin(["AA","BB"]))
# 해당 column을 열 축에서 찾아서 삭제
df.drop("E", axis=1, inplace=True)
# labmda & apply
func = lambda x : x.max() - x.min()
df["max-min"] = df.apply(func, axis=1)
display(df)

Unnamed: 0,A,B,C,D,E
2019-01-01,6,1,4,4,AA
2019-01-02,8,4,6,3,BB
2019-01-03,5,8,7,9,CC
2019-01-04,9,2,7,8,DD
2019-01-05,8,9,2,6,CC
2019-01-06,9,5,4,1,CC


array(['AA', 'BB', 'CC', 'DD'], dtype=object)

CC    3
AA    1
BB    1
DD    1
Name: E, dtype: int64

2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05    False
2019-01-06    False
Freq: D, Name: E, dtype: bool

Unnamed: 0,A,B,C,D,max-min
2019-01-01,6,1,4,4,5
2019-01-02,8,4,6,3,5
2019-01-03,5,8,7,9,4
2019-01-04,9,2,7,8,7
2019-01-05,8,9,2,6,7
2019-01-06,9,5,4,1,8


### JOIN
- INNER JOIN(JOIN)
    - key 값 기준으로 서로 공통적으로 들어가있는 값만으로 컬럼을 합침
- OUTER JOIN
    - key 값 기준으로 union
- LEFT OUTER JOIN
    - key 값 기준으로 합치는데 왼쪽에 있는 것만 남김
- RIGHT OUTER JOIN
    - key 값 기준으로 합치는데 오른쪽 있는 것만 남김
    
###  merge
- pd.merge(df1, df2, on="keycolumn", how = "inner | outer | left | right")
- pd.merge(df1, df2, left_on="key", right_on = "keycolumn", how = "inner | outer | left | right")

In [372]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame({ "학번" : ["2019001", "2019002", "2019003","2019003"],"이름" : ["이지안", "박동훈", "홍길동", "상길동"]})
df2 = pd.DataFrame({ "학번" : ["2019001", "2019003", "2019004"],"학과" : ["컴퓨터", "철학", "수학"]})
df3 = pd.DataFrame({ "학생학번" : ["2019001", "2019003", "2019004"],"학과" : ["컴퓨터", "철학", "수학"]})
display(df1)
display(df2)
# df.merge(df1, df2, on="key", how = "inner | outer | left | right")
display(pd.merge(df1,df2, on="학번", how = "right"))
display(pd.merge(df1,df3, left_on="학번", right_on="학생학번", how = "outer"))


Unnamed: 0,학번,이름
0,2019001,이지안
1,2019002,박동훈
2,2019003,홍길동
3,2019003,상길동


Unnamed: 0,학번,학과
0,2019001,컴퓨터
1,2019003,철학
2,2019004,수학


Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019003,홍길동,철학
2,2019003,상길동,철학
3,2019004,,수학


Unnamed: 0,학번,이름,학생학번,학과
0,2019001.0,이지안,2019001.0,컴퓨터
1,2019002.0,박동훈,,
2,2019003.0,홍길동,2019003.0,철학
3,2019003.0,상길동,2019003.0,철학
4,,,2019004.0,수학


### column 과 index 값으로 merge할때
- 인자로 rigt | left _index를 True로 주면 index를 key 값으로 이용해서 merge 하겠다는

In [63]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame({ "학번" : ["2019001", "2019002", "2019003"],"이름" : ["이지안", "박동훈", "홍길동"]})
df2 = pd.DataFrame({ "학과" : ["컴퓨터", "철학", "수학"]}, index = ["2019001", "2019002", "2019003"])

display(df1)
display(df2)

pd.merge(df1,df2, left_on="학번", right_index=True, how ="inner")


Unnamed: 0,학번,이름
0,2019001,이지안
1,2019002,박동훈
2,2019003,홍길동


Unnamed: 0,학과
2019001,컴퓨터
2019002,철학
2019003,수학


Unnamed: 0,학번,이름,학과
0,2019001,이지안,컴퓨터
1,2019002,박동훈,철학
2,2019003,홍길동,수학


### MiveLens Data Set 이용
- 1. 사용자가 평가한 모든 영화의 전체 평점
- 2. 각 사용자별 평균 평점
- 3. 각 영화별 평균 평점
- 4. 가장 평균 평점이 높은 영화의 제목은? (모두 출력)
- 5. comedy영화 중 평점이 가장 낮은 영화의 제목 (모두 출력)
- 6. 2015년도에 평가된 모든 Romance 영화의 평균 평점
    - timestamp : 1970년 1월 1일 0시 1초 => 모든 플랫폼에 공통적인 시간사용위해
- 7. 2014년도에 평가된 Action영화의 평점을 기준으로 상위 10위의 영화 출력(영화의 제목, 오름차순 기준)

In [68]:
import numpy as np
import pandas as pd

pd_movies = pd.read_csv("./data/movie/movies.csv")
pd_ratings = pd.read_csv("./data/movie/ratings.csv")
display(pd_movies.head())
display(pd_ratings.head())

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [71]:
# 1. 사용자가 평가한 모든 영화의 전체 평점
display(pd_ratings["rating"].mean())

3.501556983616962

In [101]:
# 2. 각 사용자별 평균 평점
user_id = pd_ratings["userId"].unique()
user_list = []
for id in user_id:
    user_list.append((pd_ratings.loc[(pd_ratings["userId"] == id), "rating"]).mean())
pd_userratings = pd.DataFrame({"raintg_mean":user_list},index=user_id)
display(pd_ratings.head())
display(pd_userratings.head())

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


Unnamed: 0,raintg_mean
1,4.366379
2,3.948276
3,2.435897
4,3.555556
5,3.636364


In [102]:
# 3. 각 영화별 평균 평점
movie_id = pd_ratings["movieId"].unique()
movie_list = []
for id in movie_id:
    movie_list.append((pd_ratings.loc[(pd_ratings["movieId"] == id), "rating"]).mean())
pd_movierating = pd.DataFrame({"movie_rating_mean":movie_list},index=movie_id)
display(pd_ratings.head())
display(pd_movierating.head())

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


Unnamed: 0,movie_rating_mean
1,3.92093
3,3.259615
6,3.946078
47,3.975369
50,4.237745


In [142]:
np.arange(0,10,1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [140]:
pd_mvid_title.shape

(296, 4)

In [None]:
pd_mvid_title

In [148]:
# 4. 가장 평균 평점이 높은 영화의 제목은? (모두 출력)
display(pd_movies.head(2))
display(pd_ratings.head(2))
pd_maxmovie = pd_movierating[((pd_movierating.loc[:] == pd_movierating.max()).values)]
display(pd_maxmovie.head(2))
pd_mvid_title = pd.merge(pd_movies, pd_maxmovie, left_on="movieId", right_index=True, how = "right")
pd_mvid_title.drop("genres", axis=1, inplace = False).head(10)



Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247


Unnamed: 0,movie_rating_mean
131724,5.0
5746,5.0


Unnamed: 0,movieId,title,movie_rating_mean
48,53,Lamerica (1994),5.0
87,99,Heidi Fleiss: Hollywood Madam (1995),5.0
121,148,"Awfully Big Adventure, An (1995)",5.0
405,467,Live Nude Girls (1995),5.0
432,495,In the Realm of the Senses (Ai no corrida) (1976),5.0
433,496,What Happened Was... (1994),5.0
531,626,"Thin Line Between Love and Hate, A (1996)",5.0
536,633,Denise Calls Up (1995),5.0
666,876,Supercop 2 (Project S) (Chao ji ji hua) (1993),5.0
865,1140,Entertaining Angels: The Dorothy Day Story (1996),5.0


In [596]:
# 5. comedy영화 중 평점이 가장 낮은 영화의 제목 (모두 출력)
c_func = lambda x : "Comedy" in x
pd_movi_gen = pd.merge(pd_movies,pd_movierating, left_on= "movieId", right_index= True, how = "left")
display(pd_movi_gen.head(3))
display(pd_movi_gen.loc[(pd_movi_gen["genres"].apply(c_func)),:].head(3))
df_mvgr = (pd_movi_gen.loc[(pd_movi_gen["genres"].apply(c_func)),:])
df_mvgr_min = df_mvgr["movie_rating_mean"].min()
mvgr_mask = df_mvgr["movie_rating_mean"] == df_mvgr_min
display(df_mvgr.loc[mvgr_mask].head(10))
print("df_mvgr의 shape : {}".format(df_mvgr.loc[mvgr_mask].shape))

Unnamed: 0,movieId,title,genres,movie_rating_mean
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,3.259615


Unnamed: 0,movieId,title,genres,movie_rating_mean
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92093
2,3,Grumpier Old Men (1995),Comedy|Romance,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,2.357143


Unnamed: 0,movieId,title,genres,movie_rating_mean
4439,6557,Born to Be Wild (1995),Adventure|Children|Comedy|Drama,0.5
4881,7312,"Follow Me, Boys! (1966)",Comedy|Drama,0.5
5258,8632,Secret Society (2002),Comedy,0.5
5409,25782,Boudu Saved From Drowning (Boudu sauvé des eau...,Comedy,0.5
5453,26095,"Carabineers, The (Carabiniers, Les) (1963)",Comedy|Drama|War,0.5
5662,27595,Jesus Christ Vampire Hunter (2001),Action|Comedy|Horror|Musical,0.5
5777,31422,Are We There Yet? (2005),Children|Comedy,0.5
5795,31692,Uncle Nino (2003),Comedy,0.5
6160,44243,Leprechaun 4: In Space (1997),Comedy|Fantasy|Horror|Sci-Fi,0.5
6545,54768,Daddy Day Camp (2007),Children|Comedy,0.5


df_mvgr의 shape : (25, 4)


In [595]:
# 6. 2015년도에 평가된 모든 Romance 영화의 평균 평점
# timestamp : 1970년 1월 1일 0시 1초 => 모든 플랫폼에 공통적인 시간사용위해
from datetime import datetime
r_func = lambda x : "Romance" in x
year = 2015
df_rm = pd_movies.loc[(pd_movies["genres"].apply(r_func))]
display(df_rm.head(3))
mask_2015 = (pd_ratings["timestamp"].apply(lambda x: datetime.fromtimestamp(x).year) == year)
df_2015 = pd_ratings[mask_2015]
display(df_2015.head(3))
print("df_rm : {}, df_년도 : {}".format(df_rm.shape, df_2015.shape))
rm_movie_list = df_rm["movieId"]

df_2015_rm = pd.merge(df_2015, df_rm, on="movieId", how = "inner")
print("******************중복제거 전******************************")
display(df_2015_rm.head(10))
print("중복제거 전 shape : {}".format(df_2015_rm.shape))
print("******************중복제거 후******************************")
print("평균평점 : {}".format(df_2015_rm["rating"].mean()))
r_mean_list = []
r_title_list = []
r_genres_list = []
r_time_list = []
r_unique_movie = df_2015_rm["movieId"].unique()
for d in r_unique_movie:
    r_mean_list.append(df_2015_rm.loc[(df_2015_rm["movieId"] == d),"rating"].mean())
    # Series는 정해진 index로 값 가져오기때문에 np.array 타입으로 바꾸는(values)통해 첫번째 가지고 온다
    r_title_list.append(df_2015_rm.loc[(df_2015_rm["movieId"] == d),"title"].values[0])
    r_genres_list.append(df_2015_rm.loc[(df_2015_rm["movieId"] == d),"genres"].values[0])
    r_time_list.append(df_2015_rm.loc[(df_2015_rm["movieId"] == d),"timestamp"].mean())
new_pd_romance = pd.DataFrame({"movieId" : r_unique_movie, "rating_mean" : r_mean_list,
                             "title" : r_title_list, "genres" : r_genres_list, "timestamp" : r_time_list })

new_pd_romance.sort_values(by=["rating_mean","title"], ascending=[False,True], inplace = True)
# 엉킨 index는 그냥 rename
my_dict = {}
for idx, d in enumerate(new_pd_romance.index):
    my_dict.update({d: idx})
new_pd_romance = new_pd_romance.rename(index=my_dict)
display(new_pd_romance.head(10))
print("중복 제거 후 shape : {}".format(new_pd_romance.shape))

Unnamed: 0,movieId,title,genres
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
6,7,Sabrina (1995),Comedy|Romance


Unnamed: 0,userId,movieId,rating,timestamp
232,2,318,3.0,1445714835
233,2,333,4.0,1445715029
234,2,1704,4.5,1445715228


df_rm : (1596, 3), df_년도 : (6615, 4)
******************중복제거 전******************************


Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,2,1704,4.5,1445715228,Good Will Hunting (1997),Drama|Romance
1,63,1704,3.5,1443199847,Good Will Hunting (1997),Drama|Romance
2,103,1704,4.5,1431957130,Good Will Hunting (1997),Drama|Romance
3,105,1704,4.0,1448196395,Good Will Hunting (1997),Drama|Romance
4,177,1704,5.0,1435533692,Good Will Hunting (1997),Drama|Romance
5,231,1704,2.0,1433089554,Good Will Hunting (1997),Drama|Romance
6,285,1704,4.0,1449973307,Good Will Hunting (1997),Drama|Romance
7,300,1704,3.0,1425351457,Good Will Hunting (1997),Drama|Romance
8,317,1704,5.0,1430361517,Good Will Hunting (1997),Drama|Romance
9,443,1704,4.0,1420236319,Good Will Hunting (1997),Drama|Romance


중복제거 전 shape : (1269, 6)
******************중복제거 후******************************
평균평점 : 3.396375098502758


Unnamed: 0,movieId,rating_mean,title,genres,timestamp
0,7121,5.0,Adam's Rib (1949),Comedy|Romance,1435720000.0
1,932,5.0,"Affair to Remember, An (1957)",Drama|Romance,1435721000.0
2,1441,5.0,Benny & Joon (1993),Comedy|Romance,1451081000.0
3,902,5.0,Breakfast at Tiffany's (1961),Drama|Romance,1435535000.0
4,955,5.0,Bringing Up Baby (1938),Comedy|Romance,1435536000.0
5,68848,5.0,"Brothers Bloom, The (2008)",Adventure|Comedy|Crime|Romance,1430507000.0
6,26587,5.0,"Decalogue, The (Dekalog) (1989)",Crime|Drama|Romance,1446573000.0
7,124851,5.0,Delirium (2014),Adventure|Romance|Sci-Fi,1430617000.0
8,109633,5.0,"Garden of Words, The (Koto no ha no niwa) (2013)",Animation|Romance,1446573000.0
9,948,5.0,Giant (1956),Drama|Romance|Western,1435803000.0


중복 제거 후 shape : (510, 5)


In [593]:
# 7. 2014년도에 평가된 Action영화의 평점을 기준으로 상위 10위의 영화 출력(영화의 제목, 오름차순 기준)
from datetime import datetime
a_func = lambda x: "Action" in x
year = 2014
df_at = pd_movies.loc[(pd_movies["genres"].apply(a_func))]
display(df_at.head(3))
print("Action 영화 : {}".format(df_at.shape))
display(pd_ratings.head(3))
mask_2014 = pd_ratings["timestamp"].apply(lambda x: datetime.fromtimestamp(x).year == year)
print("{}년도에 나온 영화 : {}".format(year, mask_2014.sum()))
df_2014_a = pd.merge(pd_ratings[mask_2014], df_at, on="movieId", how = "inner")
print("*******************중복제거 전**********************")
display(df_2014_a.head(10))
print("중복제거 전 shape : {}".format(df_2014_a.shape))
print("*******************중복제거 후**********************")
# 새로운 df 만들기 위해 리스트로 값 받는다
a_mean_list = []
a_title_list = []
a_genres_list = []
a_time_list = []
a_unique_movie = df_2014_a["movieId"].unique()
for d in a_unique_movie:
    a_mean_list.append(df_2014_a.loc[(df_2014_a["movieId"] == d),"rating"].mean())
    # Series는 정해진 index로 값 가져오기때문에 np.array 타입으로 바꾸는(values)통해 첫번째 가지고 온다
    a_title_list.append(df_2014_a.loc[(df_2014_a["movieId"] == d),"title"].values[0])
    a_genres_list.append(df_2014_a.loc[(df_2014_a["movieId"] == d),"genres"].values[0])
    a_time_list.append(df_2014_a.loc[(df_2014_a["movieId"] == d),"timestamp"].mean())
new_pd_action = pd.DataFrame({"movieId" : a_unique_movie, "rating_mean" : a_mean_list,
                             "title" : a_title_list, "genres" : a_genres_list, "timestamp" : a_time_list })
new_pd_action.sort_values(by=["rating_mean","title"], ascending=[False,True], inplace = True)
## 엉켜지는 index rename
my_dict = {}
for idx, d in enumerate(new_pd_action.index):
    my_dict.update({d: idx})
new_pd_action = new_pd_action.rename(index=my_dict)
display(new_pd_action.iloc[:10, :])
print("중복제거 후 shape : {}".format(new_pd_action.shape))

Unnamed: 0,movieId,title,genres
5,6,Heat (1995),Action|Crime|Thriller
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


Action 영화 : (1828, 3)


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224


2014년도에 나온 영화 : 1439
*******************중복제거 전**********************


Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,21,10,5.0,1403459783,GoldenEye (1995),Action|Adventure|Thriller
1,21,165,3.5,1418846918,Die Hard: With a Vengeance (1995),Action|Crime|Thriller
2,222,165,3.0,1391353890,Die Hard: With a Vengeance (1995),Action|Crime|Thriller
3,326,165,4.0,1419880408,Die Hard: With a Vengeance (1995),Action|Crime|Thriller
4,21,260,4.5,1417378080,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Sci-Fi
5,21,367,3.0,1407617838,"Mask, The (1994)",Action|Comedy|Crime|Fantasy
6,222,367,3.0,1391353098,"Mask, The (1994)",Action|Comedy|Crime|Fantasy
7,21,480,4.0,1418063303,Jurassic Park (1993),Action|Adventure|Sci-Fi|Thriller
8,21,589,3.5,1418846818,Terminator 2: Judgment Day (1991),Action|Sci-Fi
9,528,589,4.0,1391736600,Terminator 2: Judgment Day (1991),Action|Sci-Fi


중복제거 전 shape : (496, 6)
*******************중복제거 후**********************


Unnamed: 0,movieId,rating_mean,title,genres,timestamp
0,1274,5.0,Akira (1988),Action|Adventure|Animation|Sci-Fi,1407692000.0
1,1220,5.0,"Blues Brothers, The (1980)",Action|Comedy|Musical,1391350000.0
2,55721,5.0,Elite Squad (Tropa de Elite) (2007),Action|Crime|Drama|Thriller,1391735000.0
3,85342,5.0,Elite Squad: The Enemy Within (Tropa de Elite ...,Action|Crime|Drama,1391736000.0
4,10,5.0,GoldenEye (1995),Action|Adventure|Thriller,1403460000.0
5,1262,5.0,"Great Escape, The (1963)",Action|Adventure|Drama|War,1415579000.0
6,54736,5.0,"Kingdom, The (2007)",Action|Drama|Thriller,1390095000.0
7,7573,5.0,Never Say Never Again (1983),Action|Adventure|Thriller,1403460000.0
8,3000,5.0,Princess Mononoke (Mononoke-hime) (1997),Action|Adventure|Animation|Drama|Fantasy,1407692000.0
9,2278,5.0,Ronin (1998),Action|Crime|Thriller,1391734000.0


중복제거 후 shape : (331, 5)
