In [None]:
## pandas는 python data 분석의 핵심 module(package)
## 데이터 분석
## 1. EDA(탐색적 데이터 분석) : 예) 엑셀로 데이터 분석
## python 언어로  pandas 를 이용해서 EDA를 수행
## 2. 통계적 데이터 분석 : 통계적쪽 이론을 이용한 분석
## 3. 머신러닝 : 기존 데이터를 이용해서 프로그램을 학습
##               이 학습된 결과를 이용해서 예측
## (딥러닝)

## Pandas 는 고유한 자료구조를 2개 사용한다.(numpy의 1,2차원배열과 유사)
## Series : numpy의 1차원 배열과 상당히 유사
##          동일한 데이터 차입의 복수개의 요소로 구성.
## DataFrame : table형식으로 구성된 자료구조
##             2차원배열과 상당히 유사
##             데이터베이스 테이블과 상당히 유사 (데이터타입 상관없음 , 칼럼만 같으면됨)

In [12]:
import numpy as np
import pandas as pd

print("=" * 30)
arr = np.array([-1,10,50,99], dtype=np.float64)
print(arr)
print("=" * 30)

# Series라 불리는 1차원 배열 만들기
s = pd.Series([-1,10,50,99], dtype=np.float64)
display(s) # Series와 DataFrame만 출력할때 display()이용
print(s.values) # numpy 1차원 array로 리턴
print(s.index)
print(s.dtype)

# pandas는 index도 출력


[-1. 10. 50. 99.]


0    -1.0
1    10.0
2    50.0
3    99.0
dtype: float64

[-1. 10. 50. 99.]
RangeIndex(start=0, stop=4, step=1)
float64


In [19]:
import numpy as np
import pandas as pd

# pd.Series() : 순서대로 자료정리, index를 정의해서 쓸수 있음
s = pd.Series([-1,10,50,99], index=["c","a","k","tt"])
display(s) # 전체구조 -> display()
print(s["a"]) # 다른 형식의 index를 사용가능
print(s[1]) # index 이름을 변경 했더라도 원래의 형태의 숫자 index 사용가능
print(s[1:3]) # 일반적인 slicing 가능, Series를 slicing 하면 결과값 : Series형식 
# 문자기반 indexing - 슬라이싱되는 범위에 주의
print(s["c":"k"]) # 숫자는 indexing하면 앞포함 뒤불포함인데
                  # 문자는 indexing하면 앞,뒤 포함 
print(s.sum()) # 집계함수 제공되기때문에 함수사용가능

c     -1
a     10
k     50
tt    99
dtype: int64

10
10
a    10
k    50
dtype: int64
c    -1
a    10
k    50
dtype: int64
158


In [30]:
## 문제
# A 공장의 2019-01-01부터 10일간 제품 생산량을 Series에 저장
# 단, 생산량의 평균은 50이고 표준편차는 5인 정규분포에서 
# 생산량을 랜덤하게 결정

# Series의 index로 날짜를 사용

# B 공장의 2019-01-01부터 10일간 제품 생산량을 Series에 저장
# 단, 생산량의 평균은 70이고 표준편차는 8인 정규분포에서 
# 생산량을 랜덤하게 결정

# 2019-01-01 부터 10일간 공장(A,B)의 생산량을 날짜별로 출력

import numpy as np
import pandas as pd
from datetime import date,timedelta
from dateutil.parser import parse

start_day = parse("2019-01-01")
print(start_day)
# Series()의 data와 index를 list의 형식으로 

                          # 정수화시키기위해       # 1차원형태로 10개
factory_a = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
                       index=[start_day + timedelta(days=x) for x in range(10)])
display("factory_a",factory_a)

print("=" * 30)

factory_b = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
                       index=[start_day + timedelta(days=x) for x in range(10)])
display("factory_b",factory_b)  

print("=" * 30)

display("factory_a 와 factory_b의 합", factory_a + factory_b)

2019-01-01 00:00:00


'factory_a'

2019-01-01    56
2019-01-02    48
2019-01-03    52
2019-01-04    56
2019-01-05    53
2019-01-06    47
2019-01-07    50
2019-01-08    54
2019-01-09    40
2019-01-10    48
dtype: int64



'factory_b'

2019-01-01    65
2019-01-02    63
2019-01-03    80
2019-01-04    74
2019-01-05    63
2019-01-06    77
2019-01-07    74
2019-01-08    71
2019-01-09    70
2019-01-10    58
dtype: int64



'factory_a 와 factory_b의 합'

2019-01-01    121
2019-01-02    111
2019-01-03    132
2019-01-04    130
2019-01-05    116
2019-01-06    124
2019-01-07    124
2019-01-08    125
2019-01-09    110
2019-01-10    106
dtype: int64

In [33]:
# 이전에는 Series라는 자료구조를 만들때 python의 list를 이용해서 만들었는데 
# 이번에는 dictionary를 이용해서 만들어보기! dictionary => key,value
import numpy as np
import pandas as pd

my_dict = {"서울" : 3000, "부산" : 2000, "제주" : 8000}
s = pd.Series(my_dict)

s.name = "지역별 가격 데이터"
s.index.name = "지역"
display(s) # dictionary의 key값이 Series의 index값으로 잡힘

지역
서울    3000
부산    2000
제주    8000
Name: 지역별 가격 데이터, dtype: int64

In [42]:
## pandas의 두번째 자료구조인 DataFrame
## 거의 대부분의 경우 DataFrame을 이용해서 데이터 분석
## DataFrame : Series의 집합, python dictionary를 이용해서 생성
import numpy as np
import pandas as pd
                # list
data = { "name" : ["kim","lee","park","moon","kim"],
         "year" : [2015, 2016, 2019, 2019, 2015],
         "point" : [3.1, 4.3, 1.2, 2.3, 3.9]}

df = pd.DataFrame(data)
display(df) # table의 구조로 결과가 나옴 => DataFrame -> 데이터 처리할때 사용하면 편리
print("DataFrame의 shape : {}".format(df.shape))
print("DataFrame의 요소개수 :{}".format(df.size))
print("DataFrame의 차원 :{}".format(df.ndim))
print("DataFrame의 인덱스 :{}".format(df.index))
print("DataFrame의 컬럼 :{}".format(df.columns))
print("DataFrame의 데이터 :{}".format(df.values)) # 전체 타입 : object로 되어있는 numpy array 


Unnamed: 0,name,year,point
0,kim,2015,3.1
1,lee,2016,4.3
2,park,2019,1.2
3,moon,2019,2.3
4,kim,2015,3.9


DataFrame의 shape : (5, 3)
DataFrame의 요소개수 :15
DataFrame의 차원 :2
DataFrame의 인덱스 :RangeIndex(start=0, stop=5, step=1)
DataFrame의 컬럼 :Index(['name', 'year', 'point'], dtype='object')
DataFrame의 데이터 :[['kim' 2015 3.1]
 ['lee' 2016 4.3]
 ['park' 2019 1.2]
 ['moon' 2019 2.3]
 ['kim' 2015 3.9]]


In [45]:
## CSV파일을 이용해서 DataFrame을 생성해 보아요
## 일반적으로 CSV파일의 첫번째 행은 컬럼을 명시
# DataFrame은 쉽게 사용가능한 함수들이 있다.
import numpy as np
import pandas as pd

df = pd.read_csv("./data/movielens/ratings.csv")
# display(df)
print(df.shape)
display(df.head()) # head() : 앞에있는 5개 출력 , tail() : 뒤에있는 5개 출력

(100836, 4)


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [53]:
## Database로 부터 데이터를 얻어내서 DataFrame을 생성
## Database는 mysql을 이용해서 처리해보기
## python에서 mysql을 사용할 수 있도록 도와주는 module을 설치
import pymysql.cursors
import numpy as np
import pandas as pd

## mysql을 다운로드 받아서 간단하게 설치-설정
## 데이터베이스를 연결하기 위한 변수를 하나 생성
conn = pymysql.connect(host="localhost",
                      user="python",
                      password="python",
                      db="library",
                      charset="utf8")
sql = "select bisbn,btitle,bauthor,bprice from books"

df = pd.read_sql(sql,con=conn)
display(df)

Unnamed: 0,bisbn,btitle,bauthor,bprice
0,89-7914-063-0,C로 구현한 알고리즘,카일 루든(Kyle Loudon),25000
1,89-7914-206-4,"IT EXPERT, 모바일 자바 프로그래밍","권기경, 박용우",23000
2,89-7914-245-5,초보자를 위한 Linux & Unix C 프로그래밍,"김종훈, 김종진, 김동균",28000
3,89-7914-254-4,스트럿츠 프레임워크 워크북,박재성,20000
4,89-7914-274-9,나는 프로그래머다,임백준외 6명,12800
5,89-7914-278-1,알기 쉽게 풀어 쓴 웹로직과 EJB,김성박,25000
6,89-7914-288-9,Programming Challenges: 알고리즘 트레이닝 북,"스티븐 스키에나, 미구엘 레비야",26000
7,89-7914-295-1,"IT EXPERT, 리눅스 디바이스 드라이버",유영창,35000
8,89-7914-308-7,Head First EJB : EJB가 여러분의 머리 속으로,"케이시 시에라, 버트 베이츠",30000
9,89-7914-309-5,데이터베이스 설계와 구축 : 성능까지 고려한 데이터 모델링(개정판),이춘식,27000


In [8]:
## 2019-07-05

# 3가지 형태의 데이터 파일을 이용
# CVS파일을 읽어들여서 pandas의 DataFrame으로 표현
import numpy as np
import pandas as pd

df = pd.read_csv("./data/movielens/ratings.csv")

#display(df)

# 실행시키면 in[*] : 실행중 의미

## DataFrame에 들어있는 데이터를 JSON형태로 저장하기
# new_df = df.head() # 상위 5개만 출력
# display(new_df)
# new_df.to_json("./data/movielens/ratings.json") # .to_json(적절한 파일이름과 경로) :  json파일로 저장
df.to_json("./data/movielens/ratings.json") 
display(df)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
5,1,70,3.0,964982400
6,1,101,5.0,964980868
7,1,110,4.0,964982176
8,1,151,5.0,964984041
9,1,157,5.0,964984100


In [9]:
# JSON파일을 읽어들여서 DataFrame으로 표현
import numpy as np
import pandas as pd
import json # json 내장모듈 - 따로 설치 필요없음

file = open("./data/movielens/ratings.json","r") 
#open() : 파이썬이 가지고 있는 파일io에 대한 함수 , r : read
 
my_dict = json.load(file) # load() :파일로부터 데이터를 로드하는 함수
file.close()

df = pd.DataFrame(my_dict)
display(df)
# index가 0 1 10 100 1000 으로 나오는 이유 : JSON이 문자열기반이기 떄문


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
10,1,163,5.0,964983650
100,1,1573,5.0,964982290
1000,7,31878,3.5,1118025982
10000,66,282,4.0,1093144035
100000,610,6978,4.0,1479542837
100001,610,7007,4.5,1479545277
100002,610,7022,5.0,1479544903
100003,610,7090,3.0,1493845971


In [23]:
## pandas의 DataFrame의 제어
import numpy as np
import pandas as pd

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

# data의 columns와 index의 옵션들의 이름을 변경 할수 있다.
df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 ) 
display(df)

# Nan : 숫자가 아님 / columns=[]에 명시하지않으면 값이 출력되지 않고 잘못입력하면 nan이뜬다.

# DataFrame은 기본적인 분석함수를 제공 : describe()
display(df.describe())


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학년,학점
count,4.0,4.0
mean,2.5,3.6
std,1.290994,0.739369
min,1.0,2.9
25%,1.75,3.05
50%,2.5,3.5
75%,3.25,4.05
max,4.0,4.5


In [37]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 ) 
display(df)
## DataFrame에서 특정 column만 추출
## 컬럼 1개만 들고오면 => Series 형태으로 출력
# display(df["이름"])
# year = df["학년"] # year => Series => View로 가져온다. 원본형태는 그래로 데이터를 공유
year = df["학년"].copy() # View가 아닌 복사본을 이용하려면 .copy() 사용
year[0] = 100
display(year)
display(df)


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


one      100
two        3
three      2
four       4
Name: 학년, dtype: int64

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


In [40]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 ) 
### 2개 이상의 컬럼을 추출하려면?
# display(df["이름","학년"]) # Error

### Fancy indexing 이용 하면됨!
## 인덱싱하는 부분에 인덱스 배열을 이용하는 indexing방법
display(df[["학과","이름"]]) # 하나만 series로 추출, 두개이상은 DataFraome이 추출된다.


Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,경영,강감찬
three,철학,이순신
four,미술,신사임당


In [44]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
## 컬럼의 값을 수정하려면?
# df["학년"] = 4 # 스칼라
# df["학년"] =[1,1,2,2] # 리스트
df["학년"] = np.array([1,1,3,3]) # numpy
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,1,2.9
three,철학,이순신,3,4.5
four,미술,신사임당,3,3.9


In [61]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
## 기존에 없는 새로운 컬럼을 추가하려면?
display(df)
# df["나이"] = [20,21,23,None] # 개수를 잘 맞춰줘야함
# df["나이"] = [20,21,23,np.nan] # 일반적으로 np.nan를 사용한다.
# df["나이"] = pd.Series([20,21,23,24], 
#                index=["one","two","three","four"])
# 값이 NaN으로 나온다. => dataframe의 index와 Series의 index가 같아야함. 

df["나이"] = pd.Series([20,21,24], 
                      index=["one","two","four"])
display(df)
# 값을 모를 때는 NaN을 이용해서 값을 채운다.


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점,나이
one,컴퓨터,홍길동,1,3.1,20.0
two,경영,강감찬,3,2.9,21.0
three,철학,이순신,2,4.5,
four,미술,신사임당,4,3.9,24.0


In [64]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

## 기존에 없는 새로운 컬럼을 추가하려면?
## 장학금여부 라는 컬럼을 추가
df["장학금 여부"] = df["학점"] > 3.0

display(df) # 값이 true, flase 로 떯어진다

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점,장학금 여부
one,컴퓨터,홍길동,1,3.1,True
two,경영,강감찬,3,2.9,False
three,철학,이순신,2,4.5,True
four,미술,신사임당,4,3.9,True


In [84]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

## 컬럼을 삭제하려면?  
# del df["학점"] #  del 키워드 / 사용학점 컬럼을 삭제
# 실제로는 이렇게 사용하지 않는다. 다른 방법 사용!!
# display(df)
# 컬럼을 삭제하는 일반적인 방법 
# => drop("삭제할컬럼명",axis=,inplace=) 함수 사용
df.drop("학점", axis = 1,inplace=True) 
# drop()은 컬럼을 지우는지 행을지우는지 명시해줘야함 , 
# 축 axis=0: 행방향 / axis=1 :열방향
# inplace=True => 원본삭제, 리턴X
display(df)

new_df = df.drop("학점", axis = 1,inplace=False) 
display(df)
display(new_df)

##################################
## DataFrame의 컬럼을 제어하기 위한 CRUD 작업


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년
one,컴퓨터,홍길동,1
two,경영,강감찬,3
three,철학,이순신,2
four,미술,신사임당,4


Unnamed: 0,학과,이름,학년
one,컴퓨터,홍길동,1
two,경영,강감찬,3
three,철학,이순신,2
four,미술,신사임당,4


In [85]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

## 특정 row(recode) indexing
# display(df[0]) # index 번호로 row를 선택
# display(df["one"]) # index 번호로 row를 선택
## => index특정 번호로 특정 row를 선택하는거 안됨 /숫자, 문자 index 둘다 안됨
## 하지만 슬라이싱은 가능
display(df[0:1]) # 슬라이싱했기 떄문에 DataFrame으로 결과나옴
display(df[:-1])
display(df["one":"three"])

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5


In [95]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

## 특정 row(recode) indexing
display(df[0:1]) # df["~~~"] => 컬럼 제어할때


## 일반적으로 행을 제어할때 
# df.loc[0] # 0번째 행을 숫자로 indexing 하려는 의미지만 사용할수 없다!

display(df.loc["one"])  # 문자로 indexing 가능          
# index 기반으로 indexing은 가능
# 1개의 행을 선택하는 것이기 때문에 Series로 리턴
display(df.loc["one":"three"]) # slicing
display(df.loc[["one","three"]]) # Fancy indexing
# loc 사용 시 컬럼에 대한 indexing도 할 수 있다.
display(df.loc["one":"three","이름":"학년"])
display(df.loc["one":"three",["이름","학점"]])

# 지정해서 컬럼의 정보를 알고 싶을 때 : df.loc[] 사용

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1


학과    컴퓨터
이름    홍길동
학년      1
학점    3.1
Name: one, dtype: object

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
three,철학,이순신,2,4.5


Unnamed: 0,이름,학년
one,홍길동,1
two,강감찬,3
three,이순신,2


Unnamed: 0,이름,학점
one,홍길동,3.1
two,강감찬,2.9
three,이순신,4.5


In [103]:
import numpy as np
import pandas as pd
import warnings

#  warnoing을 출력하지 않기 위한 설정
warnings.filterwarnings(action="ignore") # ignore => off
# warnings.filterwarnings(action="default") # default => on

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

## 특정 row(recode) indexing

## 새로운 행을 추가하려면 어떻게 하나?
df.loc["five",:] = ["물리","유관순",2,3.5] # 어떤 데이터를 추가할지 명시해야함
display(df)

# row를 삭제 하려면?
# 행삭제 axis=0 을 줘야함
# df.drop("one", axis=0, inplace=True)
df.drop(["one","three"], axis=0, inplace=True) # Fancy indexing
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1.0,3.1
two,경영,강감찬,3.0,2.9
three,철학,이순신,2.0,4.5
four,미술,신사임당,4.0,3.9
five,물리,유관순,2.0,3.5


Unnamed: 0,학과,이름,학년,학점
two,경영,강감찬,3.0,2.9
four,미술,신사임당,4.0,3.9
five,물리,유관순,2.0,3.5


In [129]:
## 문제

import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings(action="ignore")

data = {"이름" : ["홍길동","강감찬","이순신","신사임당"],
        "학과" : ["컴퓨터","경영","철학","미술"],
        "학년" : [1,3,2,4],
        "학점" : [3.1, 2.9, 4.5, 3.9]
       }

df = pd.DataFrame(data, columns=["학과","이름","학년","학점"],
                  index=["one","two","three","four"]
                 )
display(df)

df["이름"] == "강감찬" ## boolean mask가 생성
# 1. 이름이 '강감찬'인 사람을 찾아서 이름과 학점을 DataFrame으로 출력
# display(df.loc["행", "열"]) 행 : boolean indexing
display(df.loc[df["이름"] == "강감찬",["이름","학점"]])

# 2. 학점이 2.5초과 3.5미만 인 사람을 찾아서 학과와 이름 출력
(df["학점"] > 2.5) & (df["학점"] < 3.5)
display(df.loc[(df["학점"] > 2.5) & (df["학점"] < 3.5),["학과","이름"]])
# 3. Grade라는 컬럼을 추가한 후 학점이 4.0 이상인 사람을 찾아
#    해당 사람만 Grade를 "A"로 설정
df["Grade"] = pd.Series([])
display(df)
df["학점"] >= 4.0
df.loc[df["학점"] >= 4.0, "Grade"] = "A"
display(df)

Unnamed: 0,학과,이름,학년,학점
one,컴퓨터,홍길동,1,3.1
two,경영,강감찬,3,2.9
three,철학,이순신,2,4.5
four,미술,신사임당,4,3.9


Unnamed: 0,이름,학점
two,강감찬,2.9


Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,경영,강감찬


Unnamed: 0,학과,이름,학년,학점,Grade
one,컴퓨터,홍길동,1,3.1,
two,경영,강감찬,3,2.9,
three,철학,이순신,2,4.5,
four,미술,신사임당,4,3.9,


Unnamed: 0,학과,이름,학년,학점,Grade
one,컴퓨터,홍길동,1,3.1,
two,경영,강감찬,3,2.9,
three,철학,이순신,2,4.5,A
four,미술,신사임당,4,3.9,


In [165]:
# DataFrame 조작을 위해 간단한 DataFrame을 생성
# 난수의 재연을 위해 seed값을 고정
# 사용하는 DataFrame 의 value값은 [0,10) 범위의 난수형 정수
                                # 0이상 10미만 [ : 이상 , ) :미만
# 균등분포에서 추출해서 사용
# 6행 4열짜리 DataFrame을 생성 -> tuple로 생성

import numpy as np
import pandas as pd

np.random.seed(10) # 초기화값 고정
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
display(df)

# 컬럼이랑 인덱스 수정
# 컬럼 : ["A","B","C","D"]
# index : 날짜를 이용 ( 2019-01-01 부터 하루씩 증가)

df.columns = ["A","B","C","D"]
# df.index = pd.date_range("20190101","20190106") 
df.index = pd.date_range("20190101",periods=6)  # 타임델타사용해도 상관없지만 pandas에 내장되어있는 date_range 이용
display(df)

# NaN을 포함하는 새로운 컬럼 "E" 를 추가
# [7, np.nan, 4, np.nan, 2, np.nan]
df["E"] = [7, np.nan, 4, np.nan, 2, np.nan]
display(df)

#######################
# 결측값 처리 / 결측 : 잘못된 측정값
"""
NaN이 포함된 해당 데이터부분을 지울수도 있는데...
지우면 데이터가 몇개 안남음 => 분석,예측이 불가능
NaN을 다른 값으로 대체해서 사용해야함
pandas로 데이터 전처리 해줘야한다!
"""
#######################
## 데이터 처리 할때 제일먼저 하는 일!!!
# 1. 결측값을 제거( NaN이 포함된 row를 제거)
# df.dropna(how="any", inplace=True) 
# how="any" => nan로 지정되있는거 다지우라는 의미
# inplace=True => 원본유지
# display(df)

# 결측값을 다른 값으로 대체 : fillna(value=)
# df.fillna(value=0 , inplace=True) # nan값을 찾아서 0으로 변경
# display(df)

# 결측값을 찾기위한 boolean mask :isnull()
# display(df.isnull())

## 간단한 예제
## "E" column의 값이 NaN인 모든 row를 찾고 해당 row의 모든 
##  columns의 값을 출력

# df["E"] ,isnull()=True
display(df.loc[df["E"].isnull()==True]) 

Unnamed: 0,0,1,2,3
0,9,4,0,1
1,9,0,1,8
2,9,0,8,6
3,4,3,0,4
4,6,8,1,8
5,4,1,3,6


Unnamed: 0,A,B,C,D
2019-01-01,9,4,0,1
2019-01-02,9,0,1,8
2019-01-03,9,0,8,6
2019-01-04,4,3,0,4
2019-01-05,6,8,1,8
2019-01-06,4,1,3,6


Unnamed: 0,A,B,C,D,E
2019-01-01,9,4,0,1,7.0
2019-01-02,9,0,1,8,
2019-01-03,9,0,8,6,4.0
2019-01-04,4,3,0,4,
2019-01-05,6,8,1,8,2.0
2019-01-06,4,1,3,6,


Unnamed: 0,A,B,C,D,E
2019-01-02,9,0,1,8,
2019-01-04,4,3,0,4,
2019-01-06,4,1,3,6,


In [None]:
## 평균(mean) : 수학적 확률의 기댓값
#              어떤 사건을 무한히 반복했을 떄 얻을 수 있는 평균으로서 기대할 수 있는 값.(기대값)

## 편차(deviation) : 확률변수 X와 평균값의 차이
#                   데이터의 흩어진 정도를 수치화 하기에는적합하지 않다.
#                   => 편차의 합은 항상 0이기 때문에

## 분산(Variance) : 데이터의 흩어진 정도를 알기 위해서 사용되는 편차의 제곱의 평균
#                   제곱을 사용했기 때문에 단위표현이 애매해지는 경우가 존재

## 표준편차(standard deviation) : 분산의 제곱근

# numpy를 이용하면 위의 것들은 쉽게 구할 수 있다.

## 공분산(covariance) : 두개의 확률변수에 대한 관게를 보여주는 값
# 두개의 확률변수에 대한 공분산값이 양수
# => 하나의 확률변수가 증가할 때 다른 확률변수도 증가하는 경향이 있다. ex) 삼성전자 주식이 오르면 코스피도 오른다.
# 두개의 확률변수에 대한 공분산값이 음수
# 공분산값이 0 :  두 데이터는 독립.
# 연관이 있다는 파악할수는 있는데 얼마나의 강도를 받는지를 알수 없다. 밀접한관계는 알수 없다.

## 상관관계(corelation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
# ex) 성적 vs 자존감 , 온라인 게임시간 vs 폭력성 => 수치적관계를 통해 상관관계가 있다 강도가약하다 강하다를 알수 있다.

## 상관계수(corelation coefficient) : -1과 1사이의 실수 
# => 절대값이 0에 가까워질수록 두대상이 연관성이 없다고 판단, 1에 가까워질수록 밀접한 연관이 있다고 판단.

## 상관관계는 인과관계를 설명할 수 없다!!!!

In [5]:
## 2019-07-08

import numpy as np
import pandas as pd

data = [[2, np.nan],
       [7,-3],
        [np.nan, np.nan],
        [1,-2]
       ]
df = pd.DataFrame(data, 
                  columns=["one","two"],
                  index=["a","b","c","d"])
display(df)
print("="*30)

display(df.sum(axis=0)) # 행방향
# 1차원에서 axis=0 는 열방향 2차원에서는 axis=0 행방향 axis=1 열방향
# 결과값 : DataFrame이 아니라 Series 형태로 나옴

display(df.sum(axis=1)) # 열방향  

## sum을 할때는 NaN은 0.0으로 실수로 처리 된다.

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0




one    10.0
two    -5.0
dtype: float64

a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64

In [12]:
import numpy as np
import pandas as pd

data = [[2, np.nan],
       [7,-3],
        [np.nan, np.nan],
        [1,-2]
       ]
df = pd.DataFrame(data, 
                  columns=["one","two"],
                  index=["a","b","c","d"])
display(df)
print("="*30)

## "one" 컬럼의 값만 모두 함꼐 더하면?
# df["one"].sum() # Output의 값으로 보여줌
# df # df를 쓰면 마지막으로 사용된 Output만 보여주기 때문에 결과값을 출력해주는 display 사용

## "b" 행의 모든값을 더하면?   df.loc[] : location 위치
# df.loc["b"].sum()

## "one" 이라는 컬럼의 평균을 구해보아용 => 평균을 구할때 NaN을 제외(배제)하고 구한다.(없는걸로 간주함)
df["one"].mean()

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0




3.3333333333333335

In [30]:
import numpy as np
import pandas as pd

data = [[2, np.nan],
       [7,-3],
        [np.nan, np.nan],
        [1,-2]
       ]
df = pd.DataFrame(data, 
                  columns=["one","two"],
                  index=["a","b","c","d"])
display(df)
print("="*30)

## 결측값을 처리 => NaN을 처리하고 해야함!! ex) 치환을 하던지....
## "one" column의 결측값은 "one" columns의 평균으로 대체
## "two" column의 결측값은 "two" columns의 최소값으로 대체


one_avg = df["one"].mean()
two_min = df["two"].min()
df["one"] = df["one"].fillna(value=one_avg)
df["two"] = df["two"].fillna(value=two_min)
df

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0




Unnamed: 0,one,two
a,2.0,-3.0
b,7.0,-3.0
c,3.333333,-3.0
d,1.0,-2.0


In [53]:
import numpy as np
import pandas as pd

## random값을 도출해서 DataFrame을 생성
np.random.seed(0)
## 0~9까지의 정수형 난수를 생성(6,4)형태로 생성
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101", periods=6) # 날짜에 대한 range를 잡으려면 pd.date_range()사용하면된다.
# 순열 랜덤 치환
random_date = np.random.permutation(df.index) # index의 순서를 랜덤으로 섞을꺼임
df2 = df.reindex(index = random_date, columns = ["B","A","D","C"])
# reindex()를 사용하면 원본이 고정되어있고 바뀐 결과 DataFrame이 리턴

display(df)
display(df2)
## index(column) 기반의 정렬
df2.sort_index(axis=1, ascending=True) # ascending=True : 오름차순 / ascending=False : 내림차순
## value 기반의 정렬
df2.sort_values(by=["B","A"]) # 앞에있는거로 정렬하고 같은값이 있을때 그 같은값에 대해서 뒤에있는걸로 다시 정렬해라 라는 의미

Unnamed: 0,A,B,C,D
2019-01-01,5,0,3,3
2019-01-02,7,9,3,5
2019-01-03,2,4,7,6
2019-01-04,8,8,1,6
2019-01-05,7,7,8,1
2019-01-06,5,9,8,9


Unnamed: 0,B,A,D,C
2019-01-03,4,2,6,7
2019-01-06,9,5,9,8
2019-01-02,9,7,5,3
2019-01-01,0,5,3,3
2019-01-04,8,8,6,1
2019-01-05,7,7,1,8


Unnamed: 0,B,A,D,C
2019-01-01,0,5,3,3
2019-01-03,4,2,6,7
2019-01-05,7,7,1,8
2019-01-04,8,8,6,1
2019-01-06,9,5,9,8
2019-01-02,9,7,5,3


In [58]:
import numpy as np
import pandas as pd

## random값을 도출해서 DataFrame을 생성
np.random.seed(0)
## 0~9까지의 정수형 난수를 생성(6,4)형태로 생성
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101", periods=6) # 날짜에 대한 range를 잡으려면 pd.date_range()사용하면된다.

## 새로운 column을 추가해 보아요~
df["E"] = ["AA","BB","CC","CC","AA","CC"]

## 중복을 제거하기 위한 함수 => unique() 
df["E"].unique()
# => 중복제거 후 결과값이 numpy array의 형태로 리턴

## 각 value 값들의 개수를 세는 함수 => value_counts()
df["E"].value_counts() 
# => 결과가 Series로 return

## boolean mask를 만들기 위한 함수 => isin()
display(df)
df["E"].isin(["AA","BB"]) # "AA","BB"란게 "E"에 있는지 
# => boolean indexing을 하기위해 boolean mask를 사용한다.

Unnamed: 0,A,B,C,D,E
2019-01-01,5,0,3,3,AA
2019-01-02,7,9,3,5,BB
2019-01-03,2,4,7,6,CC
2019-01-04,8,8,1,6,CC
2019-01-05,7,7,8,1,AA
2019-01-06,5,9,8,9,CC


2019-01-01     True
2019-01-02     True
2019-01-03    False
2019-01-04    False
2019-01-05     True
2019-01-06    False
Freq: D, Name: E, dtype: bool

In [221]:
import numpy as np
import pandas as pd

data1 = { "학번" : [1,2,3,4],
          "이름" : ["홍길동","김길동","이순신","강감찬"],
          "학년" : [2,4,1,3]}
data2 = { "학번" : [1,2,4,5],
          "학과" : ["컴퓨터","경영","철학","기계"],
          "학점" : [3.4, 1.9, 4.5, 2.7]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

## merge() 함수 

# innerjoin => key가 존재 하지 않으면 버림 / primary_key가 동시에 존재하는 것만 join
pd.merge(df1,df2 , on="학번", how="inner") # on="공통적으로  가지는 컬럼" , how="어떤 조인할 것인지 조인 종류"

# outerjoin => key를 기반으로 모두 join / 값이 없으면 NaN으로 표시
pd.merge(df1,df2 , on="학번", how="outer")

# left outerjoin => 왼쪽에 있는 걸 기준으로 무조건들어오고 매핑되는게 있으면 값이 들어오고 없으면 NaN /
pd.merge(df1,df2 , on="학번", how="left")

# right outerjoin
pd.merge(df1,df2 , on="학번", how="right")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,3.4
1,2,경영,1.9
2,4,철학,4.5
3,5,기계,2.7


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.4
1,2,김길동,4.0,경영,1.9
2,4,강감찬,3.0,철학,4.5
3,5,,,기계,2.7


In [68]:
import numpy as np
import pandas as pd

data1 = { "학번" : [1,2,3,4],
          "이름" : ["홍길동","김길동","이순신","강감찬"],
          "학년" : [2,4,1,3]}
data2 = { "학생학번" : [1,2,4,5],
          "학과" : ["컴퓨터","경영","철학","기계"],
          "학점" : [3.4, 1.9, 4.5, 2.7]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

pd.merge(df1,df2, left_on="학번", right_on="학생학번", how="inner") # df1,df2 : 앞에 먼저 입력된게 left 다음이 right

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학생학번,학과,학점
0,1,컴퓨터,3.4
1,2,경영,1.9
2,4,철학,4.5
3,5,기계,2.7


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,컴퓨터,3.4
1,2,김길동,4,2,경영,1.9
2,4,강감찬,3,4,철학,4.5


In [70]:
import numpy as np
import pandas as pd

data1 = { "학번" : [1,2,3,4],
          "이름" : ["홍길동","김길동","이순신","강감찬"],
          "학년" : [2,4,1,3]}
data2 = { "학과" : ["컴퓨터","경영","철학","기계"],
          "학점" : [3.4, 1.9, 4.5, 2.7]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index=[1,2,4,5]) 

display(df1)
display(df2)

# 컬럼과 인덱스 merge
# key가 컬럼에 있고 index에 있는경우
pd.merge(df1,df2, left_on="학번", right_index=True, how="inner")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,김길동,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학과,학점
1,컴퓨터,3.4
2,경영,1.9
4,철학,4.5
5,기계,2.7


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.4
1,2,김길동,4,경영,1.9
3,4,강감찬,3,철학,4.5


In [72]:
import numpy as np
import pandas as pd

data1 = { "이름" : ["홍길동","김길동","이순신","강감찬"],
          "학년" : [2,4,1,3]}
data2 = { "학과" : ["컴퓨터","경영","철학","기계"],
          "학점" : [3.4, 1.9, 4.5, 2.7]}

df1 = pd.DataFrame(data1, index=[1,2,3,4])
df2 = pd.DataFrame(data2, index=[1,2,4,5]) 

display(df1)
display(df2)

# index 기반으로 merge하는 방법
pd.merge(df1,df2, left_index=True, right_index=True, how="inner")

Unnamed: 0,이름,학년
1,홍길동,2
2,김길동,4
3,이순신,1
4,강감찬,3


Unnamed: 0,학과,학점
1,컴퓨터,3.4
2,경영,1.9
4,철학,4.5
5,기계,2.7


Unnamed: 0,이름,학년,학과,학점
1,홍길동,2,컴퓨터,3.4
2,김길동,4,경영,1.9
4,강감찬,3,철학,4.5


In [284]:
import numpy as np
import pandas as pd

### Pandas 연습문제

## 사용할 데이터 : MovieLens Data Set을 이용  / key값 : 영화정보
##                 - 영화자체의 정보 : movies.css
##                 - 영화평점의 정보 : ratings.css

rating_df = pd.read_csv("data/movielens/ratings.csv") 
display(rating_df.head())

## 1. 사용자가 평가한 모든 영화의 전체 평균 평점을 출력하세요. 
mean_rate = rating_df["rating"].mean()
display(mean_rate)


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


3.501556983616962

In [286]:
import numpy as np
import pandas as pd

## 2. 각 사용자별 평균 평점을 출력하세요. 상의5개 하위 5개 boolean indexing // display(df.head()) , display(df.tail())
result_df = pd.DataFrame(columns=["사용자별 평균 평점"])
display(result_df)

# 사용자 Id부터 뽑아내기
rating_df = pd.read_csv("data/movielens/ratings.csv")
display(rating_df.head())

user_ids = rating_df["userId"].unique()
user_ids.shape
for user_id in user_ids:
    # 각 유저별로 ratings를 추출
    user_mean = rating_df.loc[rating_df["userId"] == user_id ,"rating"].mean()
    result_df.loc[user_id] = user_mean
display(result_df.head())

Unnamed: 0,사용자별 평균 평점


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


Unnamed: 0,사용자별 평균 평점
1,4.366379
2,3.948276
3,2.435897
4,3.555556
5,3.636364


In [310]:
import numpy as np
import pandas as pd

## 3. 각 영화별 평균 평점을 다음고 같은 형식으로 출력하세요. => inner join 
#  index(영화 ID)   영화제목       영화평점
#    1           Toy Story(~~)      3.567
#    2            ...               ...

# result_df1 = pd.DataFrame(columns=["영화ID","영화제목","영화평점"])
# display(result_df1)

rating_df = pd.read_csv("data/movielens/ratings.csv")
movie_df = pd.read_csv("data/movielens/movies.csv")

# pd.merge(df4,df3, on="movieId", how="inner")

movie_arr = rating_df["movieId"].unique()

result_df1 = pd.DataFrame(movie_arr, columns=["movieId"])
result_df1["movie_avg"] = pd.Series([])

# print(movie_ids.shape)

for movie_id in movie_arr:
    movie_mean = rating_df.loc[rating_df["movieId"] == movie_id ,"rating"].mean()
    result_df1.loc[result_df1["movieId"]== movie_id , "movie_avg"] = movie_mean
# display(result_df1)

result_a = pd.merge(result_df1,movie_df, left_on="movieId",right_on="movieId", how="inner")

result_a = result_a.loc[:,["movieId","title","movie_avg"]]
result_a.columns=["영화ID","영화제목","영화평점"]
display(result_a)

Unnamed: 0,영화ID,영화제목,영화평점
0,1,Toy Story (1995),3.920930
1,3,Grumpier Old Men (1995),3.259615
2,6,Heat (1995),3.946078
3,47,Seven (a.k.a. Se7en) (1995),3.975369
4,50,"Usual Suspects, The (1995)",4.237745
5,70,From Dusk Till Dawn (1996),3.509091
6,101,Bottle Rocket (1996),3.782609
7,110,Braveheart (1995),4.031646
8,151,Rob Roy (1995),3.545455
9,157,Canadian Bacon (1995),2.863636


In [307]:
import numpy as np
import pandas as pd

## 4. 평균평점이 가장 높은 영화의 제목을 출력하세요.(등률이 있는 경우 모두 출력하세요.) max()

movie_mean = rating_df.loc[rating_df["movieId"] == movie_id ,"rating"].mean()



In [None]:
import numpy as np
import pandas as pd

## 5. Comedy 영화 중 가장 평점이 낮은 영화의 제목을 출력하세요. low()


In [None]:
import numpy as np
import pandas as pd

## 6. 2015년도에 평가된 모든 Romance영화의 평균 평점은? timestamp 어떨게 이용하는지 구글링