# Pandas Cheat Sheet
- Pandas에서 공식적으로 제공하는 커닝페이퍼
- Pandas 문법 중 가장 많이 활용되는 주요 문법들을 단 2장으로 요약해놓은 문서

### DataFrame 생성하기

In [2]:
import pandas as pd
from pandas import Series, DataFrame
df = pd.DataFrame (
            {"a":[4,5,6],
             "b":[7,8,9],
             "c":[10,11,12]},
      index = pd.MultiIndex.from_tuples(
             [('d',1),('e',2),('f',3)],
             names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
e,2,5,8,11
f,3,6,9,12


#### Syntax - Creating DataFrame
- 리스트 형태의 데이터타입은 모두 그 데이터의 인자로 활용 가능
- index와 columns 인자 같은 경우에는 지정하지 않으면 0부터 시작해서 1씩 증가하는 값으로 설정
- DataFrame을 생성하는 것보다 read_excel이나 read_csv와 같이 외부에 있는 파일을 크롤링하는 경우를 빈번하게 사용

### 데이터 모양 바꾸기(Reshaping Data)

#### df.melt()

In [3]:
df = pd.DataFrame (
            {"a":[4,5,6],
             "b":[7,8,9],
             "c":[10,11,12]})
pd.melt(df)

Unnamed: 0,variable,value
0,a,4
1,a,5
2,a,6
3,b,7
4,b,8
5,b,9
6,c,10
7,c,11
8,c,12


#### df.pivot(columns='var', values='val')
- 데이터 모양 바꾸는 함수

> pivot_table: 그룹집계

> pivot: 데이터 모양만 바꿔줌

In [9]:
df = pd.DataFrame (
            {"foo":['one','one','one','two','two','two'],
             "bar":['A','B','C','A','B','C'],
             "baz":[1,2,3,4,5,6],
             "zoo":['x','y','z','q','w','t']})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [11]:
# df.set_index(['foo','bar'])['baz'].unstack()과 동일한 결과
df.pivot(index='foo',columns='bar',values='baz')

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


#### pd.concat([df1,df2], axis=0(1))
- 2개의 데이터프레임을 이어 붙일 때(concatenate)사용하는 함수
- axis인자: 0이면 row방향, 1이면 columns방향

#### df.sort_values('mpg(기준컬럼)')
- 값을 정렬하는 함수

#### df.sort_index()
- 인덱스를 정렬하는 함수

#### df.rename(columns={'y':'year'})
- columns의 이름을 변경해주는 함수

#### df.drop(columns=['Length','Height'])
- columns을 삭제하는 함수(row 단위로도 가능)

### 색인 기능
### (Subset Observations (Rows))
- 기본적으로 columns를 먼저 색인함
- 여러 개를 색인하고 싶은 경우: 리스트의 형태
> df[['width','length','species']]

- 특정 columns를 지정할 경우
> df['width'] or df.width

- 특정 columns와 특정 row를 동시에 색인하고 싶을 경우

> df.loc[:,'x2':'x4'

> df.iloc[:[1,2,5]]

> df.loc[df['a'] > 10,['a','c']]

#### df.drop_duplicates()
- 특정 columns 값들 중에서 중복되어있는 것들을 제거하고 값을 리턴하는 함수
> Ex) 100명의 학생들이 1,2,3반으로 나누어져 있을 때 1,2,3을 리턴함

#### df.sample(frac=0.5)
- 전체 데이터프레임에서 랜덤으로 몇 개를 추출해주는 함수
- frac
> 비율 몇 퍼센트를 샘플링할 것인가?
> 0~1 사이의 값으로 지정하거나 n이라는 인자를 통해 절대 수치로 지정 가능

#### df.nlargest(n, 'value')
- 특정 컬럼의 값을 기준으로 상위 몇 개의 값을 가져옴

#### df.nsmallest(n, 'value')
- 특정 컬럼의 값을 기준으로 하위 몇 개의 값을 가져옴

#### df.filter(regex='regex')
- 정규 표현식 사용 가능
> df.filter(regex='e$', axis=1) #e로 끝나는 컬럼 선택

- 특정 문자열을 포함하는 컬럼을 선택할 때 사용
> df.filter(like='bbi', axis=0) #bbi를 포함하고 있는 row선택

#### 정규표현식
- '\.': '.'을 포함하는 문자열 검색
- 'Length\$': 'Length'로 끝나는 문자열 검색
- '^Sepai': 'Sepai'로 시작하는 문자열 검색
- '^x[1-5]\$': 'x'로 시작하고 1,2,3,4,5로 끝나는 문자열 검색
- '^(?!Species$).*': 'Species'를 제외한 문자열 검색

### 데이터를 집계하는 함수 (Summarize Data)
#### len(df)
- 데이터프레임에 있는 row의 개수를 리턴

#### df['w'].nunique()
- 유일한 값의 개수
> Ex) 100명의 학생들이 1,2,3반에 할당되어 있는 경우 총 몇 개의 반이 있는지, 즉 3을 리턴

#### df.describe()
- 데이터프레임의 기본 통계 정보를 보여주는 함수

#### 그 외
- sum(), count(), median(), min(), max(), var(), std()

### 새로운 컬럼을 생성하는 방법 (Make New Columns
- 기존에 있는 컬럼값들을 산술 연산을 해서 새로운 컬럼 생성
- 내가 만든 규칙을 적용한 새로운 컬럼 생성
- 내가 만든 규칙을 적용하기 위해서는 내가 만든 규칙을 어떤 함수로 정의하고 그 함수를 어떤 컬럼에 적용해서 적용된 값을 새로운 컬럼으로 추가

#### pd.qcut(df.col, n, labels=False)
- 4개의 그룹으로 분할하는 기준은 각각의 그룹의 개수가 동일해야 함
- data: qcut하고자하는 데이터
- 4: 나눌 데이터의 개수
- 1,2,3,4: 나눠진 각각의 그룹들의 이름 지정

In [14]:
# 1~500 사이의 값 100개 생성
import random
data = pd.Series(random.sample(range(1,500),100))
data

0     391
1      13
2     196
3       4
4     354
     ... 
95    334
96    259
97     79
98    141
99    478
Length: 100, dtype: int64

In [15]:
pd.qcut(data, 4, labels=[1,2,3,4])

0     4
1     1
2     2
3     1
4     3
     ..
95    3
96    2
97    1
98    2
99    4
Length: 100, dtype: category
Categories (4, int64): [1 < 2 < 3 < 4]

### Group Data
#### df.groupby(by="col")
- Groupby의 인자인 column의 값을 기준으로 데이터를 나눔
- 여러 개의 그룹을 생성한 객체를 리턴하고 거기에 집계 함수를 호출하게 되면 집계를 각각의 그룹에 적용해서 그룹별 집계가 가능

> df.groupby(by='col') + agg(function)

> df.groupby('col').agg('sum')
> df.groupby('col').sum()

#### df.pivot_table(index = 'col1', columns = 'col2', aggfunc = 'sum', values = 'col3')
- index, columns: 그룹핑하고자 하는 컬럼명
- aggfunc, values: 집계하고자 하는 함수와 함수를 적용하고자 하는 컬럼 지정

### 데이터셋 합치기 (Combine Data Sets)
#### pd.merge()
- sql의 join함수의 연산과 동일
- 2개의 데이터프레임을 합침
> pd.merge(adf,bdf,how='left',on='x1')

- on인자: 명시적으로 지정하지 않으면 공통된 columns로 자동 지정
- how인자: left,right,outer, inner
> outer: inner결과에 포함되지 않는 각각의 행도 갖고옴, 빈 값은 NaN으로 처리

# 영화 평점 분석 실습

In [16]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 1. 영화 평점 데이터 적재 및 전처리

In [17]:
# 사용자 데이터 읽어오기
users = pd.read_csv('data/movielens/users.dat', sep = '::', engine = 'python',
                   names = ['사용자아이디', '성별','연령','직업','지역'])
users.head()

Unnamed: 0,사용자아이디,성별,연령,직업,지역
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [18]:
# 평점 데이터 읽어오기
ratings = pd.read_csv('data/movielens/ratings.dat', sep = '::', engine = 'python',
                   names = ['사용자아이디', '영화아이디','평점','타임스탬프'])
ratings.head()

Unnamed: 0,사용자아이디,영화아이디,평점,타임스탬프
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [19]:
# 영화데이터 읽어오기
movies = pd.read_csv('data/movielens/movies.dat', sep = '::', engine = 'python',
                   names = ['영화아이디','영화제목','장르'], encoding = 'latin-1')
movies.head()

Unnamed: 0,영화아이디,영화제목,장르
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [22]:
#3개의 데이터프레임을 하나로 합치기
#users('사용자아이디','성별','연령','직업','지역')
#ratings('사용자아이디', '영화아이디','평점','타임스탬프')
#movies('영화아이디','영화제목','장르')

data = pd.merge(users, ratings)
data #'사용자아이디'컬럼을 중심으로 users와 ratings 합침

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프
0,1,F,1,10,48067,1193,5,978300760
1,1,F,1,10,48067,661,3,978302109
2,1,F,1,10,48067,914,3,978301968
3,1,F,1,10,48067,3408,4,978300275
4,1,F,1,10,48067,2355,5,978824291
...,...,...,...,...,...,...,...,...
1000204,6040,M,25,6,11106,1091,1,956716541
1000205,6040,M,25,6,11106,1094,5,956704887
1000206,6040,M,25,6,11106,562,5,956704746
1000207,6040,M,25,6,11106,1096,4,956715648


In [23]:
data = pd.merge(data, movies)
data

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,영화제목,장르
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5949,M,18,17,47901,2198,5,958846401,Modulations (1998),Documentary
1000205,5675,M,35,14,30030,2703,3,976029116,Broken Vessels (1998),Drama
1000206,5780,M,18,17,92886,2845,1,958153068,White Boys (1999),Drama
1000207,5851,F,18,20,55410,3607,5,957756608,One Little Indian (1973),Comedy|Drama|Western


## 2. 보고 싶은 영화 찾기
영화들의 평점 평균을 구하여, 사람들에게 인정받는 (평점이 높은) 영화 찾기

In [26]:
# 전체영화, 전체평점
data.평점.mean()

3.581564453029317

In [28]:
# 영화들의 평점 평균을 구하여, 평점이 높은 영화 찾기 
영화평점 = data.pivot_table(index='영화제목', aggfunc='mean', values='평점')
영화평점.sort_values(by='평점', ascending=False)

Unnamed: 0_level_0,평점
영화제목,Unnamed: 1_level_1
Ulysses (Ulisse) (1954),5.0
Lured (1947),5.0
Follow the Bitch (1998),5.0
Bittersweet Motel (2000),5.0
Song of Freedom (1936),5.0
...,...
"Fantastic Night, The (La Nuit Fantastique) (1949)",1.0
Cheetah (1989),1.0
Torso (Corpi Presentano Tracce di Violenza Carnale) (1973),1.0
Mutters Courage (1995),1.0


평균 평점이 만점인 영화들이 최상위에 위치함. 
일반적으로 평점이 만점인 경우는 대부분 평점의 개수가 매우 적은 경우이므로, 이를 확인하기 위해 평점의 개수도 함께 구해본다. 

In [31]:
영화평점 = data.pivot_table(index='영화제목', 
                        aggfunc=['mean','count'], 
                        values='평점')
영화평점.sort_values(by=('mean','평점'), ascending=False)

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,평점,평점
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2
Ulysses (Ulisse) (1954),5.0,1
Lured (1947),5.0,1
Follow the Bitch (1998),5.0,1
Bittersweet Motel (2000),5.0,1
Song of Freedom (1936),5.0,1
...,...,...
"Fantastic Night, The (La Nuit Fantastique) (1949)",1.0,1
Cheetah (1989),1.0,1
Torso (Corpi Presentano Tracce di Violenza Carnale) (1973),1.0,2
Mutters Courage (1995),1.0,1


In [33]:
# 평점평균이 4.3 이상이고, 평점의 개수가 2,000개 이상인 영화 찾기
영화평점.columns = ['평점평균','평점개수']
영화평점[(영화평점.평점평균 >= 4.3) & (영화평점.평점개수 >= 2000)].sort_values(by='평점평균', ascending=False)

Unnamed: 0_level_0,평점평균,평점개수
영화제목,Unnamed: 1_level_1,Unnamed: 2_level_1
"Shawshank Redemption, The (1994)",4.554558,2227
"Godfather, The (1972)",4.524966,2223
Schindler's List (1993),4.510417,2304
Raiders of the Lost Ark (1981),4.477725,2514
Star Wars: Episode IV - A New Hope (1977),4.453694,2991
"Sixth Sense, The (1999)",4.406263,2459
"Silence of the Lambs, The (1991)",4.351823,2578
Saving Private Ryan (1998),4.337354,2653
American Beauty (1999),4.317386,3428
"Matrix, The (1999)",4.31583,2590


## [실습 #1] 여자들이 좋아하는 영화 찾기 
### - 여성 평점이 4.0 이상이고 여성 평점의 개수가 500개 이상인 영화

In [40]:
ex1 = data.pivot_table(index='영화제목', columns='성별',
                aggfunc=['mean','count'], values='평점')
ex1

Unnamed: 0_level_0,mean,mean,count,count
성별,F,M,F,M
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
"$1,000,000 Duck (1971)",3.375000,2.761905,16.0,21.0
'Night Mother (1986),3.388889,3.352941,36.0,34.0
'Til There Was You (1997),2.675676,2.733333,37.0,15.0
"'burbs, The (1989)",2.793478,2.962085,92.0,211.0
...And Justice for All (1979),3.828571,3.689024,35.0,164.0
...,...,...,...,...
"Zed & Two Noughts, A (1985)",3.500000,3.380952,8.0,21.0
Zero Effect (1998),3.864407,3.723140,59.0,242.0
Zero Kelvin (Kjærlighetens kjøtere) (1995),,3.500000,,2.0
Zeus and Roxanne (1997),2.777778,2.357143,9.0,14.0


In [45]:
여성인기영화 = ex1[(ex1[('mean','F')] >= 4.0) & (ex1[('count','F')] >= 500)]
여성인기영화

Unnamed: 0_level_0,mean,mean,count,count
성별,F,M,F,M
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
American Beauty (1999),4.238901,4.347301,946.0,2482.0
Being John Malkovich (1999),4.15993,4.113636,569.0,1672.0
Braveheart (1995),4.016484,4.297839,546.0,1897.0
Casablanca (1942),4.30099,4.46134,505.0,1164.0
E.T. the Extra-Terrestrial (1982),4.08985,3.920264,601.0,1668.0
Fargo (1996),4.217656,4.26778,657.0,1856.0
Forrest Gump (1994),4.045031,4.105806,644.0,1550.0
L.A. Confidential (1997),4.106007,4.256678,566.0,1722.0
"Matrix, The (1999)",4.128405,4.362235,514.0,2076.0
"Princess Bride, The (1987)",4.342767,4.288942,636.0,1682.0


## [실습 #2] 실습 #1에서 구한 영화(여성인기영화)의 장르를 분석해 보자.
여성인기영화의 장르 통계 구하기

예를 들어, 여성인기영화 중 Drama 장르의 영화는 10개, Action 영화는 3개, ...

In [49]:
여성인기영화.index

Index(['American Beauty (1999)', 'Being John Malkovich (1999)',
       'Braveheart (1995)', 'Casablanca (1942)',
       'E.T. the Extra-Terrestrial (1982)', 'Fargo (1996)',
       'Forrest Gump (1994)', 'L.A. Confidential (1997)', 'Matrix, The (1999)',
       'Princess Bride, The (1987)', 'Pulp Fiction (1994)',
       'Raiders of the Lost Ark (1981)', 'Saving Private Ryan (1998)',
       'Schindler's List (1993)', 'Shakespeare in Love (1998)',
       'Shawshank Redemption, The (1994)', 'Silence of the Lambs, The (1991)',
       'Sixth Sense, The (1999)', 'Star Wars: Episode IV - A New Hope (1977)',
       'Star Wars: Episode V - The Empire Strikes Back (1980)',
       'Toy Story (1995)', 'Wizard of Oz, The (1939)'],
      dtype='object', name='영화제목')

In [55]:
# isin() 함수를 사용해서 movies에서 여성인기영화의 장르만 선택
# movies('영화아이디','영화제목','장르')
여성인기영화장르 = movies[movies.영화제목.isin(여성인기영화.index)].장르
여성인기영화장르
# 하나의 영화가 여러 장르인 경우 |로 구분

0              Animation|Children's|Comedy
108                       Action|Drama|War
257        Action|Adventure|Fantasy|Sci-Fi
293                            Crime|Drama
315                                  Drama
352                     Comedy|Romance|War
523                              Drama|War
589                         Drama|Thriller
604                   Crime|Drama|Thriller
900                      Drama|Romance|War
907     Adventure|Children's|Drama|Musical
1081       Children's|Drama|Fantasy|Sci-Fi
1178     Action|Adventure|Drama|Sci-Fi|War
1179       Action|Adventure|Comedy|Romance
1180                      Action|Adventure
1575      Crime|Film-Noir|Mystery|Thriller
1959                      Action|Drama|War
2327                        Comedy|Romance
2502                Action|Sci-Fi|Thriller
2693                              Thriller
2789                          Comedy|Drama
2928                                Comedy
Name: 장르, dtype: object

In [63]:
# str.split() 함수를 활용하여 장르 정보를 구분자로 구분
여성인기영화장르 = 여성인기영화장르.str.split('|', expand=True)

AttributeError: 'DataFrame' object has no attribute 'str'

In [64]:
여성인기영화장르

Unnamed: 0,0,1,2,3,4
0,Animation,Children's,Comedy,,
108,Action,Drama,War,,
257,Action,Adventure,Fantasy,Sci-Fi,
293,Crime,Drama,,,
315,Drama,,,,
352,Comedy,Romance,War,,
523,Drama,War,,,
589,Drama,Thriller,,,
604,Crime,Drama,Thriller,,
900,Drama,Romance,War,,


In [66]:
여성인기영화장르[0].value_counts() + 여성인기영화장르[1].value_counts()

Action         NaN
Adventure      5.0
Animation      NaN
Children's     3.0
Comedy         NaN
Crime          NaN
Drama         10.0
Film-Noir      NaN
Romance        NaN
Sci-Fi         NaN
Thriller       2.0
War            NaN
dtype: float64

동일한 인덱스가 두 군데 모두 있는 경우에만 정상적으로 산술연산이 수행되고, 둘중하나라도 인덱스가 없다면 NaN값으로 처리됨

In [67]:
여성인기영화장르[0].value_counts().add(여성인기영화장르[0].value_couts(), fill_value=0)

AttributeError: 'Series' object has no attribute 'value_couts'

In [69]:
여성인기장르 = Series(dtype = 'float64')
for col in 여성인기영화장르.columns:
    여성인기장르 = 여성인기장르.add(여성인기영화장르[col].value_counts(), fill_value = 0)

DeprecationWarning: Series생성 시 object로 기본 데이터 타입이 설정되므로 float으로 하기 위해서는 float으로 변경하라는 뜻
즉, 여성인기장르의 dataType을 float64로 지정

In [71]:
여성인기장르.sort_values(ascending = False)

Drama         12.0
Action         7.0
Comedy         6.0
War            6.0
Adventure      5.0
Thriller       5.0
Romance        4.0
Sci-Fi         4.0
Children's     3.0
Crime          3.0
Fantasy        2.0
Animation      1.0
Film-Noir      1.0
Musical        1.0
Mystery        1.0
dtype: float64

## [실습 #3] 남자와 여자의 호불호가 크게 갈리는 영화 10개 찾기
전체 평점의 개수가 500개 이상인 영화만 대상으로 함.

In [83]:
ex3 = data.pivot_table(index='영화제목', columns='성별',
                aggfunc=['mean','count'], values='평점')
ex3

Unnamed: 0_level_0,mean,mean,count,count
성별,F,M,F,M
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
"$1,000,000 Duck (1971)",3.375000,2.761905,16.0,21.0
'Night Mother (1986),3.388889,3.352941,36.0,34.0
'Til There Was You (1997),2.675676,2.733333,37.0,15.0
"'burbs, The (1989)",2.793478,2.962085,92.0,211.0
...And Justice for All (1979),3.828571,3.689024,35.0,164.0
...,...,...,...,...
"Zed & Two Noughts, A (1985)",3.500000,3.380952,8.0,21.0
Zero Effect (1998),3.864407,3.723140,59.0,242.0
Zero Kelvin (Kjærlighetens kjøtere) (1995),,3.500000,,2.0
Zeus and Roxanne (1997),2.777778,2.357143,9.0,14.0


In [84]:
# 남자평점개수와 여자평점개수의 합이 500이 넘는 데이터만
ex3_500 = ex3[ex3[('count','F')] + ex3[('count','M')] >= 500]
ex3_500

Unnamed: 0_level_0,mean,mean,count,count
성별,F,M,F,M
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
10 Things I Hate About You (1999),3.646552,3.311966,232.0,468.0
101 Dalmatians (1961),3.791444,3.500000,187.0,378.0
12 Angry Men (1957),4.184397,4.328421,141.0,475.0
"13th Warrior, The (1999)",3.112000,3.168000,125.0,625.0
"20,000 Leagues Under the Sea (1954)",3.670103,3.709205,97.0,478.0
...,...,...,...,...
"X-Files: Fight the Future, The (1998)",3.489474,3.493797,190.0,806.0
X-Men (2000),3.682310,3.851702,277.0,1234.0
You've Got Mail (1998),3.542424,3.275591,330.0,508.0
Young Frankenstein (1974),4.289963,4.239177,269.0,924.0


In [86]:
# ex3_500['평점차이'] = abs(ex3_500[('mean','F')] - ex3_500[('mean','M')])
ex3_500.loc[:, '평점차이'] = \
        abs(ex3_500.loc[:, ('mean','F')] - ex3_500.loc[:, ('mean','M')])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(ilocs[0], value, pi)


In [89]:
# ex3_500.sort_values(by='평점차이',ascending=False).head(10)
ex3_500.nlargest(10, '평점차이')

Unnamed: 0_level_0,mean,mean,count,count,평점차이
성별,F,M,F,M,Unnamed: 5_level_1
영화제목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Dirty Dancing (1987),3.790378,2.959596,291.0,396.0,0.830782
"Good, The Bad and The Ugly, The (1966)",3.494949,4.2213,99.0,723.0,0.726351
Dumb & Dumber (1994),2.697987,3.336595,149.0,511.0,0.638608
Evil Dead II (Dead By Dawn) (1987),3.297297,3.909283,74.0,474.0,0.611985
Grease (1978),3.975265,3.367041,283.0,534.0,0.608224
Caddyshack (1980),3.396135,3.969737,207.0,760.0,0.573602
Animal House (1978),3.628906,4.167192,256.0,951.0,0.538286
"Exorcist, The (1973)",3.537634,4.067239,186.0,699.0,0.529605
"Rocky Horror Picture Show, The (1975)",3.673016,3.160131,315.0,918.0,0.512885
Big Trouble in Little China (1986),2.987952,3.48503,83.0,501.0,0.497078


SettingWithCopyWarning: loc를 사용하여 접근하라는 의미

## [실습 #4] 연령대 별로 영화 평점 분석하기
연령대(10대 미만, 10대, 20대, ...50대) 컬럼을 추가한 후, 영화별 연령대별 영화평점 구하기

In [91]:
# 연령 컬럼의 값 분포 확인
# 10대 미만, 10대, 20대, 30대, 40대, 50대 이상
data.describe()

Unnamed: 0,사용자아이디,연령,직업,영화아이디,평점,타임스탬프
count,1000209.0,1000209.0,1000209.0,1000209.0,1000209.0,1000209.0
mean,3024.512,29.73831,8.036138,1865.54,3.581564,972243700.0
std,1728.413,11.75198,6.531336,1096.041,1.117102,12152560.0
min,1.0,1.0,0.0,1.0,1.0,956703900.0
25%,1506.0,25.0,2.0,1030.0,3.0,965302600.0
50%,3070.0,25.0,7.0,1835.0,4.0,973018000.0
75%,4476.0,35.0,14.0,2770.0,4.0,975220900.0
max,6040.0,56.0,20.0,3952.0,5.0,1046455000.0


### 1. 연령대 컬럼 추가 - 함수 사용

In [95]:
def generate_ages(x):
    if x < 10:
        return '10대 미만'
    elif x < 20:
        return '10대'
    elif x < 30:
        return '20대'
    elif x < 40:
        return '30대'
    elif x < 50:
        return '40대'
    else:
        return '50대 이상'

In [97]:
data.연령

0           1
1          56
2          25
3          25
4          50
           ..
1000204    18
1000205    35
1000206    18
1000207    18
1000208    25
Name: 연령, Length: 1000209, dtype: int64

In [98]:
generate_ages(data.연령)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

generate_ages()는 인자가 숫자값이어야하지만,
Data.연령은 Series이기 때문에 데이터 타입이 맞지 않음

In [100]:
# 함수를 적용하기 위해 
data['연령대'] = data.연령.apply(generate_ages)
data

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,영화제목,장르,연령대
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama,10대 미만
1,2,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상
2,12,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama,20대
3,15,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama,20대
4,17,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상
...,...,...,...,...,...,...,...,...,...,...,...
1000204,5949,M,18,17,47901,2198,5,958846401,Modulations (1998),Documentary,10대
1000205,5675,M,35,14,30030,2703,3,976029116,Broken Vessels (1998),Drama,30대
1000206,5780,M,18,17,92886,2845,1,958153068,White Boys (1999),Drama,10대
1000207,5851,F,18,20,55410,3607,5,957756608,One Little Indian (1973),Comedy|Drama|Western,10대


### 두번째 방법. np.digitize()

In [101]:
import numpy as np

In [102]:
sr = Series([13,15,45,53,1,63])
np.digitize(sr, [10,20,30])

array([1, 1, 3, 3, 0, 3], dtype=int64)

In [104]:
data['연령대2'] = np.digitize(data.연령, [10,20,30,40,50])
data

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,영화제목,장르,연령대,연령대2
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama,10대 미만,0
1,2,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상,5
2,12,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama,20대,2
3,15,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama,20대,2
4,17,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1000204,5949,M,18,17,47901,2198,5,958846401,Modulations (1998),Documentary,10대,1
1000205,5675,M,35,14,30030,2703,3,976029116,Broken Vessels (1998),Drama,30대,3
1000206,5780,M,18,17,92886,2845,1,958153068,White Boys (1999),Drama,10대,1
1000207,5851,F,18,20,55410,3607,5,957756608,One Little Indian (1973),Comedy|Drama|Western,10대,1


In [108]:
# map() 함수: 1대1로 값을 치환할 때 사용
data['연령대2'] = data.연령대2.map({
    0: '10대 미만',
    1: '10대',
    2: '20대',
    3: '30대',
    4: '40대',
    5: '50대 이상'
})
data

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,영화제목,장르,연령대,연령대2
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama,10대 미만,10대 미만
1,2,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상,50대 이상
2,12,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama,20대,20대
3,15,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama,20대,20대
4,17,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama,50대 이상,50대 이상
...,...,...,...,...,...,...,...,...,...,...,...,...
1000204,5949,M,18,17,47901,2198,5,958846401,Modulations (1998),Documentary,10대,10대
1000205,5675,M,35,14,30030,2703,3,976029116,Broken Vessels (1998),Drama,30대,30대
1000206,5780,M,18,17,92886,2845,1,958153068,White Boys (1999),Drama,10대,10대
1000207,5851,F,18,20,55410,3607,5,957756608,One Little Indian (1973),Comedy|Drama|Western,10대,10대


In [116]:
# 그룹 집계
연령별평점 = data.pivot_table(index='영화제목', columns='연령대',
                aggfunc='mean', values='평점')
연령별평점

연령대,10대,10대 미만,20대,30대,40대,50대 이상
영화제목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"$1,000,000 Duck (1971)",3.000000,,3.090909,3.133333,2.000000,2.750000
'Night Mother (1986),4.666667,2.000000,3.423077,2.904762,3.833333,3.750000
'Til There Was You (1997),2.500000,3.500000,2.666667,2.900000,2.333333,2.600000
"'burbs, The (1989)",3.244444,4.500000,2.652174,2.818182,2.545455,3.100000
...And Justice for All (1979),3.428571,3.000000,3.724138,3.657143,4.100000,3.674419
...,...,...,...,...,...,...
"Zed & Two Noughts, A (1985)",3.000000,1.000000,3.375000,3.777778,4.000000,3.000000
Zero Effect (1998),3.883333,4.125000,3.715278,3.608696,3.764706,3.769231
Zero Kelvin (Kjærlighetens kjøtere) (1995),,,,3.500000,,
Zeus and Roxanne (1997),2.500000,1.500000,2.833333,3.500000,1.000000,


In [119]:
연령별평점 = 연령별평점[['10대 미만', '10대', '20대', '30대', '40대', '50대 이상']]
연령별평점.fillna('-')

연령대,10대 미만,10대,20대,30대,40대,50대 이상
영화제목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"$1,000,000 Duck (1971)",-,3.0,3.090909,3.133333,2.0,2.75
'Night Mother (1986),2.0,4.666667,3.423077,2.904762,3.833333,3.75
'Til There Was You (1997),3.5,2.5,2.666667,2.9,2.333333,2.6
"'burbs, The (1989)",4.5,3.244444,2.652174,2.818182,2.545455,3.1
...And Justice for All (1979),3.0,3.428571,3.724138,3.657143,4.1,3.674419
...,...,...,...,...,...,...
"Zed & Two Noughts, A (1985)",1.0,3.0,3.375,3.777778,4.0,3.0
Zero Effect (1998),4.125,3.883333,3.715278,3.608696,3.764706,3.769231
Zero Kelvin (Kjærlighetens kjøtere) (1995),-,-,-,3.5,-,-
Zeus and Roxanne (1997),1.5,2.5,2.833333,3.5,1.0,-
