In [10]:
# DataFrame 연결(행방향)

import numpy as np
import pandas as pd

df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                    'b':[1,2,3,4],
                    'c':['c0','c1','c2','c3']},
                   index=[0,1,2,3])
display(df1)


df2 = pd.DataFrame({'b':[5,6,7,8],
                    'c':['c0','c1','c2','c3'],
                    'd':['d0','d1','d2','d3'],
                    'e':['e0','e1','e2','e3']},
                   index=[2,3,4,5])
display(df2)

# 기존의 index를 유지하면서 연결
'''
result_df = pd.concat([df1, df2], axis=0)
display(result_df)
'''

# 기존의 index를 없애고 index를 다시 설정
result_df = pd.concat([df1, df2], axis=0,
                      ignore_index=True)
display(result_df)

Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
2,5,c0,d0,e0
3,6,c1,d1,e1
4,7,c2,d2,e2
5,8,c3,d3,e3


Unnamed: 0,a,b,c,d,e
0,a0,1,c0,,
1,a1,2,c1,,
2,a2,3,c2,,
3,a3,4,c3,,
4,,5,c0,d0,e0
5,,6,c1,d1,e1
6,,7,c2,d2,e2
7,,8,c3,d3,e3


In [11]:
# DataFrame 연결(열방향)

import numpy as np
import pandas as pd

df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                    'b':[1,2,3,4],
                    'c':['c0','c1','c2','c3']},
                   index=[0,1,2,3])
display(df1)


df2 = pd.DataFrame({'b':[5,6,7,8],
                    'c':['c0','c1','c2','c3'],
                    'd':['d0','d1','d2','d3'],
                    'e':['e0','e1','e2','e3']},
                   index=[2,3,4,5])
display(df2)


result_df = pd.concat([df1, df2], axis=1)
display(result_df)

Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
2,5,c0,d0,e0
3,6,c1,d1,e1
4,7,c2,d2,e2
5,8,c3,d3,e3


Unnamed: 0,a,b,c,b.1,c.1,d,e
0,a0,1.0,c0,,,,
1,a1,2.0,c1,,,,
2,a2,3.0,c2,5.0,c0,d0,e0
3,a3,4.0,c3,6.0,c1,d1,e1
4,,,,7.0,c2,d2,e2
5,,,,8.0,c3,d3,e3


In [14]:
# DataFrame의 결합(merge)
# inner join

import numpy as np
import pandas as pd

data1 = {'학번':[1,2,3,4],
         '이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1)
display(df1)

data2 = {'학번':[1,2,3,4],
         '학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2)
display(df2)

result_df = pd.merge(df1, df2, on='학번', how='inner') # inner join
display(result_df)

Unnamed: 0,학번,이름,학년
0,1,홍길동,3
1,2,김연아,2
2,3,아이유,1
3,4,신사임당,4


Unnamed: 0,학번,학과,학점
0,1,철학과,1.2
1,2,수학과,3.3
2,3,컴퓨터,2.7
3,4,국어국문,4.0


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,3,철학과,1.2
1,2,김연아,2,수학과,3.3
2,3,아이유,1,컴퓨터,2.7
3,4,신사임당,4,국어국문,4.0


In [15]:
# DataFrame의 결합(merge)
# inner join

import numpy as np
import pandas as pd

data1 = {'학번':[1,2,3,4],
         '이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1)
display(df1)

data2 = {'학번':[1,2,4,5],
         '학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2)
display(df2)

result_df = pd.merge(df1, df2, on='학번', how='inner') # inner join
display(result_df)

Unnamed: 0,학번,이름,학년
0,1,홍길동,3
1,2,김연아,2
2,3,아이유,1
3,4,신사임당,4


Unnamed: 0,학번,학과,학점
0,1,철학과,1.2
1,2,수학과,3.3
2,4,컴퓨터,2.7
3,5,국어국문,4.0


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,3,철학과,1.2
1,2,김연아,2,수학과,3.3
2,4,신사임당,4,컴퓨터,2.7


In [18]:
# DataFrame의 결합(merge)
# outer join = inner join에 포함되지 않는 것도 포함

import numpy as np
import pandas as pd

data1 = {'학번':[1,2,3,4],
         '이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1)
display(df1)

data2 = {'학번':[1,2,4,5],
         '학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2)
display(df2)
'''
result_df = pd.merge(df1, df2, on='학번', how='outer') # inner join
display(result_df)

result_df = pd.merge(df1, df2, on='학번', how='left') # inner join
display(result_df)
'''

result_df = pd.merge(df1, df2, on='학번', how='right') # inner join
display(result_df)

Unnamed: 0,학번,이름,학년
0,1,홍길동,3
1,2,김연아,2
2,3,아이유,1
3,4,신사임당,4


Unnamed: 0,학번,학과,학점
0,1,철학과,1.2
1,2,수학과,3.3
2,4,컴퓨터,2.7
3,5,국어국문,4.0


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,3.0,철학과,1.2
1,2,김연아,2.0,수학과,3.3
2,4,신사임당,4.0,컴퓨터,2.7
3,5,,,국어국문,4.0


In [25]:
# DataFrame의 결합(merge)
# outer join = inner join에 포함되지 않는 것도 포함

import numpy as np
import pandas as pd

data1 = {'학번':[1,2,3,4],
         '이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1)
display(df1)

data2 = {'학생학번':[1,2,4,5],
         '학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2)
display(df2)

# 결합하려는 기준 column명이 서로 다른 경우
result_df = pd.merge(df1, df2,
                     left_on='학번', right_on='학생학번',
                     how='inner') # inner join
display(result_df)

Unnamed: 0,학번,이름,학년
0,1,홍길동,3
1,2,김연아,2
2,3,아이유,1
3,4,신사임당,4


Unnamed: 0,학생학번,학과,학점
0,1,철학과,1.2
1,2,수학과,3.3
2,4,컴퓨터,2.7
3,5,국어국문,4.0


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,3,1,철학과,1.2
1,2,김연아,2,2,수학과,3.3
2,4,신사임당,4,4,컴퓨터,2.7


In [26]:
# DataFrame의 결합(merge)
# outer join = inner join에 포함되지 않는 것도 포함

import numpy as np
import pandas as pd

data1 = {'학번':[1,2,3,4],
         '이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1)
display(df1)

data2 = {'학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2,
                  index=[1,2,4,5])
display(df2)

# 결합하려는 기준 column과 다른 DataFrame의 행 index를 결합하려면
result_df = pd.merge(df1, df2,
                     left_on='학번',
                     right_index=True,
                     how='inner') # inner join
display(result_df)

Unnamed: 0,학번,이름,학년
0,1,홍길동,3
1,2,김연아,2
2,3,아이유,1
3,4,신사임당,4


Unnamed: 0,학과,학점
1,철학과,1.2
2,수학과,3.3
4,컴퓨터,2.7
5,국어국문,4.0


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,3,철학과,1.2
1,2,김연아,2,수학과,3.3
3,4,신사임당,4,컴퓨터,2.7


In [29]:
# DataFrame의 결합(merge)
# outer join = inner join에 포함되지 않는 것도 포함

import numpy as np
import pandas as pd

data1 = {'이름':['홍길동','김연아','아이유','신사임당'],
         '학년':[3,2,1,4]}

df1 = pd.DataFrame(data1,
                   index=[1,2,3,4])
display(df1)

data2 = {'학과':['철학과','수학과','컴퓨터','국어국문'],
         '학점':[1.2, 3.3, 2.7, 4.0]}

df2 = pd.DataFrame(data2,
                  index=[1,2,4,5])
display(df2)

# 결합하려는 기준 column과 다른 DataFrame의 행 index를 결합하려면
result_df = pd.merge(df1, df2,
                     left_index=True,
                     right_index=True,
                     how='inner') # inner join
display(result_df)

Unnamed: 0,이름,학년
1,홍길동,3
2,김연아,2
3,아이유,1
4,신사임당,4


Unnamed: 0,학과,학점
1,철학과,1.2
2,수학과,3.3
4,컴퓨터,2.7
5,국어국문,4.0


Unnamed: 0,이름,학년,학과,학점
1,홍길동,3,철학과,1.2
2,김연아,2,수학과,3.3
4,신사임당,4,컴퓨터,2.7


In [37]:
# Series 원소 각각에 함수를 mapping
# titanic 데이터셋을 이용해보자!

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
display(titanic.head())

df = titanic.loc[:,['age','fare']]
display(df.head())

# 사용자 정의 함수 (이렇게 사용해도 되지만 일반적이지 않음)
'''
def add_10(n):
    return n + 10


def add__two_number(a, b):
    return a + b


sr1 = df['age'].apply(add_10)
print(sr1.head())

sr2 = df['age'].apply(add__two_number, b=30)
print(sr1.head())
'''

# 일반적으로 람다식을 사용함
sr1 = df['age'].apply(lambda x: x + 10)
print(sr1.head())

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [39]:
# DataFrame 원소 각각에 함수를 mapping
# titanic 데이터셋을 이용해보자!

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
#display(titanic.head())

df = titanic.loc[:,['age','fare']]
display(df.head())

# DataFrame 각각의 원소에 함수를 적용하려면 applymap()을 사용
result_df = df.applymap(lambda x: x+10)
display(result_df)

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [44]:
# DataFrame 행과 열에 함수를 mapping
# titanic 데이터셋을 이용해보자!

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
#display(titanic.head())

df = titanic.loc[:,['age','fare']]
display(df.head())

# 함수는 apply()를 사용. axis를 명시해야 함

# 정규화할때 배운 Min-Max Scaling처리를 함
# => x(scaled) = (x - x(min)) / (x(max) - x(min))
def min_max(s):
    return (s - s.min()) / (s.max() - s.min())

result_df=df.apply(min_max, axis=0)
display(result_df.head())

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


Unnamed: 0,age,fare
0,0.271174,0.014151
1,0.472229,0.139136
2,0.321438,0.015469
3,0.434531,0.103644
4,0.434531,0.015713


In [45]:
## 여기까지가 함수 적용. appl(), applymap()

In [52]:
# 마지막은 grouping
# => 복잡한 데이터를 어떤 기준에 따라서 여러 그룹으로 나눠서 관찰하기 위한 방법

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
#display(titanic.head())

df = titanic.loc[:,['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

grouped = df.groupby(['class'])

# group으로 묶인 모든 group을 확인
'''
for key, group in grouped:
    #print('key', key)
    display(group.head())
'''

# 특정 group을 DataFrame으로 가져오려면
'''
result_df = grouped.get_group('Third')
display(result_df)
'''

# group으로 묶이면 각 group에 대한 집계함수를 사용할 수 있음
my_mean = grouped.mean()
display(my_mean.head())

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [60]:
# DataFrame에 대해 2개의 컬럼을 골라서 grouping을 해보자
# => 복잡한 데이터를 어떤 기준에 따라서 여러 그룹으로 나눠서 관찰하기 위한 방법

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
#display(titanic.head())

df = titanic.loc[:,['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

grouped = df.groupby(['class', 'sex']) # 총 그룹의 수 => 6
'''
for key, group in grouped:
    print(key)
    display(group.head())
'''
    
my_group = grouped.get_group(('First','female'))
display(my_group.head())

display(grouped.mean())

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1,1
11,58.0,female,First,26.55,1
31,,female,First,146.5208,1
52,49.0,female,First,76.7292,1


Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [64]:
# DataFrame에 대해 1개의 열을 기준으로 grouping을 해보자
# Group에 대한 filtering

import numpy as np
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
#display(titanic.head())

df = titanic.loc[:,['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())
print(len(df)) # DataFrame에 대해 len()을 적용하면 행의 개수가 나옴

grouped = df.groupby(['class'])
#display(grouped.head())

grouped_filter = grouped.filter(lambda x: len(x) > 300)

display(grouped_filter.head())

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


891


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


## EDA(탐색적 데이터 분석)

In [65]:
# Movie Lens Data set을 이용!
# => 사람들이 영화에 대한 평점을 준 정보
# 재미있는 영화 5점, 그렇지 않은 영화 1점
# Movie Lens 라고 검색하면 나옴!
# movies.csv => movieid 일련번호, title 영화 제목, genres 장르
# ratings.csv => userid 유저번호, movieid 영화 일련번호, rating 별점, timestamp 시간(연월일시분초)

In [67]:
import numpy as np
import pandas as pd

In [75]:
# 1. 사용자가 평가한 모든 영화의 전체 평균 평점을 출력
movies = pd.read_csv('../data/MovieLens/movies.csv')
ratings = pd.read_csv('../data/MovieLens/ratings.csv')
''' 내 풀이 => 틀림 > _<
display(movies.head())
display(ratings.head())

movies_rating = pd.merge(movies, ratings, on='movieId', how='inner') # inner join
display(movies_rating.head())

movies_rating_mean = movies_rating.groupby(['userId']).mean()
display(movies_rating_mean.head())
'''

print(ratings['rating'].mean())

3.501556983616962


In [72]:
movies_rating = pd.merge(movies, ratings, on='movieId', how='inner') # inner join
display(movies_rating.head())

movies_rating_mean = movies_rating.groupby(['userId']).mean()
display(movies_rating_mean.head())

Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1,4.0,964982703
1,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,5,4.0,847434962
2,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,7,4.5,1106635946
3,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,15,2.5,1510577970
4,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,17,4.5,1305696483


Unnamed: 0_level_0,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1854.603448,4.366379,964985600.0
2,70350.275862,3.948276,1445715000.0
3,7058.384615,2.435897,1306464000.0
4,1982.12963,3.555556,965864300.0
5,343.840909,3.636364,847435100.0


In [89]:
# 2. 각 사용자별 평균 평점
# 출력시 정렬은 userId로 오름차순 정렬
ratings = pd.read_csv('../data/MovieLens/ratings.csv')
display(ratings.head())
rating_user_mean = ratings.groupby(['userId']).mean()
print(rating_user_mean['rating'])

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


userId
1      4.366379
2      3.948276
3      2.435897
4      3.555556
5      3.636364
         ...   
606    3.657399
607    3.786096
608    3.134176
609    3.270270
610    3.688556
Name: rating, Length: 610, dtype: float64


3. 각 영화별 평균 평점<br>
=> 출력시 정렬은 movieId로 오름차순 정렬


4. 평균 평점이 가장 높은 영화의 제목을 출력<br>
=> 단, 동률이 있을 경우 모두 출력하고 title을 기준으로 오름차순 정렬


In [None]:
## 3. 각 영화별 평균 평점을 구하세요. 
##    출력시 정렬은 movieId로 오름차순 정렬합니다. 

## 4. 평균 평점이 가장 높은 영화의 제목을 출력하세요.
##    단, 동률이 있을 경우 모두 출력하고 
##    title을 기준으로 오름차순 정렬하세요.

## 5. Comedy영화 중 가장 평점이 낮은 영화의 제목을 출력하세요.
##    단, 동률이 있을 경우 모두 출력하고 
##    title을 기준으로 오름차순 정렬하세요.

## 6. 2015년도에 평가된 모든 Romance 영화의 평균 평점은?

## 7. 모든 영화장르 중 사용자 평점이 가장 좋은 
##    영화장르는 무엇인가요?
##    동률이 있으면 영화장르를 기준으로 오름차순 정렬하세요.

In [None]:
## 3. 각 영화별 평균 평점을 구하세요. 
##    출력시 정렬은 movieId로 오름차순 정렬합니다. 