# 3. 시장 측면: 국가(대륙) 간 상관관계 분석

* 비고) cont_df.csv, NetflixsRevenue2018toQ2_2020.csv, NetflixSubscribersbyCountryfrom2018toQ2_2020.csv 활용
* 수익, 구독자 수와의 상관관계 분석


In [77]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# 파일 경로(파이썬 파일과 같은 폴더)를 찾고, 변수 file_path_cont_df에 저장 - 대륙별, 년도별 넷플릭스 데이터
file_path_cont_df = './datathon-main/cont_df.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 cont_df에 저장
cont_df = pd.read_csv(file_path_cont_df)
cont_df

Unnamed: 0.1,Unnamed: 0,date_added,cont,country
0,0,2021,United States and Canada,United States
1,1,2021,"Europe, Middle East, and Africa",South Africa
2,2,2021,Asia-Pacific,India
3,3,2021,United States and Canada,United States
4,4,2021,"Europe, Middle East, and Africa",Ghana
...,...,...,...,...
9889,9889,2016,"Europe, Middle East, and Africa",Jordan
9890,9890,2019,United States and Canada,United States
9891,9891,2019,United States and Canada,United States
9892,9892,2020,United States and Canada,United States


## (1) 국가(대륙) 단위

In [12]:
# 파일 경로(파이썬 파일과 같은 폴더)를 찾고, 변수 file_path_continent_subs에 저장 - 2018~2020 대륙별 구독자 수
file_path_continent_subs = './datathon-main/NetflixSubscribersbyCountryfrom2018toQ2_2020.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 df_continent_subs에 저장
df_continent_subs = pd.read_csv(file_path_continent_subs)
print(df_continent_subs)
print('\n')

# 같은 시기 대륙별로 벌어들인 액수.csv
file_path_continent_revenue = './datathon-main/NetflixsRevenue2018toQ2_2020.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 dfcontinent_revenue에 저장
df_continent_revenue = pd.read_csv(file_path_continent_revenue)
print(df_continent_revenue)
print('\n')


                              Area  Q1 - 2018  Q2 - 2018  Q3 - 2018  \
0         United States and Canada   60909000   61870000   63010000   
1  Europe, Middle East, and Africa   29339000   31317000   33836000   
2                    Latin America   21260000   22795000   24115000   
3                     Asia-Pacific    7394000    8372000    9461000   

   Q4 - 2018  Q1 - 2019  Q2 - 2019  Q3 - 2019  Q4 - 2019  Q1 - 2020  Q2 - 2020  
0   64757000   66633000   66501000   67114000   67662000   69969000   72904000  
1   37818000   42542000   44229000   47355000   51778000   58734000   61483000  
2   26077000   27547000   27890000   29380000   31417000   34318000   36068000  
3   10607000   12141000   12942000   14485000   16233000   19835000   22492000  


                              Area   Q1 - 2018   Q2 - 2018   Q3 - 2018  \
0         United States and Canada  1976157000  2049546000  2094850000   
1  Europe, Middle East, and Africa   886649000   975497000  1004749000   
2              

### ① 구독자 수와 수입의 상관관계 분석
상관분석을 통해 
독립적으로 움직이는 두 변수들 사이의 관계(상관관계)의 강도 도출

In [46]:
# 두 데이터프레임 병합

# 데이터프레임 합치기 - 교집합. Area열을 기준으로 합치기
df_merge_by_area = pd.merge(df_continent_subs, df_continent_revenue, how='inner', on='Area')
df_merge_by_area

Unnamed: 0,Area,Q1 - 2018_x,Q2 - 2018_x,Q3 - 2018_x,Q4 - 2018_x,Q1 - 2019_x,Q2 - 2019_x,Q3 - 2019_x,Q4 - 2019_x,Q1 - 2020_x,...,Q1 - 2018_y,Q2 - 2018_y,Q3 - 2018_y,Q4 - 2018_y,Q1 - 2019_y,Q2 - 2019_y,Q3 - 2019_y,Q4 - 2019_y,Q1 - 2020_y,Q2 - 2020_y
0,United States and Canada,60909000,61870000,63010000,64757000,66633000,66501000,67114000,67662000,69969000,...,1976157000,2049546000,2094850000,2160979000,2256851000,2501199000,2621250000,2671908000,2702776000,2839670000
1,"Europe, Middle East, and Africa",29339000,31317000,33836000,37818000,42542000,44229000,47355000,51778000,58734000,...,886649000,975497000,1004749000,1096812000,1233379000,1319087000,1428040000,1562561000,1723474000,1892537000
2,Latin America,21260000,22795000,24115000,26077000,27547000,27890000,29380000,31417000,34318000,...,540182000,568071000,562307000,567137000,630472000,677136000,741434000,746392000,793453000,785368000
3,Asia-Pacific,7394000,8372000,9461000,10607000,12141000,12942000,14485000,16233000,19835000,...,199117000,221252000,248691000,276756000,319602000,349494000,382304000,418121000,483660000,569140000


In [34]:
# 강도는 상관계수로 나타내어 표시
# 상관계수 r = x와 y가 함께 변하는 정도 / x와 y가 각각 변하는 정도
print(df_merge_by_area[['Q1 - 2018_x','Q1 - 2018_y']].corr())

             Q1 - 2018_x  Q1 - 2018_y
Q1 - 2018_x     1.000000     0.997518
Q1 - 2018_y     0.997518     1.000000


In [35]:
print(df_merge_by_area[['Q2 - 2018_x','Q2 - 2018_y']].corr())

             Q2 - 2018_x  Q2 - 2018_y
Q2 - 2018_x     1.000000     0.996404
Q2 - 2018_y     0.996404     1.000000


In [36]:
print(df_merge_by_area[['Q3 - 2018_x','Q3 - 2018_y']].corr())

             Q3 - 2018_x  Q3 - 2018_y
Q3 - 2018_x     1.000000     0.994023
Q3 - 2018_y     0.994023     1.000000


In [37]:
print(df_merge_by_area[['Q4 - 2018_x','Q4 - 2018_y']].corr())

             Q4 - 2018_x  Q4 - 2018_y
Q4 - 2018_x     1.000000     0.990169
Q4 - 2018_y     0.990169     1.000000


In [38]:
print(df_merge_by_area[['Q1 - 2019_x','Q1 - 2019_y']].corr())

             Q1 - 2019_x  Q1 - 2019_y
Q1 - 2019_x     1.000000     0.990344
Q1 - 2019_y     0.990344     1.000000


In [39]:
print(df_merge_by_area[['Q2 - 2019_x','Q2 - 2019_y']].corr())

             Q2 - 2019_x  Q2 - 2019_y
Q2 - 2019_x      1.00000      0.98546
Q2 - 2019_y      0.98546      1.00000


In [40]:
print(df_merge_by_area[['Q3 - 2019_x','Q3 - 2019_y']].corr())

             Q3 - 2019_x  Q3 - 2019_y
Q3 - 2019_x     1.000000     0.982464
Q3 - 2019_y     0.982464     1.000000


In [41]:
print(df_merge_by_area[['Q4 - 2019_x','Q4 - 2019_y']].corr())

             Q4 - 2019_x  Q4 - 2019_y
Q4 - 2019_x     1.000000     0.976012
Q4 - 2019_y     0.976012     1.000000


In [42]:
print(df_merge_by_area[['Q1 - 2020_x','Q1 - 2020_y']].corr())

             Q1 - 2020_x  Q1 - 2020_y
Q1 - 2020_x     1.000000     0.970857
Q1 - 2020_y     0.970857     1.000000


In [43]:
print(df_merge_by_area[['Q2 - 2020_x','Q2 - 2020_y']].corr())

             Q2 - 2020_x  Q2 - 2020_y
Q2 - 2020_x     1.000000     0.973854
Q2 - 2020_y     0.973854     1.000000


r값이 0.7~ 1.0 
=> 같은 시기별의 두 변수(구독자수, 수입액수)는 강한 양의 상관관계를 가지고 있음

### ② 시각화

In [59]:
df_continent_subs

Unnamed: 0,Area,Q1 - 2018,Q2 - 2018,Q3 - 2018,Q4 - 2018,Q1 - 2019,Q2 - 2019,Q3 - 2019,Q4 - 2019,Q1 - 2020,Q2 - 2020
0,United States and Canada,60909000,61870000,63010000,64757000,66633000,66501000,67114000,67662000,69969000,72904000
1,"Europe, Middle East, and Africa",29339000,31317000,33836000,37818000,42542000,44229000,47355000,51778000,58734000,61483000
2,Latin America,21260000,22795000,24115000,26077000,27547000,27890000,29380000,31417000,34318000,36068000
3,Asia-Pacific,7394000,8372000,9461000,10607000,12141000,12942000,14485000,16233000,19835000,22492000


In [100]:
subscribers_USC = [60909000, 61870000, 63010000, 64757000, 66633000, 66501000, 67114000, 67662000, 69969000, 72904000]
subscribers_Eur_ME_Af = [29339000, 31317000, 33836000, 37818000, 42542000, 44229000, 47355000, 51778000, 58734000, 61483000]
subscribers_LA = [21260000, 22795000, 24115000, 26077000, 27547000, 27890000, 29380000, 31417000, 34318000, 36068000]
subscribers_AP = [7394000, 8372000, 9461000, 10607000, 12141000, 12942000, 14485000, 16233000, 19835000, 22492000]

In [102]:
# 시간의 흐름에 따른 대륙(국가)별 구독자 수 변화
plt.figure(figsize = (16, 10))

ax = sns.lineplot(data=df_continent_subs, x=df_continent_subs.index, y=subscribers_USC.value)
             
plt.legend()
plt.xlabel("time")
plt.ylabel("subscribers")
plt.show()

ValueError: Length of list vectors must match length of `data` when both are used, but `data` has length 4 and the vector passed to `y` has length 10.

<Figure size 1152x720 with 0 Axes>

In [60]:
df_continent_revenue

Unnamed: 0,Area,Q1 - 2018,Q2 - 2018,Q3 - 2018,Q4 - 2018,Q1 - 2019,Q2 - 2019,Q3 - 2019,Q4 - 2019,Q1 - 2020,Q2 - 2020
0,United States and Canada,1976157000,2049546000,2094850000,2160979000,2256851000,2501199000,2621250000,2671908000,2702776000,2839670000
1,"Europe, Middle East, and Africa",886649000,975497000,1004749000,1096812000,1233379000,1319087000,1428040000,1562561000,1723474000,1892537000
2,Latin America,540182000,568071000,562307000,567137000,630472000,677136000,741434000,746392000,793453000,785368000
3,Asia-Pacific,199117000,221252000,248691000,276756000,319602000,349494000,382304000,418121000,483660000,569140000


In [None]:
# 시간의 흐름에 따른 대륙(국가)별 수익 변화

SyntaxError: cannot assign to function call (1635025254.py, line 4)

### ③ 구독자 수와 수입 사이에 인과관계가 있는지(인과관계의 방향, 정도)를 확인 위한 회귀분석
변수들 간의 선형/비선형 인과관계의 형태와 강도 추출

## (2) 연도 단위

In [14]:
# 파일 경로(파이썬 파일과 같은 폴더)를 찾고, 변수 file_path1에 저장 - 2018~2020 연도별 구독자 수
file_path_country_subs = './datathon-main/DataNetflixSubscriber2020_V2.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 df_country_subs에 저장
df_country_subs = pd.read_csv(file_path_country_subs)
print(df_country_subs)
print('\n')

# 같은 시기 연도별 수입 액수.csv
file_path_country_revenue = './datathon-main/DataNetflixRevenue2020_V2.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 df_country_revenue에 저장
df_country_revenue = pd.read_csv(file_path_country_revenue)
print(df_country_revenue)
print('\n')

                               Area      Years  Subscribers
0          United States and Canada  Q1 - 2018     60909000
1   Europe,  Middle East and Africa  Q1 - 2018     29339000
2                     Latin America  Q1 - 2018     21260000
3                      Asia-Pacific  Q1 - 2018      7394000
4          United States and Canada  Q2 - 2018     61870000
5   Europe,  Middle East and Africa  Q2 - 2018     31317000
6                     Latin America  Q2 - 2018     22795000
7                      Asia-Pacific  Q2 - 2018      8372000
8          United States and Canada  Q3 - 2018     63010000
9   Europe,  Middle East and Africa  Q3 - 2018     33836000
10                    Latin America  Q3 - 2018     24115000
11                     Asia-Pacific  Q3 - 2018      9461000
12         United States and Canada  Q4 - 2018     64757000
13  Europe,  Middle East and Africa  Q4 - 2018     37818000
14                    Latin America  Q4 - 2018     26077000
15                     Asia-Pacific  Q4 

### ① 구독자 수와 수입의 상관관계 분석
상관분석을 통해 
독립적으로 움직이는 두 변수들 사이의 관계(상관관계)의 강도 도출

In [53]:
# 두 데이터프레임 병합

# 데이터프레임 합치기 - 교집합. Years열을 기준으로 합치기
df_merge_by_Years = pd.merge(df_country_subs, df_country_revenue, how='inner', on='Years')
df_merge_by_Years

Unnamed: 0,Area_x,Years,Subscribers,Area_y,Revenue
0,United States and Canada,Q1 - 2018,60909000,United States and Canada,1976157000
1,United States and Canada,Q1 - 2018,60909000,"Europe, Middle East and Africa",886649000
2,United States and Canada,Q1 - 2018,60909000,Latin America,540182000
3,United States and Canada,Q1 - 2018,60909000,Asia-Pacific,199117000
4,"Europe, Middle East and Africa",Q1 - 2018,29339000,United States and Canada,1976157000
...,...,...,...,...,...
155,Latin America,Q2 - 2020,36068000,Asia-Pacific,569140000
156,Asia-Pacific,Q2 - 2020,22492000,United States and Canada,2839670000
157,Asia-Pacific,Q2 - 2020,22492000,"Europe, Middle East and Africa",1892537000
158,Asia-Pacific,Q2 - 2020,22492000,Latin America,785368000


In [55]:
# 강도는 상관계수로 나타내어 표시
# 상관계수 r = x와 y가 함께 변하는 정도 / x와 y가 각각 변하는 정도
print(df_merge_by_country[['Subscribers','Revenue']].corr())

             Subscribers   Revenue
Subscribers     1.000000  0.900486
Revenue         0.900486  1.000000


r값이 0.7~ 1.0 
=> 같은 시기별의 두 변수(구독자수, 수입액수)는 강한 양의 상관관계를 가지고 있음

In [None]:
https://zephyrus1111.tistory.com/18
2가지 선그래프

# x, y축 데이터를 plot 함수에 입력

# 'Area'가 'United States and Canada'인 행 데이터를 선택
fig = plt.figure(figsize=(16,16)) ## 캔버스 생성
fig.set_facecolor('white') ## 캔버스 색상 설정
ax = fig.add_subplot() ## 그림 뼈대(프레임) 생성

ax.plot(days,a_visits,marker='o',label='A') ## 선그래프 생성
ax.plot(days,b_visits,marker='o',label='B') 
ax.plot(days,c_visits,marker='o',label='C') 

plt.plot(sr_one) = df_merge_by_area.loc['United States and Canada']