## Pandas 활용 상관분석 기초 📊 

-----

### 1. 상관분석이란 무엇일까요? 📈📉

#### 💡 개념 (Concept)

  * 두 개 이상의 변수들 간에 어떤 관계가 있는지, 있다면 관계의 **강도**와 **방향**은 어떠한지를 통계적인 방법으로 분석하는 것입니다.
  * 예를 들어, "광고비 지출이 늘어나면 매출도 함께 증가할까?", "키가 클수록 몸무게도 많이 나갈까?" 와 같은 질문에 답을 찾는 데 도움을 줄 수 있습니다.
  * 상관분석은 변수 간의 **선형적 관계** 를 측정하는 데 주로 사용됩니다. "선형적"이라는 것은 하나의 변수가 증가할 때 다른 변수가 일정하게 증가하거나 감소하는 관계를 의미합니다.

#### 🤔 왜 중요할까요?

  * **데이터 이해**: 데이터 내 변수들 사이의 숨겨진 패턴이나 관계를 파악할 수 있습니다. 어떤 변수들이 서로 관련되어 있는지 알면 데이터의 전체적인 구조를 이해하는 데 도움이 됩니다.
  * **특성 선택(Feature Selection)**: 머신러닝 모델을 만들 때, 어떤 변수(특성)가 예측 결과에 중요한 역할을 할지 힌트를 얻을 수 있습니다. 예를 들어, 목표 변수와 높은 상관관계를 가진 변수는 모델 학습에 유용할 가능성이 큽니다. 반대로, 서로 너무 높은 상관관계를 가진 입력 변수들은 다중공선성(multicollinearity) 문제를 일으켜 모델의 성능을 저하시킬 수 있으므로, 이 중 일부를 선택하거나 다른 방식으로 처리해야 할 수 있습니다.
  * **의사결정 지원**: 분석 결과를 바탕으로 더 나은 비즈니스적 또는 과학적 의사결정을 내릴 수 있습니다. 예를 들어, 마케팅 캠페인의 효과를 분석하거나, 특정 정책의 영향을 예측하는 데 활용될 수 있습니다.

-----


### 2. 상관계수 📏

#### 💡 개념 (Concept)

  * **상관계수(Correlation Coefficient)** 는 두 변수 간의 선형적 관계의 **방향**과 **강도**를 하나의 숫자로 나타낸 값입니다.
  * 가장 널리 사용되는 상관계수는 **피어슨 상관계수(Pearson Correlation Coefficient)** 입니다. 이 계수는 두 변수가 모두 연속형 데이터일 때 주로 사용됩니다.
  * 그 외에도 변수의 특성(예: 순서형 데이터)이나 관계의 형태(예: 비선형 관계)에 따라 **스피어만 상관계수(Spearman Rank Correlation Coefficient)**, **켄달의 타우(Kendall's Tau)** 등 다른 종류의 상관계수도 사용됩니다. 여기서는 주로 피어슨 상관계수를 다룹니다.

#### 🧐 피어슨 상관계수 (Pearson Correlation Coefficient)

  * 두 변수 $X$와 $Y$ 간의 피어슨 상관계수 $r$은 다음과 같이 계산됩니다:
    $$r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}}$$
    여기서,

      * $n$은 데이터 포인트(관측치)의 수
      * $X\_i, Y\_i$는 각 데이터 포인트의 $X, Y$ 변수 값
      * $\\bar{X}, \\bar{Y}$는 각 변수의 평균값입니다.
        분자는 두 변수의 공분산(Covariance)에 해당하고, 분모는 각 변수의 표준편차의 곱으로 나누어 정규화하는 역할을 합니다.

  * **값의 범위 및 해석**:
    피어슨 상관계수 $r$은 항상 **-1과 +1 사이**의 값을 가집니다.

      * **$r$이 +1 에 가까울수록**: 강한 **양의 선형 관계**를 의미합니다. (즉, 하나의 변수가 증가하면 다른 변수도 증가하는 경향이 뚜렷합니다.)
      * **$r$이 -1 에 가까울수록**: 강한 **음의 선형 관계**를 의미합니다. (즉, 하나의 변수가 증가하면 다른 변수는 감소하는 경향이 뚜렷합니다.)
      * **$r$이 0 에 가까울수록**: **선형 관계가 거의 없음**을 의미합니다. (두 변수 간에 뚜렷한 선형적 패턴이 없거나, 관계가 없거나, 또는 비선형적 관계가 있을 수 있습니다. 예를 들어, U자형 관계는 상관계수가 0에 가깝게 나올 수 있습니다.)

    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/600px-Correlation_examples2.svg.png" alt="상관계수 해석 예시" width="600">

    (이미지 출처: Wikimedia Commons, 사용자 DenisBoigelot이 생성, 원본 작성자 Imagecreator)

      * 일반적으로 상관계수의 절대값 크기에 따라 다음과 같이 해석하기도 합니다 (절대적인 기준은 아니며, 분야나 상황에 따라 다를 수 있습니다):
          * 0.0 \~ 0.2: 매우 약하거나 거의 없는 관계
          * 0.2 \~ 0.4: 약한 관계
          * 0.4 \~ 0.6: 보통 관계
          * 0.6 \~ 0.8: 강한 관계
          * 0.8 \~ 1.0: 매우 강한 관계

#### ⚠️ 매우 중요한 주의사항\!

  * **상관관계는 인과관계를 의미하지 않습니다\!**

  * 두 변수가 높은 상관관계를 보이더라도, 한 변수가 다른 변수의 **원인**이라고 단정 지을 수 없습니다.

      * **제3의 변수(숨은 변수, Confounding variable)**: 두 변수 모두에 영향을 미치는 다른 요인이 있을 수 있습니다.
          * 예시: 아이스크림 판매량과 익사 사고 발생률은 여름철에 함께 증가하는 양의 상관관계를 보일 수 있습니다. 하지만 아이스크림이 익사 사고의 원인이거나, 그 반대도 아닙니다. 실제로는 '더운 날씨'라는 제3의 요인이 아이스크림 소비도 늘리고 물놀이 활동도 증가시켜 두 변수 모두에 영향을 미치는 것입니다.
      * **우연의 일치**: 특히 많은 변수를 분석할 경우, 우연히 높은 상관관계를 보이는 변수 쌍이 나타날 수 있습니다.
      * **방향성 모호**: 상관관계만으로는 어느 변수가 원인이고 어느 변수가 결과인지 알 수 없습니다. $X$가 $Y$의 원인일 수도, $Y$가 $X$의 원인일 수도, 또는 서로 영향을 주고받을 수도 있습니다.

    인과관계를 밝히기 위해서는 잘 설계된 실험 연구나 추가적인 분석(예: 시계열 분석에서의 그레인저 인과관계 검정, 구조 방정식 모형 등)이 필요합니다.

-----



### 3\. Pandas로 상관분석 시작하기 🐼

#### 📦 필요한 라이브러리 가져오기

상관분석 및 시각화를 위해 다음 라이브러리들을 가져옵니다.

In [None]:
import pandas as pd
import plotly.express as px
import seaborn as sns

#### 💾 예제 데이터 준비

여기서는 `seaborn` 라이브러리에 내장된 'tips' 데이터셋을 사용하겠습니다. 이 데이터셋은 어떤 식당에서 손님들이 지불한 총 식사 금액, 팁, 성별, 흡연 여부, 요일, 시간대, 동반 인원수 등의 정보를 담고 있습니다.

In [None]:
tips_df = px.data.tips()
tips_df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
# 데이터셋 정보 확인 (컬럼명, 결측치 여부, 데이터 타입 등)
tips_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [None]:
# 수치형 데이터의 기술 통계량 확인 (평균, 표준편차, 최소값, 최대값, 사분위수 등)
tips_df.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


`tips_df.info()` 결과를 보면 `total_bill`, `tip`은 `float64`(실수형), `size`는 `int64`(정수형)으로 수치형 데이터임을 알 수 있습니다. `sex`, `smoker`, `day`, `time`은 범주형 데이터입니다. 상관분석은 주로 수치형 변수들 간에 이루어집니다.

#### 🧮 `corr()` 메소드로 상관계수 계산하기

Pandas DataFrame의 `corr()` 메소드는 기본적으로 모든 수치형 컬럼들 간의 **피어슨 상관계수**를 계산하여 상관계수 행렬(correlation matrix) 형태로 반환합니다.

In [None]:
# 수치형 컬럼들 간의 상관계수 계산
# Pandas 1.x 버전 이후부터는 수치형 데이터만 대상으로 하려면 numeric_only=True를 명시하는 것이 좋습니다.
# 이전 버전에서는 자동으로 수치형 컬럼만 선택했습니다.
correlation_matrix = tips_df.corr(numeric_only=True)
correlation_matrix

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.675734,0.598315
tip,0.675734,1.0,0.489299
size,0.598315,0.489299,1.0


* **결과 해석**:
    * 출력된 행렬은 각 변수 쌍 간의 상관계수를 보여줍니다.
    * 행과 열의 이름은 데이터프레임의 수치형 컬럼명(`total_bill`, `tip`, `size`)입니다.
    * 대각선 요소(예: `total_bill`과 `total_bill`의 상관계수)는 항상 1.000000입니다. 이는 자기 자신과의 상관관계는 완벽한 양의 선형 관계이기 때문입니다.
    * 예를 들어, `total_bill`과 `tip` 사이의 상관계수는 약 0.675734로, 비교적 강한 양의 상관관계를 보입니다. 이는 총 식사 금액이 클수록 팁도 많이 주는 경향이 있다고 해석할 수 있습니다.
    * `total_bill`과 `size` (식사 인원) 사이의 상관계수는 약 0.598315로, 역시 꽤 뚜렷한 양의 상관관계를 보입니다. 식사 인원이 많을수록 총 식사 금액도 커지는 것은 당연해 보입니다.
    * `tip`과 `size` 사이의 상관계수는 약 0.489299로, 보통 수준의 양의 상관관계를 나타냅니다.

#### ⚙️ 다른 상관계수 계산 (옵션)

`corr()` 메소드의 `method` 파라미터를 사용하여 다른 종류의 상관계수도 계산할 수 있습니다. 주로 사용되는 옵션은 다음과 같습니다:

  * `method='pearson'` (기본값)
  * `method='spearman'`
  * `method='kendall'`

<!-- end list -->

In [None]:
# 스피어만 순위 상관계수
spearman_corr = tips_df.corr(method='spearman', numeric_only=True)
spearman_corr


Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.678968,0.604791
tip,0.678968,1.0,0.468268
size,0.604791,0.468268,1.0


In [None]:

# 켄달 타우 상관계수
kendall_corr = tips_df.corr(method='kendall', numeric_only=True)
kendall_corr

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.517181,0.484342
tip,0.517181,1.0,0.378185
size,0.484342,0.378185,1.0


* **스피어만 상관계수(Spearman Rank Correlation Coefficient)**
  * 각 변수의 실제 값 대신 그 값들의 순위(rank)를 매겨, 순위들 간의 피어슨 상관계수를 계산합니다. 따라서 선형 관계뿐만 아니라 단조 관계(monotonic relationship, 한 변수가 증가할 때 다른 변수가 반드시 증가하거나 감소하는 관계, 직선이 아니어도 됨)도 측정할 수 있습니다. 또한, 이상치(outlier)에 덜 민감한 특징이 있습니다.
* **켄달 타우 상관계수(Kendall's Tau)**
  * 데이터 쌍들이 얼마나 일치된 순서(concordant pairs)를 가지는지, 혹은 불일치된 순서(discordant pairs)를 가지는지를 기반으로 계산됩니다. 스피어만 상관계수와 유사하게 순서형 데이터나 비선형 단조 관계를 파악하는 데 사용될 수 있으며, 샘플 크기가 작거나 데이터에 동점(tie)이 많을 때 유용하다고 알려져 있습니다.

일반적으로 피어슨, 스피어만, 켄달 상관계수는 비슷한 경향을 보이지만, 데이터의 특성이나 분포에 따라 값에 차이가 있을 수 있습니다. 분석 목적과 데이터의 특성을 고려하여 적절한 상관계수를 선택하는 것이 중요합니다.

-----



### 4. 상관관계 시각화하기 🎨

상관계수 행렬을 숫자로만 보면 직관적으로 이해하기 어려울 수 있습니다. 이럴 때 **시각화** 를 활용하면 변수 간의 관계를 더 명확하고 빠르게 파악할 수 있습니다.

#### Scatter Plot (산점도)

**산점도(Scatter Plot)** 는 두 개의 연속형 변수 간의 관계를 점으로 나타내는 기본적인 그래프입니다. 각 점은 하나의 데이터 포인트(관측치)를 의미하며, x축과 y축에 각각 두 변수의 값을 대응시켜 점을 찍습니다.

`plotly.express` 라이브러리의 `scatter()` 함수를 사용하면 손쉽게 인터랙티브한 산점도를 그릴 수 있습니다. (지난 시간에 배운내용 ^^ 복습.)

In [None]:
# total_bill과 tip 간의 산점도
fig_scatter = px.scatter(tips_df, x='total_bill', y='tip',
                         title='총 식사 금액과 팁의 관계 (산점도)',
                         labels={'total_bill': '총 식사 금액 ($)', 'tip': '팁 ($)'},
                         hover_data=['size', 'day', 'time'], # 마우스 오버 시 추가 정보 표시
                         trendline='ols') # OLS(Ordinary Least Squares) 기반의 추세선 추가
fig_scatter.show()

* **해석**
    * 산점도를 보면 `total_bill`이 증가함에 따라 `tip`도 대체로 증가하는 **우상향 패턴** 을 확인할 수 있습니다. 이는 앞서 계산한 양의 상관계수(약 0.67)와 일치하는 결과입니다.
    * `trendline='ols'` 옵션으로 추가된 **추세선(Trendline)** 은 이러한 전반적인 경향을 더 명확하게 보여줍니다. OLS는 잔차 제곱합을 최소화하는 방식으로 데이터에 가장 잘 맞는 직선을 찾는 방법입니다.
    * 점들이 추세선 주위에 얼마나 밀집되어 있는지에 따라 관계의 강도를 시각적으로 가늠할 수 있습니다. 점들이 추세선에 가깝게 모여있을수록 상관관계가 강하다고 볼 수 있습니다.
    * `hover_data`를 설정하면 각 점에 마우스를 올렸을 때 추가적인 정보를 볼 수 있어 유용합니다.

#### Heatmap (히트맵)

**히트맵(Heatmap)** 은 여러 변수 간의 상관계수 행렬을 색상으로 표현하는 시각화 방법입니다. 각 셀의 색깔이 해당 변수 쌍의 상관계수 값을 나타내므로, 상관관계의 강도와 방향을 한눈에 파악하기 용이합니다.

`plotly.express`의 `imshow()` 함수를 사용하여 상관계수 행렬로 히트맵을 그릴 수 있습니다.

In [None]:
# 위에서 계산한 피어슨 상관계수 행렬 사용
# correlation_matrix = tips_df.corr(numeric_only=True)

fig_heatmap = px.imshow(correlation_matrix,
                        text_auto=True, # 각 셀에 상관계수 값을 텍스트로 표시
                        aspect="auto",  # 셀의 종횡비를 자동으로 조절하여 정사각형에 가깝게
                        title='수치형 변수 간 상관계수 히트맵 (Tips 데이터셋)',
                        color_continuous_scale='RdBu_r', # 색상 스케일: 빨강(양)-흰색(0)-파랑(음) 반전
                        zmin=-1, zmax=1) # 색상 축의 최소값(-1)과 최대값(+1)을 명시적으로 설정
fig_heatmap.update_xaxes(side="top") # x축 레이블을 위쪽으로 이동 (일반적인 히트맵 형태)
fig_heatmap.show()

* **해석**:
    * `color_continuous_scale='RdBu_r'` 옵션은 빨간색 계열을 양의 상관관계, 파란색 계열을 음의 상관관계로 나타내며, 색이 진할수록 상관관계의 절대값이 큽니다 (강한 관계). `_r`은 색상 순서를 반전시키는 역할을 합니다. (일반적으로 빨간색이 양, 파란색이 음을 나타냄)
    * `zmin=-1, zmax=1`은 색상 스케일의 범위를 상관계수의 가능한 범위인 -1에서 +1로 고정시켜 일관된 해석을 돕습니다.
    * 대각선은 항상 가장 진한 빨간색 (또는 설정에 따라 다른 색)으로 표시되며 값은 1입니다.
    * `total_bill`과 `tip` 셀, `total_bill`과 `size` 셀이 다른 셀들에 비해 상대적으로 짙은 붉은색 계열을 띠는 것을 통해 이들 간에 강한 양의 상관관계가 있음을 시각적으로 빠르게 파악할 수 있습니다.
    * 만약 음의 상관관계가 있다면 파란색 계열로 표시될 것입니다. (이 데이터셋에서는 뚜렷한 음의 상관관계는 보이지 않습니다.)
    * `text_auto=True` 옵션 덕분에 각 셀에 실제 상관계수 값이 표시되어 정확한 수치도 함께 확인할 수 있습니다.

-----


### ✏️ 연습 문제

이제 배운 내용을 바탕으로 직접 연습문제를 풀어봅시다\! 💪

**데이터 준비**: 아래 코드를 실행하여 'iris' 데이터셋을 로드하고, 어떤 데이터인지 확인해보세요. 'iris' 데이터셋은 붓꽃의 세 가지 종류(species)에 대해 각각 꽃잎(petal)의 길이와 너비, 꽃받침(sepal)의 길이와 너비를 측정한 데이터를 담고 있습니다. 매우 유명한 데이터셋입니다.

In [None]:
# 연습문제용 데이터 로드
iris_df = px.data.iris()
iris_df.head()


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


In [None]:
# 데이터 정보 확인
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
 5   species_id    150 non-null    int64  
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
# 데이터 기초통계량 확인
iris_df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species_id
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667,2.0
std,0.828066,0.433594,1.76442,0.763161,0.819232
min,4.3,2.0,1.0,0.1,1.0
25%,5.1,2.8,1.6,0.3,1.0
50%,5.8,3.0,4.35,1.3,2.0
75%,6.4,3.3,5.1,1.8,3.0
max,7.9,4.4,6.9,2.5,3.0


In [None]:
# species 컬럼의 고유값 확인
iris_df['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

#### 문제 1: Iris 데이터셋의 수치형 변수 간 상관계수 행렬 계산하기

  * `iris_df` DataFrame을 사용하여 모든 수치형 변수들(`sepal_length`, `sepal_width`, `petal_length`, `petal_width`) 간의 **피어슨 상관계수** 행렬을 계산하고 그 결과를 `iris_corr`라는 변수에 저장한 후 출력하세요.

In [None]:
# 연습 문제 1번 풀이 공간
iris_corr = None # 이 곳에 코드를 작성하세요.

#### 문제 2: 특정 변수 쌍 간의 상관계수 확인 및 해석하기

  * 문제 1에서 계산된 상관계수 행렬 `iris_corr`를 사용하여, 다음 두 변수 쌍의 피어슨 상관계수 값을 직접 찾아서 각각 `petal_corr_value`와 `sepal_corr_value` 변수에 저장하고 출력해보세요.
    1.  'petal\_length' (꽃잎 길이)와 'petal\_width' (꽃잎 너비)
    2.  'sepal\_length' (꽃받침 길이)와 'sepal\_width' (꽃받침 너비)
  * 각각의 상관계수 값이 무엇을 의미하는지 간단히 해석해보세요.

In [None]:
# 연습 문제 2번 풀이 공간
petal_corr_value = None # 이 곳에 코드를 작성하세요.
sepal_corr_value = None # 이 곳에 코드를 작성하세요.

* 해석
  
    (작성하세요)


#### 문제 3: 'petal\_length'와 'petal\_width' 산점도 그리기 (종류별 색상 구분)

  * `plotly.express`를 사용하여 'petal\_length'를 x축, 'petal\_width'를 y축으로 하는 산점도를 그려보세요.
  * 점의 색깔을 'species' (붓꽃의 종류: setosa, versicolor, virginica)에 따라 다르게 표시해보세요. (힌트: `px.scatter`의 `color` 파라미터)
  * 그래프의 제목은 "꽃잎 길이와 너비의 관계 (붓꽃 종류별)"로 설정하고, x축 레이블은 "꽃잎 길이 (cm)", y축 레이블은 "꽃잎 너비 (cm)"로 설정하세요.
  * 각 붓꽃 종류별로 추세선도 추가해보세요. (힌트: `trendline` 파라미터와 `color` 파라미터를 함께 사용)

In [None]:
# 연습 문제 3번 풀이 공간
fig_iris_scatter = None # 이 곳에 코드를 작성하고 fig_iris_scatter.show() 로 확인하세요.

#### 문제 4: Iris 데이터셋 수치형 변수 전체 상관계수 히트맵 그리기

  * 문제 1에서 계산한 `iris_corr` 상관계수 행렬을 `plotly.express.imshow`를 사용하여 히트맵으로 시각화하세요.
  * 히트맵의 각 셀에 상관계수 값을 텍스트로 표시하세요.
  * 그래프의 제목은 "Iris 데이터셋 수치형 변수 간 상관계수 히트맵"으로 설정하세요.
  * 색상 스케일은 `'coolwarm'` 또는 `'RdBu_r'` 등을 사용하고, 색상 값의 범위(`zmin`, `zmax`)를 -1에서 1로 설정하여 일관성을 유지하세요.

In [None]:
# 연습 문제 4번 풀이 공간
fig_iris_heatmap = None # 이 곳에 코드를 작성하고 fig_iris_heatmap.show() 로 확인하세요.

### ✏️ 미니 실습 PJT 과제

#### 과제 1: 슈퍼마켓 데이터셋 상관분석 (sample_superstore2.csv 파일 사용)

* 데이터셋 정보 확인
* 데이터셋 기술통계량 확인
* 데이터셋 상관계수 행렬 계산
* 데이터셋 상관계수 행렬 시각화
* 주요 변수 간의 산점도 시각화
* 데이터셋 상관계수 행렬 해석

#### 과제 2: 서울시 따릉이 자전거 이용현황 데이터 + (서울 열린데이터 ) 상관분석 -> 발표자 3명 선정
 - 자전거 이용현황 데이터(일별) : https://data.seoul.go.kr/dataList/OA-14994/F/1/datasetView.do
 - 분석 준비 
   - https://data.seoul.go.kr 에 회원가입
   - 일별 데이터셋 중 자전거 이용현황과 영향을 미치거나 상관성이 있을것으로 사료되는 데이터셋 검색
   - 데이터을 다운로드 받은 후, datasets 폴더에 저장
   - 데이터셋 확인후, pandas 로 2개의 데이터셋을 로드하여 병합
   - 자전거 이용현황과 상관관계가 뚜렷한 특징변수를 탐색
 - 꼭 담겨야할 분석 내용
    * 데이터셋 정보 확인
    * 데이터셋 기술통계량 확인
    * 데이터셋 pandas 전처리 (결측치 처리, 데이터 타입 변환, 데이터 정렬, 병합 등)
    * 데이터셋 상관계수 행렬 계산
    * 데이터셋 상관계수 행렬 시각화
    * 주요 변수 간의 산점도 시각화
    * 데이터셋 상관계수 행렬 해석