# (연습) 2차원 데이터

**준비사항**

Numpy와 Pandas 라이브러리를 각각 np와 pd라는 별칭으로 불러온다

In [1]:
import numpy as np
import pandas as pd

`matplotlib.pyplot`은 막대그래프, 히스토그램, 산점도 등 데이터를 그래프로 시각화할 때 필요한
다양한 함수를 제공하는 모듈이다.

In [2]:
import matplotlib.pyplot as plt

# 그래프 설정
plt.rc('figure', figsize=(10, 6))  # 그래프 크기 지정

**데이터 저장소 디렉토리**

코드에 사용되는 데이터 저장소의 기본 디렉토리를 지정한다.

In [3]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

**문제 1**

기본 데이터 저장소에 있는 `sc_weir.csv` 파일은
광주광력시에서부터 전라남도 나주를 거쳐 서해까지 이어지는 영산강에 설치된 승촌보에서 측정한 
두 종류의 데이터를 담고 있다.

- `Chl-a`: 녹조 발생의 주요 요인인 클로로필-A의 수치 100개
- `Discharge`: 보에서 방출되는 시간당 방류량 수치 100개

클로로필-A 농도가 높을 수록 수질(water quality)이 나빠지며, 방류량이 많을 수록 클로로필-A 농도는 일반적으로 떨어지며,
두 데이터 사이의 상관관계를 확인하기 위해 수집되었다.

In [4]:
sc_weir_df = pd.read_csv(data_url+'sc_weir.csv')
sc_weir_df

Unnamed: 0,Chl-a,Discharge
0,51,25
1,51,25
2,53,24
3,53,24
4,54,22
...,...,...
95,122,9
96,122,9
97,124,49
98,125,9


항목만으로 구성된 넘파이 어레이를 선언한다.

In [5]:
sc_weir_arr = sc_weir_df.values
sc_weir_arr.shape

(100, 2)

두 데이터를 별로 어레이로 지정한다.

In [6]:
chl_a_arr = sc_weir_arr[:, 0]
discharge_arr = sc_weir_arr[:, 1]

(1) 클로로필-A와 시간당 방류량 사이의 공분산을 계산하고 두 데이터 사이의 상관관계를 설명하라.

- 넘파이 활용

In [7]:
np.cov(chl_a_arr, discharge_arr)

array([[511.91959596, -66.88868687],
       [-66.88868687,  40.6920202 ]])

- 데이터프레임 활용

In [8]:
sc_weir_df.cov()

Unnamed: 0,Chl-a,Discharge
Chl-a,511.919596,-66.888687
Discharge,-66.888687,40.69202


(2) 클로로필-A와 시간당 방류량 사이의 피어슨 상관계수를 계산하고 두 데이터 사이의 선형 상관관계를 설명하라.

- 넘파이 활용

In [9]:
np.corrcoef(chl_a_arr, discharge_arr)

array([[ 1.       , -0.4634439],
       [-0.4634439,  1.       ]])

- 데이터프레임 활용

In [10]:
sc_weir_df.corr()

Unnamed: 0,Chl-a,Discharge
Chl-a,1.0,-0.463444
Discharge,-0.463444,1.0


**문제 2**

기본 데이터 저장소에 있는 `california_housing.csv` 파일은 미국 캘리포니아 주의 주택 정보를 담고 있다.
위 파일의 내용을 데이터프레임으로 불러와서 `housing_df` 변수에 할당한다.

In [37]:
housing_df = pd.read_csv(data_url+"california_housing.csv")
housing_df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


(1) 주택중위가격(median_house_value) 특성과 다른 수치형 특성 사이의 선형 상관계수를 나타내는 상관계수를 확인하라.

먼저 범주형 특성이 하나 있음을 확인한다.
아래 코드의 실행결과에서 `ocean_proximity` 특성의 `Dtype`이 `object`로 되어 있기에 범주형 특성이다.

In [38]:
housing_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


따라서 범주형 특성을 제외한 나머지만으로 구성된 데이터프레임을 지정한다.
이를 위해 여기서는 `iloc` 메서드를 이용한다. 
이유는 `ocean_proximity` 특성이 오른쪽 맨끝에 자리하기 때문이다.
물론 다른 다양한 방식도 가능하다.

In [39]:
numeric_df = housing_df.iloc[:, :-1].copy()
numeric_df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0
...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0


연습을 위해 항목만 갖는 어레이도 지정한다.

In [40]:
numeric_arr = numeric_df.values

이제 상관계수를 계산한다.

- 넘파이 활용: 
    - 특성이 많다 보니 상관계수 어레이도 매우 커진다.
    - 총 9개의 특성들 사이의 상관계수를 담은 (9, 9) 모양의 어레이가 생성된다.
    - 그렇다보니 읽기가 매우 불편하여, 여기서도 데이터프레임을 이용하는 것으로 대신한다.

In [41]:
np.corrcoef(numeric_arr)

array([[1.        , 0.99985108, 0.99999769, ..., 0.99974973, 0.9998056 ,
        0.99956483],
       [0.99985108, 1.        , 0.99988575, ..., 0.99998327, 0.99999477,
        0.99991705],
       [0.99999769, 0.99988575, 1.        , ..., 0.99979473, 0.99984515,
        0.99962447],
       ...,
       [0.99974973, 0.99998327, 0.99979473, ..., 1.        , 0.99999585,
        0.99997371],
       [0.9998056 , 0.99999477, 0.99984515, ..., 0.99999585, 1.        ,
        0.999949  ],
       [0.99956483, 0.99991705, 0.99962447, ..., 0.99997371, 0.999949  ,
        1.        ]])

- 데이터프레임 활용

In [42]:
corr_df = numeric_df.corr()
corr_df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,1.0,-0.924664,-0.108197,0.044568,0.069608,0.099773,0.05531,-0.015176,-0.045967
latitude,-0.924664,1.0,0.011173,-0.0361,-0.066983,-0.108785,-0.071035,-0.079809,-0.14416
housing_median_age,-0.108197,0.011173,1.0,-0.361262,-0.320451,-0.296244,-0.302916,-0.119034,0.105623
total_rooms,0.044568,-0.0361,-0.361262,1.0,0.93038,0.857126,0.918484,0.19805,0.134153
total_bedrooms,0.069608,-0.066983,-0.320451,0.93038,1.0,0.877747,0.979728,-0.007723,0.049686
population,0.099773,-0.108785,-0.296244,0.857126,0.877747,1.0,0.907222,0.004834,-0.02465
households,0.05531,-0.071035,-0.302916,0.918484,0.979728,0.907222,1.0,0.013033,0.065843
median_income,-0.015176,-0.079809,-0.119034,0.19805,-0.007723,0.004834,0.013033,1.0,0.688075
median_house_value,-0.045967,-0.14416,0.105623,0.134153,0.049686,-0.02465,0.065843,0.688075,1.0


`median_house_value`를 기준으로 하는 상관계수는 다음과 같다.

In [43]:
corr_df.loc['median_house_value']

longitude            -0.045967
latitude             -0.144160
housing_median_age    0.105623
total_rooms           0.134153
total_bedrooms        0.049686
population           -0.024650
households            0.065843
median_income         0.688075
median_house_value    1.000000
Name: median_house_value, dtype: float64

(2) 확인된 상관계수를 바탕으로 주택중위가격과 가장 상관관계가 높은 특성을 확인하고 그 이유를 추정하라.

힌트: `sort_values()` 메서드 활용

상관계수를 기준으로 내림차순으로 정렬한다.

In [44]:
corr_df.loc['median_house_value'].sort_values(ascending=False)

median_house_value    1.000000
median_income         0.688075
total_rooms           0.134153
housing_median_age    0.105623
households            0.065843
total_bedrooms        0.049686
population           -0.024650
longitude            -0.045967
latitude             -0.144160
Name: median_house_value, dtype: float64

그러면 주택중위가격 자신을 제외하고 가장 높은 선형 상관관계는 중위소득(`median_income`)과 갖는다.
상관계수는 0.688이다.
이 결과는 매우 상식적이다. 이유는 소득이 많을 수록 좋고 비싼 집에 사는 경향이 일반적이기 때문이다.