# (연습) 데이터 다루기

**주의 사항**

* 기존에 작성된 코드셀/텍스트셀은 수정하지 않는다.
* 필요한 경우 코드셀 또는 텍스트셀을 추가할 수 있다.

**준비사항**

Pandas 라이브러리를 pd라는 이름으로 불러온다

In [1]:
import pandas as pd

**데이터 저장소 디렉토리**

코드에 사용되는 데이터 저장소의 기본 디렉토리를 지정한다.

In [2]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

**문제 1**

광주광력시에서부터 전라남도 나주를 거쳐 서해까지 이어지는 영산강에 설치된 승촌보에서 측정한 두 개의 데이터셋이다.

- `Chl-a`: 녹조 발생의 주요 요인인 클로로필-A의 수치 100개
- `Discharge`: 보에서 방출되는 시간당 방류량 수치 100개

클로로필-A 농도가 높을 수록 수질(water quality)이 나빠지며, 방류량이 많을 수록 클로로필-A 농도는 일반적으로 떨어지며,
두 데이터 사이의 상관관계를 확인하기 위해 수집되었다.

In [3]:
sc_weir_df = pd.read_csv(data_url+'sc_weir.csv')

sc_weir_df

Unnamed: 0,Chl-a,Discharge
0,51,25
1,51,25
2,53,24
3,53,24
4,54,22
...,...,...
95,122,9
96,122,9
97,124,49
98,125,9


In [4]:
sc_weir_df.shape

(100, 2)

In [5]:
sc_weir_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   Chl-a      100 non-null    int64
 1   Discharge  100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


In [6]:
sc_weir_df.describe()

Unnamed: 0,Chl-a,Discharge
count,100.0,100.0
mean,93.86,14.93
std,22.62564,6.37903
min,51.0,9.0
25%,74.5,11.0
50%,98.0,13.0
75%,114.5,16.0
max,125.0,52.0


(1) 각각의 데이터셋 크기가 100임을 확인하라.

답:

`info()` 메서드를 사용해서 각 특성별로 데이터가 몇 개인지 확인한다.

In [7]:
sc_weir_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   Chl-a      100 non-null    int64
 1   Discharge  100 non-null    int64
dtypes: int64(2)
memory usage: 1.7 KB


(2) 가장 높은 클로로필-A의 수치는 얼마인가?

답:

`describe()` 메서드를 실행하면 각 특성별 데이터의 분포를 보여준다.
그중에 최댓값도 맨 아랫줄에 언급된다.
클로로필-A 수치의 최댓값은 125.0이다.

In [8]:
sc_weir_df.describe()

Unnamed: 0,Chl-a,Discharge
count,100.0,100.0
mean,93.86,14.93
std,22.62564,6.37903
min,51.0,9.0
25%,74.5,11.0
50%,98.0,13.0
75%,114.5,16.0
max,125.0,52.0


그런데 `describe()` 메서드의 반환값 또한 데이터프레임 객체다.
따라서 최댓값을 인덱싱으로 확인할 수도 있다.

In [9]:
desc = sc_weir_df.describe()
desc

Unnamed: 0,Chl-a,Discharge
count,100.0,100.0
mean,93.86,14.93
std,22.62564,6.37903
min,51.0,9.0
25%,74.5,11.0
50%,98.0,13.0
75%,114.5,16.0
max,125.0,52.0


- 데이터에 포함된 두 특성의 최댓값 확인(반환값은 시리즈 객체)

In [10]:
desc.loc['max']

Chl-a        125.0
Discharge     52.0
Name: max, dtype: float64

- 클로로필-A의 최댓값 확인

In [11]:
desc.loc['max', 'Chl-a']

125.0

(3) 가장 낮은 시간당 방류량 수치는 얼마인가?

답:

이전 질문과 동일한 방식으로 확인된다.

- 데이터에 포함된 두 특성의 최솟값 확인(반환값은 시리즈 객체)

In [12]:
desc.loc['min']

Chl-a        51.0
Discharge     9.0
Name: min, dtype: float64

- 방류량의 최솟값 확인

In [13]:
desc.loc['min', 'Discharge']

9.0

**문제 2**

기본 데이터 저장소에 있는 `california_housing.csv` 파일은 미국 캘리포니아 주의 주택 정보를 담고 있다.

**참고**

- 캘리포니아 주택 가격 데이터셋에 대해 인터넷에서 기초 정보 확인할 것
- 예제: [(코딩알지) 캘리포니아 주택 가격](https://codingalzi.github.io/datapy/casestudy_california_housing.html)

(1) 위 파일의 내용을 데이터프레임으로 불러와서 `housing_df` 변수에 할당하라.
    단, 인덱스는 별도로 지정하지 않는다.

답:

In [14]:
housing_df = pd.read_csv(data_url+"california_housing.csv")

(2) 캘리포니아 주택 정보 데이터의 기초 정보를 확인하라.

답:

`info()` 메서드를 이용하면 총 10개의 특성이 파악된다.

In [15]:
housing_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


(3) 데이터셋에 포함된 특성을 다음 네 종류의 특성으로 구분하라.

- 수치형 특성
- 범주형 특성
- 이산형 특성
- 연속형 특성

답:

`info()` 메서드의 결과를 보면 `Dtype` 열에 각 특성별로 사용된 값들의 자료형이 명기되어 있으며 두 종류다.

- `float64`: 부동소수점 자료형
- `object`: 부동소수점 또는 정수형이 아닌 기타 자료형. 여기서는 문자열이 사용되었음.

일반적으로 특성 자료형에 따라 다음과 같이 구분된다.

- 수치형 특성: `float64` 또는 `int64`를 `Dtype`으로 갖는 특성. 
    - 여기서는 `ocean_proximity` 를 제외한 모든 특성
- 범주형 특성: 일반적으로 `object`를 `Dtype`으로 갖는 특성. 데이터 내용에 따라 일부 `int`, `float` 형으로 된 특성.
    - 여기서는 `ocean_proximity` 만 범주형 특성임.
- 이산형 특성: 일반적으로 `int`를 `Dtype`으로 갖는 특성. 데이터 내용에 따라 일부 `float` 형으로 된 특성.
    - 여기서는 없음.
- 연속형 특성: 일반적으로 `float64`를 `Dtype`으로 갖는 특성.
    - 여기서는 `ocean_proximity` 를 제외한 모든 특성

(4) 99번 인덱스의 샘플을 구하라.

답:

`loc` 메서드를 이용한다.

In [16]:
housing_df.loc[99]

longitude              -122.26
latitude                 37.82
housing_median_age        37.0
total_rooms             3633.0
total_bedrooms          1085.0
population              1838.0
households               980.0
median_income           2.6104
median_house_value    193100.0
ocean_proximity       NEAR BAY
Name: 99, dtype: object

(5) ocean_proximity 특성값만 포함한 데이터프레임을 구하라.

답:

먼저 아래와 같이 하면 데이터프레임이 아닌 시리즈 객체가 생성됨에 주의한다.

In [17]:
housing_df['ocean_proximity']

0        NEAR BAY
1        NEAR BAY
2        NEAR BAY
3        NEAR BAY
4        NEAR BAY
           ...   
20635      INLAND
20636      INLAND
20637      INLAND
20638      INLAND
20639      INLAND
Name: ocean_proximity, Length: 20640, dtype: object

항목이 하나인 리스트를 인자로 사용해야 데이터프레임 객체가 생성된다.

In [18]:
housing_df[['ocean_proximity']]

Unnamed: 0,ocean_proximity
0,NEAR BAY
1,NEAR BAY
2,NEAR BAY
3,NEAR BAY
4,NEAR BAY
...,...
20635,INLAND
20636,INLAND
20637,INLAND
20638,INLAND


`loc` 메서드와 함께 사용할 때도 동일하다.
단 행 인덱스 부분을 `:`로 설정해야 한다.

In [19]:
housing_df.loc[:, ['ocean_proximity']]

Unnamed: 0,ocean_proximity
0,NEAR BAY
1,NEAR BAY
2,NEAR BAY
3,NEAR BAY
4,NEAR BAY
...,...
20635,INLAND
20636,INLAND
20637,INLAND
20638,INLAND


(6) median_income, median_house_value, ocean_proximity 특성값만으로 구성된 데이터프레임을 구하라.

답:

여러 개의 특성으로 구성된 데이터프레임은 특성명으로 구성된 리스트를 활용한다.

In [20]:
columnes_wanted = ['median_income', 'median_house_value', 'ocean_proximity']

In [21]:
housing_df[columnes_wanted]

Unnamed: 0,median_income,median_house_value,ocean_proximity
0,8.3252,452600.0,NEAR BAY
1,8.3014,358500.0,NEAR BAY
2,7.2574,352100.0,NEAR BAY
3,5.6431,341300.0,NEAR BAY
4,3.8462,342200.0,NEAR BAY
...,...,...,...
20635,1.5603,78100.0,INLAND
20636,2.5568,77100.0,INLAND
20637,1.7000,92300.0,INLAND
20638,1.8672,84700.0,INLAND


`loc` 메서드 활용도 물론 가능하다.

In [22]:
housing_df.loc[:, columnes_wanted]

Unnamed: 0,median_income,median_house_value,ocean_proximity
0,8.3252,452600.0,NEAR BAY
1,8.3014,358500.0,NEAR BAY
2,7.2574,352100.0,NEAR BAY
3,5.6431,341300.0,NEAR BAY
4,3.8462,342200.0,NEAR BAY
...,...,...,...
20635,1.5603,78100.0,INLAND
20636,2.5568,77100.0,INLAND
20637,1.7000,92300.0,INLAND
20638,1.8672,84700.0,INLAND
