# 데이터 다루기

**준비사항**

Pandas 라이브러리를 pd라는 이름으로 불러온다

In [1]:
import pandas as pd

**데이터 저장소 디렉토리**

코드에 사용되는 [데이터 저장소의 기본 디렉토리](https://github.com/codingalzi/DataSci/tree/master/data)를 지정한다.

In [2]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

## 데이터셋 불러오기

표 데이터 처리에 특화된 통계분석 라이브러리 Pandas의
`read_csv()` 함수를 사용하여 체력 테스트 결과를 담은 csv 파일을 읽어들인다.

학생번호를 인덱스로 csv 파일을 읽어들여, 변수 `sports_df`에 저장한다.

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/DataSci/master/jupyter-book/images/ch01/sport_test.png" style="width:300px"></div></p>

In [3]:
sports_df = pd.read_csv(data_url+'ch01_sport_test.csv',
                        index_col='학생번호')

체력 테스트 결과를 DataFrame으로 읽어들인 결과는 다음과 같다.

In [4]:
sports_df

Unnamed: 0_level_0,학년,악력,윗몸일으키기,점수,순위
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


## 데이터프레임 기초 정보

데이터프레임의 모양을 확인하면 행과 열의 개수를 확인할 수 있다.

- 행: 각각의 데이터 샘플. 총 10개
- 열: 특성 수. 총 5개
- 인덱스: 학생번호로 지정됨.

In [5]:
sports_df.shape

(10, 5)

In [6]:
sports_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 1 to 10
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   학년      10 non-null     int64  
 1   악력      10 non-null     float64
 2   윗몸일으키기  10 non-null     int64  
 3   점수      10 non-null     int64  
 4   순위      10 non-null     int64  
dtypes: float64(1), int64(4)
memory usage: 480.0 bytes


In [7]:
sports_df.describe()

Unnamed: 0,학년,악력,윗몸일으키기,점수,순위
count,10.0,10.0,10.0,10.0,10.0
mean,2.1,38.88,28.2,13.0,5.5
std,0.875595,8.337306,6.828047,3.651484,3.02765
min,1.0,26.0,14.0,7.0,1.0
25%,1.25,34.775,27.0,10.25,3.25
50%,2.0,37.8,29.5,13.5,5.5
75%,3.0,45.6,32.0,15.75,7.75
max,3.0,50.9,37.0,18.0,10.0


## 특성(변인)의 종류

In [8]:
sports_df.columns

Index(['학년', '악력', '윗몸일으키기', '점수', '순위'], dtype='object')

**수치형 특성과 범주형 특성**

In [14]:
sports_df

Unnamed: 0_level_0,학년,악력,윗몸일으키기,점수,순위
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


- 양적 변인와 질적 변인로 불리기도 함
- 수치형 특성: 악력, 윗몸일으키기, 점수, 순위
- 범주형 특성: 학년

**이산형 특성과 연속형 특성**

- 이산형 특성: 1, 2, 3, ... 등의 정수처럼 서로 인접한 두 값 사이에 다른 값을 취하지 않는 변인
- 연속형 특성: 유리수, 실수 등처럼 임의의 두 값 사이에 다른 값을 취할 수 있는 변인

- 이산형 특성: 윗몸일으키기, 점수, 순위
- 연속형 특성: 악력

## 열 인덱싱

DataFrame에서 악력에 대한 열을 추출하면 1차원 데이터 구조인 Series 반환된다.

In [9]:
sports_df['악력']

학생번호
1     40.2
2     34.2
3     28.8
4     39.0
5     50.9
6     36.5
7     36.6
8     49.2
9     26.0
10    47.4
Name: 악력, dtype: float64

In [10]:
sports_df[['악력']]

Unnamed: 0_level_0,악력
학생번호,Unnamed: 1_level_1
1,40.2
2,34.2
3,28.8
4,39.0
5,50.9
6,36.5
7,36.6
8,49.2
9,26.0
10,47.4


In [11]:
sports_df[['학년', '악력']]

Unnamed: 0_level_0,학년,악력
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,40.2
2,1,34.2
3,1,28.8
4,2,39.0
5,2,50.9
6,2,36.5
7,3,36.6
8,3,49.2
9,3,26.0
10,3,47.4


## 행 인덱싱

In [12]:
sports_df.loc[1]

학년         1.0
악력        40.2
윗몸일으키기    34.0
점수        15.0
순위         4.0
Name: 1, dtype: float64

In [13]:
sports_df.iloc[0]

학년         1.0
악력        40.2
윗몸일으키기    34.0
점수        15.0
순위         4.0
Name: 1, dtype: float64

## 연습문제

1. `sports_df`에 포함된 특성들을 아래 기준에 따라 구분하라.
    - 수치형 특성
    - 범주형 특성
    - 이산형 특성
    - 연속형 특성