In [2]:
import pandas as pd
exam = pd.read_csv('exam.csv')

# 데이터 파악하기

데이터가 주어졌을 때 가장 먼저 하는 일은 데이터의 전반적인 구조를 파악하는 것이다. 어떤 변수들이 있는지, 몇 행으로 구성되는지 구조를 살펴보면서 데이터의 특징이 어떠한지 감을 잡는다.

### 데이터를 파악할 때 사용하는 명령어
데이터를 파악할 때는 기본적으로 다음 다섯 가지 명령어를 사용한다.

|함수|기능|
|---|---|
|`head()`|앞부분 출력|
|`tail()`|뒷부분 출력|
|`shape`|행, 열 개수 출력|
|`info()`|변수 속성 출력|
|`describe()`|요약 통계량 출력|

## exam 데이터 파악하기

### `head()` - 데이터 앞부분 확인하기
`head()`는 데이터의 앞에서부터 다섯 번째 행까지 출력하는 기능을 한다. `head()`를 이용해 데이터의 앞부분 일부를 출력하면 데이터의 형태를 쉽게 확인할 수 있다.

In [2]:
exam.head()     # 앞에서부터 5행까지 출력

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


괄호에 숫자를 입력하면 입력한 행까지 데이터를 출력한다

In [3]:
exam.head(10)    # 앞에서부터 10행까지 출력

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### `tail()` - 데이터 뒷부분 확인하기

`tail()`은 데이터의 뒷부분을 출력하는 기능을 한다. `head()`와는 반대되는 기능이다.

In [4]:
exam.tail()     # 뒤에서부터 5행까지 출력

Unnamed: 0,id,nclass,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


`head()`와 마찬가지로 괄호에 숫자를 입력하면 뒤에서부터 입력한 행까지 출력한다

In [5]:
exam.tail(10)    # 뒤에서부터 10행까지 출력

Unnamed: 0,id,nclass,math,english,science
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


### `shape` - 데이터가 몇 행, 몇 열로 구성되는지 알아보기

데이터 프레임의 크기를 알아볼 때 사용한다. 출력된 숫자 2개 중에서 앞은 '행', 뒤는 '열'의 개수를 나타낸다.

In [7]:
exam.shape

(20, 5)

### `info()` - 변수 속성 파악하기

데이터에 들어 있는 변수들의 속성을 보여준다. 모든 변수의 속성을 한눈에 파악하고 싶을 때 `info()`를 사용한다.

In [8]:
exam.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 932.0 bytes


`info()`의 출력 결과를 보면 다음과 같은 사실들을 알 수 있다.
1. 첫 번째 행의 `pandas.core.frame.DataFrame`을 보면 `exam`이 `pandas`로 만든 데이터 프레임이라는 것을 알 수 있다.
2. 두 번째 행의 `20 entries, 0 to 19`를 보면 `exam`이 20행으로 되어 있고, 행 번호가 0부터 19까지라는 것을 알 수 있다.
3. 세 번째 행의 `total 5 columns`를 보면 `exam`이 변수 5개로 구성된다는 것을 알 수 있다.
4. 여섯 번째 행부터 데이터 프레임에 들어 있는 변수들의 속성이 표시된다. 각 행에 변수 순서(`#`), 이름(`Column`), 변수에 들어 있는 값의 개수(`Non-Null Count`), 속성(`Dtype`)을 보여준다. 예를 들어 0번째 변수 `id`를 보면 20개의 값이 있고 정수(int64)로 된 변수라는 것을 알 수 있다. 변수의 속성은 정수(int64)외에도 실수(float64), 문자(object), 날짜 시간(datetime64) 등이 있다. `Non-Null Count`는 결측치를 제외하여 카운트한 개수들을 표시한다.

### `describe()` - 요약 통계량 구하기

`describe()`는 '평균'처럼 변수의 값을 요약한 '요약 통계량'을 구하는 함수이다. 요약 통계량을 보면 변수의 특징을 파악하는 데 도움이 된다.

In [9]:
exam.describe()

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


출력 결과를 보면 데이터를 구성하는 변수들의 요약 통계량을 알 수 있다. `describe()`를 실행해 출력되는 요약 통계량은 다음과 같은 의미를 갖는다.

|출력값|통계량|설명|
|-----|----|---|
|count|빈도(frequency)|값의 개수|
|mean|평균(mean)|모든 값을 더해 값의 개수로 나눈 값|
|std|표준편차(Standard Deviation)|변수의 값들이 평균에서 떨어진 정도를 나타낸 값|
|min|최소값(minimum)|가장 작은 값|
|25%|1사위분위수(1st quantile)|하위 25%(4분의 1, 1/4) 지점에 위치한 값|
|50%|중앙값(median)|하위 50%(중앙) 지점에 위치한 값|
|75%|3사위분위수(3rd quantile)|하위 75%(4분의 3, 3/4) 지점에 위치한 값|
|max|최대값(maximum)|가장 큰 값|

### +(추가내용) 표준편차란?

<img src="https://velog.velcdn.com/images/swan9405/post/b7b8befe-5b59-4e5f-a16c-2598e522c22e/image.png">

**평균(mean)에 대한 오차**   
즉, 실제 데이터 값이 평균을 기준으로 할때 얼마나 기복이 있는지를 나타내는 것이다. 평균이 m이고, 표준편차가 3일 경우 실제 값은 m+-3이라는 것이다.

**편차** 는 원래 값에서 평균을 뺀 것인데, +도 될 수도 있고, -도 될 수도 있다. 에? 근데 편차를 구한 후 다 더해보면 값이 얼마나 흩어져있을 지 알수 있지 않을까? 라는 생각이 들지만, 존재하는 모든 데이터의 편차를 구한 후 전부 더하면 **필연적으로 0이 된다.**   
ex) 데이터: 1,2,3,4 평균: 2.5((1+2+3+4)/4) -> 편차: -1.5,-0.5,0.5,1.5, 편차의 합: 0

이런 상황을 회피하기 위해 어쩔 수 없이 **편차들의 제곱의 평균을 구해서 나온 값(분산)** 을 구한 후 다시 제곱근을 구하는 우회적인 방법을 서서 산포도 값을 구한 것을 **표준편차** 라고 지칭한다. 다시말해 분산에 루트를 씌운 것이다. 이렇게 구한 값은 원래 데이터에 대한 오차범위의 근사값으로 통한다. 이렇게 **제곱을 한 표준편차가 모델링과 각종 통계 수식을 응용하기에 용이하다.**

<img src="https://velog.velcdn.com/images%2Fswan9405%2Fpost%2Fd8fab344-a7d2-4f50-8ddd-afb63df2016c%2Fimage.png">

#### 모집단과 표본

모집단(Population): 분석을 할 때 처음 접하는 전체 데이처를 말한다. 이 전체를 조사하는 경우를 전수조사라고도 한다.

**모집단이 너무 커서** 전수조사가 어려운 경우, 집단의 특성을 추정하기 위해 일부 **표본(Sample)** 만 추출하여 하는 조사를 표본조사라고 한다. 이렇게 **표본을 조사함으로써, 원래 모집단의 특성을 추측하는 것을 추정** 이라고 한다. (근대 통계학의 추론통계학 - Inferential Statistics의 개념)

출처: https://velog.io/@swan9405/%ED%91%9C%EC%A4%80-%ED%8E%B8%EC%B0%A8%EC%9D%98-%EA%B0%9C%EB%85%90
https://namu.wiki/w/%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8

## mpg 데이터 파악하기

실제 데이러틀 불러와 데이터의 특징을 파악해보자. `mpg`(mile per gallon) 데이터란 미국 환경 보호국(US Environmental Protection Agency)에서 공개한 데이터로, 1999~2008년 미국에 출시한 자동차 234종의 정보를 담고 있다.

데이터 구성
|변수명|구성|
|-----|---|
|manufacturer|제조 회사|
|model|자동차 모델명|
|displ|배기량(displacement)|
|year|생산연도|
|cyl|실린더 개수(cylnders)|
|trans|변속기 종류(transmission)|
|drv|구동 방식(drive wheel)|
|cty|도시 연비(city)|
|hwy|고속도로 연비(highway)|
|fl|연료 종류(fuel)|
|category|자동차 종류|

In [4]:
# Load mpg data
mpg = pd.read_csv('mpg.csv')

1. `head()`, `tail()`을 이용해 데이터에 어떤 값이 담겨 있는지 살펴보자

In [5]:
mpg.head()  # mpg 앞부분 확인

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [6]:
mpg.tail()  # mpg 뒷부분 확인

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


2. `shape`를 이용해 데이터가 몇 행, 몇 열로 구성되는지 알아보자

In [7]:
mpg.shape   # 행, 열 출력

(234, 11)

출력 결과를 보면 `mpg`는 234행, 11열로 구성되어 있다. 하나의 행이 자동차 한 종에 대한 정보를 의미하므로, `mpg`가 자동차 234종에 대한 11개의 변수로 구성되어 있다는 것을 알 수 있다.

3. `info()`를 이용해 변수의 속성을 알아보자

In [9]:
mpg.info()   # 데이터 속성 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


4. `describe()`를 이용해 요약 통계량을 살펴보자

In [10]:
mpg.describe()    # 요약 통계량 출력

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


출력 결과를 보면 `mpg`를 구성하는 변수 11개 중에서 숫자로 된 변수 5개의 요약 통계량만 출력되어 있다. 문자로 된 변수의 요약 통계량을 함께 출력하려면 `describe()`에 `include='all'`을 입력하면 된다.

In [11]:
mpg.describe(include='all')

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


문자 변수의 요약 통계량은 다음과 같은 의미를 담고 있다.

|출력값|통계량|설명|
|-----|----|----|
|count|빈도|값의 개수|
|unique|고유값 빈도|중복을 제거한 범주의 개수|
|top|최빈값|개수가 가장 많은 값|
|freq|최빈값 빈도|개수가 가장 많은 값의 개수|

해당 표시들을 통해 추론을 해보자

1. 숫자로 된 변수 중 도시 연비를 의미하는 `cty`의 요약 통계량을 살펴보자. `cty`는 자동차가 도시에서 연료 1갤런에 몇 마일을 주행하는지 나타낸다. 요약 통계량을 보면 다음 특징을 파악할 수 있다.
- 자동차가 도시에서 갤런당 평균 16.8파일 주행한다(`mean`).
- 도시 연비가 가장 낮은 모델은 갤런당 9마일(`min`), 가장 높은 모델은 35마일(`max`) 주행한다.
- 도시 연비가 갤런당 17마일(`50%`)을 중심으로 14마일에서 19마일(`25%`, `75%`) 사이에 몰려 있다.

2. 문자로 된 변수 중 자동차 제조 회사를 의미하는 `manufacturer`의 요약 통계량을 살펴보자
- 자동차 제조 회사의 종류는 15개다.(`unique`)
- 가장 많은 자동차 모델을 생산한 제조 회사는 dodge다.(`top`)
- dodge는 37종의 모델을 생산했다.(`freq`)