## 데이터 추출하기  

불러온 데이터 파일의 내용을 살펴보자.     
단순하게 데이터프레임의 내용을 `print()`로 출력할 수도 있지만 대부분의 데이터는 다양한 정보를 포함하므로 그대로 출력하면 한눈에 내용을 파악하기 어렵다.     
작은 단위로 데이터를 쪼개서 살펴보는 것이 좋다. 데이터프레임에 `head()` 메서드를 사용하면 가장 앞 5개 행을 확인할 수 있다.

In [5]:
import pandas as pd

In [6]:
df = pd.read_csv('data/gapminder.csv', sep="\t")

In [8]:
print(df.head())

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106


이렇게 5개 행을 출력하면 데이터를 잘 불러왔는지, 열의 내용은 무엇인지 간단히 확인하기 좋다.

### 열 데이터 추출하기

특정 열의 데이터를 확인하자. 데이터프레임에 열 이름을 지정한 대괄호(`[]`)를 덧붙이면 데이터의 특정 열에 접근할 수 있다. 

1. 먼저 불러온 데이터프레임 df에서 country 열 데이터를 추출하고 그 결과를 country_df 변수에 저장한다.
2. 데이터프레임과 마찬가지로 각 열에서도 `head()` 메서드를 호출할 수 있다. 이 메서드로 country_df의 첫 5개 데이터를 살펴보자.
3. `head()`와 반대로 마지막 5개 행을 출력하는 `tail()` 메서드도 있다. country_df 의 마지막 5개 데이터를 살펴보자.


In [9]:
country_df = df['country']

In [10]:
print(country_df.head())

0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object


In [11]:
print(country_df.tail())

1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object


### 리스트로 열 데이터 추출하기

1. 열 이름으로 여러 열의 데이터를 추출하고 싶다면 대괄호 안에 열 이름 리스트를 전달한다. 이때 대괄호는 `[[]]`와 같이 이중으로 중첩한다. 바깥쪽 대괄호는 데이터프레임에서 열을 추출한다는 뜻이고 안쪽 대괄호는 선택할 열 목록을 지정한 파이썬 리스트이다.
2. df 에서 country, continent, year 등 3개 열 데이터를 추출하고 그 결과를 subset 변수에 저장하자

In [12]:
subset = df[[ 'country', 'continent', 'year']]

sebset을 출력하면 리스트로 지정한 3개 열을 표시한다.

In [13]:
print(subset.head())

       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972


#### 주의할 점

데이터프레임에 대괄호를 덧붙이는 대괄호 표기법에 열 이름이 아닌 열 위치를 전달하면 오류가 발생한다. 예를 들어 첫 번째 열을 추출한다는 의미로 0을 지정하면 오류가 발생한다.

```python
df[0] # error! 
```

대괄호 표기법은 열 이름으로 데이터를 추출할 때만 사용할 수 있다는 점에 주의하자.

### 열 데이터를 추출하는 두 가지 방법의 차이점 이해하기

데이터프레임에서 열 데이터를 추출하는 방법으로 대괄호에 열 이름을 문자열로 지정하거나 열 이름을 담은 리스트를 넣는 두 가지 방법을 알아봤다. 두 방법의 차이점은 반환하는 객체의 자료형이 다르다는 점이다.  


1. 열의 이름을 문자열로 지정하여 열 데이터를 추출하면 시리즈 전체를 결과로 반환한다. df에서 country 열 데이터를 추출한다고 했을 때 열 이름을 대괄호에 넣어 열 데이털르 추출하고 그 결과를 country_df에 저장해보자. `type()` 함수로 자료형을 확인하면 시리즈 객체라는 것을 알 수 있다.




In [14]:
print(type(country_df))

<class 'pandas.core.series.Series'>


2. country_df를 print() 로 출력하면 데이터프레임 객체와 조금 다른 형식으로 내용을 보여준다. 데이터프레임을 출력했을 때와는 다르게 위가 아닌 아래에 열 이름을 출력하며 마지막 줄은 행과 열 개수가 아닌 열 이름, 길이, 자료형 정보이다.

In [15]:
print(country_df)

0       Afghanistan
1       Afghanistan
2       Afghanistan
3       Afghanistan
4       Afghanistan
           ...     
1699       Zimbabwe
1700       Zimbabwe
1701       Zimbabwe
1702       Zimbabwe
1703       Zimbabwe
Name: country, Length: 1704, dtype: object


3. 비교하고자 이번에는 country 열만 포함하는 요소가 하나인 리스트로 열 데이터를 추출해보자. 추출한 결과를 country_df_list에 저장하고 `type()` 함수를 사용하여 자료형을 확인한다. country_df_list의 자료형은 country_df와 다르게 데이터프레임 객체임을 알 수 있다. 이와 같이 대괄호에 리스트를 전달하면 항상 DataFrame 객체를 반환한다.

In [20]:
country_df_list = df[['country']]
print(type(country_df_list))

<class 'pandas.core.frame.DataFrame'>


4. `print()`로 country_df_list의 출력 결과를 보면 앞서 살펴본 country_df와 형식이 다르다는 점을 확인할 수 있다.

In [19]:
print(country_df_list)

          country
0     Afghanistan
1     Afghanistan
2     Afghanistan
3     Afghanistan
4     Afghanistan
...           ...
1699     Zimbabwe
1700     Zimbabwe
1701     Zimbabwe
1702     Zimbabwe
1703     Zimbabwe

[1704 rows x 1 columns]


### 행 데이터 추출하기

행 데이터는 행 이름이나 행 번호 등 다양한 방법으로 추출할 수 있다. 다음 표는 행 데이터를 추출할 때 사용하는 데이터프레임의 두 가지 속성을 나타낸다.

|속성|설명|
|---|---|
|loc|행 이름을 기준으로 행 추출|
|iloc| 행 번호를 기준으로 행 추출|

표에서 알 수 있듯이 이 두 가지는 행을 추출하는 기준이 다르다.

### 행 이름으로 데이터 추출하기

1. 갭마인더 데이터셋을 다시 살펴보자.

In [21]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


출력결과를 살펴보면 데이터프레임의 가장 왼쪽에 있는 행 번호를 확인할 수 있다. 이것이 판다스가 자동으로 매긴 DataFrame의 인덱스로, 칼럼 없는 행 번호이자 행 이름이다. 기본적으로 인덱스는 0부터 시작하는 번호지만, 시계열 데이터를 다룰 때는 타임스탬프와 같이 문자열로 직접 인덱스를 설정하기도 한다. 여기서는 기본 번호 그대로 사용한다.

2. 앞서 살펴보았듯이 데이터프레임의 loc 속성에 대괄호를 사용하여 인덱스(행 이름)를 전달하면 행 데이터를 추출할 수 있다. loc 속성의 대괄호에 0을 넣어 첫 번째 행 데이털르 추출하면 다음과 같은 결과가 나온다.

In [22]:
print(df.loc[0])

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object


3. 이번에는 99를 사용하여 100번째 행 데이터를 추출해보자.

In [23]:
print(df.loc[99])

country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap    721.186086
Name: 99, dtype: object


파이썬에서는 리스트의 마지막 요소를 불러올 때 뒤에서 첫 번째 요소를 가리킨다는 의미로 -1을 사용한다. 그러나 loc 속성은 마지막 행의 데이터를 추출할 때 -1을 사용하면 오류가 발생한다. loc 속성은 행 이름을 참조하는데 -1이라는 행 이름은 없기 때문이다.

```python
print(df.loc[-1]) # error!
```

마지막 행 데이터를 추출하려면 다음고 ㅏ같이 행 개수를 구하고 행 개수에서 1을 뺀 값을 loc 속성에 전달하면 된다.

In [26]:
# shape 속성을 사용해서 행의 개수 구하기
number_of_rows = df.shape[0]

# 행의 개수에서 1을 뺀 값으로 마지막 행의 인덱스 구하기
last_row_index = number_of_rows - 1

# 마지막 행의 인덱스로 데이터 추출하기
print(df.loc[last_row_index])

country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object


5. 마지막 행은 `tail()` 메서드로 구할 수도 있다. 행 개수를 의미하는 매개변수 n에 1을 지정하면 마지막 행의 데이터만 추출할 수 있다.

In [27]:
print(df.tail(1))

       country continent  year  lifeExp       pop   gdpPercap
1703  Zimbabwe    Africa  2007   43.487  12311143  469.709298


6. 마지막으로, 열과 같은 방법으로 행 데이터도 리스트를 사용하여 여러 개를 추출할 수 있다. 아래와 같이 첫 번째, 100번째, 1000번째 행의 데이터를 추출해보자.

In [28]:
print(df.loc[[0, 99, 999]])

         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130


### 행 번호로 행 데이터 추출하기

1. iloc 속성은 행 데이터를 추출한다는 점과 대괄호를 쓴다는 점에서는 loc 속성과 같지만 행번호(행 위치)를 사용한다는 점이 다르다. iloc 속성을 사용하여 두 번째 행 데이터를 추출하자.

* 갭마인더 데이터셋은 행 이름과 행 번호가 같으므로 두 속성을 같은 방식으로 사용할 수 있다. 그러나 인덱스를 직접 지정하여 행 이름과 행 번호가 다르면 결과는 달라진다.

In [29]:
print(df.iloc[1])

country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap      820.85303
Name: 1, dtype: object


2. 이번에는 99를 입력해 100번째 행 데이터를 추출하자.

In [30]:
print(df.iloc[99])

country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap    721.186086
Name: 99, dtype: object


3. loc 속서에서는 마지막 요소를 선택할 때 -1을 사용할 수 없었지만 iloc 속성에서는 사용할 수 있다. iloc 속성은특정 값이 아닌 요소의 위치, 즉 행 번호로 작동하기 때문이다.

In [31]:
print(df.iloc[-1])

country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object


4. loc 과 마찬가지로 iloc 도 리스트를 사용하여 행 데이터를 추출할 수 있다.

In [32]:
print(df.iloc[[0, 99, 999]])

         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130


### loc 과 iloc로 데이터 추출하기

특정 행과 열을 함께 추출할 때 loc과 iloc는 대괄호와 함께 쉼표를 사용하는데, 쉼표 왼쪽은 행을 나타내고 오른쪽은 열을 나타낸다. 즉, `df.loc[[행], [열]]` 혹은 `df.iloc[[행], [열]]`과 같이 사용한다. 이때 loc에는 행 이름과 열 이름을 지정하고 iloc 에는 행 위치와 열 위치를 정수로 지정한다.

### 슬라이싱 구문으로 데이터 추출하기

loc 와 iloc로 행이나 열 데이터를 추출하려면 슬라이싱 구문을 사용한다.  

열 데이터를 추출하는 것은 특정 열의 모든 행 데이터를 가져와야 한다는 의미이므로 모든 행을 지정하는 방법이 필요하다. 슬라이싱 구문에서 콜론은 해당 축의 모든 값을 선택한다는 뜻으로, loc 와 iloc에도 그대로 적용할 수 있다. 즉, `df.loc[:, [열]]`은 특정 열의 모든 행 데이터를 뜻한다.

1. loc 로 year와 pop 열 데이터를 추출하는 방법은 아래와 같다. 이때 콜론으로 행을 지정하여 year와 pop열의 모든 행 데이터를 가져온다.

In [33]:
subset = df.loc[:,['year', 'pop']]
print(subset)

      year       pop
0     1952   8425333
1     1957   9240934
2     1962  10267083
3     1967  11537966
4     1972  13079460
...    ...       ...
1699  1987   9216418
1700  1992  10704340
1701  1997  11404948
1702  2002  11926563
1703  2007  12311143

[1704 rows x 2 columns]


2. 이번에는 iloc 로 3, 5번째와 마지막 열 데이터를 추출해보자. loc 예제와 마찬가지로 콜론을 사용하여 모든 행 데이터를 가져온다.

In [None]:
subset = df.iloc[:, [2, 4, -1]]
print(subset)