# 판다스 시작하기
## 데이터셋 불러오기

### 실습에서 사용할 데이터셋은 [여기](https://github.com/easysIT/doit_pandas)에서 다운로드할 수 있다.

판다스는 파이썬과 함께 제공되는 표준 라이브러리가 아니므로 먼저 주피터 노트북에서 새로운 노트북을 열어 라이브러리를 불러와야 한다.  
이후 데이터셋 "gapminder.csv" 를 `pd.read_csv()` 메서드로 불러오자.

In [10]:
import pandas as pd

In [11]:
df = pd.read_csv("data/gapminder.csv", sep="\t")

csv 파일은 기본적으로 콤마(`,`)로 구분되어 있다고 가정한다. 그러나 `gapminder.tsv` 파일은 탭을 기준으로 구분되어 있다.  따라서 구분 값을 `read_csv()` 메서드에 알려줘야한다. 해당 동작은 `sep=` 파라미터로 처리될 수 있다.

In [12]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


In [13]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


데이터프레임 객체는 shape 속성을 사용해 저장된 데이터셋의 행과 열의 개수를 확인할 수 있다.   
shape 속성은 첫 번째 값이 행 개수이고 두 번째 값이 열 개수인 튜플을 반환한다.

In [14]:
df.shape

(1704, 6)

결과를 보면 이 데이터셋은 1704개의 행과 6개의 열로 구성된다는 것을 확인할 수 있다.  
참고로 shape는 메서드가 아니기 때문에 괄호를 붙이면 오류가 난다.
  
이번에는 데이터셋에 어떤 정보가 있는지 알아보자. shape 속성과 마찬가지로 columns 속성을 사용하면 데이터프레임의 열 이름을 확인할 수 있다. 불러온 데이터셋의 열 이름은 각각 country, continent, year, lifeExp, pop, pdfPercap 이다. 

In [15]:
df.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

데이터프레임 객체의 각 열은 같은 자료형이어야 하지만 각 행은 여러 가지 자료형일 수 있다. dtypes 속성으로 갭마인더 데이터셋의 각 열이 어떤 자료형인지를 확인할 수 있다.

In [16]:
df.dtypes

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

열의 자료형뿐만 아니라 데이터와 관련된 다양한 정보를 함께 확인하고 싶다면 `info()` 메서드를 사용한다.

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


판다스의 자료형은 파이썬과 다르다!  
country는 object로, year는 int64라는 자료형을 출력했다. 이처럼 판다스는 파이썬과는 다른 자료형을 사용한다. 다음 표를 보고 판다스와 파이썬의 자료형이 어떻게 다른지 알아두자.  

| 판다스        | 파이썬      | 설명                           |
|------------|----------|------------------------------|
| object     | string   | 문자열, 가장 일반적인 자료형             |
| datetime64 | datetime | 표준 라이브러리 datetime에서 제공하는 자료형 |
| int64      | int      | 정수                           |
| float64    | float    | 소수점이 있는 숫자                   |

## 데이터 추출하기  

불러온 데이터 파일의 내용을 살펴보자.     
단순하게 데이터프레임의 내용을 `print()`로 출력할 수도 있지만 대부분의 데이터는 다양한 정보를 포함하므로 그대로 출력하면 한눈에 내용을 파악하기 어렵다.     
작은 단위로 데이터를 쪼개서 살펴보는 것이 좋다. 데이터프레임에 `head()` 메서드를 사용하면 가장 앞 5개 행을 확인할 수 있다.

In [18]:
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


## 열 데이터 추출하기
데이터프레임에 열 이름을 지정한 대괄호를 덧붙이면 데이터의 특정 열에 접근할 수 있다.

### 문자열로 열 데이터 추출하기
1. 먼저 불러온 데이터프레임 df 에서 country 열 데이터를 추출하고 그 결과를 country_df 변수에 저장한다.

In [19]:
country_df = df["country"]

2. 데이터프레임과 마찬가지로 각 열에서도 `head()` 메서드를 호출할 수 있다.

In [21]:
country_df.head()

0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object

3. `head()` 와 반대로 마지막 5개 행을 출력하는 `tail()` 메서드도 있다. 

In [22]:
country_df.tail()

1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object

### 리스트로 열 데이터 추출하기

1. 열 이름으로 여러 열의 데이터를 추출하고 싶다면 대괄호 안에 열 이름 리스트를 전달한다.  
    이때 대괄호는 [[]]와 같이 이중으로 중첩한다. 바깥 대괄호는 데이터프레임에서 열을 추출한다는 뜻이다.  
    안쪽 대괄호는 선택할 열 목록을 지정한 파이썬 리스트이다.

2. df 에서 country, continent, year 등 3개 열 데이터를 추출하고 그 결과를 subset 변수에 저장하자.

In [23]:
subset = df[["country", "continent", "year"]]

In [24]:
subset.head()

Unnamed: 0,country,continent,year
0,Afghanistan,Asia,1952
1,Afghanistan,Asia,1957
2,Afghanistan,Asia,1962
3,Afghanistan,Asia,1967
4,Afghanistan,Asia,1972
