# 인트로

이 조그마한 코스에서는 데이터 분석을 위한 가장 인기 있는 파이썬 라이브러리인 **[판다스(pandas)](https://pandas.pydata.org)** 에 대해 배울 것입니다.

그 과정에서 당신은 실제 데이터를 이용하여 몇 가지 실습을 하게 될 것입니다. 우리는 해당하는 튜토리얼을 참고하면서 실습 과제를 완료하실 것을 추천합니다.

본 튜토리얼에서 당신은 자신만의 데이터를 생성하고, 이미 존재하는 데이터를 다루는 방법을 배울 것입니다.

# 시작하기

판다스를 사용하기 위해 다음 코드를 실행해야 합니다.

In [1]:
import pandas as pd

# 데이터 생성

판다스에는 두 가지 핵심 객체(object)가 있습니다: **데이터프레임(DataFrame)** 과 **시리즈(Series)** 입니다.

### 데이터프레임(DataFrame)

데이터프레임은 하나의 표(table)입니다. 이는 특정 *값(value)* 을 가지는 *항목(entries)* 들의 배열을 포함합니다. 각 항목은 *행* 또는 *열* 에 해당합니다.

예를 들어, 아래 간단한 데이터프레임을 봅시다:

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


이 예시에서 "0, No" 항목은 131이라는 값을 가집니다. "0, Yes" 항목의 값은 50입니다.

데이터프레임 항목은 정수(integers)로 한정되지 않습니다. 예를 들어, 아래 데이터프레임은 문자열(strings)을 값으로 가집니다:

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


우리는 `pd.DataFrame()` 생성자를 이용해 데이터프레임 객체를 생성하고 있습니다. 데이터프레임을 생성하는 하나의 방법은 키(key)가 행 이름이고 (이번 예시에서는 `Bob`과 `Sue`) 값(value)가 항목의 배열인 딕셔너리(dictionary)를 사용하는 것입니다. 이는 새로운 데이터프레임을 생성하는 표준 방식이며, 가장 쉽게 접할 수 있는 방법입니다.

딕셔너리-리스트 생성자는 키(key)를 *열 레이블* 에 할당하지만, *행 레이블* 로 0 이상의 정수를 (0, 1, 2, 3, ...) 사용합니다. 때로 이는 괜찮을 수 있지만, 대부분의 경우 이러한 레이블을 직접 정하기를 원할 것입니다.

데이터프레임에 사용되는 행 레이블 리스트는 **인덱스(Index)** 라고 불립니다. 우리는 생성자의 `index` 파라미터를 사용함으로써 인덱스 값을 할당할 수 있습니다:

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### 시리즈(Series)

대조적으로, 시리즈는 일련의 데이터 값입니다. 데이터프레임이 표라면 시리즈는 리스트입니다. 실제로 리스트를 이용해 시리즈를 생성할 수 있습니다:

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

시리즈는 본질적으로 데이터프레임의 단일 열입니다. 따라서 이전 방식과 동일하게 `index` 파라미터를 이용해 행 레이블을 할당할 수 있습니다.
그러나, 시리즈는 열 이름이 없고, 대신 전체 `name`이 있습니다:

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

시리즈와 데이터프레임은 밀접한 관련이 있습니다. 데이터프레임을 여러 개의 시리즈가 결합된 것이라고 생각하는 것이 도움이 될 것입니다. 자세한 내용은 본 튜토리얼의 다음 섹션에서 살펴봅시다.

# 데이터 파일 읽기

데이터프레임과 시리즈를 직접 생성할 수 있다는 것은 편리한 점입니다. 하지만, 대부분의 경우, 우리는 데이터를 직접 만들지 않을 것입니다. 대신, 우리는 이미 존재하는 데이터를 이용할 것입니다.

데이터는 다양한 형태와 형식으로 저장될 수 있습니다. 이 중 단연코 가장 기본적인 것은 초라한 CSV 파일입니다. CSV 파일을 열면 다음과 같은 형태를 볼 수 있습니다:

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

CSV 파일은 쉼표로 구분된 값으로 이루어진 표입니다. 따라서 이름이 "Comma-Separated Values", 즉 CSV입니다.

이제 장난감 같은 데이터셋을 제쳐두고 실제 데이터를 데이터프레임으로 읽었을 때 어떤 모습인지 살펴보겠습니다. `pd.read_csv()` 함수를 이용해 데이터를 데이터프레임으로 읽어 들이겠습니다. 다음처럼 하면 됩니다:

In [7]:
wine_reviews = pd.read_csv("../../data/wine-reviews/winemag-data-130k-v2.csv")

데이터프레임이 얼마나 큰지 확인하기 위해 `shape` 어트리뷰트(attribute)를 확인할 수 있습니다:

In [8]:
wine_reviews.shape

(129971, 14)

우리의 새로운 데이터프레임은 약 130,000개의 행과 14개의 열로 이루어져 있습니다. 이는 거의 2백만 개의 항목으로 이루어진 것입니다!

우리는 첫 다섯 행을 추출하는 `head()` 명령어를 이용해 데이터프레임을 검사할 수 있습니다:

In [9]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


`pd.read_csv()` 함수는 30개 이상의 선택적 파라미터를 제공합니다. 예를 들어, 보시다시피 CSV 파일에는 판다스가 자동으로 선택하지 않은, 기본으로 제공하는 인덱스가 있습니다. 판다스가 해당 열을 인덱스로 사용하기를 원한다면, `index_col`을 지정할 수 있습니다.

In [10]:
wine_reviews = pd.read_csv("../../data/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
