# Introduction

파이썬의 인기있는 데이터분석 라이브러리 pandas 학습
존재하는 데이터로 작업하는 법과 고유 데이터를 만드는 방법 학습

# Getting started

pandas를 사용하기 위해선 일반적으로 다음과 같은 코드를 사용한다.

In [3]:
import pandas as pd

# Creating data

pandas에는 두가지 중요한 오브젝트가 있다: DataFrame, Series

### DataFrame

DataFrame은 각각의 개별의 엔트리를 가진 테이블이다. 엔트리는 특정 값을 가지고 있고 각각의 엔트리는 행과 열로 이루어져있다.

예를 들어 아래의 DataFrame을 보면

In [4]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


예제에서 "0, No" 엔트리는 131이라는 값을 가지고 "0 Yes"엔트리의 값은 50이다.

DataFrame의 엔트리는 integer에 제한되지 않는다 예를 들어 다음은 문자열값을 가진 DataFrame이다.


In [5]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


DataFrame 객체를 생성하기 위해 `pd.DataFrame()` 생성자를 사용하고 있습니다. 새 것을 선언하는 구문은 키가 열 이름(이 예에서는 'Bob' 및 'Sue')이고 값이 항목 목록인 사전입니다. 이것은 새로운 DataFrame을 구성하는 표준 방법이며 가장 많이 접하게 되는 방법입니다.

사전 목록 생성자는 열 레이블에 값을 할당하지만 행 레이블에는 0(0, 1, 2, 3, ...)부터 오름차순 개수만 사용합니다. 때때로 이것은 괜찮지만 종종 우리는 이러한 레이블을 스스로 할당하고 싶을 것입니다.

DataFrame에서 사용되는 행 레이블 목록을 인덱스라고 합니다. 생성자에서 `index` 매개변수를 사용하여 값을 할당할 수 있습니다.

In [6]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series

반대로 Series는 데이터 값의 시퀀스입니다. DataFrame이 테이블이면 Series는 목록입니다. 그리고 사실 list만 있으면 만들 수 있습니다.

In [7]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

A Series is, in essence, a single column of a DataFrame. So you can assign column values to the Series the same way as before, using an `index` parameter. However, a Series does not have a column name, it only has one overall `name`:
Series는 본질적으로 DataFrame의 단일 열입니다. 따라서 `index` 매개변수를 사용하여 이전과 동일한 방식으로 Series에 열 값을 할당할 수 있습니다. 그러나 시리즈에는 열 이름이 없으며 전체 '이름'하나만 있습니다.

In [8]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Series와 DataFrame은 밀접하게 관련되어 있습니다. DataFrame을 실제로 "함께 붙인" 시리즈의 무리라고 생각하는 것이 도움이 됩니다. 이 자습서의 다음 섹션에서 이에 대해 더 자세히 살펴보겠습니다.

# Reading data files

DataFrame 또는 Series를 손으로 생성할 수 있으면 편리합니다. 그러나 대부분의 경우 우리는 실제로 직접 데이터를 생성하지 않습니다. 대신 이미 존재하는 데이터로 작업할 것입니다.

데이터는 다양한 형식과 형식으로 저장할 수 있습니다. 가장 기본적인 것은 겸손한 CSV 파일입니다. CSV 파일을 열면 다음과 같은 내용이 표시됩니다.


```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

CSV 파일은 쉼표로 구분된 값 테이블입니다.: "Comma-Separated Values", or CSV.

이제 toy data 세트를 따로 두고 DataFrame으로 읽을 때 실제 데이터 세트가 어떻게 보이는지 봅시다. `pd.read_csv()` 함수를 사용하여 데이터를 DataFrame으로 읽는다.

In [9]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")

`shape` 속성을 사용하여 결과 DataFrame이 얼마나 큰지 확인할 수 있습니다.

In [10]:
wine_reviews.shape

(129971, 14)

DataFrame에는 14개의 다른 열로 분할된 130,000개의 레코드가 있습니다.

처음 5개 행을 가져오는 `head()` 명령을 사용하여 결과 DataFrame의 내용을 검사할 수 있습니다.

In [11]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


The `pd.read_csv()` function is well-endowed, with over 30 optional parameters you can specify. For example, you can see in this dataset that the CSV file has a built-in index, which pandas did not pick up on automatically. To make pandas use that column for the index (instead of creating a new one from scratch), we can specify an `index_col`.
`pd.read_csv()` 함수는 30개 이상의 선택적 매개변수를 지정할 수 있는 풍부한 기능을 갖추고 있습니다. 예를 들어 이 데이터 세트에서 CSV 파일에 기본 제공 인덱스가 있음을 알 수 있습니다. pandas는 자동으로 선택하지 않습니다. pandas가 인덱스에 대해 해당 열을 사용하도록 하려면(처음부터 새로 만드는 대신) `index_col`을 지정할 수 있습니다.

In [12]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


# Your turn

If you haven't started the exercise, you can **[get started here](https://www.kaggle.com/kernels/fork/587970)**.

---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/161299) to chat with other Learners.*