In [1]:
import pandas as pd

## Creating data
pandas에는 두개의 핵심 object가 있다. DataFrame 과 Series

### DataFrame
DataFrame은 테이블이다. 여기에는 각각 특정 값이 있는 개별 항목의 배열이 포함된다. 각 항목은 행 및 열에 해당한다.

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


여기서 "0, No"의 항목은 131이며 "0, Yes"는 50이다. <br>
DataFrame의 항목은 문자열도 가능하다.

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
             'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


```pd.DataFrame()``` 생성자를 사용하여 DataFrame 객체를 생성한다. column names과 values의 리스트로 구성된 dictionary로 새로운 구문을 선언한다. 이것이 기본적인 방법이며 가장 많이 접하게 될 것이다. <br>
행 레이블에 라벨을 붙이고 싶다면 ```index``` 파라미터를 사용하면 된다. 

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series
Series(시계열)는 데이터 값의 시퀀스다. DataFrame이 테이블이면 Series는 list다.

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series는 단일 column의 DataFrame이다. 따라서 이전과 동일합 방벙으로 series에 index 매개변수를 할당할 수 있다.

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

## Reading data files
DataFrame이나 Series를 사용할 때 직접 데이터를 만들 수 있지만 대부분의 경우 실제로 데이터를 만들지 않고 이미 존재하는 데이터로 작업을 한다. <br>
데이터는 다양한 형태와 형식으로 저장할 수 있다. 가장 기본적인 것은 CSV 파일이다. CSV 파일을 열면 다음과 같다.

Product A, Product B, Product C, <br>
30, 21, 9, <br>
35, 34, 1, <br>
41, 11, 11

CSV 파일은 콤마로 분리되어있다. ("Comma-Separated Values" 의 약자)

wine_review Dataset : https://www.kaggle.com/zynicide/wine-reviews
<br>
```pd.read_csv()```함수를 사용해서 DataFrame으로 data를 읽는다.

In [8]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")

```shape```속성을 사용해 DataFrame의 크기를 알 수 있다.

In [9]:
wine_reviews.shape

(129971, 14)

```head()``` 명령어를 사용하여 DataFrame의 결과를 검토할 수 있다. (처음 5개 행)

In [10]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


```pd.read_csv()``` 함수는 사용자가 지정할 수 있는 30개 이상의 파라미터가 있다. <br>
예를 들어, 이 데이터셋에서는 기본으로 제공하는 인덱스가 있기 때문에 ```index_col```을 사용하여 조정할 수 있다.

In [11]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


DataFrame은 ```to_csv``` 메서드를 통해 csv 파일로 저장할 수 있다.

In [12]:
animals = pd.DataFrame({'Cows': [12, 20], 'Goats': [22, 19]}, index=['Year 1', 'Year 2'])
animals

Unnamed: 0,Cows,Goats
Year 1,12,22
Year 2,20,19


In [13]:
animals.to_csv('cows_and_goats.csv')