### Pandas
데이터 분석을 위한 가장 보편적으로 쓰이는 라이브러리

In [1]:
import pandas as pd

### DataFrame

In [2]:
# 데이터 프레임은 테이블이다
# 개별 항목의 배열이 포함되어 있으며 각 항목에는 특정 값이 있다 또한 각 항목은 행(row 또는 record)와 열(column)에 해당한다

pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

# 이 데이터프레임에서 0(행), No(열) 의 항목에 해당하는 값은 131 이다

Unnamed: 0,Yes,No
0,50,131
1,21,2


In [3]:
# 데이터프레임을 생성하는 방식
# pd.DataFrame()을 사용하여 DataFrame 객체를 생성한다
# 이때 () 안의 딕셔너리 값이 들어가게되면 키값들은 열의 이름이 되고 키에 해당하는 값들의 인덱스가 행이되며 각 값들의 요소가 항목의 값이 된다

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

# Bob 키의 값은 ['I liked it.', 'It was awful.'] 이다
# 따라서 열의 이름은 Bob가 되고 행은 값의 인덱스 0, 1이 되며 0, Bob 의 값은 해당 값 'I liked it.'이 된다

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


In [4]:
# 인덱스를 행의 라벨로 쓸수도 있지만 직접 지정할 수도 있다

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

# index=['Product A', 'Product B']) >> 행의 라벨을 직접 지정

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series

In [5]:
# 대략적으로 Series는 데이터 값의 시퀀스이다
# DataFrame이 테이블이면 Series는 리스트와 같다

pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series와 DataFrame의 관계

In [10]:
# Series는 본질적으로 DataFrame의 단일 열과 같다
# 따라서 매개변수를 사용하여 이전과 같은 방식으로 Series에 행 레이블을 할당할 수 있다 >> index = []
# Series에는 열 이름이 없으며 하나의 열로만 구성되어 있다

pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

In [15]:
# Series와 DataFrame은 긴밀하게 관련되어 있다
# DataFrame은 Series의 집단을 옆으로 붙여 놓은 것이라 생각하면 된다

# 시리즈 생성
series_1 = pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')
series_2 = pd.Series([20, 25, 30], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product B')
series_3 = pd.Series([10, 15, 20], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product C')

# 각 시리즈를 데이터프레임으로 변환하여 열로 결합
df = pd.concat([series_1, series_2, series_3], axis=1) # axis=1 열방향을 기준으로 붙인다(옆으로 붙인다)

print(df)
print(type(df)) # 타입 = DataFrame

# concat()함수를 사용하여 여러개의 시리즈를 합쳐서 데이터프레임으로 만들었다
# 이때 시리즈의 name은 데이터프레임의 열 이름으로 사용된다

            Product A  Product B  Product C
2015 Sales         30         20         10
2016 Sales         35         25         15
2017 Sales         40         30         20
<class 'pandas.core.frame.DataFrame'>


### 데이터 파일 불러오기

In [17]:
# DataFrame이나 Series를 직접 만들 수도 있지만 대부분의 경우 이미 존재하는 데이터 파일을 불러온다
# 데이터 파일의 대표적인 형식은 csv 파일이다 (comma-separated values : 쉼표로 구분된 파일 형식)

wine_reviews = pd.read_csv("./Data/winemag-data-130k-v2.csv")

In [18]:
# shape : 데이터의 모양(크기)가 출력된다
wine_reviews.shape

(129971, 14)

In [19]:
# head() : 데이터의 첫 5행이 출력된다
# 데이터 행이 129971개나 되기 때문에 데이터를 확인하고자 전체를 출력하기는 무겁다 따라서 head()를 사용하여 머리부분만 확인
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [20]:
# tail() : 끝 부분 5행이 출력된다
wine_reviews.tail()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


In [22]:
# index_col=0 >> 인덱스가 새로 생기는 것을 방지하는 코드
# 데이터의 첫 열에 인덱스가 이미 포함되어 있는 경우 그냥 불러오게 되면 인덱스를 다시 새로 생성하면서 Unnamed: 0 과 같은 인덱스 정보행이 생기게 된다(중복)
# 따라서 index_col 가 0이다 라고 알려줘서 중복을 방지한다

wine_reviews = pd.read_csv("./Data/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
