# 1. Introduction

데이터 분석에서 가장 많이 사용되는 Python 라이브러리 Pandas에 대해 알아보려고 합니다.

In [1]:
import pandas as pd

- pandas에는 DataFrame과 Series라는 두 가지 핵심 개체가 있습니다.

- 먼저 DataFrame
    - 개별 항목의 배열을 포함하여 각 항목마다 특정 값을 가집니다.
    - 각 항목은 행과 열에 해당합니다.


# 2. DataFrame

In [2]:
# 간단한 DataFrame

pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


DataFrame 항목은 정수로만 제한되지 않습니다.
- 다음은 문자열 DataFrame 예시입니다.

In [3]:
pd.DataFrame({'Bob':['I liked it.', 'It was awful.'], 'Sue':['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


keys(Bob, Sue)가 열이름이고 값이 항목 목록인 딕셔너리입니다.

레이블을 직접 할당하고 싶은 경우, DataFrame에서 사용되는 행 레이블의 목록을 인덱스라고 합니다, 생성자에서 인덱스 매겨변수를 사용하여 인덱스에 값을 할당할 수 있습니다.

In [4]:
pd.DataFrame({'Bob':['I like it.', 'It was awful'],
              'Sue':['Pretty good', 'Bland']},
              index = ['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I like it.,Pretty good
Product B,It was awful,Bland


# 3. Series

DataFrame이 테이블이면  Series는 목록입니다.

In [5]:
pd.Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series는 본질적으로 DataFrame의 단일열입니다.

따라서 인덱스 매개변수를 사용하여 이전과 동일한 방식으로 Series에 행 레이블을 할당할 수 있습니다. 그러나 Series에 열 이름이 없으며 전체 이름 하나만 있습니다.

In [6]:
pd.Series([30,35,40], index = ['2015 Sales', '2016 Sales','2017 Sales'], name= 'Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Series와 DataFrame은 밀접한 관련이 있습니다. 데이터 프레임을 실제로는 여러 개의 시리즈가 서로 붙어 있는 것이라고 생각하면 됩니다. 다음에서 자세하게 살펴보도록 하겠습니다.

DataFrame이나 Series를 직접 만들 수 있으면 편리하지만, 대부분 실제로 데이터를 직접 만들지 않을 것입니다. 그래서 이미 존재하는 데이터로 작업을 할 것입니다.

데이터는 다양한 형태와 형식으로 저장할 수 있습니다. 그 중 가장 기본적인 것은 단순한 CSV파일입니다. 다음 CSV파일을 열면 다음과 같은 내용이 표시됩니다.


# 4. Reading data files

In [7]:
wine_reviews = pd.read_csv("C:\\Users\\yousb\\Desktop\\bincoding\\Pandas\\winemag-data-130k-v2.csv")

In [8]:
# DataFrame 크기 확인하기

wine_reviews.shape

(129971, 14)

In [9]:
# DataFrame 내용 확인하기

wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


The pd.read_csv() function is well-endowed, with over 30 optional parameters you can specify. For example, you can see in this dataset that the CSV file has a built-in index, which pandas did not pick up on automatically. To make pandas use that column for the index (instead of creating a new one from scratch), we can specify an index_col.

pd.read_csv()함수는 30개 이상의 선택적 매개변수를 지정할 수 있는 풍부한 기능을 갖추고 있습니다. 예를들어 이 데이터 세트에서 CSV파일에 팬더가 자동으로 인식하지 못하는 인덱스가 내장되어 있는 것을 볼 수 있습니다. 팬더가 인덱스를 처음부터 새로 생성하는 대신 해당 열을 인덱스로 사용하도록 하려면 index_col을 지정하면 됩니다.

In [10]:
wine_reviews = pd.read_csv("C:\\Users\\yousb\\Desktop\\bincoding\\Pandas\\winemag-data-130k-v2.csv", index_col = 0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
