# Pandas 기본 문법

## DataFrame indexing

In [18]:
import pandas as pd

In [19]:
two_dimensional_list = [ ['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

In [20]:
my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,89,31
c,ikjoong,68,91
d,yoonsoo,88,75


In [10]:
type(my_df)

pandas.core.frame.DataFrame

In [13]:
my_df.columns

Index(['name', 'english_score', 'math_score'], dtype='object')

In [14]:
my_df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [15]:
my_df.dtypes

name             object
english_score     int64
math_score        int64
dtype: object

## CSV (Comma-Separated Values)

* 쉼표로 나누어져 있는 값들

```python
import pandas as pd
pd.read_csv('파일 경로')  # 파일 사이는 '/'로 구분한다
```

Pandas는 CSV의 첫번째 줄을 자동으로 `header`라고 인식해서 DataFrame을 만들어준다.  
header가 없는 CSV라면 `header` 파라미터를 이용하여, header=None 으로 둔다.    
`index_col` 파라미터를 이용하여 해당 column을 index 이름으로 사용할 수 있다


## dataframe에서 값 뽑아오기

In [22]:
my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,89,31
c,ikjoong,68,91
d,yoonsoo,88,75


#### 특정 값 하나를 받아오고 싶다면
```python
my_df.loc['행이름','열이름']
```

In [21]:
my_df.loc['a', 'name']

'dongwook'

#### 특정한 행 전체를 받아오고 싶다면
```python
my_df.loc['행이름']
my_df.loc['행이름', :]
```

In [23]:
my_df.loc['d']

name             yoonsoo
english_score         88
math_score            75
Name: d, dtype: object

#### 특정한 열 전체를 받아오고 싶다면
```python
my_df.loc[:,'열이름']
my_df['열이름']
```

In [24]:
my_df['english_score']

a    50
b    89
c    68
d    88
Name: english_score, dtype: int64

#### 여러개의 행을 받아오고 싶다면
```python
my_df.loc[['행1', '행2',...,'행n']]
```
python 리스트 슬라이싱 사용해도 된다.

In [26]:
my_df.loc[['b','d']]

Unnamed: 0,name,english_score,math_score
b,sineui,89,31
d,yoonsoo,88,75


#### 여러개의 열도 동일합니다.

In [27]:
my_df[['name','english_score']]

Unnamed: 0,name,english_score
a,dongwook,50
b,sineui,89
c,ikjoong,68
d,yoonsoo,88


### 여러개의 값을 뽑아오고 싶어요/ 슬라이싱도 되나요

In [1]:
import pandas as pd

In [19]:
iphone_df = pd.read_csv('iphone.csv', index_col=0)
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


#### 특정한 여러개를 뽑아올 땐 리스트를 넣어준다

In [5]:
iphone_df.loc[['iPhone X', 'iPhone 8']]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No


In [6]:
iphone_df[['디스플레이', '메모리']]

Unnamed: 0,디스플레이,메모리
iPhone 7,4.7,2GB
iPhone 7 Plus,5.5,3GB
iPhone 8,4.7,2GB
iPhone 8 Plus,5.5,3GB
iPhone X,5.8,3GB
iPhone XS,5.8,4GB
iPhone XS Max,6.5,4GB


#### 슬라이싱도 된다.

In [7]:
iphone_df.loc['iPhone 8':'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [8]:
iphone_df.loc[:'iPhone XS']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes


In [9]:
iphone_df.loc['iPhone 8':]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


#### column 슬라이싱은 조금 복잡함

In [13]:
iphone_df.loc[:, '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes
iPhone XS Max,4GB,iOS 12.0,Yes


In [14]:
iphone_df.loc['iPhone 7':'iphone X', '메모리':'Face ID']

Unnamed: 0,메모리,출시 버전,Face ID
iPhone 7,2GB,iOS 10.0,No
iPhone 7 Plus,3GB,iOS 10.0,No
iPhone 8,2GB,iOS 11.0,No
iPhone 8 Plus,3GB,iOS 11.0,No
iPhone X,3GB,iOS 11.1,Yes
iPhone XS,4GB,iOS 12.0,Yes
iPhone XS Max,4GB,iOS 12.0,Yes


### 데이터 프레임 조건으로 인덱싱

#### boolean 값으로도 인덱싱 가능

In [15]:
iphone_df.loc[[True, False, True, False, False, False, False]]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No


#### 조건에 맞는 항목만 뽑을 수도 있다

In [21]:
iphone_df['디스플레이'] > 5

iPhone 7         False
iPhone 7 Plus     True
iPhone 8         False
iPhone 8 Plus     True
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: 디스플레이, dtype: bool

In [24]:
iphone_df[iphone_df['디스플레이']>5]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [25]:
iphone_df['Face ID'] == 'Yes'

iPhone 7         False
iPhone 7 Plus    False
iPhone 8         False
iPhone 8 Plus    False
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: Face ID, dtype: bool

In [26]:
iphone_df[iphone_df['Face ID'] == 'Yes']

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


#### 두가지 조건을 걸어줄 수도 있다 ( & / | )

In [30]:
iphone_df[(iphone_df['디스플레이'] > 5) & (iphone_df['Face ID'] == 'Yes')]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


#### DataRrame 위치로 인덱싱하기 `iloc[row, column]`

In [31]:
iphone_df.iloc[2,4]

'No'

#### `,iloc[[row, row], [col, col]]`

In [32]:
iphone_df.iloc[[1,3],[1,4]]

Unnamed: 0,디스플레이,Face ID
iPhone 7 Plus,5.5,No
iPhone 8 Plus,5.5,No


In [34]:
iphone_df.iloc[3:, 1:4]

Unnamed: 0,디스플레이,메모리,출시 버전
iPhone 8 Plus,5.5,3GB,iOS 11.0
iPhone X,5.8,3GB,iOS 11.1
iPhone XS,5.8,4GB,iOS 12.0
iPhone XS Max,6.5,4GB,iOS 12.0
