<a href="https://colab.research.google.com/github/swhacademy/tensorflow-guide/blob/master/0_3_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 참고 사이트


*   https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

# Pandas

- 데이타 분석(Data Analysis)을 위해 널리 사용되는 파이썬 라이브러리 패키지

## Pandas 자료구조

1.   1차원 자료구조인 Series
2.   2차원 자료구조인 DataFrame
3.   3차원 자료구조인 Panel

## Pandas 모듈

In [9]:
import pandas as pd
pd.__version__

'0.24.2'

## Series

*   1차원 데이터에 행방향으로 인덱스를 붙인 것
*   시리즈(series) = 값(value) + 인덱스(index)
*   값(value) = NumPy의 1차원 배열 or 리스트
*   인덱스와 값의 길이가 동일



In [0]:
import pandas as pd
import numpy as np

### Series 만들기

In [70]:
# 리스트로 만들기
a = [1, 3, 5, 7, 9]
s = pd.Series(a) # 인덱스를 지정하지 않으면 0부터 시작하는 정수값
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [71]:
# Numpy Array로 만들기
a = np.array([3.0, 4.7, 2.7])
b = np.array(["코야", "레종", "유키"])
s = pd.Series(a, b) # 값과 리스트 모두 리스트 뿐만 아니라 Numpy의 Array형태도 가능
s

코야    3.0
레종    4.7
유키    2.7
dtype: float64

In [90]:
# 딕셔너리로 만들기
s1 = pd.Series({"코야":4.0, "레종":5.6, "유키":4.1}) # 5년 뒤
s1

코야    4.0
레종    5.6
유키    4.1
dtype: float64

In [95]:
# 속성으로 인덱스와 값에 접근가능
print(s.index)
print(s.values)

Index(['코야', '레종', '유키'], dtype='object', name='No.')
[3.  4.7 2.7]


In [74]:
s.name = "체중"
s.index.name = "No."
s

No.
코야    3.0
레종    4.7
유키    2.7
Name: 체중, dtype: float64

### Series 연산

*   NumPy 배열처럼 시리즈도 벡터화 연산



In [75]:
s * 10

No.
코야    30.0
레종    47.0
유키    27.0
Name: 체중, dtype: float64

In [86]:
# 인덱스 기반 연산
s1 - s # 5년 뒤 체중 변화

코야    1.0
레종    0.9
유키    1.4
dtype: float64

In [116]:
# 연산
print(s[s > 3.0])
print(s['레종' in s])

No.
레종    4.7
Name: 체중, dtype: float64
4.7


### Series 인덱싱

*   Numpy 배열처럼 위치를 통한 인덱싱
*   인덱스(딕셔너리의 key)을 통한 인덱싱
*   인덱스의 배열 또는 리스트를 넣으면 부분적인 Series 리턴



In [124]:
# 위치를 통한 인덱싱
print(s[2])

# 인덱스를 통한 인덱싱
print(s['유키'])

# 인덱스의 배열 또는 리스트을 통한 인덱싱
print(s[[2, 0]])
print(s[['레종', '코야']])

2.7
2.7
No.
유키    2.7
코야    3.0
Name: 체중, dtype: float64
No.
레종    4.7
코야    3.0
Name: 체중, dtype: float64


### Series 슬라이싱

*   인덱스(딕셔너리의 key)을 통한 슬라이싱

In [87]:
print(s['레종':'유키'])
print(s['유키':'레종'])

No.
레종    4.7
유키    2.7
Name: 체중, dtype: float64
Series([], Name: 체중, dtype: float64)


### 데이터 추가 / 수정/ 삭제

In [91]:
s1['레종'] = 1.1 # 추가 및 수정 다 가능
print(s1)
del s1['레종'] # 삭제
print(s1)

코야    4.0
레종    1.1
유키    4.1
dtype: float64
코야    4.0
유키    4.1
dtype: float64


### Series 와 딕셔너리 자료형

*   Series는 딕셔너리 자료형과 유사하여 `item`메소드처럼 딕셔너리에서 제공되는 메소드를 사용

In [82]:
# 딕셔너리 자료형
for k, v in s.items():
    print("%s = %d" % (k, v))

코야 = 3
레종 = 4
유키 = 2


## DataFrame

*   2차원 데이터에 인덱스를 붙인 것
*   행과 열 모두 인덱스를 붙인 형태

### DataFrame 만들기

In [100]:
data = {
    '고양이': ['코야', '레종', '유키'],
    '체중': [3.0, 4.7, 2.8],
    '생년월일': ['2010.6', '2013.2', '2015.10']
}
 
df = pd.DataFrame(data)
df

Unnamed: 0,고양이,체중,생년월일
0,코야,3.0,2010.6
1,레종,4.7,2013.2
2,유키,2.8,2015.1


In [130]:
columns = ["고양이", "체중", "생년월일"]
index = ["No1", "No2", "No3"]
df = pd.DataFrame(data, index=index, columns=columns) # data의 키 값이 columns이므로 columns는 생략 가능
df

Unnamed: 0,고양이,체중,생년월일
No1,코야,3.0,2010.6
No2,레종,4.7,2013.2
No3,유키,2.8,2015.1


In [131]:
# 속성으로 인덱스와 값에 접근가능
print(df.index)
print(df.values)
print(df.columns)

Index(['No1', 'No2', 'No3'], dtype='object')
[['코야' 3.0 '2010.6']
 ['레종' 4.7 '2013.2']
 ['유키' 2.8 '2015.10']]
Index(['고양이', '체중', '생년월일'], dtype='object')


In [132]:
df.index.name = 'No.'
df.columns.name = '구분'
df

구분,고양이,체중,생년월일
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No1,코야,3.0,2010.6
No2,레종,4.7,2013.2
No3,유키,2.8,2015.1


### DataFrame 연산

*   Series와 유사



In [133]:
df1 = df * 2
df1

구분,고양이,체중,생년월일
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No1,코야코야,6.0,2010.62010.6
No2,레종레종,9.4,2013.22013.2
No3,유키유키,5.6,2015.102015.10


In [134]:
df + df1 # '-' 연산은 안된다. 문자열 때문.

구분,고양이,체중,생년월일
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No1,코야코야코야,9.0,2010.62010.62010.6
No2,레종레종레종,14.1,2013.22013.22013.2
No3,유키유키유키,8.4,2015.102015.102015.10


### DataFrame 열 인덱싱

* 열 이름(딕셔너리의 key)을 통한 인덱싱
* 열 이름의 배열 또는 리스트를 넣으면 부분적인 DataFrame 리턴

In [163]:
# 열 이름
print(df['고양이'])
print(df['생년월일'])
print(type(df['고양이'])) # 열 이름으로 인덱싱하면 'Series'

# 열 이름의 배열
print(df[['고양이','체중']])
print(type(df[['고양이']])) # 열 이름을 배열로 인덱싱하면 열이 하나라도 'DataFrame'

No.
No1    코야
No2    레종
No3    유키
Name: 고양이, dtype: object
No.
No1     2010.6
No2     2013.2
No3    2015.10
Name: 생년월일, dtype: object
<class 'pandas.core.series.Series'>
구분  고양이   체중
No.         
No1  코야  3.0
No2  레종  4.7
No3  유키  2.8
<class 'pandas.core.frame.DataFrame'>


In [136]:
# 위치을 통한 인덱싱
print(df[0])

KeyError: ignored

In [137]:
data1 = {
    1: ['코야', '레종', '유키'],
    2: [3.0, 4.7, 2.8],
    3: ['2010.6', '2013.2', '2015.10']
}
 
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,1,2,3
0,코야,3.0,2010.6
1,레종,4.7,2013.2
2,유키,2.8,2015.1


In [140]:
# 위치을 통한 인덱싱. 열 이름이 문자열이 아니고 정수형이면 가능
print(df1[1])

0    코야
1    레종
2    유키
Name: 1, dtype: object


### DataFrame 행 인덱싱

* 행 단위로의 인덱싱은 항상 슬라이싱

In [151]:
df[:2]

구분,고양이,체중,생년월일
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No1,코야,3.0,2010.6
No2,레종,4.7,2013.2


In [158]:
print(df['No1':'No3']) # 인덱스 값이 문자열이면 (시작<= <=끝)
print(df1[1:2]) # 인덱스 값이 숫자라면 (시작<= <끝)

구분  고양이   체중     생년월일
No.                  
No1  코야  3.0   2010.6
No2  레종  4.7   2013.2
No3  유키  2.8  2015.10
    1    2       3
1  레종  4.7  2013.2


### DataFrame 개별 데이터 인덱싱

*   DataFrame을 열 이름으로 인덱싱하면 Series. 해당 Series을 행 이름(인덱스)으로 인덱싱.

In [171]:
y = df['고양이'] # 열이름
y['No2'] # 인덱스

No.
No1    코야
No2    레종
No3    유키
Name: 고양이, dtype: object

### DataFrame 인덱싱 정리

| 행/열 | 인덱싱 값 | 가능 | 자료형 | 추가사항 |
|---|---|---|---|---|---|
| 열 | 이름 | O | Series |  |
| 열 | 이름 리스트 | O | DataFrame |  |
| 열 | 정수형 인덱스  | X |  | 열 이름이 정수인 경우에는 가능 |
| 행 | 정수형 슬라이스  | O | DataFrame |  |
| 행 | 인덱스 값을 통한 슬라이스(문자열)  | O | DataFrame |  |