# Pandas
- Python Data Analysis 라이브러리
- 데이터 프레임, 시리즈 구조를 이용한 데이터 처리 및 가공, 분석을 지원

## 데이터 프레임
- 스프레드 시트 처럼 행과 열 구조로 이루어진 테이블 형태의 자료구조
- 1개의 데이터 프레임에는 다양한 이종의 자료들을 담을 수 있음
- 정확한 자료형의 명칭은 pandas.DataFrame

## 행
- 1개의 행은 여러개의 자료형의 데이터를 가질 수 있는 튜플
- 각각의 행의 이름과 인덱스로 구분
- 행의 이름은 단순히 인덱스와 동일한 경우가 많음

## 열
- 1개의 열은 모두 동일한 자료형의 데이터를 가짐
- 각각의 열의 이름과 인덱스로 구분

## 시리즈
- 데이터 프레임에서의 1개의 열을 의미
- 2차원의 데이터 프레임과 달리, 시리즈는 1차원 형태의 자료 구조
- 각각의 항목의 이름과 인덱스로 구분
- 정확한 자료형의 명칭은 panda.Series

In [8]:
# 순차 자료형 만들기
# '자료'는 리스트 또는 1차원 배열
# index 옵션으로 원하는 인덱스 값들을 지정할수 있다. 옵션을 주지 않으면 0부터 시작하는 정수가 된다
import pandas as pd
a = pd.Series(["a","b","c","d"])
b = pd.Series([10,20], index=[1,2])
a,b

(0    a
 1    b
 2    c
 3    d
 dtype: object,
 1    10
 2    20
 dtype: int64)

In [15]:
# 시리즈의 주요 속성
# Series.values : 시리즈가 가지고 있는 항목의 값들
# Series.index : 시리즈의 인덱스들
# Series.dtypes : 시리즈에 들어 있는 값들의 자료형
a = pd.Series([10,20,30],index = range(1,4))
a.values,a.index,a.dtypes

(array([10, 20, 30], dtype=int64),
 RangeIndex(start=1, stop=4, step=1),
 dtype('int64'))

In [19]:
# 시리즈의 인덱스 일괄 변경
a = pd.Series([10,20,30],index = range(1,4))
a.index = "one","two","three"
a

one      10
two      20
three    30
dtype: int64

In [22]:
# 사전 자료로 시리즈 만들기
# Series 클래스를 이용할 때 사전 자료를 사용할수 있음
# 사전의 항목들의 각 키가 자동으로 인덱스로 적용
# index 옵션을 사전의 키로 직접 지정하면 순서가 부여된다
data = {111:"홍길동",222:"성춘향",333:"이순신"}
a = pd.Series(data)
idx = [222,333,111]
b = pd.Series(data,index=idx)
a,b

(111    홍길동
 222    성춘향
 333    이순신
 dtype: object,
 222    성춘향
 333    이순신
 111    홍길동
 dtype: object)

In [26]:
# 시리즈에 대한 인덱싱
# 번호 기반의 인덱싱과 라벨 기반의 인덱싱을 할 수 있다
# 인덱스 라벨이 문자열인 경우, '.' 기호로 접근할 수도 있다
data = {"홍길동":85,"성춘향":93.5,"이순신":77}
score = pd.Series(data)
score[0],score["성춘향"],score.이순신

(85.0, 93.5, 77.0)

In [30]:
# 시리즈에 대한 슬라이싱
# 번호 기반 또는 라벨 기반의 슬라이싱을 할 수 있다
# 인덱스 라벨로 슬라이싱하면 끝라벨을 포함한다
print(score)
print("=====")
print(score[0:2])
print("=====")
print(score["성춘향"])
print("=====")
print(score["홍길동":"성춘향"])

홍길동    85.0
성춘향    93.5
이순신    77.0
dtype: float64
=====
홍길동    85.0
성춘향    93.5
dtype: float64
=====
93.5
=====
홍길동    85.0
성춘향    93.5
dtype: float64


In [32]:
# 시리즈에 대한 연산
# 배열처럼 일반적인 사칙 연산이 가능
a = pd.Series([10,20,30], index = range(1,4))
print(a)
print("=====")
print(a+1)
print("=====")
print(a-2)
print("=====")
print(a*3)
print("=====")
print(a/4)
print("=====")

1    10
2    20
3    30
dtype: int64
=====
1    11
2    21
3    31
dtype: int64
=====
1     8
2    18
3    28
dtype: int64
=====
1    30
2    60
3    90
dtype: int64
=====
1    2.5
2    5.0
3    7.5
dtype: float64
=====


In [41]:
# 시리즈 간의 사칙 연산 시에는 동일한 인덱스의 값들끼리 연산한다
a = pd.Series([10,20,30], index = range(1,4))
b = pd.Series([100.0,150.0,200.0])
print(a+b)
print("=====")
print(a*b)

0      NaN
1    160.0
2    220.0
3      NaN
dtype: float64
=====
0       NaN
1    1500.0
2    4000.0
3       NaN
dtype: float64


In [42]:
# 배열처럼 일반적인 논리 연산을 할 수 있다
a = pd.Series([10,20,30], index = range(1,4))
print(a>10)
print("=====")
print(a==10)

1    False
2     True
3     True
dtype: bool
=====
1     True
2    False
3    False
dtype: bool


In [46]:
# 시리즈 간의 논리 연산 시에는 인덱스가 서로 동일해야 한다
a = pd.Series([10,20,30], index = range(1,4))
b = pd.Series([100.0,150.0,200.0])
#print(a>b) # 타입이 달라 에러가 생김

# 인덱스가 동일하지 않더라도 values 속성을 이용하여 값의 개수가 동일한 시리즈의 연산을 할 수있다
print(a.values + b.values)
print("=====")
print(a.values>b.values)

[110. 170. 230.]
=====
[False False False]


In [52]:
# 시리즈의 값 추가,변경, 삭제
print(score)
print("=====")
score["김철수"] = 100 # 추가
print(score)
print("=====")
score["홍길동"] = 65.4 # 변경
print(score)
print("=====")
del score["이순신"] # 삭제
score

홍길동    85.0
성춘향    93.5
이순신    77.0
dtype: float64
=====
홍길동     85.0
성춘향     93.5
이순신     77.0
김철수    100.0
dtype: float64
=====
홍길동     65.4
성춘향     93.5
이순신     77.0
김철수    100.0
dtype: float64
=====


홍길동     65.4
성춘향     93.5
김철수    100.0
dtype: float64

In [54]:
# pandas 모듈의 DataFrame 클래스를 이용하여 데이터 프레임을 생성한다
# 자료는 리스트 또는 2차원 배열. index 옵션으로 행이름, columns 옵션으로 열 이름을 지정할 수 있다
import numpy as np
df = pd.DataFrame(np.array(([11,22],[33,44])))
df

Unnamed: 0,0,1
0,11,22
1,33,44


In [55]:
# 자료는 2차원 배열
data = np.arange(4).reshape(2,2)
df = pd.DataFrame(data, index=[100,200], columns=["A","B"])
df

Unnamed: 0,A,B
100,0,1
200,2,3


In [62]:
# 데이터 프레임의 주요 속성
# DataFrame.values : 데이터 프레임의 항목값
# DataFrame.shape : 데이터 프레임의 형태
# DataFrame.index : 데이터 프레임의 행 인덱스들
# DataFrame.columns : 데이터 프레임의 열 인덱스들
print(df.values)
print("=====")
print(df.shape)
print("=====")
print(df.index)
print("=====")
print(df.columns)

[[0 1]
 [2 3]]
=====
(2, 2)
=====
Int64Index([100, 200], dtype='int64')
=====
Index(['A', 'B'], dtype='object')


In [67]:
# 데이터 프레임의 열 인덱스 일괄 변경
data = np.arange(4).reshape(2,2)
df = pd.DataFrame(data, index=[100,200],columns = ["A","B"])
print(df)
print("=====")
df.columns = 0,1
df
# A,B가 0,1로 변경된걸 확인 할 수 있음

     A  B
100  0  1
200  2  3
=====


Unnamed: 0,0,1
100,0,1
200,2,3


In [70]:
# 데이터 프레임의 행 인덱스 일괄 변경
data = np.arange(4).reshape(2,2)
df = pd.DataFrame(data, index=[100,200],columns = ["A","B"])
print(df)
df.index = "one","two"
df
# 100,200이 one,two로 변경된걸 확인 할 수 있음

     A  B
100  0  1
200  2  3


Unnamed: 0,A,B
one,0,1
two,2,3


In [71]:
# 사전 자료로 데이터 프레임 만들기
# DataFrame 클래스에서 사전 자료를 사용할수 있음
# 사전의 항목들의 각 키가 자동으로 열 인덱스가 된다
data = {"name" : ["홍길동","성춘형","이순신"],"score" : [85,93.5,77]}
df = pd.DataFrame(data)
df

Unnamed: 0,name,score
0,홍길동,85.0
1,성춘형,93.5
2,이순신,77.0


In [73]:
# 행 인덱스와 열 인덱스를 직접 명시 할 수 있다
data = {"name" : ["홍길동","성춘형","이순신"],"score" : [85,93.5,77]}
df = pd.DataFrame(data,index=[11,22,33],columns=["name","score","grade"])
df
# grade에는 값이 없기에 NaN으로 나오게 된다

Unnamed: 0,name,score,grade
11,홍길동,85.0,
22,성춘형,93.5,
33,이순신,77.0,


In [75]:
# 사전들이 항목으로 들어있는 리스트를 적용할 수 있다
data = [
    {"name" : "홍길동","score":85},
    {"name":"성춘향","score":93.5},
    {"name":"이순신","score":77}
]
df = pd.DataFrame(data)
df

Unnamed: 0,name,score
0,홍길동,85.0
1,성춘향,93.5
2,이순신,77.0


In [79]:
# 데이터 프레임에 대한 열 단위 인덱싱
# 각 열에 대하여 라벨 기반의 인덱싱을 할 수 있다
# 1개 라벨에 대하여 인덱싱 된 결과는 1개의 시리즈이다
#df["name"]
df.name
# 라벨이 문자열인 경우, 번호로 인덱싱 할 수 없음

0    홍길동
1    성춘향
2    이순신
Name: name, dtype: object

In [86]:
# 여러 열에 대하여 라벨 기반의 인덱싱을 할 수 있다
# 여러 열로 인덱싱 된 결과는 1개의 데이터 프레임이다
data = [
    {"name" : "홍길동","score":85,"grade":"B"},
    {"name":"성춘향","score":93.5,"grade":"A"},
    {"name":"이순신","score":77,"grade":"C"}
]
df = pd.DataFrame(data)
df[["name","grade"]]
# 2개 이상인 경우 [["",""]]로 해야한다

Unnamed: 0,name,grade
0,홍길동,B
1,성춘향,A
2,이순신,C


In [92]:
# 데이터 프레임에 대한 행 단위 인덱싱
# 데이터 프레임에서 특정 행을 인덱싱 [] 형태로 접근할 때는 슬라이싱을 해야한다
# 이 때 번호는 행의 인덱스 값이 아닌 실제 행위치이다
df[0:1]
# 번호 1개만 기재할 경우 열 인덱싱을 시도하므로 key error가 발생한다

Unnamed: 0,name,score,grade
0,홍길동,85.0,B


In [95]:
# 행 인덱스가 문자열인 경우, 이 라벨로 슬라이싱 할수도 있다
# 인덱스 라벨로 슬라이싱 하면 끝라벨을 포함한다
df.index = "one","two","three"
df["one":"two"]

Unnamed: 0,name,score,grade
one,홍길동,85.0,B
two,성춘향,93.5,A
