# 스크립트 프로그래밍
## pandas 활용 

### 참고서적
- 예제 중심의 파이썬 입문. 인포앤북
- 파이썬 라이브러리를 활용한 데이터 분석. 한빛미디어

### pandas
- 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하는 라이브러리
  - 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 많이 사용
- NumPy의 배열 기반 계산 스타일을 많이 차용
  - for 문을 사용하지 않고 데이터를 처리하는 것
  - 배열 기반의 함수를 제공하는 것 등
- NumPy와 차이점
  - pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는데 초점을 맞춰 설계됨
  - NumPy는 단일 배열 데이터를 다루는데 특화됨

In [2]:
import pandas as pd
from pandas import Series, DataFrame

### pandas 데이터 구조
- Series
  - 일련의 객체를 담을 수 있는 1차원 배열 같은 데이터 구조
- DataFrame
  - 표 같은 형식의 데이터 구조

#### Series
- 어떤 NumPy 자료형이라도 담을 수 있음
- 배열의 데이터와 연관된 이름을 붙일 수 있는 index 속성을 가짐
  - 데이터의 index를 지정하지 않으면 기본 인덱스로 정수 0에서 N-1(N은 데이터의 길이)까지 숫자로 지정
- 배열 데이터는 values 속성으로 액세스 가능
- Series 객체 생성
  - 간단하게는 배열 데이터로 생성 가능

In [5]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

- Series 객체를 출력했을 때 왼쪽은 인덱스, 오른쪽의 그에 해당하는 값을 표현

In [7]:
# values 속성으로 배열 데이터를 액세스할 수 있음
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
# index 속성으로 인덱스를 확인할 수 있음
obj.index

RangeIndex(start=0, stop=4, step=1)

- 각각의 데이터를 지칭하는 인덱스를 지정하여 Series 객체를 생성하는 경우

In [8]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
obj2['a']

-5

In [11]:
obj2['d']

4

In [12]:
obj2[['c','a','d']] # ['c','a','d']는 인덱스의 배열

c    3
a   -5
d    4
dtype: int64

In [13]:
obj2[1:4] # 리스트의 슬라이싱 연산과 유사

b    7
a   -5
c    3
dtype: int64

- 인덱스-값 연결은 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 연산을 수행해도 유지됨

In [16]:
obj2[obj2 > 0] # 불리언 배열을 이용해 값을 걸러 내는 예제

d    4
b    7
c    3
dtype: int64

In [18]:
obj2>0

d     True
b     True
a    False
c     True
dtype: bool

In [19]:
obj2[[True,True,False,True]]

d    4
b    7
c    3
dtype: int64

In [20]:
obj2[[True,False,False,False]]

d    4
dtype: int64

In [21]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [22]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

- Series 객체는 고정 길이의 정렬된 dictionary라고 볼 수 있음
  - 인덱스 값에 데이터 값을 매핑하고 있으므로 dictionary와 비슷
  - Series 객체는 파이썬의 dictionary 객체를 인자로 받아야 하는 함수에서 이를 대체하여 사용할 수 있음
- 파이썬 dictionary 객체를 이용하여 Series 객체를 생성할 수 있음
  - dictionary의 키 값이 Series의 인덱스 값이 됨

In [23]:
'b' in obj2

True

In [24]:
'e' in obj2

False

In [3]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3
# dictionary 객체로 Series 객체를 생성하는 경우 dictionary의 키 값이 Series의 인덱스 값이 됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [4]:
# 인덱스를 직접 지정하고 싶다면 원하는 순서대로 인덱스를 직접 넘겨줄 수도 있음

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- sdata의 값 중 3개만 들어감, 'California'에 대한 값은 없기 때문에 NaN으로 표시됨
  - NaN은 pandas에서 누락된 값 혹은 NA 값으로 취급됨
- Utah에 대한 값은 인덱스로 사용한 states 배열에 포함되어 있지 않으므로 결과에 포함되지 않음

- pandas의 isnull, notnull 함수
  - 누락된 데이터를 찾을 때 사용

In [27]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [5]:
obj4['California'] = 43000 # 인덱스를 이용하여 새로운 값을 할당할 수 있음
obj4

California    43000.0
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- items() 메소드
  - Series 객체에 있는 요소를 튜플 형태, (index, value)로 반환함

In [6]:
for i, v in obj4.items():
    print('%s : %d' %(i,v))

California : 43000
Ohio : 35000
Oregon : 16000
Texas : 71000


#### DataFrame
- 표와 같은 자료 구조
- 여러 개의 행(row)과 열(column)로 구성됨
  - 각 열은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음
- 행과 열에 대한 인덱스를 가지고 있음

- DataFrame 객체 생성
  - dictinary 값으로 리스트를 사용

In [62]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [63]:
frame.head() # 처음 5개의 행만 출력

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [64]:
pd.DataFrame(data, columns=['year', 'state', 'pop']) # 원하는 열의 순서로 DataFrame 객체 생성

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [65]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six']) 
# 행에 대한 인덱스는 index, 열에 대한 인덱스는 columns로 설정

frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [22]:
frame2['state'] # 열에 대한 인덱스로 해당 열에 대한 데이터만 추출

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [24]:
frame2.state # 위와 동일. 열의 값을 속성처럼 이용

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [66]:
frame2['debt'] = 16.5 # 열 인덱스로 스칼라 값을 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [68]:
import numpy as np

frame2['debt'] = np.arange(6.) # 열 인덱스로 배열 값을 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [69]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

frame2['debt'] = val # Series 객체를 할당. DataFrame의 인덱스에 맞춰 값이 할당되며 존재하지 않는 인덱스에는 누락값으로 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


- DataFrame 요소 추출하기
  - loc 속성: 행 인덱스 이름, 열 인덱스 이름 이용
  - iloc 속성: 행, 열에 해당하는 정수 값을 이용

In [38]:
data = {'학교명':['가나고', '다라고', '마바고', '사아고', '자차고'],
        '학급수' : [25, 23, 15, 19, 10],
        '학생수' : [620, 600, 550, 580, 400],
        '교사수' : [80, 95, 70, 90, 65]}

frame = pd.DataFrame(data,index=['01', '02', '03', '04', '05']) # 행의 인덱스
print(frame)

    학교명  학급수  학생수  교사수
01  가나고   25  620   80
02  다라고   23  600   95
03  마바고   15  550   70
04  사아고   19  580   90
05  자차고   10  400   65


In [39]:
print(frame.loc['02', '학생수']) # '02' 행의 '학생수' 열의 값

600


In [40]:
print(frame.loc['04', ['학교명', '학급수', '교사수']])
# '04' 행의 '학교명','학습수','교사수' 열의 값을 갖음

학교명    사아고
학급수     19
교사수     90
Name: 04, dtype: object


In [41]:
print(frame.loc[:, '학생수']) # 모든 행의 '학생수' 열의 값을 갖음

01    620
02    600
03    550
04    580
05    400
Name: 학생수, dtype: int64


In [42]:
print(frame.loc['01']) # '01' 행의 모든 열의 값을 갖음

학교명    가나고
학급수     25
학생수    620
교사수     80
Name: 01, dtype: object


In [48]:
data = {'아이디':['kim', 'song', 'han', 'choi'],
        '구매상품' : ['상품A', '상품B', '상품C', '상품D'],
        '가격' : [15000, 23000, 33000, 50000],
        '개수' : [3, 5, 1, 10],
        '구매일' : ['0303', '0810', '0120', '0601']}

frame = pd.DataFrame(data)
frame

Unnamed: 0,아이디,구매상품,가격,개수,구매일
0,kim,상품A,15000,3,303
1,song,상품B,23000,5,810
2,han,상품C,33000,1,120
3,choi,상품D,50000,10,601


In [45]:
print(frame.iloc[2, 0]) # 2행 0열의 값

han


In [46]:
print(frame.iloc[3, :2]) # 3행의 0~1열의 값을 갖음

아이디     choi
구매상품     상품D
Name: 3, dtype: object


In [51]:
print(frame.iloc[:, [0, 4]]) # 모든 행의 0열, 4열의 값을 갖음

    아이디   구매일
0   kim  0303
1  song  0810
2   han  0120
3  choi  0601


- 요약 통계 계산
  - sum(): 행 또는 열 방향의 합을 계산
  - mean(): 행 또는 열 방향의 평균을 계산
  - median(): 중간값(50% 분위)를 반환
  - var(), std(): 분산, 표준편찬 값을 계산
  - count(): NA 값을 제외한 값의 수를 반환
  - describe(): Series나 DataFrame의 각 열에 대한 요약 통계를 계산
  - min(), max(): 최소, 최대값 계산
  - argmin(), argmax(): 최소, 최대값을 담고 있는 인덱스의 위치(정수)를 반환
  - idmin(), idmax(): 최소, 최대값을 담고 있는 인덱스의 값을 반환
  - 이외에도 다양한 요약 통계 관련 메소드 존재


In [52]:
scores = {'이름': ['김지영', '안지수', '최성수', '황예린', '김소정'],
        '국어' : [95, 97, 90, 94, 87],
        '영어' : [90, 86, 93, 85, 93],
        '수학' : [85, 88, 89, 88, 99]}

frame = pd.DataFrame(scores)
print(frame)

frame2 = frame.iloc[:, [1, 2, 3]] # 모든 행의 1,2,3 열의 값
print(frame2)

total = frame2.sum(axis = 1) # 행 방향(axis=1)으로 합을 계산, 열 방향(axis=0)
print(total)

    이름  국어  영어  수학
0  김지영  95  90  85
1  안지수  97  86  88
2  최성수  90  93  89
3  황예린  94  85  88
4  김소정  87  93  99
   국어  영어  수학
0  95  90  85
1  97  86  88
2  90  93  89
3  94  85  88
4  87  93  99
0    270
1    271
2    272
3    267
4    279
dtype: int64


In [53]:
avg = frame2.mean(axis = 1) # 행 방향 평균
print(avg)

0    90.000000
1    90.333333
2    90.666667
3    89.000000
4    93.000000
dtype: float64


In [54]:
print('-' * 50)
print('이름    합계  평균')
print('-' * 50)
for i in range(5) :
    print('%s  %d   %.2f' % (frame.iloc[i, 0], total.iloc[i], avg.iloc[i]))
# frame.iloc[i, 0]: i번 행, 0번 열의 값
    
print('-' * 50)    

--------------------------------------------------
이름    합계  평균
--------------------------------------------------
김지영  270   90.00
안지수  271   90.33
최성수  272   90.67
황예린  267   89.00
김소정  279   93.00
--------------------------------------------------
