# 스크립트 프로그래밍 (01분반)

## pandas 활용 - Series

### Acknowledgement
#### 이 자료는 다음 서적의 내용을 바탕으로 작성되었음

- 예제 중심의 파이썬 입문. 인포앤북
- 파이썬 라이브러리를 활용한 데이터 분석. 한빛미디어

### pandas
- 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하는 라이브러리
  - 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 많이 사용
- NumPy의 배열 기반 계산 스타일을 많이 차용
  - for 문을 사용하지 않고 데이터를 처리하는 것
  - 배열 기반의 함수를 제공하는 것 등
- NumPy와 차이점
  - pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는데 초점을 맞춰 설계됨
  - NumPy는 단일 배열 데이터를 다루는데 특화됨

In [9]:
import pandas as pd
from pandas import Series, DataFrame

### pandas 데이터 구조
- Series
  - 일련의 객체를 담을 수 있는 1차원 배열 같은 데이터 구조
- DataFrame
  - 표 같은 형식의 데이터 구조

#### Series
- 어떤 NumPy 자료형이라도 담을 수 있음
- 배열의 데이터와 연관된 이름을 붙일 수 있는 index 속성을 가짐
  - 데이터의 index를 지정하지 않으면 기본 인덱스로 정수 0에서 N-1(N은 데이터의 길이)까지 숫자로 지정
- 배열 데이터는 values 속성으로 액세스 가능
- Series 객체 생성
  - 간단하게는 배열 데이터로 생성 가능

In [10]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

- Series 객체를 출력했을 때 왼쪽은 인덱스, 오른쪽의 그에 해당하는 값을 표현

In [13]:
# values 속성으로 배열 데이터를 액세스할 수 있음
obj.values

#print(obj.values)

array([ 4,  7, -5,  3], dtype=int64)

In [17]:
# index 속성으로 인덱스를 확인할 수 있음
obj.index

#print(obj.index)

RangeIndex(start=0, stop=4, step=1)

- 각각의 데이터를 지칭하는 인덱스를 지정하여 Series 객체를 생성하는 경우

In [19]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
obj2['a']

-5

In [11]:
obj2['d']

4

In [12]:
obj2[['c','a','d']] # ['c','a','d']는 인덱스의 배열

c    3
a   -5
d    4
dtype: int64

In [13]:
obj2[1:4] # 리스트의 슬라이싱 연산과 유사

b    7
a   -5
c    3
dtype: int64

- 인덱스-값 연결은 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 연산을 수행해도 유지됨

In [16]:
obj2[obj2 > 0] # 불리언 배열을 이용해 값을 걸러 내는 예제

d    4
b    7
c    3
dtype: int64

In [18]:
obj2>0

d     True
b     True
a    False
c     True
dtype: bool

In [19]:
obj2[[True,True,False,True]]

d    4
b    7
c    3
dtype: int64

In [20]:
obj2[[True,False,False,False]]

d    4
dtype: int64

In [21]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [22]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

- Series 객체는 고정 길이의 정렬된 dictionary라고 볼 수 있음
  - 인덱스 값에 데이터 값을 매핑하고 있으므로 dictionary와 비슷
  - Series 객체는 파이썬의 dictionary 객체를 인자로 받아야 하는 함수에서 이를 대체하여 사용할 수 있음
- 파이썬 dictionary 객체를 이용하여 Series 객체를 생성할 수 있음
  - dictionary의 키 값이 Series의 인덱스 값이 됨

In [23]:
'b' in obj2

True

In [21]:
'e' in obj2

False

In [3]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3
# dictionary 객체로 Series 객체를 생성하는 경우 dictionary의 키 값이 Series의 인덱스 값이 됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [4]:
# 인덱스를 직접 지정하고 싶다면 원하는 순서대로 인덱스를 직접 넘겨줄 수도 있음

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- sdata의 값 중 3개만 들어감, 'California'에 대한 값은 없기 때문에 NaN으로 표시됨
  - NaN은 pandas에서 누락된 값 혹은 NA 값으로 취급됨
- Utah에 대한 값은 인덱스로 사용한 states 배열에 포함되어 있지 않으므로 결과에 포함되지 않음

- pandas의 isnull, notnull 함수
  - 누락된 데이터를 찾을 때 사용

In [27]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [5]:
obj4['California'] = 43000 # 인덱스를 이용하여 새로운 값을 할당할 수 있음
obj4

California    43000.0
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- items() 메소드
  - Series 객체에 있는 요소를 튜플 형태, (index, value)로 반환함

In [6]:
for i, v in obj4.items():
    print('%s : %d' %(i,v))

California : 43000
Ohio : 35000
Oregon : 16000
Texas : 71000


- Series 객체의 덧셈 연산
  - index의 순서가 다르더라도 같은 index의 값끼리 덧셈 수행

In [1]:
import pandas as pd

# A, B, C, D 네 회사의 1차년도 매출액과 2차년도 매출액이 주어졌다고 가정

sales = {'A': 5000000, 'B': 7100000, 'C': 3600000, 'D': 4050000}
year1 = pd.Series(sales)

year2 = pd.Series([3500000, 5500000, 4000000, 6000000], index=['B','D','C','A'])

total = year1 + year2
print(total)

A    11000000
B    10600000
C     7600000
D     9550000
dtype: int64


- 기본적인 통계 함수
  - sum(), mean(), max(), min(), argmax(), argmin()

In [22]:
print('네 회사의 2년간 매출액 합계: ', total.sum())
print('네 회사의 2년간 매출액 평균: ', total.mean())
print('네 회사의 2년간 매출액 최대값: ', total.max())
print('네 회사의 2년간 매출액 최소값: ', total.min())
print(total.argmax())
print('2년간 매출액이 가장 많은 회사: ', total.index[total.argmax()])
print(total.argmin())
print('2년간 매출액이 가장 적은 회사: ', total.index[total.argmin()])

네 회사의 2년간 매출액 합계:  38750000
네 회사의 2년간 매출액 평균:  9687500.0
네 회사의 2년간 매출액 최대값:  11000000
네 회사의 2년간 매출액 최소값:  7600000
0
2년간 매출액이 가장 많은 회사:  A
2
2년간 매출액이 가장 적은 회사:  C
Index(['A', 'B', 'C', 'D'], dtype='object')
