### Pandas에서 데이터 연산하기

numpy로 기본 산술 연산, 삼각함수, 지수, 로그함수 등 요소 단위의 연산을 빠르게 수행할 수 있다. Pandas는 Numpy로 부터 이 기능을 대부분 상속

- 단항 연산의 경우, 유니버설 함수가 결과물에 인덱스와 열 테이블을 보존 (유니버설 함수: 배열 안에 있는 데이터 원소 별로 연산을 수행하는 함수)
- 이항 연산의 경우, Pandas가 유니버설 함수에 객체를 전달할 때 인덱스를 자동으로 정렬

#### 인덱스 보존

In [4]:
import numpy as np
import pandas as pd

In [6]:
# 랜덤한 값을 만들기 위한 시드값을 지정하는 함수 RandomState(시드값)
rng = np.random.RandomState(42)
# 랜덤한 (정수)값을 추출하는 randint(시작, 끝, 갯수)
ser = pd.Series(rng.randint(0,10,4)) # 0에서 10까지 4개
ser

0    6
1    3
2    7
3    4
dtype: int32

In [7]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                  columns=['A','B','C','D'])

In [8]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [12]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [10]:
np.exp(np.array([1.1,2.1,3.1,4.1]))

array([ 3.00416602,  8.16616991, 22.19795128, 60.3402876 ])

In [13]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


계산 후에도 데이터 형태의 맥락이 유지 된다.

#### 인덱스 정렬

두개의 Series 또는 DataFrame객체에 이항 연산을 적용하는 경우 Pandas는 연산을 수행하는 과정에서 인덱스를 정렬

In [15]:
area = pd.Series({'Alaska': 1722321, 
                  'Texas':394842, 
                  'California':397393},
                 name='area')
population = pd.Series({
    'California':39283912, 
    'Texas':39481293, 
    'New York': 39581232},
    name='population')

In [16]:
population / area

Alaska              NaN
California    98.854061
New York            NaN
Texas         99.992638
dtype: float64

In [17]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])

In [18]:
A+B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

##### 데이터프레임의 경우

In [20]:
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))

In [25]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [26]:
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


연산할 때 부족한(매칭되지 않는) 요소에 값을 넣고 싶다면
fill_value 옵션으로 값을 지정한다.

In [32]:
fill = A.stack().mean()
df = A.add(B, fill_value=fill)

### 데이터 프레임을 CSV 파일로 내보내기, 읽어오기

#### 내보내기

데이터프레임에서 to_csv("파일이름.csv") 함수로 작성한 내용을 csv 파일로 저장할 수 있다. 파일이름을 입력할 때 확장명(.csv)를 생략하지 않는다.

In [36]:
df.to_csv('export2.csv')

#### 읽어오기

csv 파일에서 저장한 데이터를 데이터프레임으로 읽어오려면 read_csv('파일경로\파일이름.csv', index_col=0)함수를 활용, (index_col = 0은 0번째 행을 인덱스로 활용한다는 의미)

In [37]:
df_read = pd.read_csv('./export.csv', index_col=0)

df_read

##### Quiz
다음과 같은 데이터 프레임을 만들고 두 좌표(left, top), (right, bottom)로 만들어지는 평면의 면적을 구하여 데이터 프레임의 빈 값을 체우세요