In [1]:
# 라이브러리 임포트
import pandas as pd
import numpy as np

### 산술연산

- dataframe 과 스칼라 값 산술연산
- dataframe 과 series 간의 산술연산
- dataframe 간의 산술연산
    - 컬럼, 로우 인덱스를 기준으로 연산 수행
    - 공통으로 존재하지 않는 경우 NaN 반환
    - fill_value 인자 값을 통해 NaN이 아닌 값으로 대체 가능
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [86]:
# 컬럼명을 서울, 경기, 인천으로, 로우명을 a, b, c로 가지고
# 0부터 1씩 증가하는 정수값을 데이터로 가지는 DataFrame
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), index=list('abc'), 
                   columns=['서울', '경기', '인천'])
df1

Unnamed: 0,서울,경기,인천
a,0,1,2
b,3,4,5
c,6,7,8


In [87]:
# 컬럼명을 서울, 경기, 인천, 세종, 강원으로
# 로우명을 a, b, c, d로 가지고 0부터 1씩 증가하는 정수값을 데이터로 가지는 DataFrame
df2 = pd.DataFrame(np.arange(20).reshape(4, 5), list('abcd'),
                  columns=['서울', '경기', '인천', '세종', '강원'])
df2

Unnamed: 0,서울,경기,인천,세종,강원
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14
d,15,16,17,18,19


In [88]:
# 데이터프레임간 더하기 연산
# 결과 해석 : 공통컬럼, 로우가 아닌 데이터는 NaN
df1 + df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,2.0,0.0,,4.0
b,,10.0,8.0,,12.0
c,,18.0,16.0,,20.0
d,,,,,


In [89]:
# fill_value : add 메서드의 파라미터
df1.add(df2, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,2.0,0.0,3.0,4.0
b,9.0,10.0,8.0,8.0,12.0
c,14.0,18.0,16.0,13.0,20.0
d,19.0,16.0,15.0,18.0,17.0


In [90]:
# 데이터프레임간의 빼기 연산
df1 - df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,0.0,0.0,,0.0
b,,-2.0,-2.0,,-2.0
c,,-4.0,-4.0,,-4.0
d,,,,,


In [91]:
df1.sub(df2, fill_value=0)

Unnamed: 0,강원,경기,서울,세종,인천
a,-4.0,0.0,0.0,-3.0,0.0
b,-9.0,-2.0,-2.0,-8.0,-2.0
c,-14.0,-4.0,-4.0,-13.0,-4.0
d,-19.0,-16.0,-15.0,-18.0,-17.0


In [92]:
# 데이터프레임간의 곱하기 연산
df1 * df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,0.0,,4.0
b,,24.0,15.0,,35.0
c,,77.0,60.0,,96.0
d,,,,,


In [93]:
df1.mul(df2, fill_value=1)

Unnamed: 0,강원,경기,서울,세종,인천
a,4.0,1.0,0.0,3.0,4.0
b,9.0,24.0,15.0,8.0,35.0
c,14.0,77.0,60.0,13.0,96.0
d,19.0,16.0,15.0,18.0,17.0


In [94]:
# 데이터프레임간의 나누기 연산
df1 / df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,1.0,,,1.0
b,,0.666667,0.6,,0.714286
c,,0.636364,0.6,,0.666667
d,,,,,


In [95]:
df1.divide(df2, fill_value=1)

Unnamed: 0,강원,경기,서울,세종,인천
a,0.25,1.0,,0.333333,1.0
b,0.111111,0.666667,0.6,0.125,0.714286
c,0.071429,0.636364,0.6,0.076923,0.666667
d,0.052632,0.0625,0.066667,0.055556,0.058824


In [96]:
# 나머지 연산
df1 % df2

Unnamed: 0,강원,경기,서울,세종,인천
a,,0.0,,,0.0
b,,4.0,3.0,,5.0
c,,7.0,6.0,,8.0
d,,,,,


### DataFrame과 Series 간의 연산

- 기본적인 동작은 Series 객체의 인덱스를 DataFrame 객체의 컬럼 인덱스와 매핑하여 브로드캐스팅과 유사하게 연산 수행
- 두 객체 간의 공통된 인덱스가 아닌 대상은 NaN 값으로 대입
- 메서드를 사용하여 연산을 수행할 때는 axis 파라미터를 통해 연산을 적용할 축 지정(0:행, 1:열)
- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -,  sub() 메서드
    - 곱하기 : *, mul() 메서드

In [97]:
# 컬럼명 : a, b, c, d
# 로우명 : 2010, 2011, 2012
# 데이터 : 0부터 1씩 증가하는 정수
df = pd.DataFrame(np.arange(12).reshape(3, 4), index=[2010, 2011, 2012],
                 columns=list('abcd'))
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [98]:
# 첫 번째 행을 추출
# s1 : 라벨인덱스가 적용된 시리즈
s1 = df.iloc[0]
s1

a    0
b    1
c    2
d    3
Name: 2010, dtype: int32

In [99]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [100]:
# Series(라벨인덱스 a, b, c, d)와 df의 결합기준 : 이름이 일치할때 더하기
df + s1

Unnamed: 0,a,b,c,d
2010,0,2,4,6
2011,4,6,8,10
2012,8,10,12,14


In [101]:
# 데이터프레임
# 컬럼명 : a, b, c, d, e
# 데이터 : 20개의 0
df2 = pd.DataFrame(np.zeros((4, 5)), columns=list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [102]:
# 기본 인덱스를 가진 시리즈
# 데이터 0, 1, 2, 3, 4
s2 = pd.Series(np.arange(5))
s2

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [103]:
# 열 단위 산술 연산
# 기본 동작 : Series의 로우 인덱스를 df의 컬럼에서 매핑
# 결과해석
df2.sub(s2)

Unnamed: 0,a,b,c,d,e,0,1,2,3,4
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,


In [104]:
# axis = 0 : 열 단위 작업 수행
# 결과 해석 : idx4의 결과만 NaN -> df 4번 로우가 없기 때문
df2.sub(s2, axis=0)

Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,0.0
1,-1.0,-1.0,-1.0,-1.0,-1.0
2,-2.0,-2.0,-2.0,-2.0,-2.0
3,-3.0,-3.0,-3.0,-3.0,-3.0
4,,,,,


In [105]:
df

Unnamed: 0,a,b,c,d
2010,0,1,2,3
2011,4,5,6,7
2012,8,9,10,11


In [106]:
# df컬럼에 없는 인덱스를 가진 Series
# 인덱스 : a, c, e
# 데이터 : 3, 3, 3
s3 = pd.Series([3, 3, 3], index=list('ace'))
s3

a    3
c    3
e    3
dtype: int64

In [107]:
# 공통되지 않은 인덱스값 존재 : 
df - s3

Unnamed: 0,a,b,c,d,e
2010,-3.0,,-1.0,,
2011,1.0,,3.0,,
2012,5.0,,7.0,,


In [108]:
df.sub(s3)

Unnamed: 0,a,b,c,d,e
2010,-3.0,,-1.0,,
2011,1.0,,3.0,,
2012,5.0,,7.0,,


In [109]:
# os error -> engine='python' 파라미터 추가
# Encoding, Unicode Error -> encoding='utf-8' / 'cp949' 파라미터 추가
pd.read_csv('data/ex1.csv', engine='python', encoding='utf-8')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# 데이터 입출력

## 1. csv 파일 적재

- pd.read_csv()
    - 컬럼명이 존재하는 데이터
    - 컬럼명이 없는 데이터
    - 구분자 설정

In [110]:
# data/ex1.csv 읽기(컬럼명이 존재하는 csv파일)
#read_csv() 기본동작 : 첫 행 데이터를 컬럼ㅇ로 사용한다.
data = pd.read_csv('data/ex1.csv', encoding='utf-8')#엔진은 필요하면 넣고 엔코딩은 넣는게 일반적
type(data)
data

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [111]:
# data/ex2.csv 읽기(컬렴명이 없는 파일)
#read_csv : header=None
data=pd.read_csv('data/ex2.csv', encoding='utf-8', header=None)
data

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [112]:
data.columns = ['a','b','c','d','e']

In [113]:
data

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [114]:
# data3/ex3.csv읽기
#기본 구분자 = ,
#read_csv() : sep파라미터
data2 =pd.read_csv('data/ex3.csv')
data2.shape

(4, 1)

In [115]:
#X
pd.read_csv('data/ex3.csv', sep=' ')

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,B,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,C
0,aaa,-0.264438,-1.026059,-0.6195,,,,,,,...,,,,,,,,,,
1,bbb,,0.927272,,0.302904,-0.032399,,,,,...,,,,,,,,,,
2,ccc,-0.264273,-0.386314,-0.217601,,,,,,,...,,,,,,,,,,
3,ddd,-0.871858,-0.348382,,1.100491,,,,,,...,,,,,,,,,,


In [116]:
#X
pd.read_csv('data/ex3.csv', sep='\t')

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [117]:
# 구분자 : ',' , ' ', '\t', '/' , '\' -> \s+로 일괄처리
pd.read_csv('data/ex3.csv', sep='\s+')

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [118]:
#data/ex4.csv읽기(주석이 포함되어있는 파일)
# 파라미터1 : skiprows = [생략 로우인덱스1,2,..]
pd.read_csv('data/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [119]:
# 파라미터2 : comment = '주석기호'(주석을 유도할 때 사용된 기호)
pd.read_csv('data/ex4.csv',comment='#')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## 2. 엑셀 파일 읽기
- 기본적으로 첫번째 시트에 있는 데이터를 읽어와서 데이터프레임으로 저장 
- 모든 시트를 읽기 위해서는 sheetname 인자를 None으로 설정
    - 모든 시트의 데이터를 읽어서 사전 형태로 저장
    - key = 시트의 이름, value = 각 시트에 있는 데이터들을 저장한 데이터프레임 
- 특정 시트만 읽기 위해서는 sheetname 인자에 '시트명' 설정

### ex6.xlsx 파일 
<img src="img/엑셀파일예제.jpg" alt="csv파일예제" style="width: 600px;"/>

In [120]:
# 첫 번째 시트 읽기 : 첫 번째 시트의 데이터만 삭제(디폴트)
pd.read_excel('data/ex6.xlsx', sheet_name='시트1')

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [121]:
# 두 번째 시트 읽기
pd.read_excel('data/ex6.xlsx', sheet_name='시트2')

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [122]:
# 모든 시트 다 읽어오기
data=pd.read_excel('data/ex6.xlsx', sheet_name=None)

In [123]:
data.keys()

odict_keys(['시트1', '시트2'])

In [124]:
data.values()

odict_values([   a   b
0  1   2
1  5   6
2  9  10,     c   d message
0   3   4   hello
1   7   8   world
2  11  12     foo])

In [125]:
data

OrderedDict([('시트1',    a   b
              0  1   2
              1  5   6
              2  9  10), ('시트2',     c   d message
              0   3   4   hello
              1   7   8   world
              2  11  12     foo)])

In [126]:
# 시트1 시트2의 데이터를 data1,data2에 저장하기
data1,data2 = data.values()

In [127]:
data1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [128]:
data2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo


In [130]:
data1 = pd.read_excel('data/ex6.xlsx', sheet_name='시트1')
data1

Unnamed: 0,a,b
0,1,2
1,5,6
2,9,10


In [131]:
data2 = pd.read_excel('data/ex6.xlsx', sheet_name='시트2')
data2

Unnamed: 0,c,d,message
0,3,4,hello
1,7,8,world
2,11,12,foo
