# Pandas란?
- 데이터분석을 위한 패키지
- 구조적 데이터 표시와 처리에 강하다.
- Numpy는 파이썬의 내장모듈이 아니므로 원래는 별도로 설치해야 하나, 아나콘다 배포판에는 NumPy가 포함돼 있다.
- 파이썬 콘솔에서 불러온 모듈이나 패키지는 한 번만 선언하면 다시 선언하지 않고 이용할 수 있으나, 주피터노트북에서는 새로운 노트북을 생성할 때마다 다시 선언
- 새로 설치해야 하는 경우, 콘솔 창에서는 어느 위치에서 시작하든 상관없다.
- 왜 등장했는가?
 - NumPy는 같은 데이터 타입의 배열만 처리할 수 있는 데 반해, Pandas는 데이터 타입이 다양하게 섞여있을 때도 처리 가능
 - NumPy는 시간의 흐름에 따른 순서데이터 처리 못한다. 그래서 시간관리개념이 추가된 패키지가 Pandas
 - 그래서 Pandas의 관건은 인덱싱. 시간의 흐름에 따라 순차적인 인덱스값 매겨줘서 관리
- http://pandas,pydata.org
- 그러나 데이터타입을 구분하지 않으므로 머신러닝할 때는 좋지 않다. 최종적으로 학습시킬 때는 내용을 벡터화시켜야 한다.
- Pandas의 용도:
 - 간결한 디자인 요소로 Series 데이터를 탐색
 - Series, 시간 sequence 관련된 데이터를 탐색하고 기술적 통계학을 적용해보는 목적으로 많이 쓰인다.

#### 파이썬 패키지 관리 시스템(pip)으로 설치가 돼있는지, 무슨 버전인지 먼저 확인

In [None]:
# 콘솔 창에서 설치된 패키지 목록 확인
>>> pip list

# 설치
>>> pip install pandas

# 버전 확인
>>> python --version

# pip 업데이트
>>> pip install --upgrade pip

# pip 언인스톨
>>> pip uninstall 패키지명

In [81]:
import pandas as pd

In [82]:
import numpy as np

# 1차원데이터 Series

Series는 고정길이의 딕셔너리(Key, Value)라고 이해하면 편하다. 인덱스에 sequence가 없을 때는 그냥 key값으로..

In [2]:
eq_data = [10,20,30,40,50]  # list, 비정형 데이터
seq_data

[10, 20, 30, 40, 50]

In [4]:
s1 = pd.Series(seq_data) # 클래스 생성자함수 Series
s1  
# 그동안 일반데이터는 옆으로 출력이 됐었으나 Series는 세로로 출력
# 0,1,2,3,4: index / 10,20,30,40,50: value
# sequence data로는 리스트와 튜플 둘다 사용가능하나 주로 리스트

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [6]:
# ndarray와 비교하면?
np.array(seq_data)   # ndarray로 감싸져 나온다.

array([10, 20, 30, 40, 50])

In [None]:
# 매번 pd.Series라고 쓰지 않고 간결하게 Series로 쓰고 싶다면?
from Pandas import Series
from Pandas import DataFrame

#### index

In [9]:
# 인덱스의 범위(.index) -> 객체명 RangeIndex
s1.index 

RangeIndex(start=0, stop=5, step=1)

In [10]:
# 인덱스 자체를 보고싶다면 list화
list(s1.index)

[0, 1, 2, 3, 4]

In [156]:
# Values
s2 = pd.Series(['a','b',4,5])
s2
# datatype; object 데이터손실이 없기 위해 가장 선호하는 형변환: 


0    a
1    b
2    4
3    5
dtype: object

In [12]:
s2.values     
# 데이터타입이 int의 상위구조인 object로 바뀜. 원데이터의 형태는 유지.
# 요소 중 문자열이 하나라도 있으면 다 문자열로 변환된다. 위의 예시는 문자열리스트 -> 문자열오브젝트가 된 것.
# 문자열이 없을 경우에는 가장 메모리를 많이 차지하는 값 위주 e.g. 문자>실수>정수

array(['a', 'b', 4, 5], dtype=object)

In [13]:
list(s2.values)   # ndarray도 list로 변환가능

['a', 'b', 4, 5]

In [24]:
# 데이터가 없는 경우
s3 = pd.Series([np.nan,10,30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

In [14]:
# index 이름을 변경하고 싶다면 -> index_seq 리스트를 준다. seq_data와의 항목 개수가 같아야 한다.
index_sq = ["2020-01-01",'2020-01-02','2020-01-03','2020-01-04','2020-01-05']
s3 = pd.Series(seq_data, index=index_sq)
s3    # 논리적인 index는 이렇게 바꿀 수 있다. (물리적 index는 못 바꿈)

2020-01-01    10
2020-01-02    20
2020-01-03    30
2020-01-04    40
2020-01-05    50
dtype: int64

#### 날짜자동생성(.date_range)

freq 옵션
- D: 하루 주기 (하루-> freq='D', 이틀-> freq='2D')
- B: 업무날짜 하루 주기 (월~금)
- W: 일요일 시작 기준 일주일 주기 (월요일->W-MON, 화요일->W-TUE...)
- M: 월말 기준 한 달 주기
- Q: 분기
- A: 1년
- H: 시간
- T.min: 분
- S: 초

In [29]:
index_sq2 = pd.date_range(start="2020-01-13", end = "2020-01-17")
s4 = pd.Series(seq_data, index = index_sq2)
s4

2020-01-13    10
2020-01-14    20
2020-01-15    30
2020-01-16    40
2020-01-17    50
Freq: D, dtype: int64

In [19]:
index_sq3 = pd.date_range(start="2020-01-13", end = "2020-01-21", freq='2D')  # freq='D': 1D, 2D... 하루 기준으로 증가
s4 = pd.Series(seq_data, index = index_sq3)
s4

2020-01-13    10
2020-01-15    20
2020-01-17    30
2020-01-19    40
2020-01-21    50
Freq: 2D, dtype: int64

In [28]:
pd.date_range(start='2019-01-01', periods = 7)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07'],
              dtype='datetime64[ns]', freq='D')

In [27]:
# 데이터와 인덱스를 함께 입력하고 싶다면?
s5 = pd.Series({'국어':100, '영어':95, '수학':90})
s5
# 딕셔너리 데이터를 입력인자로 넣어주면 Keys와 Values가 각각 index와 values로 들어간다.

국어    100
영어     95
수학     90
dtype: int64

#### 재색인(reindex)

- 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [4]:
obj = pd.Series([4.5, 7.2, -5.3, 3.5], index = ['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.5
dtype: float64

In [5]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2  # 없는 값은 NaN

a   -5.3
b    7.2
c    3.5
d    4.5
e    NaN
dtype: float64

In [8]:
obj.reindex(['a','b','c','d','e'], fill_value=10)

a    -5.3
b     7.2
c     3.5
d     4.5
e    10.0
dtype: float64

In [9]:
# 값을 보강하거나 채워넣어야 하는 경우(ffill)
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [10]:
obj3.reindex(range(6),method='ffill')

# ffill 또는 pad: 앞의 값으로 채워넣는다.
# bfill 또는 backfill: 뒤의 값으로 채워넣는다.

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

#### 특정 행 삭제(drop)

In [24]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [26]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

# 2차원데이터 DataFrame

In [None]:
df = pd.DataFrame(data [, index = index_data, columns = columns_data])
# data인자로는 리스트, 딕셔너리, 배열, 데이터프레임 데이터 입력 가능
# index는 세로축 라벨, columns는 가로축 라벨, 이 둘을 제외한 부분은 values

In [31]:
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [34]:
df = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
index_date = pd.date_range('2019-09-01', periods=4)
columns_list = ['A','B','C']
pd.DataFrame(df, index = index_date, columns = columns_list)

Unnamed: 0,A,B,C
2019-09-01,1,2,3
2019-09-02,4,5,6
2019-09-03,7,8,9
2019-09-04,10,11,12


In [85]:
# 딕셔너리 데이터 생성
table_data = {'연도': [2015, 2016, 2016, 2017, 2017],
             '지사': ['한국','한국','미국','한국','미국'],
             '고객 수': [200, 250, 450, 300, 500]}
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객 수': [200, 250, 450, 300, 500]}

In [90]:
df = pd.DataFrame(table_data)
df

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


In [88]:
# 칼럼 순서를 변경해서 가져오고 싶다면?
pd.DataFrame(table_data, columns = ['고객 수','연도','지사'])

Unnamed: 0,고객 수,연도,지사
0,200,2015,한국
1,250,2016,한국
2,450,2016,미국
3,300,2017,한국
4,500,2017,미국


In [93]:
df.index
df.columns
df.values

array([[2015, '한국', 200],
       [2016, '한국', 250],
       [2016, '미국', 450],
       [2017, '한국', 300],
       [2017, '미국', 500]], dtype=object)

### 원하는 데이터 선택하기

In [44]:
KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
col_list = ['경부선 KTX','호남선 KTX','경전선 KTX','전라선 KTX','동해선 KTX']
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

df_KTX = pd.DataFrame(KTX_data, columns=col_list, index=index_list)
df_KTX

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [109]:
df_KTX.index
df_KTX.columns
df_KTX.values

array([[39060.,  7313.,  3627.,   309.,    nan],
       [39896.,  6967.,  4168.,  1771.,    nan],
       [42005.,  6873.,  4088.,  1954.,    nan],
       [43621.,  6626.,  4424.,  2244.,    nan],
       [41702.,  8675.,  4606.,  3146.,  2395.],
       [41266., 10622.,  4984.,  3945.,  3786.],
       [32427.,  9228.,  5570.,  5766.,  6667.]])

#### 데이터 일부만 가져오기

In [110]:
# 데이터의 처음 가져오기(head)
df_KTX.head()

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [113]:
# 데이터의 끝 가져오기(tail)
df_KTX.tail(2)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [115]:
# 행 - 일정부분 가져오기(인덱싱)
df_KTX[2:5]  # 2행부터 4행까지 가져오기

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [None]:
df_KTX[2]
>>> Error! row 위주가 아니라 column 위주다.

In [117]:
# 행 - 일정부분 가져오기(.loc) - label,논리적인덱스 - 변경가능
df_KTX.loc['2011']  # 2011년 행만 선택
df_KTX.loc['2013':'2016'] # 2013년부터 2016년 행 선택
df_KTX.loc[['2013','2016']] # 대괄호 두 개

# 예전에는 .ix 를 썼으나 지금은 쓰지 않음

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0


In [165]:
# 행 - 일정부분 가져오기(.iloc) - 숫자,물리적인덱스 - 변경불가
df_KTX.iloc[1]  # 두 번째 행만 선택

경부선 KTX    39896.0
호남선 KTX     6967.0
경전선 KTX     4168.0
전라선 KTX     1771.0
동해선 KTX        NaN
Name: 2012, dtype: float64

In [118]:
# 열 - 일정부분 가져오기(column name)
df_KTX['경부선 KTX']  # 열 단위로 쓰려면 ['열이름']

2011    39060
2012    39896
2013    42005
2014    43621
2015    41702
2016    41266
2017    32427
Name: 경부선 KTX, dtype: int64

In [159]:
# 열과 행 - 일정부분 가져오기
df_KTX['경부선 KTX']['2012':'2014']
df_KTX['경부선 KTX'][1:4]

2012    39896
2013    42005
2014    43621
Name: 경부선 KTX, dtype: int64

In [164]:
data = {'state': ['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year': [2000,2001,2002,2001,2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
       }
frame = pd.DataFrame(data)
frame
frame.year     # 이렇게 data.열이름 해도 된다.

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

In [41]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [43]:
# 불리언 배열로 칼럼 선택하기
frame[frame['year']>2001]
frame[frame.year>2001]

Unnamed: 0,state,year,pop
2,Ohio,2002,3.6
4,Nevada,2002,2.9


In [None]:
frame[frame.pop>2001]
>>> error! 왜? 칼럼명이 파이썬 내장함수와 이름충돌 -> method로 인식되어 오류날 수도 있음
>>> 정확하게 칼럼 선택하려면 frame['pop']을 써야 한다.

In [177]:
import numpy as np
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index =['Ohio','Colorado','Utah','New York'],
                    columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 원소 하나만 가져오기

In [123]:
df_KTX.loc['2016']['호남선 KTX'] # .loc[index_name][column_name]

10622.0

In [None]:
df_KTX.loc['2016','호남선 KTX']  # .loc[index_name, column_name]

In [None]:
df_KTX['호남선 KTX']['2016']     # [column_name][index_name]

In [None]:
df_KTX['호남선 KTX'][5]          # [column_name][index_pos]

In [None]:
df_KTX['호남선 KTX'].loc['2016'] # [column_name].loc[index_name]

#### 재색인(reindex)

- DataFrame의 reindex는 row, column 둘다 변경 가능. 그냥 순서만 전달하면 row가 재색인된다.

In [28]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index=['a','b','d'],
                    columns = ['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
d,6,7,8


In [13]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,,,
d,6.0,7.0,8.0


In [17]:
# column 재색인
states = ['Texas','Utah','California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
d,7,,8


In [21]:
frame.loc[['a','b','c','d'],states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,4.0,,5.0
c,,,
d,7.0,,8.0


#### row 또는 column 삭제(drop)

In [None]:
# 행 삭제: axis = 1
# 열 삭제: axis = 0 (default)

In [32]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year': [2000,2001,2002,2001,2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [34]:
# 행 삭제 (axis=0)
frame2 = frame.copy() #그냥 대입하면 얕은복사. frame까지 영향 받게 됨. 깊은 복사하려면 frame.copy
frame2.drop([3])  # 3행만 빠짐, axis=0

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
4,Nevada,2002,2.9


In [35]:
# 열 삭제 (axis=1)
frame2.drop(['pop'], axis=1)

Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002


#### 전치행렬 구하기

In [124]:
df_KTX.T

Unnamed: 0,2011,2012,2013,2014,2015,2016,2017
경부선 KTX,39060.0,39896.0,42005.0,43621.0,41702.0,41266.0,32427.0
호남선 KTX,7313.0,6967.0,6873.0,6626.0,8675.0,10622.0,9228.0
경전선 KTX,3627.0,4168.0,4088.0,4424.0,4606.0,4984.0,5570.0
전라선 KTX,309.0,1771.0,1954.0,2244.0,3146.0,3945.0,5766.0
동해선 KTX,,,,,2395.0,3786.0,6667.0


#### 칼럼 순서 바꾸기

In [126]:
df_KTX[['동해선 KTX', '전라선 KTX', '경전선 KTX', '호남선 KTX', '경부선 KTX']]

Unnamed: 0,동해선 KTX,전라선 KTX,경전선 KTX,호남선 KTX,경부선 KTX
2011,,309,3627,7313,39060
2012,,1771,4168,6967,39896
2013,,1954,4088,6873,42005
2014,,2244,4424,6626,43621
2015,2395.0,3146,4606,8675,41702
2016,3786.0,3945,4984,10622,41266
2017,6667.0,5766,5570,9228,32427


### 데이터 통합하기

#### 세로 방향 통합 (append) - index가 늘어남

In [127]:
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]})
df2 = pd.DataFrame({'Class1': [87, 89],
                    'Class2': [85, 90]})

In [129]:
df1.append(df2, ignore_index=True)
# 기존데이터 df1에 df2가 추가됨
# 각기 다른 인덱스가 순차적으로 맞춰진다.
# 만약 columns가 같지 않은 데이터가 추가되면 없는 부분은 NaN

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


#### 가로 방향 통합 (join) - columns가 늘어남

In [130]:
df4 = pd.DataFrame({'Class3': [93,91,95,98]})
df1.join(df4)

# index 라벨이 지정된 데이터도 인덱스가 합치려는 데이터와 같으면 join을 이용해 추가 가능
# 만약 index의 크기가 다르면 데이터가 없는 부분은 Nan

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


#### 특정 열 기준으로 통합(merge)

In [131]:
df_A_B = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})
df_C_D = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})

In [132]:
# 공통칼럼인 판매월을 기준으로 열이 합쳐진다.
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


In [133]:
# 특정 열 기준으로 일부만 공통된 값을 갖는다면?
df_left = pd.DataFrame({'key':['A','B','C'], 'left': [1, 2, 3]})
df_right = pd.DataFrame({'key':['A','B','D'], 'right': [4, 5, 6]})

In [134]:
df_left.merge(df_right, how='left', on='key')
# 왼쪽 데이터 모두 선택, 오른쪽 데이터는 공통값만 선택
# 없는 값은 NaN

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [None]:
df_left.merge(df_right, how='right', on='key')
# 왼쪽 데이터 공통값만 선택, 오른쪽 데이터는 모두 선택

In [None]:
df_left.merge(df_right, how='outer', on='key')
# 왼쪽, 오른쪽 데이터 모두 선택

In [None]:
df_left.merge(df_right, how='inner', on='key')
# 왼쪽, 오른쪽 공통값만 선택

# 데이터 연산

In [96]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([10,20,30,40,50])
s1 + s2
s2 - s1
s1 * s2
s2 / s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

In [99]:
# pandas는 서로 크기가 다른 데이터도 연산할 수 있다.
s3 = pd.Series([1,2,3,4])
s4 = pd.Series([10,20,30,40,50])
s3 + s4

# 없는 값은 NaN으로 표시됨

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [36]:
# DataFrame도 마찬가지
table_data1 = {'A': [1,2,3,4,5],
              'B': [10,20,30,40,50],
              'C': [100,200,300,400,500]}
df1 = pd.DataFrame(table_data1)

table_data2 = {'A': [6,7,8],
              'B': [60,70,80],
              'C': [600,700,800]}
df2 = pd.DataFrame(table_data2)

In [37]:
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [None]:
df1.mean()    # 평균
df1.std()     # 표준편차
df1.var()     # 분산
df1.min()     # 최소값
df1.max()     # 최대값
df1.cumsum()  # 각 원소의 누적합
df1.cumprod() # 각 원소의 누적곱

In [40]:
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [38]:
# 열별 연산
df1.mean(axis=0) # axis=0이 default

A      3.0
B     30.0
C    300.0
dtype: float64

In [39]:
# 행별 연산
df1.mean(axis=1)

0     37.0
1     74.0
2    111.0
3    148.0
4    185.0
dtype: float64

In [105]:
# 한꺼번에 구하기(describe)
fdata = pd.read_csv("csv_exam.csv")  # header=True
fdata.describe()   # R의 summary같은 역할

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


# 함수적용과 맵핑

In [179]:
f = lambda x: x.max() - x.min() # 자동으로 for문 들어간다
frame.apply(f)

TypeError: ("unsupported operand type(s) for -: 'str' and 'str'", 'occurred at index state')

In [180]:
frame3 = pd.DataFrame(np.random.randn(4,3), columns = list('bde'),
                     index=['Utah','Ohio','Texas','Oregon'])
frame3

Unnamed: 0,b,d,e
Utah,0.063215,0.737282,-1.071462
Ohio,0.474133,0.201834,0.247446
Texas,2.350706,0.2402,-0.848149
Oregon,-1.418184,-0.825163,-0.230604


In [181]:
f=lambda x: x.max() - x.min()   # 맨 마지막에 수행하는 명령어를 lambda는 자동으로 리턴
frame3.apply(f)                  # column단위

b    3.768890
d    1.562445
e    1.318908
dtype: float64

In [182]:
frame3.apply(f, axis=1)       # 행 단위

Utah      1.808744
Ohio      0.272299
Texas     3.198855
Oregon    1.187580
dtype: float64

# 데이터 파일 읽고 쓰기

In [135]:
%%writefile C:\py_data\Python_Summary\sea_rain1.csv
연도,동해,남해,서해,전체
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178

Writing C:\py_data\Python_Summary\sea_rain1.csv


In [136]:
pd.read_csv('./sea_rain1.csv')

# 메모장으로 저장한 데이터는 encoding="cp949"

Unnamed: 0,연도,동해,남해,서해,전체
0,1996,17.4629,17.2288,14.436,15.9067
1,1997,17.4116,17.4092,14.8248,16.1526
2,1998,17.5944,18.011,15.2512,16.6044
3,1999,18.1495,18.3175,14.8979,16.6284
4,2000,17.9288,18.1766,15.0504,16.6178


In [None]:
# 텍스트파일에서 각 데이터값이 콤마가 아니라 공백으로 구분돼 있으면?
# 불러올 때 sep=" " 옵션 추가해서 구분자가 공백임을 지정
# 텍스트파일도 read_csv로 불러올 수 있다.

In [137]:
# 자동으로 생성된 index 말고, 특정 column을 열로 지정하고 싶다면?
pd.read_csv('./sea_rain1.csv', index_col='연도')

Unnamed: 0_level_0,동해,남해,서해,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1996,17.4629,17.2288,14.436,15.9067
1997,17.4116,17.4092,14.8248,16.1526
1998,17.5944,18.011,15.2512,16.6044
1999,18.1495,18.3175,14.8979,16.6284
2000,17.9288,18.1766,15.0504,16.6178


#### DafaFrame 데이터를 텍스트파일로 저장(.to_csv)

In [138]:
df_WH = pd.DataFrame({'Weight':[62, 67, 55, 74],
                      'Height':[165, 177, 160, 180]},
                       index=['ID_1', 'ID_2', 'ID_3', 'ID_4'])
df_WH.index.name = 'User'
df_WH

Unnamed: 0_level_0,Weight,Height
User,Unnamed: 1_level_1,Unnamed: 2_level_1
ID_1,62,165
ID_2,67,177
ID_3,55,160
ID_4,74,180


In [139]:
bmi = df_WH['Weight']/(df_WH['Height']/100)**2
bmi

User
ID_1    22.773186
ID_2    21.385936
ID_3    21.484375
ID_4    22.839506
dtype: float64

In [140]:
df_WH['BMI'] = bmi  # BMI 칼럼 추가
df_WH

Unnamed: 0_level_0,Weight,Height,BMI
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ID_1,62,165,22.773186
ID_2,67,177,21.385936
ID_3,55,160,21.484375
ID_4,74,180,22.839506


In [146]:
# 저장
df_WH.to_csv('./data/BMI.csv')

In [150]:
# 잘 저장됐는지 확인
!type C:\py_data\Python_Summary\data\BMI.csv
# 현재 디렉토리까지는 .\ 로도 대체 가능

User,Weight,Height,BMI
ID_1,62,165,22.77318640955005
ID_2,67,177,21.38593635289987
ID_3,55,160,21.484374999999996
ID_4,74,180,22.839506172839506


In [151]:
# 저장 시 옵션 지정
df_pr = pd.DataFrame({'판매가격':[2000, 3000, 5000, 10000],
                       '판매량':[32, 53, 40, 25]},
                       index=['P1001', 'P1002', 'P1003', 'P1004'])
df_pr.index.name = '제품번호'
df_pr

Unnamed: 0_level_0,판매가격,판매량
제품번호,Unnamed: 1_level_1,Unnamed: 2_level_1
P1001,2000,32
P1002,3000,53
P1003,5000,40
P1004,10000,25


In [152]:
file_name = "./data/cp949.txt"
df_pr.to_csv(file_name, sep=" ", encoding="cp949")

In [155]:
!type .\data\cp949.txt

제품번호 판매가격 판매량
P1001 2000 32
P1002 3000 53
P1003 5000 40
P1004 10000 25
