### [Pandas Series]

1. 구조 : Index 와 value를 가진 1차원(줄) 배열

### 1. Create

In [None]:
import pandas as pd

sr = pd.Series([1, 3, 5, 7, 9])

sr

Unnamed: 0,0
0,1
1,3
2,5
3,7
4,9


In [None]:
type(sr)

In [None]:
sr.index #기본 인덱스: 0부터 시작하는 숫자

RangeIndex(start=0, stop=5, step=1)

In [None]:
sr.values

array([1, 3, 5, 7, 9])

In [None]:
# 인덱스의 별도 지정이 가능하다
sr2 = pd.Series([1, 3, 5, 7, 9], index=['a','b', 'c', 'd', 'e'])
sr2

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9


In [None]:
sr2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
sr2.values

array([1, 3, 5, 7, 9])

In [None]:
# 인덱스의 이름을 바꾸는 법
sr2 = sr.rename(index={0:'a', 1:'b', 2:'c', 3:'d', 4:'e'})

sr2

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9


### 2. Read

In [None]:
sr2['c'] #index이름

5

In [None]:
sr2.loc['c'] #index이름 loc

5

In [None]:
sr2.iloc[2] #index 순서 iloc

5

In [None]:
sr2.loc[['c','d']]

Unnamed: 0,0
c,5
d,7


In [None]:
sr2[['c','d']]

Unnamed: 0,0
c,5
d,7


In [None]:
sr2.loc[sr2 >=5] #loc은 flexible indexing , boolean indexing 이 가능하다

Unnamed: 0,0
c,5
d,7
e,9


In [None]:
#sr2.iloc[sr2 >=5] #iloc은 flexible indexing , boolean indexing 불가

In [None]:
# iloc은 범위에 대한 인덱싱을 하기 좋다
sr2.iloc[1:3] #start : end (시작은 포함, 끝은 미포함)

Unnamed: 0,0
b,3
c,5


In [None]:
sr

Unnamed: 0,0
0,1
1,3
2,5
3,7
4,9


In [None]:
#loc으로 indexing을 하게되면 start : end (시작도 포함, 끝도 포함)
# => 익숙하지 않은 indexing이므로 범위를 읽을 때는 iloc을 쓰는 것이 더 좋다.
sr.loc[1:3]

Unnamed: 0,0
1,3
2,5
3,7


### 3. Update - append

In [None]:
newItem = pd.Series({'f': 11, 'g': 15})
sr3 = pd.concat([sr2, newItem])

sr2

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9


In [None]:
sr3

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9
f,11
g,15


### 3. Update - change values

In [None]:
sr3['g'] = 17
sr3

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9
f,11
g,17


In [None]:
sr3.loc['g'] = 13
sr3

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,9
f,11
g,13


In [None]:
sr3.iloc[4:6] = [19, 21]
sr3

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,19
f,21
g,13


### 4. Delete (Drop)

In [None]:
sr3 = sr3.drop(['f', 'g'])
sr3

Unnamed: 0,0
a,1
b,3
c,5
d,7
e,19


[참고] Error handling

Try - Except
오류인 경우 결과(result) 변수는 None으로 설정된다.

In [None]:
result = None

try:
  result = sr2['f']

except Exception as err:
  print('Error: sr2[\"f\"]:', err)

try:
  result = sr2.loc['f']

except Exception as err:
  print('Error: sr2.loc[\"f\"]:', err)


Error: sr2["f"]: 'f'
Error: sr2.loc["f"]: 'f'


### [Pandas DataFrame]

index와 하나 이상의 column으로 구성된 테이블 형태의 구조체

### 1. Create

In [None]:
nums = {'val': [1,3,5,7,9,11], 'alias':['one', 'two', 'three', 'four','five','six']}

df = pd.DataFrame(nums)
print(df)

   val  alias
0    1    one
1    3    two
2    5  three
3    7   four
4    9   five
5   11    six


In [None]:
df.index #0부터 5까지의 숫자 row의 이름

RangeIndex(start=0, stop=6, step=1)

In [None]:
df.columns #column의 이름

Index(['val', 'alias'], dtype='object')

In [None]:
df.values #value의 배열

array([[1, 'one'],
       [3, 'two'],
       [5, 'three'],
       [7, 'four'],
       [9, 'five'],
       [11, 'six']], dtype=object)

In [None]:
# index의 이름을 바꿀 수 있다.
df2 = pd.DataFrame(nums, index=['a','b','c','d','e','f'])
df2

Unnamed: 0,val,alias
a,1,one
b,3,two
c,5,three
d,7,four
e,9,five
f,11,six


In [None]:
df.head(5) # 위의 5개 줄만 보여주기

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five


### 2. Read (읽기)

In [None]:
df['val']

Unnamed: 0,val
0,1
1,3
2,5
3,7
4,9
5,11


In [None]:
df['alias']

Unnamed: 0,alias
0,one
1,two
2,three
3,four
4,five
5,six


In [None]:
df[['alias', 'val']]

Unnamed: 0,alias,val
0,one,1
1,two,3
2,three,5
3,four,7
4,five,9
5,six,11


> Conventional indexing & Slicing

df['열이름']['행'] #행-열 순서가 아니라 열-행 순서임

In [None]:
df

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six


In [None]:
df['alias'][3]

'four'

In [None]:
# df['alias',3] #에러발생

> loc method : 마지막 숫자를 포함한다

In [None]:
# 마지막 숫자를 포함하여 읽는다.
df.loc[3, 'alias'] #행 - 열 순서

'four'

In [None]:
df.loc[0:2, "val":"alias"] #행 - 열 순서

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three


In [None]:
# df.iloc[행, 열]
df.iloc[0:1, 0:2] # 마지막 숫자 포함안됨! -> 기존의 다른 익숙한 방식과 동일함

Unnamed: 0,val,alias
0,1,one


In [None]:
df

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six


In [None]:
# df.iloc[행, 열]
df.iloc[-1, -1] # 특정 셀 읽기

'six'

In [None]:
# df.iloc[행, 열]
df.iloc[:, 1] # 특정 열 읽기

Unnamed: 0,alias
0,one
1,two
2,three
3,four
4,five
5,six


In [None]:
# df.iloc[행, 열]
df.iloc[-3:, :] #특정 행 읽기

Unnamed: 0,val,alias
3,7,four
4,9,five
5,11,six


In [None]:
# 0번째 열의 값이 5 이상인 행
df[df.iloc[:, 0] >= 5]

Unnamed: 0,val,alias
2,5,three
3,7,four
4,9,five
5,11,six


### 3. Update - Append

In [None]:
nums2 = {'val': [7,8], 'alias': ['seven', 'eight']}
# {'val':7, 'alias': 'six'}, {'val':8, 'alias': 'eight'}
df2 = pd.DataFrame(nums2)
df2

Unnamed: 0,val,alias
0,7,seven
1,8,eight


[Two step 과정으로 데이터 프레임 확장]

1. 추가할 데이터 프레임 생성

2. 기존 데이터 프레임에 츠가할 데이터 프레임을 이어붙인다.
- ignore_index = True : 숫자 인덱스로 인덱스를 새로 생성함


In [None]:
df3 = pd.concat([df, df2])
df3

# 인덱스 값이 그대로 유지되는 모습

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six
0,7,seven
1,8,eight


In [None]:
df3 = pd.concat([df, df2])
df4 = df3.reset_index(drop=True) #reset_index(drop = True) : 숫자 인덱스를 새로 생성한다.
df4

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six
6,7,seven
7,8,eight


In [None]:
df4.iloc[-1, 1] = 'nine'
df4

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six
6,7,seven
7,8,nine



### 4. Delete - rows

df.drop(index 번호)

- 리스트 안에 열거한 대상 행들 각각을 삭제

- 범위 삭제는 슬라이싱 방법을 참조한다

In [None]:
df4

Unnamed: 0,val,alias
0,1,one
1,3,two
2,5,three
3,7,four
4,9,five
5,11,six
6,7,seven
7,8,nine


In [None]:
df5 = df4.drop([2,5]) # 2열, 5열을 버린다
df5

Unnamed: 0,val,alias
0,1,one
1,3,two
3,7,four
4,9,five
6,7,seven
7,8,nine


In [None]:
df8 = pd.read_csv('./pandas_example.csv')
df8

Unnamed: 0,c1,c2,c3
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
def addOne(val):
  df9 = df8.map(lambda x: x+1)
  return df9

def calcSum(nums):
  sum = 0
  for item in nums:
    sum = sum + item
  return sum

In [None]:
df8

Unnamed: 0,c1,c2,c3
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
addOne(df8) # map : 셀단위 계산

Unnamed: 0,c1,c2,c3
0,2,3,4
1,5,6,7
2,8,9,10


In [None]:
df10 = df8.apply(calcSum, axis = 0) # 열 단위 계산 (세로합)
df10

Unnamed: 0,0
c1,12
c2,15
c3,18


In [None]:
df11 = df8.apply(calcSum, axis = 1) # 행 단위 계산 (가로합)
df11

Unnamed: 0,0
0,6
1,15
2,24


### 5. 연산 - Dataframe과 Series

1. DataFrame의 각 행에 대해 지정한 연산이 반복된다.

2. Series의 index와 dataframe의 matching column 사이에 연산이 적용된다.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(4,3), columns=['c1','c2','c3'], index = ['a','b','c','d'])
print(df)

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11


In [None]:
ser = pd.Series(np.arange(3), index=['c1','c2','c3'])
print(ser)

c1    0
c2    1
c3    2
dtype: int64


In [None]:
df2 = df - ser
print(df2)

# 이름을 매칭해서 c1컬럼에서 다 빼고 c2컬럼에서 c2값 다 빼고 c3컬럼값에서 c3을 다 뺀다.

   c1  c2  c3
a   0   0   0
b   3   3   3
c   6   6   6
d   9   9   9


In [None]:
ser2 = pd.Series(np.arange(3), index=['c2','c3','c4'])
print(ser2)

c2    0
c3    1
c4    2
dtype: int64


In [None]:
df2 = df - ser2
print(df2)

# 각각 df의 C1과 series의 C4는 매칭이 되지않음 => Nan(not a number) 취급
# Nan의 경우 데이터 관점에서 결측치로 취급한다.

   c1    c2    c3  c4
a NaN   1.0   1.0 NaN
b NaN   4.0   4.0 NaN
c NaN   7.0   7.0 NaN
d NaN  10.0  10.0 NaN


In [None]:
df3 = df.sub(ser2) #df.sub(다른df or series)를 빼는 방법
df3

Unnamed: 0,c1,c2,c3,c4
a,,1.0,1.0,
b,,4.0,4.0,
c,,7.0,7.0,
d,,10.0,10.0,


### 연산 - isna, fillna

- isna() 숫자가 아닌 값들의 존재 여부 검사
- fillna() Nan 값을 주어진 값으로 치환

In [None]:
df3.isna()

Unnamed: 0,c1,c2,c3,c4
a,True,False,False,True
b,True,False,False,True
c,True,False,False,True
d,True,False,False,True


In [None]:
df3.isna().sum()

Unnamed: 0,0
c1,4
c2,0
c3,0
c4,4


In [None]:
df4 = df3.fillna(0)
df4

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,1.0,0.0
b,0.0,4.0,4.0,0.0
c,0.0,7.0,7.0,0.0
d,0.0,10.0,10.0,0.0


### 6. 연산 - Dataframe과 Dataframe

- Column name, index를 기준으로 data를 matching 후 연산된다.

In [None]:
df5 = pd.DataFrame(np.arange(12,24,1).reshape(4,3), columns=['c2','c3','c4'], index = ['b','c','d','e'])
df5

Unnamed: 0,c2,c3,c4
b,12,13,14
c,15,16,17
d,18,19,20
e,21,22,23


In [None]:
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
df6 = df + df5
df6             # column name, index를 기준으로 data를 매칭한 후에 연산이 된다.
# 안겹치는 값들은 Nan으로 표시됨

Unnamed: 0,c1,c2,c3,c4
a,,,,
b,,16.0,18.0,
c,,22.0,24.0,
d,,28.0,30.0,
e,,,,


In [None]:
df7 = df.add(df5) #df.add(dataframe) 으로도 더하기 연산이 가능함
df7

Unnamed: 0,c1,c2,c3,c4
a,,,,
b,,16.0,18.0,
c,,22.0,24.0,
d,,28.0,30.0,
e,,,,


### 7. 연산 - Map & Apply

- Map : 각각의 원소에다가 하나씩 수식을 적용한다.

In [None]:
df8 = df7.copy()

def convertNaNtoZero(val):
  retVal = val

  if np.isnan(val):
    retVal = 0

  return retVal

df8 = df8.map(convertNaNtoZero)
df8

# Nan만 0으로 바뀌고 나머지는 다 그대로 나옴

Unnamed: 0,c1,c2,c3,c4
a,0,0.0,0.0,0
b,0,16.0,18.0,0
c,0,22.0,24.0,0
d,0,28.0,30.0,0
e,0,0.0,0.0,0


- Apply : 각 행 또는 열에다가 함수를 적용한다.
  -> axis = 0 : column(열)

In [None]:
def calcAvg(items):
  sum = 0
  for item in items:
    sum = sum + item

  return sum / len(items)

df9 = df8.apply(calcAvg, axis = 0)
df9    #열 평균이 계산된 모습

Unnamed: 0,0
c1,0.0
c2,13.2
c3,14.4
c4,0.0


In [None]:
df10 = df8.apply(calcAvg, axis = 1)
df10    #행 평균이 계산된 모습

Unnamed: 0,0
a,0.0
b,8.5
c,11.5
d,14.5
e,0.0


In [None]:
# apply의 결과는 series

type(df9), type(df10)

(pandas.core.series.Series, pandas.core.series.Series)

### [Exercise]

In [None]:
import numpy as np


df = pd.DataFrame(a, index=list('가나다라'), columns=list('ABCDEF'))
df

Unnamed: 0,A,B,C,D,E,F
가,1,9,9,6,4,3
나,1,4,8,0,8,3
다,7,0,8,8,8,7
라,6,8,2,7,8,5


In [None]:
df.loc[['가','나'],['B', 'C', 'B']]

Unnamed: 0,B,C,B.1
가,9,9,9
나,4,8,4


In [None]:
# 가나다 행 / BDEF 열의 자료를 추출하라

df.iloc[:3, 1:].drop('C', axis = 1)

Unnamed: 0,B,D,E,F
가,9,6,4,3
나,4,0,8,3
다,0,8,8,7


In [None]:
# 가나다 행 / BDEF 열의 자료를 추출하라

df.loc[['가', '나', '다'], ['B', 'D', 'E', 'F']]

Unnamed: 0,B,D,E,F
가,9,6,4,3
나,4,0,8,3
다,0,8,8,7


In [None]:
df = pd.read_csv('./blood_pressure.csv')
df

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
0,1,Male,30-45,143,153
1,2,Male,30-45,163,170
2,3,Male,30-45,153,168
3,4,Male,30-45,153,142
4,5,Male,30-45,146,141
...,...,...,...,...,...
115,116,Female,60+,152,152
116,117,Female,60+,161,152
117,118,Female,60+,165,174
118,119,Female,60+,149,151


In [None]:
import pandas as pd

df = pd.read_csv('blood_pressure.csv')

#############################################################
#
#   파일에서 읽은 데이터의 형태와 내용을 확인합니다.
#
#############################################################

print('type(df):', type(df))
print('df.head(5):\n', df.head(5))
print('df.shape:', df.shape)
print('df.dtypes:', df.dtypes)

type(df): <class 'pandas.core.frame.DataFrame'>
df.head(5):
    patient   sex agegrp  bp_before  bp_after
0        1  Male  30-45        143       153
1        2  Male  30-45        163       170
2        3  Male  30-45        153       168
3        4  Male  30-45        153       142
4        5  Male  30-45        146       141
df.shape: (120, 5)
df.dtypes: patient       int64
sex          object
agegrp       object
bp_before     int64
bp_after      int64
dtype: object


In [None]:
#############################################################
#
#   1. 데이터의 49번째 행(row)부터 58번째 행을 읽고 그 데이터를 화면에 출력하시오.
#
#############################################################

df.iloc[49:59]

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
49,50,Male,60+,170,163
50,51,Male,60+,175,146
51,52,Male,60+,175,160
52,53,Male,60+,172,175
53,54,Male,60+,173,163
54,55,Male,60+,170,185
55,56,Male,60+,164,146
56,57,Male,60+,147,176
57,58,Male,60+,154,147
58,59,Male,60+,172,161


In [None]:
df.loc[49:58]

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
49,50,Male,60+,170,163
50,51,Male,60+,175,146
51,52,Male,60+,175,160
52,53,Male,60+,172,175
53,54,Male,60+,173,163
54,55,Male,60+,170,185
55,56,Male,60+,164,146
56,57,Male,60+,147,176
57,58,Male,60+,154,147
58,59,Male,60+,172,161


In [None]:
#############################################################
#
#   2. 데이터의 49번째 행(row)부터 58번째 행의 'bp_before', 'bp_after 열(column)을 읽고 화면에 출력하시오.
#
#############################################################

df.loc[49:58, ['bp_before', 'bp_after']]

Unnamed: 0,bp_before,bp_after
49,170,163
50,175,146
51,175,160
52,172,175
53,173,163
54,170,185
55,164,146
56,147,176
57,154,147
58,172,161


In [None]:
#############################################################
#
#   3. 데이터에서 투약 이전 평균혈압(bp_before)이 170 이상인 실험군을 화면에 출력하시오.
#
#############################################################

df[df['bp_before']>=170]

Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
11,12,Male,30-45,173,159
17,18,Male,30-45,176,134
30,31,Male,46-59,175,151
31,32,Male,46-59,184,139
34,35,Male,46-59,170,151
38,39,Male,46-59,185,140
44,45,Male,60+,180,153
46,47,Male,60+,172,169
48,49,Male,60+,171,185
49,50,Male,60+,170,163


In [None]:
#############################################################
#
#   4. 데이터에서 투약 이전 평균혈압(bp_before)이 170 이상 190 이하인 실험군을 화면에 출력하시오.
#
#############################################################

df.loc[(df['bp_before'] >= 170) & (df['bp_before']<=190)]



Unnamed: 0,patient,sex,agegrp,bp_before,bp_after
11,12,Male,30-45,173,159
17,18,Male,30-45,176,134
30,31,Male,46-59,175,151
31,32,Male,46-59,184,139
34,35,Male,46-59,170,151
38,39,Male,46-59,185,140
44,45,Male,60+,180,153
46,47,Male,60+,172,169
48,49,Male,60+,171,185
49,50,Male,60+,170,163


In [None]:
import pandas as pd

coffee = {'coffee': ['mocha','capuccino', 'vienna'], 'sugar':[20, 10, 30], 'cream':[30,20,20]}

df = pd.DataFrame(coffee)
print(df)

      coffee  sugar  cream
0      mocha     20     30
1  capuccino     10     20
2     vienna     30     20


In [None]:
# index의 이름을 변경

df2 = df.rename(index={0:'a', 1:'b', 2:'c', 3:'d', 4:'e', 5:'f'})
print(df2)

      coffee  sugar  cream
a      mocha     20     30
b  capuccino     10     20
c     vienna     30     20


In [None]:
# 이름으로 인덱싱
df2.loc['b', 'coffee']

'capuccino'

In [None]:
# 순서로 인덱싱
df2.iloc[1,0]

'capuccino'