In [2]:
import pandas as pd
import numpy as np

st1 = pd.Series({'국어':100, '영어':80, '수학':90})
st2 = pd.Series({'수학':80, '국어':90, '영어':80})
print(st1,'\n')
print(st2)

국어    100
영어     80
수학     90
dtype: int64 

수학    80
국어    90
영어    80
dtype: int64


## 시리즈 연산, 벡터 연산

In [3]:
# 두 학생의 과목별 점수로 사칙연산 
add = st1 + st2 
sub = st1 - st2
mul = st1 * st2 
div = round((st1 / st2), 2) #반올림 처리 , 소수점 둘째자리까지 하겠다 
df = pd.concat([add, sub, mul, div], axis = 1)
df

Unnamed: 0,0,1,2,3
국어,190,10,9000,1.11
수학,170,10,7200,1.12
영어,160,0,6400,1.0


In [4]:
result = pd.DataFrame([add, sub, mul, div], index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.11,1.12,1.0


In [6]:
np.arange(12) #1차원 배열 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [7]:
np.arange(12).reshape(3,4) #3행 4열 , 2차원 배열

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [10]:
arr = np.arange(12.).reshape(3,4)
print(arr, '\n')
print(arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]] 

[0. 1. 2. 3.]


In [13]:
#broadcasting
arr - arr[0] 

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [14]:
#데이터 프레임 - 시리즈간의 연산 
frame = pd.DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [15]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [16]:
frame - series #broadcasting

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [17]:
frame + frame

Unnamed: 0,b,d,e
Utah,0.0,2.0,4.0
Ohio,6.0,8.0,10.0
Texas,12.0,14.0,16.0
Oregon,18.0,20.0,22.0


커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map함수 : DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용
- apply함수 : 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply함수를 사용
- applymap함수 : DataFrame클래스의 함수이긴 하나, 위의 apply함수처럼 각 row(axis=1)나 각 column(axis=0)별로 
작동하는 함수가 아니라, 각 요소(element)별로 작동  
마치 선형대수에서 벡터에 스칼라를 연산하면, 벡터의 요소 하나하나에 해당 연산을 해주는 것처럼(elementwise) 
적용하는 DataFrame의 각 요소마다 커스텀 함수(반드시 Single vaule를 반환하는)를 수행한다고 보면 된다. 
applymap에 인자로 전달하는 커스텀함수가 Single value로부터 Single value를 반환한다는 점이 중요하다


In [19]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [18]:
f = lambda x: x.max() - x.min()
frame.apply(f) #행방향 (Default 가 칼럼기준)

b    9.0
d    9.0
e    9.0
dtype: float64

In [20]:
frame.apply(f, axis='columns') #열방향

Utah      2.0
Ohio      2.0
Texas     2.0
Oregon    2.0
dtype: float64

In [21]:
#여러 값을 가진 Series 반환  # max, min값 뽑고싶음
#max, min을 뽑는 사용자 함수 정의
def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])
frame.apply(f) 

Unnamed: 0,b,d,e
min,0.0,1.0,2.0
max,9.0,10.0,11.0


In [22]:
#format 
format = lambda x: '%.2f' %x     #x값에 대해 소수점 둘째자리까지 해라 ,  %.2f에서 f는 실수를 의미 
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [24]:
frame['e'].map(format) #map함수는 시리즈에만 적용 

Utah       2.00
Ohio       5.00
Texas      8.00
Oregon    11.00
Name: e, dtype: object

# 과제: 최대한 복잡한 사용자 함수를 생성한 후, df에 적용하여 결과를 출력하세요. -> 가치도 따져

In [36]:
import pandas as pd
from numpy import random
id = np.arange(1, 1001) #1~ 1000
i1 = pd.Series(id)
np.random.seed(0)
gender = np.random.randint(2, size = 1000) #남 0 , 여 1
g1 = pd.Series(gender)
np.random.seed(1)
age = np.random.randint(1, 101, size = 1000) #1~100살 까지 
a1 = pd.Series(age)
np.random.seed(2)
region = np.random.randint(1,11,size = 1000) #1~10번 지역을 1000개 
r1 = pd.Series(region)

df1 = pd.concat([i1, g1, a1, r1], axis = 1) #axis = 1 열 방향 
df1.rename(columns = {0: 'id', 1: 'gender', 2: 'age', 3: 'region'}, inplace = True) #열 이름을 딕셔너리로 지정{열번호: 열이름},  inplace = True -> 원본에 반영하라는 뜻 
df1.head()

Unnamed: 0,id,gender,age,region
0,1,0,38,9
1,2,1,13,9
2,3,1,73,7
3,4,0,10,3
4,5,1,76,9


In [39]:
np.random.seed(3)
blood_sugar = np.random.randint(70, 250, size = 1000)
b1 = pd.Series(blood_sugar)
np.random.seed(4)
SCr = (2) * random.random_sample(size=1000)
c1 = pd.Series(SCr)
np.random.seed(5)
bmi = (35 - 8) * random.random_sample(size=1000) + 8
m1 = pd.Series(bmi)
np.random.seed(6)
smoke = np.random.randint(2, size = 1000) 
s1 = pd.Series(smoke)
np.random.seed(7)
mouth = np.random.randint(2, size = 1000) 
o1 = pd.Series(mouth)
df7 = pd.concat([b1, c1, m1, s1, o1], axis = 1) #axis = 1 열 방향 
df7.rename(columns = {0: 'blood_sugar', 1: 'SCr', 2: 'bmi', 3: 'smoke', 4: 'mouth'}, inplace = True) #열 이름을 딕셔너리로 지정{열번호: 열이름},  inplace = True -> 원본에 반영하라는 뜻 
df8 = pd.concat([df1, df7] , axis = 1)
df8.head()

Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth
0,1,0,38,9,176,1.93406,13.993816,0,1
1,2,1,13,9,222,1.094464,31.509772,1,0
2,3,1,73,7,201,1.945369,13.581417,1,1
3,4,0,10,3,70,1.429632,32.802495,0,0
4,5,1,76,9,91,1.395458,21.187102,0,1


In [40]:
df = df8.copy()
df.head()

Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth
0,1,0,38,9,176,1.93406,13.993816,0,1
1,2,1,13,9,222,1.094464,31.509772,1,0
2,3,1,73,7,201,1.945369,13.581417,1,1
3,4,0,10,3,70,1.429632,32.802495,0,0
4,5,1,76,9,91,1.395458,21.187102,0,1


In [41]:
df1 = df[gender == 1]
df1.head()
#여자

Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth
1,2,1,13,9,222,1.094464,31.509772,1,0
2,3,1,73,7,201,1.945369,13.581417,1,1
4,5,1,76,9,91,1.395458,21.187102,0,1
5,6,1,6,8,217,0.432179,24.517084,1,1
6,7,1,80,3,177,1.952549,28.679512,1,1


In [43]:
df2 = df[gender == 0]
df2.head() #남자 

Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth
0,1,0,38,9,176,1.93406,13.993816,0,1
3,4,0,10,3,70,1.429632,32.802495,0,0
11,12,0,72,6,236,0.39537,27.937888,1,1
12,13,0,7,8,218,1.725986,19.915349,1,0
14,15,0,51,7,163,0.327684,31.7583,1,0


In [44]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 496 entries, 0 to 999
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           496 non-null    int32  
 1   gender       496 non-null    int32  
 2   age          496 non-null    int32  
 3   region       496 non-null    int32  
 4   blood_sugar  496 non-null    int32  
 5   SCr          496 non-null    float64
 6   bmi          496 non-null    float64
 7   smoke        496 non-null    int32  
 8   mouth        496 non-null    int32  
dtypes: float64(2), int32(7)
memory usage: 25.2 KB


In [52]:
import warnings
warnings.filterwarnings('ignore')

def scr_state_m(x):
    a = '%.2f' %x
    b = float(a)
    if 0.61 <= b <= 1.04:
        return '정상'
    else:
        return '비정상'


df2['scr_state'] = df2.SCr.apply(lambda x:scr_state_m(x))
df2.head()



Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth,scr_state
0,1,0,38,9,176,1.93406,13.993816,0,1,비정상
3,4,0,10,3,70,1.429632,32.802495,0,0,비정상
11,12,0,72,6,236,0.39537,27.937888,1,1,비정상
12,13,0,7,8,218,1.725986,19.915349,1,0,비정상
14,15,0,51,7,163,0.327684,31.7583,1,0,비정상


In [53]:

def scr_state_w(x):
    a = '%.2f' %x
    b = float(a)
    if 0.61 <= b <= 1.04:
        return '정상'
    else:
        return '비정상'


df1['scr_state'] = df1.SCr.apply(lambda x:scr_state_w(x))
df1.head()


Unnamed: 0,id,gender,age,region,blood_sugar,SCr,bmi,smoke,mouth,scr_state
1,2,1,13,9,222,1.094464,31.509772,1,0,비정상
2,3,1,73,7,201,1.945369,13.581417,1,1,비정상
4,5,1,76,9,91,1.395458,21.187102,0,1,비정상
5,6,1,6,8,217,0.432179,24.517084,1,1,비정상
6,7,1,80,3,177,1.952549,28.679512,1,1,비정상


In [54]:
df2['scr_state'].value_counts() #남자

비정상    384
정상     112
Name: scr_state, dtype: int64

In [57]:
#남자 비정상 비율 
(df2[df2['scr_state'] == '비정상']).sum()/len(df2)

TypeError: unsupported operand type(s) for /: 'str' and 'int'

In [55]:
df1['scr_state'].value_counts() #여자 

비정상    397
정상     107
Name: scr_state, dtype: int64

groupby를 사용하지않고, 남녀에 따른 SCr 정상여부에 대해 판단하는 함수를 만들고 싶었으나 ,, 포기하고 아예 데이터 프레임을 반으로 나눴습니다. 분석한 결과 남녀 모두 SCr 지수는 비정상이 더 높았습니다. 