In [2]:
import pandas as pd
import numpy as np

## 예제 8-1 난수 생성 이해하기
### 전역난수 생성 vs 지역 난수 생성

### 난수를 발생해 본다

In [3]:
# randn(n)함수는 표준편차가 1이고 평균이 0인 랜덤한 소수를 n개 발생시킨다.
np.random.randn(5)

array([0.22622705, 0.21475504, 0.14765803, 0.24805358, 0.991075  ])

In [4]:
np.random.randn(5)

array([ 0.36391805, -1.69973421,  0.69360392,  0.21443101, -0.57021593])

In [5]:
np.random.randn(5)

array([-0.57426701,  0.79485693,  1.7655169 , -1.0340221 ,  0.33566313])

In [6]:
np.random.randn(5)

array([-8.99925308e-01,  1.01029303e+00, -1.82757481e+00,  1.58362495e-03,
       -2.04968045e+00])

### 난수를 생성할 때마다 값은 임의로 발생한다.
난수 발생한 순소를 재현하려면 모든 발생값을 저장해야만 한다.

### seed를 통해 무작위성을 통제해보기

In [7]:
np.random.seed(123)
np.random.randn(5)

array([-1.0856306 ,  0.99734545,  0.2829785 , -1.50629471, -0.57860025])

In [8]:
np.random.randn(5)

array([ 1.65143654, -2.42667924, -0.42891263,  1.26593626, -0.8667404 ])

In [9]:
# 다시 seed값을 설정하고 난수 발생시, 동일한 결과로 난수가 발생한다.
np.random.seed(123)
np.random.randn(5)

array([-1.0856306 ,  0.99734545,  0.2829785 , -1.50629471, -0.57860025])

In [10]:
np.random.randn(5)

array([ 1.65143654, -2.42667924, -0.42891263,  1.26593626, -0.8667404 ])

### 전역 난수방식의 문제는 향후 발생하는 모든 난수는 시드의 영향을 받게 된다는 점이다.
따라서 독립적인 난수를 발생시키고 싶을 경우 지역 난수를 사용한다.

In [11]:
# RandomState(n)함수는 지역 난수를 생성한다. n은 시드번호.
rns = np.random.RandomState(456)
rns.randn(5)

array([-0.6681285 , -0.49820952,  0.61857582,  0.56869225,  1.35050948])

In [12]:
rns.randn(5)

array([ 1.62958853,  0.30196621,  0.44948318, -0.34581112, -0.31523083])

In [13]:
np.random.seed(123)
rns = np.random.RandomState(456)
rns.randn(5)

array([-0.6681285 , -0.49820952,  0.61857582,  0.56869225,  1.35050948])

In [14]:
rns.randn(5)

array([ 1.62958853,  0.30196621,  0.44948318, -0.34581112, -0.31523083])

# 예제 8-2 데이터프레임 브로드캐스팅 기타 응용

In [15]:
rng = np.random.RandomState(42)
df_2 = pd.DataFrame((rng.randint(0, 20, (4, 4))), columns=list('QRST'))
df_2

Unnamed: 0,Q,R,S,T
0,6,19,14,10
1,7,6,18,10
2,10,3,7,2
3,1,11,5,1


In [16]:
df_2.iloc[0]

Q     6
R    19
S    14
T    10
Name: 0, dtype: int32

In [17]:
# 데이터프레임의 행마다 조건 행을 뺄셈한다.
df_2 - df_2.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,-13,4,0
2,4,-16,-7,-8
3,-5,-8,-9,-9


In [18]:
# subtract(행,axis = 1)함수는 데이터프레임의 모든 행에 행단위 뺄셈연산을 한다.
# 열을 고정하여 행단위 연산을 한다는 의미로 axis = 1 로 지정한다.
df_2.subtract(df_2.iloc[0],axis = 1)

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,-13,4,0
2,4,-16,-7,-8
3,-5,-8,-9,-9


In [19]:
# 동일한 요소가 아니면 아무 연산도 일어나지 않고 NaN 처리됨
# 뺄 값 요소는 행, 기준은 열이므로 오류
df_2.subtract(df_2.iloc[0],axis = 0)

Unnamed: 0,Q,R,S,T
0,,,,
1,,,,
2,,,,
3,,,,
Q,,,,
R,,,,
S,,,,
T,,,,


In [20]:
df_2['R']

0    19
1     6
2     3
3    11
Name: R, dtype: int32

In [21]:
# 데이터프레임의 브로드캐스팅은 행단위로 이루어져 있으므로 열단위 연산처리는 할 수 없다.
df_2 - df_2['R']

Unnamed: 0,Q,R,S,T,0,1,2,3
0,,,,,,,,
1,,,,,,,,
2,,,,,,,,
3,,,,,,,,


In [22]:
# 열단위 연산은 지원되는 메소드를 통해 진행한다.
df_2.subtract(df_2['R'],axis = 0)

Unnamed: 0,Q,R,S,T
0,-13,0,-5,-9
1,1,0,12,4
2,7,0,4,-1
3,-10,0,-6,-10


In [23]:
df_2.subtract(df_2['R'],axis=1)

Unnamed: 0,Q,R,S,T,0,1,2,3
0,,,,,,,,
1,,,,,,,,
2,,,,,,,,
3,,,,,,,,


---

# 예제 8-4 사용자 정의 함수를 apply메서드로 처리하기

In [24]:
df = pd.DataFrame ({'a' : np.random.randn(6),
                 'b' : ['철수', '영희'] * 3,
                 'c' : np.random.randn(6)})

In [25]:
df

Unnamed: 0,a,b,c
0,-1.085631,철수,-2.426679
1,0.997345,영희,-0.428913
2,0.282978,철수,1.265936
3,-1.506295,영희,-0.86674
4,-0.5786,철수,-0.678886
5,1.651437,영희,-0.094709


In [26]:
def my_test(a,c):
    return a % c

In [27]:
# lambda 함수는 행단위로 데이터를 처리하는 사용자 함수를 이용한다
df['Value'] = df.apply(lambda df: my_test(df['a'],df['c']), axis = 1)
#                         입력값 : 출력값                  , 축

In [28]:
df

Unnamed: 0,a,b,c,Value
0,-1.085631,철수,-2.426679,-1.085631
1,0.997345,영희,-0.428913,-0.289392
2,0.282978,철수,1.265936,0.282978
3,-1.506295,영희,-0.86674,-0.639554
4,-0.5786,철수,-0.678886,-0.5786
5,1.651437,영희,-0.094709,-0.053325


In [29]:
# Value열 확인
df.a % df.c

0   -1.085631
1   -0.289392
2    0.282978
3   -0.639554
4   -0.578600
5   -0.053325
dtype: float64

In [30]:
# 일반함수는 데이터 프레임 전체를 넘겨 열 전체의 값을 반환하는 형태로 작성한다.
def my_test2(df):
    return df['a'] % df['c']

In [31]:
df['Value2'] = df.apply(my_test2,axis = 1)

In [32]:
df

Unnamed: 0,a,b,c,Value,Value2
0,-1.085631,철수,-2.426679,-1.085631,-1.085631
1,0.997345,영희,-0.428913,-0.289392,-0.289392
2,0.282978,철수,1.265936,0.282978,0.282978
3,-1.506295,영희,-0.86674,-0.639554,-0.639554
4,-0.5786,철수,-0.678886,-0.5786,-0.5786
5,1.651437,영희,-0.094709,-0.053325,-0.053325


In [33]:
%timeit df['Value'] = df.apply(lambda df: my_test(df['a'],df['c']), axis = 1)

615 µs ± 12.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [34]:
%timeit df['Value2'] = df.apply(my_test2,axis = 1)

604 µs ± 6.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [35]:
sample = pd.DataFrame({'임의의값':[10,100,40]})
sample

Unnamed: 0,임의의값
0,10
1,100
2,40


In [36]:
# 기존의 데이터 3개에 10만을 곱하여 30만개의 데이터를 생성한다.
# 인덱스는 갱신되어야 하므로 reset_index 함수 인자에 drop = True를 하면
# 기존 인덱스를 버리고 새로운 인덱스로 생성된다.
sample = pd.concat([sample]*100000).reset_index(drop = True)

In [37]:
sample.shape

(300000, 1)

In [38]:
sample.head(10)

Unnamed: 0,임의의값
0,10
1,100
2,40
3,10
4,100
5,40
6,10
7,100
8,40
9,10


In [39]:
%timeit sample['임의의값'].apply(lambda x : np.nan if x < 90 else x)

70.4 ms ± 724 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [40]:
%timeit sample['임의의값'].mask(sample['임의의값'] < 90 , np.nan)

3.25 ms ± 162 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [41]:
sample1 = sample.copy()

In [42]:
sample1 = sample['임의의값'].apply(lambda x : np.nan if x < 90 else x)

In [43]:
sample1.head()

0      NaN
1    100.0
2      NaN
3      NaN
4    100.0
Name: 임의의값, dtype: float64

In [44]:
sample2 = sample['임의의값'].mask(sample['임의의값'] < 90, np.nan)

In [45]:
sample2.head()

0      NaN
1    100.0
2      NaN
3      NaN
4    100.0
Name: 임의의값, dtype: float64

In [46]:
(sample1 == sample2).shape

(300000,)

In [47]:
sample1.isnull().sum(), sample1.notnull().sum()

(200000, 100000)

In [48]:
(sample1 == sample2).sum()

100000

# 예제 8-5 사용자 정의 함수를 map,applymap메소드로 처리하기

In [49]:
ser = pd.Series(np.random.randn(6))
ser

0    1.491390
1   -0.638902
2   -0.443982
3   -0.434351
4    2.205930
5    2.186786
dtype: float64

In [50]:
df = pd.DataFrame(ser,columns=['관측값_A'])
df

Unnamed: 0,관측값_A
0,1.49139
1,-0.638902
2,-0.443982
3,-0.434351
4,2.20593
5,2.186786


In [51]:
def map_test(a):
    print('원소별 처리')
    return np.abs(a)

In [52]:
# 열거형객체.map(함수) : 열거형 객체의 각 인수에 함수를 매핑하여 적용한다.
ser.map(map_test)

원소별 처리
원소별 처리
원소별 처리
원소별 처리
원소별 처리
원소별 처리


0    1.491390
1    0.638902
2    0.443982
3    0.434351
4    2.205930
5    2.186786
dtype: float64

In [53]:
s = pd.Series(ser.map(map_test))

원소별 처리
원소별 처리
원소별 처리
원소별 처리
원소별 처리
원소별 처리


In [54]:
s

0    1.491390
1    0.638902
2    0.443982
3    0.434351
4    2.205930
5    2.186786
dtype: float64

In [55]:
df['관측값_1_절대값'] = s
df

Unnamed: 0,관측값_A,관측값_1_절대값
0,1.49139,1.49139
1,-0.638902,0.638902
2,-0.443982,0.443982
3,-0.434351,0.434351
4,2.20593,2.20593
5,2.186786,2.186786


# 예제 8-6 pipe 메소드 처리하기

In [56]:
df = pd.DataFrame({"name": ['김상갑', '임종문', '조현웅'],
                   "program language": [np.nan, 'Python', 'Scala'],
                   "born": [pd.NaT, pd.Timestamp("1966-04-25"),
                             pd.NaT]})

In [57]:
df

Unnamed: 0,name,program language,born
0,김상갑,,NaT
1,임종문,Python,1966-04-25
2,조현웅,Scala,NaT


In [58]:
def name_length(df):
    df['length'] = df.name.str.len()
    return df
# 사용자 정의 함수 안에서 열을 추가하고 데이터프레임을 리턴한다.

In [59]:
# 판다스에서 pipe라는 함수로도 사용자 정의 함수를 지정할 수 있다.

In [60]:
df.pipe(name_length)

Unnamed: 0,name,program language,born,length
0,김상갑,,NaT,3
1,임종문,Python,1966-04-25,3
2,조현웅,Scala,NaT,3


In [61]:
def born_fillna(df):
    df['born'] = df['born'].fillna(pd.Timestamp('1967-04-25'))
    return df

In [62]:
df.pipe(born_fillna)

Unnamed: 0,name,program language,born,length
0,김상갑,,1967-04-25,3
1,임종문,Python,1966-04-25,3
2,조현웅,Scala,1967-04-25,3


In [63]:
def pl_fillna(df):
    df['program language'] = df['program language'].fillna('java')
    return df

In [64]:
df.pipe(pl_fillna)

Unnamed: 0,name,program language,born,length
0,김상갑,java,1967-04-25,3
1,임종문,Python,1966-04-25,3
2,조현웅,Scala,1967-04-25,3


In [65]:
df1 = pd.DataFrame({"name": ['김상갑', '임종문', '조현웅'],
                   "program language": [np.nan, 'Python', 'Scala'],
                   "born": [pd.NaT, pd.Timestamp("1966-04-25"),
                             pd.NaT]})
df1

Unnamed: 0,name,program language,born
0,김상갑,,NaT
1,임종문,Python,1966-04-25
2,조현웅,Scala,NaT


In [68]:
df1.pipe(name_length).pipe(born_fillna).pipe(pl_fillna)
# 처리순서      1                  2              3
# 처리순서의 결과값을 바탕으로 다음 처리 순서를 진행한다
# 메서드 체이닝을 사용해서 파이프함수를 여러번 사용할 수 있다

Unnamed: 0,name,program language,born,length
0,김상갑,java,1967-04-25,3
1,임종문,Python,1966-04-25,3
2,조현웅,Scala,1967-04-25,3


In [69]:
# 빈 데이터 프레임을 먼저 만들고
df2 = pd.DataFrame()

In [70]:
# 열을 추가하여 완성할 수도 있다.
df2['name'] = ['은옥찬', '은석찬', '은옥주']
df2['gender'] = ['Male', 'Male', 'Female']
df2['age'] = [31, 32, 19]

In [71]:
df2

Unnamed: 0,name,gender,age
0,은옥찬,Male,31
1,은석찬,Male,32
2,은옥주,Female,19


In [72]:
def mean_age_by_group(dataframe, col):
    return dataframe.groupby(col).mean()

In [73]:
mean_age_by_group(df2, 'gender')

Unnamed: 0_level_0,age
gender,Unnamed: 1_level_1
Female,19.0
Male,31.5


In [None]:
def 