# 01_시리즈와 데이터프레임의 이해

## 판다스 자료구조
- 목적
    - 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식으로 통합할 필요성이 존재
    - 판다스의 일차적인 목적은 형식적으로 서로 다른 여러가지 유형의 데이터를 공통의 포맷으로 정리하는 것
   
- 종류
    - 판다스는 Series와 Dataframe이라는 구조화된 데이터 형식을 제공하며 서로 다른 종류의 데이터를 한 곳에 담는 그릇이 됨
    - 시리즈
        - 데이터의 주소(index)와 값(value)로 이루어짐
    - 데이터프레임
        - 행 인덱스(row index)와 열 이름(column name), 값으로 이루어짐
        - 데이터프레임에서 하나의 컬럼은 곧 시리즈와 동일한 형태
        - 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용됨
        - 시리즈는 1차원 배열이고, 데이터프레임은 2차원 배열이라는 점에서 차이점이 존재

In [14]:
import pandas as pd # 판다스 라이브러리 호출

In [2]:
df = pd.DataFrame({'a' : [4, 5, 6], # 각 딕셔너리의 key를 컬럼명으로,
                   'b' : [7, 8, 9], # 각 딕셔너리의 value를 데이터프레임의 값으로
                   'c' : [10, 11, 12]},
                   index = [1, 2, 3]) # 인덱스를 1,2,3으로 지정해 데이터프레임 생성
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df['a'] # a 컬럼 선택

1    4
2    5
3    6
Name: a, dtype: int64

In [4]:
df['b'] # b 컬럼 선택

1    7
2    8
3    9
Name: b, dtype: int64

In [5]:
df['c'] # c 컬럼 선택
# df['C']와 같이 해당 데이터프레임에 존재하지 않는 컬럼명은 오류 발생 

1    10
2    11
3    12
Name: c, dtype: int64

In [7]:
df[['a','b']] # a,b 컬럼 선택

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9


In [8]:
df.loc[1] # 인덱스명이 1인 값 선택

a     4
b     7
c    10
Name: 1, dtype: int64

In [9]:
df.loc[2] # 인덱스명이 2인 값 선택

a     5
b     8
c    11
Name: 2, dtype: int64

In [10]:
df.loc[3,'a'] # 인덱스명이 3이고 컬럼명이 a인 값 선택

6

In [11]:
df.loc[[1,2],['a','b']] # 인덱스명이 1과 2, 컬럼명이 a,b인 값 선택

Unnamed: 0,a,b
1,4,7
2,5,8


In [12]:
df = pd.DataFrame([[4, 7, 10],[5, 8, 11],[6, 9, 12]],index=[1, 2, 3],columns=['a', 'b', 'c'])
# 리스트를 이용해 데이터프레임 생성 시, 인덱스명과 컬럼명 지정 가능
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [13]:
import numpy as np
df = pd.DataFrame({'a':[4,5,6,6,np.nan], # 딕셔너리로 데이터프레임을 생성
                   'b':[7,8,np.nan,9,9],
                   'c':[10,11,12,np.nan,12]},
                   index=pd.MultiIndex.from_tuples( # 멀티 인덱스를 아래 튜플로 설정
                   [('d',1),('d',2),('e',2),('e',3),('e',4)], # 인덱스로 사용할 튜플
                   names=['n','v'])) # 각 레벨별 인덱스 이름
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


# 참고
## 리스트와 튜플
- 리스트는 []으로 묶지만 튜플은 ()으로 묶음
- 리스트는 값의 생성,수정,삭제가 가능하지만 튜플은 불가능

---

# 02_시리즈(Series)

- 딕셔너리와 시리즈의 구조가 비슷하기 때문에, 딕셔너리를 시리즈로 변환하는 방법을 많이 사용
- 판다스 내장 함수인 Series()를 이용하고, 딕셔너리를 함수의 매개변수(인자)로 전달
    - pandas.Series(딕셔너리)
- 딕셔너리의 키는 시리즈의 인덱스에 대응하고, 딕셔너리의 각 키에 매칭되는 값이 시리즈의 데이터 값(원소)로 변환

### 시리즈 생성

In [4]:
import pandas as pd # 판다스 호출

dict_data = {'a':1,'b':2,'c':3} # 딕셔너리 생성

sr = pd.Series(dict_data) # 딕셔너리로 시리즈 생성

print(type(sr), '\n') # sr의 자료 타입 출력
print(sr) # sr 출력

<class 'pandas.core.series.Series'> 

a    1
b    2
c    3
dtype: int64


### 인덱스 구조
- 인덱스 배열 : Series객체.index
- 데이터 값 배열 : Series객체.values

In [6]:
list_data = ['2019-01-02',3.14,'ABC',100,True] # 리스트 생성
sr = pd.Series(list_data) # 리스트로 시리즈 생성
print(sr, '\n') # sr 출력

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object 



In [7]:
idx = sr.index # sr의 인덱스를 idx에 저장
val = sr.values # sr의 값을 val에 저장
print(idx, '\n') # idx 출력
print(val) # val 출력

RangeIndex(start=0, stop=5, step=1) 

['2019-01-02' 3.14 'ABC' 100 True]


In [9]:
tup_data = ('영인','2010-05-01','여',True) # 튜플 생성
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부']) # 튜플로 시리즈 생성, 인덱스를 지정
print(sr, '\n')

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object 



In [10]:
print(sr[0], '\n') # sr의 첫 번째 원소 출력
print(sr['이름'], '\n') # sr의 이름 인덱스에 해당하는 값 출력

영인 

영인 



In [11]:
print(sr[[1,2]], '\n') # sr의 2번째,3번째 원소 출력
print(sr[['생년월일','성별']], '\n') # sr의 생년월일, 성별 인덱스에 해당하는 값 출력

생년월일    2010-05-01
성별               여
dtype: object 

생년월일    2010-05-01
성별               여
dtype: object 



In [13]:
print(sr[1:2], '\n') # sr의 2번째부터 2번째까지 원소 출력
print(sr['생년월일':'성별'], '\n') # sr의 생년월일부터 성별 인덱스 이전에 해당하는 값 출력

생년월일    2010-05-01
dtype: object 

생년월일    2010-05-01
성별               여
dtype: object 



---

# 03_데이터프레임

- 2차원 배열이며 R의 데이터프레임에서 유래
- 데이터프레임의 열은 시리즈 객체
- 시리즈를 열벡터라고하면, 데이터프레임은 여러 개의 열 벡터들이 같은 행 인덱스를 기준으로 줄이어 결합된 2차원 벡터(vector) 또는 행렬(matrix)
- 데이터프레임은 행과 열을 나타내기 위해 행 인덱스(row index)와 열 이름(column name 또는 column label)으로 구분
- 데이터 프레임의 각 열은 공통의 속성을 갖는 일련의 데이터를 나타냄
- 각 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드(record)임

---

# 04_subset_observation(rows)

In [15]:
import numpy as np
df = pd.DataFrame({'a':[4,5,6],'b':[7,8,9],'c':[10,11,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2)],names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [16]:
df[df>7] # 값이 7보다 큰 행 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,,,10
d,2,,8.0,11
e,2,,9.0,12


In [17]:
df[df.b>7] # b컬럼의 값이 7보다 큰 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,8,11
e,2,6,9,12


In [18]:
df.b>7 # b컬럼의 값이 7보다 크면 참, 아니면 거짓 반환

n  v
d  1    False
   2     True
e  2     True
Name: b, dtype: bool

In [19]:
df[df.a<7] # df의 a 컬럼의 값이 7보다 작은 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [20]:
df[df.c>7]  # df의 c컬럼의 값이 7보다 큰 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [21]:
df[df['c']>7] # df의 c컬럼의 값이 7보다 큰 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [22]:
df[df['a']<7] # df의 a컬럼의 값이 7보다 작은 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [23]:
df[df['c']>=7] # df의 c컬럼의 값이 7보다 크거나 같은 행만 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


### drop_duplicates()
- 중복된 값 삭제

In [24]:
df2 = pd.DataFrame({'a':[4,5,6,6],'b':[7,8,9,9],'c':[10,11,12,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2),('e',3)],names=['n','v']))
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12
e,3,6,9,12


In [25]:
df2.drop_duplicates() # df2에서 중복된 값을 삭제한 결과를 반환
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12
e,3,6,9,12


In [26]:
df2.drop_duplicates(inplace=True) # df2에서 중복된 값을 삭제한 결과로 원본을 갱신
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [27]:
df2 = pd.DataFrame({'a':[4,5,6,6],'b':[7,8,9,9],'c':[10,11,12,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2),('e',3)],names=['n','v']))

df3 = df2.drop_duplicates() # df2에서 중복된 값을 삭제한 결과로 반환된 값을 새로운 변수에 저장
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [28]:
df2 = pd.DataFrame({'a':[4,5,6,6],'b':[7,8,9,9],'c':[10,11,12,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2),('e',3)],names=['n','v']))

df4 = df2.drop_duplicates(keep='last') # 중복된 값 중 마지막 값을 남김
df4

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,3,6,9,12


### Logic in Python(and pandas)
- &(and), |(or), ~(not), ^(xor), df.any()(any), df.all()(all) 

In [29]:
df = pd.DataFrame({'a':[4,5,6],'b':[7,8,9],'c':[10,11,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2)],names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [30]:
df['a'] != 7 # a컬럼이 7이 아니면 참, 반대면 거짓 반환

n  v
d  1    True
   2    True
e  2    True
Name: a, dtype: bool

In [31]:
df['b'] != 7 # b컬럼이 7이 아니면 참, 반대면 거짓 반환

n  v
d  1    False
   2     True
e  2     True
Name: b, dtype: bool

In [32]:
df[df['b'] != 7] # b컬럼이 7이 아닌 행 추출

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,8,11
e,2,6,9,12


In [35]:
df['a'].isin([5]) # a컬럼에 5가 있는지 없는지 참/거짓 반환

n  v
d  1    False
   2     True
e  2    False
Name: a, dtype: bool

In [36]:
df3 = pd.DataFrame({'a':[4,5,6,6,np.nan],'b':[7,8,np.nan,9,9],'c':[10,11,12,np.nan,12]},
                   index=pd.MultiIndex.from_tuples([('d',1),('d',2),('e',2),('e',3),('e',4)],names=['n','v']))
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [37]:
pd.isnull(df3) # 데이터프레임의 값이 NaN인지 참/거짓 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,False
e,2,False,True,False
e,3,False,False,True
e,4,True,False,False


In [38]:
df3['a'].isnull() # a컬럼의 값 중 NaN인지 참/거짓 반환

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

In [39]:
df3['a'].isnull().sum() # a컬럼의 값 중 NaN인 값의 개수

1

In [40]:
pd.notnull(df3) # 데이터프레임의 값이 NaN이 아닌지 참/거짓 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [41]:
df3.notnull() # 데이터프레임의 값이 NaN이 아닌지 참/거짓 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [42]:
df3.a.notnull() # a컬럼의 값이 NaN이 아닌지 참/거짓 반환

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool

In [43]:
df3.notnull().sum() # 데이터프레임의 값 중 NaN이 아닌 값의 개수

a    4
b    4
c    4
dtype: int64

In [44]:
df3.any() # 각 컬럼에 값이 있는지 반환

a    True
b    True
c    True
dtype: bool

In [45]:
~df3.a.notnull() # a컬럼이 NaN이 아닌지에 대해 참/거짓을 반환한 값의 반대

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

In [46]:
1 and 1

1

In [47]:
True and False

False

In [48]:
# 데이터프레임 간 and,or 사용 불가
# df3[df3.b==7]|df3[df3.a==5]는 오류

### head, tail로 데이터 미리 보기

In [52]:
df3.head() # df3의 가장 처음 5줄 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [53]:
df3.head(3) # df3의 가장 처음 3줄 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0


In [54]:
df3.tail(2) # df3의 가장 마지막 2줄 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [55]:
df3.sample(frac=0.5) # df3에서 랜덤하게 50%의 비율만 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [56]:
df3.sample(frac=0.7)  # df3에서 랜덤하게 70%의 비율만 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,4,,9.0,12.0
e,2,6.0,,12.0
d,1,4.0,7.0,10.0
e,3,6.0,9.0,


In [57]:
df3.sample(frac=0.3)  # df3에서 랜덤하게 30%의 비율만 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,4,,9.0,12.0
e,2,6.0,,12.0


In [58]:
df3.sample(n=10) # df3에서 10개 행을 랜덤하게 반환 (5개행뿐이라서 오류)

ValueError: Cannot take a larger sample than population when 'replace=False'

In [59]:
df3.sample(n=5) # df3에서 5개 행을 랜덤하게 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,2,6.0,,12.0
d,2,5.0,8.0,11.0
d,1,4.0,7.0,10.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [60]:
df3.iloc[10:20] # df3의 10번째행부터 19번째 행까지 반환 (해당 데이터가 없으므로 값이 없음)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [61]:
df3.iloc[:2] # df3의 처음부터 두번째 행까지 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [62]:
df3.iloc[:3] # df3의 처음부터 세번째 행까지 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0


In [65]:
df3.iloc[3:] # df3의 4번째 행부터 끝까지 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [66]:
df3.iloc[-2:] # df3의 뒤에서 두번째 행부터 마지막까지 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [67]:
df3.iloc[-2:-1] # df3의 뒤에서 두번째 행부터 마지막에서 한 행 전까지 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,


### df.nlargest[n,'value']

In [70]:
df4 = pd.DataFrame({'a':[1,10,5,11,-1],'b':list('abcde'),'c':[1.0,2.0,np.nan,3.0,4.0]})
df4

Unnamed: 0,a,b,c
0,1,a,1.0
1,10,b,2.0
2,5,c,
3,11,d,3.0
4,-1,e,4.0


In [71]:
df4.nlargest(1,'a') # df4의 a 컬럼에서 1번째로 큰 값의 행 반환

Unnamed: 0,a,b,c
3,11,d,3.0


In [72]:
df4.nlargest(1,'b') # b컬럼의 값이 문자열이므로 오류 발생

TypeError: Column 'b' has dtype object, cannot use method 'nlargest' with this dtype

In [73]:
df4.nlargest(3,'c') # df4의 a 컬럼에서 3번째로 큰 값까지의 행 반환

Unnamed: 0,a,b,c
4,-1,e,4.0
3,11,d,3.0
1,10,b,2.0


In [75]:
df4.nsmallest(3,'a') # df4의 a 컬럼에서 3번째로 작은 값까지의 행 반환

Unnamed: 0,a,b,c
4,-1,e,4.0
0,1,a,1.0
2,5,c,


# 05_subset_observation(columns)

In [76]:
import pandas as pd
import seaborn as sns

In [77]:
df = sns.load_dataset('iris') # 데이터셋 불러오기
df.head() # df의 가장 처음 5행 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [78]:
df[['sepal_width','sepal_length','species']] # df에서 특정 컬럼을 선택해 반환

Unnamed: 0,sepal_width,sepal_length,species
0,3.5,5.1,setosa
1,3.0,4.9,setosa
2,3.2,4.7,setosa
3,3.1,4.6,setosa
4,3.6,5.0,setosa
...,...,...,...
145,3.0,6.7,virginica
146,2.5,6.3,virginica
147,3.0,6.5,virginica
148,3.4,6.2,virginica


In [79]:
columns = ['sepal_width','sepal_length','species']
df[columns] # 리스트로 컬럼명을 지정해 해당 컬럼들만 반환

Unnamed: 0,sepal_width,sepal_length,species
0,3.5,5.1,setosa
1,3.0,4.9,setosa
2,3.2,4.7,setosa
3,3.1,4.6,setosa
4,3.6,5.0,setosa
...,...,...,...
145,3.0,6.7,virginica
146,2.5,6.3,virginica
147,3.0,6.5,virginica
148,3.4,6.2,virginica


In [80]:
df[columns].head()

Unnamed: 0,sepal_width,sepal_length,species
0,3.5,5.1,setosa
1,3.0,4.9,setosa
2,3.2,4.7,setosa
3,3.1,4.6,setosa
4,3.6,5.0,setosa


In [81]:
df['sepal_width'] # df의 sepal_width 컬럼만 반환

0      3.5
1      3.0
2      3.2
3      3.1
4      3.6
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: sepal_width, Length: 150, dtype: float64

In [82]:
df['sepal_width'].head()

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
Name: sepal_width, dtype: float64

In [83]:
df.sepal_width.head()

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
Name: sepal_width, dtype: float64

### df.filter(regex='정규표현식')

In [87]:
df.filter(regex='\.') # df의 컬럼명 중 .을 포함하는 컬럼만 반환

0
1
2
3
4
...
145
146
147
148
149


In [86]:
df.filter(regex='_') # df의 컬럼명 중 _을 포함하는 컬럼만 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [88]:
df.filter(regex='Lengths$') # df의 컬럼명 중 Length로 끝나는 컬럼만 반환

0
1
2
3
4
...
145
146
147
148
149


In [89]:
df.filter(regex='^sepal') # df의 컬럼명 중 sepal로 시작하는 컬럼만 반환

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [90]:
df.filter(regex='^x[1-5]$') # df의 컬럼명 중 x로 시작하고 1,2,3,4,5중 하나로 끝나는 컬럼만 반환

0
1
2
3
4
...
145
146
147
148
149


In [91]:
df.filter(regex='^se') # df의 컬럼명 중 se로 시작하는 컬럼만 반환

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [92]:
df.filter(regex='es$') # df의 컬럼명 중 es로 끝나는 컬럼만 반환

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


In [94]:
df.filter(regex='^(?!species$).*' ) 
# species 컬럼만 제외하고 반환
# ^는 시작을, $는 끝을, .은 모든 문자를, *은 반복을, (?!...)은 부정형 전방탐색(...에 해당되는 정규식과 매치되지 않는)을 의미함
# 위 정규표현식을 해석하면, species로 끝나는 문자를 제외하고 모든 문자

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [95]:
df.loc[2:4] # df의 인덱스명 2부터 4까지 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [96]:
df.loc[2:5,'sepal_width':'petal_width'] # df의 인덱스명 2부터 5까지, sepal_width컬럼부터 petal_width 컬럼까지 반환

Unnamed: 0,sepal_width,petal_length,petal_width
2,3.2,1.3,0.2
3,3.1,1.5,0.2
4,3.6,1.4,0.2
5,3.9,1.7,0.4


In [97]:
df.iloc[:3,[1,3]] # df의 처음부터 2번째행, 두번째와 4번째 컬럼을 반환

Unnamed: 0,sepal_width,petal_width
0,3.5,0.2
1,3.0,0.2
2,3.2,0.2


In [102]:
df.loc[df['sepal_length']>5, ['sepal_length','sepal_width']]

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
5,5.4,3.9
10,5.4,3.7
14,5.8,4.0
15,5.7,4.4
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [103]:
df.loc[df['sepal_length']>5, ['sepal_length','sepal_width']].head()

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
5,5.4,3.9
10,5.4,3.7
14,5.8,4.0
15,5.7,4.4


---

# 06_데이터 요약
- value_counts()
    - 시리즈 객체의 고유값 개수를 셈
- nunique()
    - 명확한 유일 값 개수 확인
- describe(include=,exclude=)
    - 산술 데이터를 갖는 열에 대한 주요 기술 통계정보(평균, 표준편차, 최대값, 최소값, 중간값)을 요약해서 출력
- sum(),mean(),max(),min(),median(),var(),std()
    - 합, 평균, 최대값, 최소값, 중간값, 분산, 표준편차
- count(), corr()
    - 개수, 상관계수

In [104]:
import pandas as pd
import numpy as np 
import seaborn as sns

In [106]:
df = sns.load_dataset('iris')
df.shape

(150, 5)

In [107]:
df.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [108]:
df['species'].value_counts() # 범주형 데이터의 경우

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

In [109]:
df['petal_width'].value_counts() # 숫자형 데이터의 경우

0.2    29
1.3    13
1.8    12
1.5    12
1.4     8
2.3     8
1.0     7
0.4     7
0.3     7
2.1     6
2.0     6
0.1     5
1.2     5
1.9     5
1.6     4
2.5     3
2.2     3
2.4     3
1.1     3
1.7     2
0.6     1
0.5     1
Name: petal_width, dtype: int64

In [111]:
pd.DataFrame(df['petal_width'].value_counts())

Unnamed: 0,petal_width
0.2,29
1.3,13
1.8,12
1.5,12
1.4,8
2.3,8
1.0,7
0.4,7
0.3,7
2.1,6


In [112]:
len(df) # df의 길이

150

In [113]:
df.shape[0] # df의 행의 개수

150

In [114]:
df.shape[1] # df의 컬럼 개수

5

In [115]:
len(df)==df.shape[0]

True

In [116]:
df['species'].nunique() # 유일값의 개수

3

In [117]:
df.describe(include='all') # 모든 데이터에 대한 기술 통계량 및 고유값 개수, 빈도 등 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,setosa
freq,,,,,50
mean,5.843333,3.057333,3.758,1.199333,
std,0.828066,0.435866,1.765298,0.762238,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


In [118]:
df.describe(include=[np.object]) # 데이터가 object 타입인 경우에 대해서만 반환

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  df.describe(include=[np.object])


Unnamed: 0,species
count,150
unique,3
top,setosa
freq,50


In [119]:
df.describe(exclude=[np.object]) # 데이터가 object인 것을 제외하고 밙환

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  df.describe(exclude=[np.object])


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [120]:
df.describe(include=[np.number]) # 숫자형인 경우만 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [121]:
df['petal_width'].sum() # 합계

179.90000000000003

In [122]:
df['petal_width'].count() # 개수

150

In [123]:
df['petal_width'].median() # 중간값

1.3

In [124]:
df.median() # 모든 컬럼의 중간값(숫자형 데이터만)

  df.median() # 합계


sepal_length    5.80
sepal_width     3.00
petal_length    4.35
petal_width     1.30
dtype: float64

In [125]:
df['petal_width'].mean() # 평균

1.199333333333334

In [126]:
df.mean() # 모든 컬럼의 평균(숫자형 데이터만)

  df.mean() # 모든 컬럼의 평균(숫자형 데이터만)


sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

In [127]:
pd.DataFrame(df.mean())

  pd.DataFrame(df.mean())


Unnamed: 0,0
sepal_length,5.843333
sepal_width,3.057333
petal_length,3.758
petal_width,1.199333


In [128]:
df['petal_width'].quantile([0.25,0.75]) # 사분위수

0.25    0.3
0.75    1.8
Name: petal_width, dtype: float64

In [129]:
df.min() # 최소값

sepal_length       4.3
sepal_width        2.0
petal_length       1.0
petal_width        0.1
species         setosa
dtype: object

In [130]:
df.max() # 최대값(문자열은 가장 긴 데이터가 반환)

sepal_length          7.9
sepal_width           4.4
petal_length          6.9
petal_width           2.5
species         virginica
dtype: object

In [131]:
df.var() # 분산

  df.var() # 분산


sepal_length    0.685694
sepal_width     0.189979
petal_length    3.116278
petal_width     0.581006
dtype: float64

In [132]:
df.std() # 표준편차

  df.std() # 표준편차


sepal_length    0.828066
sepal_width     0.435866
petal_length    1.765298
petal_width     0.762238
dtype: float64

In [133]:
df.corr() # 상관계수

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,1.0,-0.11757,0.871754,0.817941
sepal_width,-0.11757,1.0,-0.42844,-0.366126
petal_length,0.871754,-0.42844,1.0,0.962865
petal_width,0.817941,-0.366126,0.962865,1.0


# 07_Apply 함수
- apply()
    - 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴 값을 돌려 받음
    - 시리즈 원소의 개수만큼 리던 값을 받아서 같은 크기의 시리즈 객체로 반환
- lambda()
    - 사용자 정의 함수

In [136]:
df.apply(lambda x:x[0]) # df의 각 컬럼에 대해 가장 첫 값을 반환하는 함수 적용

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
dtype: object

In [137]:
df.apply(lambda x:x[1]) # df의 각 컬럼에 대해 2번째 값을 반환하는 함수 적용

sepal_length       4.9
sepal_width        3.0
petal_length       1.4
petal_width        0.2
species         setosa
dtype: object

In [138]:
df['species'].apply(lambda x:x[0]) # species의 각 값에 대해 첫 문자를 반환하는 함수 적용

0      s
1      s
2      s
3      s
4      s
      ..
145    v
146    v
147    v
148    v
149    v
Name: species, Length: 150, dtype: object

In [139]:
df['species'].apply(lambda x:x[:3]) # species의 각 값에 대해 처음부터 3번째 문자까지를 반환하는 함수 적용

0      set
1      set
2      set
3      set
4      set
      ... 
145    vir
146    vir
147    vir
148    vir
149    vir
Name: species, Length: 150, dtype: object

In [140]:
df['species_3'] = df['species'].apply(lambda x:x[:3]) # 새로운 컬럼 생성
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3
0,5.1,3.5,1.4,0.2,setosa,set
1,4.9,3.0,1.4,0.2,setosa,set
2,4.7,3.2,1.3,0.2,setosa,set
3,4.6,3.1,1.5,0.2,setosa,set
4,5.0,3.6,1.4,0.2,setosa,set
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir
146,6.3,2.5,5.0,1.9,virginica,vir
147,6.5,3.0,5.2,2.0,virginica,vir
148,6.2,3.4,5.4,2.3,virginica,vir


In [141]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3
0,5.1,3.5,1.4,0.2,setosa,set
1,4.9,3.0,1.4,0.2,setosa,set
2,4.7,3.2,1.3,0.2,setosa,set
3,4.6,3.1,1.5,0.2,setosa,set
4,5.0,3.6,1.4,0.2,setosa,set


In [142]:
def smp(x): # 뒤에서 3번째부터 끝까지에 해당하는 값을 반환하는 함수 정의
    x=x[-3:]
    return x

df['species-3'] = df['species'].apply(smp)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_3,species-3
0,5.1,3.5,1.4,0.2,setosa,set,osa
1,4.9,3.0,1.4,0.2,setosa,set,osa
2,4.7,3.2,1.3,0.2,setosa,set,osa
3,4.6,3.1,1.5,0.2,setosa,set,osa
4,5.0,3.6,1.4,0.2,setosa,set,osa
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,vir,ica
146,6.3,2.5,5.0,1.9,virginica,vir,ica
147,6.5,3.0,5.2,2.0,virginica,vir,ica
148,6.2,3.4,5.4,2.3,virginica,vir,ica


# 08_결측치다루기
- dropna()
    - NA,null값이 존재 시 제거
    - axis=0: 행, axis=1 : 열
    - how='all' : 모든 컬럼에 존재시 제거, how='any' : 하나라도 존재시 제거
- fillna()
    - NA, null 값을 대체
- isnull(), notnull()
    - null 값인지 아닌지 판단
    - isnull().sum() : null 값 개수 확인
    - 대량의 데이터 분석 시 유용함

In [145]:
df = pd.DataFrame([[np.nan,2,np.nan,0],[3,4,np.nan,1],[np.nan,np.nan,np.nan,5]],columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5


In [147]:
df.dropna(axis=0, how='all') # 행 기준, 전부 null값일 시 제거

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5


In [148]:
df.dropna(axis=1, how='all') # 열 기준, 전부 null값일 시 제거

Unnamed: 0,A,B,D
0,,2.0,0
1,3.0,4.0,1
2,,,5


In [149]:
df.dropna(axis=0, how='any') # 행 기준, 하나라도 null값일 시 제거

Unnamed: 0,A,B,C,D


In [150]:
df.dropna(axis=1, how='any') # 열 기준, 하나라도 null값일 시 제거

Unnamed: 0,D
0,0
1,1
2,5


In [151]:
df.fillna(0) # null값을 0으로 대체

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5


In [153]:
values = {'A':0,'B':1,'C':2,'D':3} # 컬럼별 대체값 지정(딕셔너리)
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,0.0,1.0,2.0,5


In [156]:
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5


In [154]:
df['A'].mean() # null은 무시하고 평균값 계산

3.0

In [155]:
df['D'].mean()

2.0

In [157]:
df.fillna(df['D'].mean()) # D컬럼의 평균값으로 null 값 대체

Unnamed: 0,A,B,C,D
0,2.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,2.0,2.0,2.0,5


In [159]:
df['D'].median() # 중간값

1.0

In [160]:
df.fillna(df['D'].median()) # 중간값으로 대체

Unnamed: 0,A,B,C,D
0,1.0,2.0,1.0,0
1,3.0,4.0,1.0,1
2,1.0,1.0,1.0,5


In [161]:
fill_na_value = df['D'].max() # 최대값
fill_na_value

5

In [162]:
df.fillna(fill_na_value) # 최대값으로 대체

Unnamed: 0,A,B,C,D
0,5.0,2.0,5.0,0
1,3.0,4.0,5.0,1
2,5.0,5.0,5.0,5


In [163]:
df.isnull() # null인지 아닌지 판단

Unnamed: 0,A,B,C,D
0,True,False,True,False
1,False,False,True,False
2,True,True,True,False


In [164]:
df.isnull().sum() # 각 컬럼의 null값 개수

A    2
B    1
C    3
D    0
dtype: int64

In [165]:
df.notnull().sum() # 각 컬럼의 null이 아닌 값 개수

A    1
B    2
C    0
D    3
dtype: int64

# 09_ 새로운컬럼만들기
- assign()
    - 새로운 컬럼을 데이터프레임에 배정하는 함수

In [174]:
df = pd.DataFrame({'A':range(1,11), 'B':np.random.randn(10)})
# range(a,b) : a이상 b미만의 정수 생성
# np.random.randn(a) : 10개의 표준정규분포를 따르는 난수 생성
df

Unnamed: 0,A,B
0,1,-0.780929
1,2,-0.906641
2,3,-0.353476
3,4,0.580955
4,5,-0.544887
5,6,-1.031217
6,7,0.021533
7,8,1.402069
8,9,-1.211229
9,10,0.323668


In [175]:
df.assign(ln_A = lambda x:np.log(x.A)) # A컬럼의 값을 진수로 가지는 자연로그 값으로 새로운 컬럼 생성

Unnamed: 0,A,B,ln_A
0,1,-0.780929,0.0
1,2,-0.906641,0.693147
2,3,-0.353476,1.098612
3,4,0.580955,1.386294
4,5,-0.544887,1.609438
5,6,-1.031217,1.791759
6,7,0.021533,1.94591
7,8,1.402069,2.079442
8,9,-1.211229,2.197225
9,10,0.323668,2.302585


In [172]:
df.assign(ln_A = lambda x:np.log(x.A)).head()

Unnamed: 0,A,B,ln_A
0,1,0.009165,0.0
1,2,0.219127,0.693147
2,3,0.172075,1.098612
3,4,0.265363,1.386294
4,5,0.020409,1.609438


In [176]:
df # 원본은 변경되지 않음

Unnamed: 0,A,B
0,1,-0.780929
1,2,-0.906641
2,3,-0.353476
3,4,0.580955
4,5,-0.544887
5,6,-1.031217
6,7,0.021533
7,8,1.402069
8,9,-1.211229
9,10,0.323668


In [177]:
df['ln_A'] = np.log(df.A) # 원본에 새로운 컬럼이 추가됨
df

Unnamed: 0,A,B,ln_A
0,1,-0.780929,0.0
1,2,-0.906641,0.693147
2,3,-0.353476,1.098612
3,4,0.580955,1.386294
4,5,-0.544887,1.609438
5,6,-1.031217,1.791759
6,7,0.021533,1.94591
7,8,1.402069,2.079442
8,9,-1.211229,2.197225
9,10,0.323668,2.302585


# 10_범주화하기
- qcut()
    - Bin column을 n개의 bucket으로 변화시킴
    - 숫자형 데이터를 n개의 범주로 구분할 때 사용함
- max(axis=1)/min(axis=1)
    - 열에서 가장 큰값/작은 값을 가져올 때 사용
- clip()
    - 임계치 값을 지정해서 값을 변화시켜줄 떄 사용
- abs()
    - 절대값

In [180]:
df

Unnamed: 0,A,B,ln_A
0,1,-0.780929,0.0
1,2,-0.906641,0.693147
2,3,-0.353476,1.098612
3,4,0.580955,1.386294
4,5,-0.544887,1.609438
5,6,-1.031217,1.791759
6,7,0.021533,1.94591
7,8,1.402069,2.079442
8,9,-1.211229,2.197225
9,10,0.323668,2.302585


In [178]:
pd.qcut(df.A, # df의 A 컬럼에 대해서
        3, # 3개 구간으로
        labels=['good','median','bad']) # 각 구간의 label

0      good
1      good
2      good
3      good
4    median
5    median
6    median
7       bad
8       bad
9       bad
Name: A, dtype: category
Categories (3, object): ['good' < 'median' < 'bad']

In [179]:
pd.qcut(df.B, 2, labels=['good','bad'])

0    good
1    good
2     bad
3     bad
4    good
5    good
6     bad
7     bad
8    good
9     bad
Name: B, dtype: category
Categories (2, object): ['good' < 'bad']

In [181]:
df.max(axis=0) # 행 기준(세로방향) 최대값

A       10.000000
B        1.402069
ln_A     2.302585
dtype: float64

In [183]:
df.min(axis=0) # 행 기준 최소값

A       1.000000
B      -1.211229
ln_A    0.000000
dtype: float64

In [182]:
df.max(axis=1) # 열 기준 최대값

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
dtype: float64

In [184]:
df.min(axis=1) # 열 기준 최소값

0   -0.780929
1   -0.906641
2   -0.353476
3    0.580955
4   -0.544887
5   -1.031217
6    0.021533
7    1.402069
8   -1.211229
9    0.323668
dtype: float64

In [185]:
df['A'].clip(lower=-10, upper=10) # -10 밑은 -10으로, 10위는 10으로

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: A, dtype: int64

In [189]:
df['B'].clip(lower=1, upper=3) # 1밑은 1로, 3위는 3으로 변경

0    1.000000
1    1.000000
2    1.000000
3    1.000000
4    1.000000
5    1.000000
6    1.000000
7    1.402069
8    1.000000
9    1.000000
Name: B, dtype: float64

In [190]:
df['B'].abs() # B컬럼의 값들을 절대값으로 변경

0    0.780929
1    0.906641
2    0.353476
3    0.580955
4    0.544887
5    1.031217
6    0.021533
7    1.402069
8    1.211229
9    0.323668
Name: B, dtype: float64

In [193]:
a=pd.Series([1,2,3,4,5])
a.clip(lower=2,upper=4) # 각 임계치들은 포함하지 않음

0    2
1    2
2    3
3    4
4    4
dtype: int64