## 조건을 이용한 데이터 접근
- 비교, &(and), |(or)
- 특정 조건 : isin
    - 데이터프레임의 컬럼에서 어떤 리스트의 값을 포함하고 있는지 판단
    - 해당 값이 있으면 True, False 반환


In [2]:
import numpy as np
import pandas as pd

In [9]:
data = {'이름': ['홍길동', '이순신', '강감찬', '정몽주', '이도진', '박명수'],
       '나이': [21, 22, 25, 23, 24, 20],
       '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일', 
                '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame = pd.DataFrame(data)
frame

Unnamed: 0,이름,나이,생년월일
0,홍길동,21,2001년 1월 1일
1,이순신,22,2000년 5월 3일
2,강감찬,25,1997년 7월 9일
3,정몽주,23,1999년 6월 1일
4,이도진,24,1998년 9월 12일
5,박명수,20,2002년 12월 24일


In [10]:
frame.insert(1, '성별', ['남', '남', '남', '여', '여', '여'])
frame

Unnamed: 0,이름,성별,나이,생년월일
0,홍길동,남,21,2001년 1월 1일
1,이순신,남,22,2000년 5월 3일
2,강감찬,남,25,1997년 7월 9일
3,정몽주,여,23,1999년 6월 1일
4,이도진,여,24,1998년 9월 12일
5,박명수,여,20,2002년 12월 24일


In [11]:
frame['성별'].isin(['여'])

0    False
1    False
2    False
3     True
4     True
5     True
Name: 성별, dtype: bool

In [12]:
frame['나이']>22

0    False
1    False
2     True
3     True
4     True
5    False
Name: 나이, dtype: bool

In [13]:
frame[frame.나이>22]

Unnamed: 0,이름,성별,나이,생년월일
2,강감찬,남,25,1997년 7월 9일
3,정몽주,여,23,1999년 6월 1일
4,이도진,여,24,1998년 9월 12일


In [14]:
frame[frame['나이']>22]

Unnamed: 0,이름,성별,나이,생년월일
2,강감찬,남,25,1997년 7월 9일
3,정몽주,여,23,1999년 6월 1일
4,이도진,여,24,1998년 9월 12일


In [15]:
frame[(frame['나이']>22) & (frame['성별'] == '남')]

Unnamed: 0,이름,성별,나이,생년월일
2,강감찬,남,25,1997년 7월 9일


In [16]:
frame[(frame.나이>22) & (frame.성별 == '남')]

Unnamed: 0,이름,성별,나이,생년월일
2,강감찬,남,25,1997년 7월 9일


- `isin()` : 데이터 값으로 행 추출하는 방법
    - 데이터 값을 여러 개 가져올 때 사용하면 편리

In [17]:
obj = pd.Series(['c', 'a', 'd', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    b
5    b
6    c
7    c
dtype: object

In [18]:
mask = obj.isin(['b', 'c'])
print(mask)
print(obj[mask])

0     True
1    False
2    False
3    False
4     True
5     True
6     True
7     True
dtype: bool
0    c
4    b
5    b
6    c
7    c
dtype: object


In [21]:
import pandas as pd
person_data = {'이름': ['이순신', '김유진', '홍길동', '김유신', '박무무'],
               '나이': [22, 19, 19, 20, 21],
               '성별': ['남', '여', '남', '남', '여'],
               '키': [175, 163, 183, 175, 164],
               '체중': [75, 53, 80, 75, 50]}
df = pd.DataFrame(person_data, index=['학생1', '학생2', '학생3', '학생4', '학생5'])
df

Unnamed: 0,이름,나이,성별,키,체중
학생1,이순신,22,남,175,75
학생2,김유진,19,여,163,53
학생3,홍길동,19,남,183,80
학생4,김유신,20,남,175,75
학생5,박무무,21,여,164,50


In [22]:
df.isin(['이순신', '김유신'])

Unnamed: 0,이름,나이,성별,키,체중
학생1,True,False,False,False,False
학생2,False,False,False,False,False
학생3,False,False,False,False,False
학생4,True,False,False,False,False
학생5,False,False,False,False,False


In [23]:
df[df.isin(['이순신', '김유신'])]

Unnamed: 0,이름,나이,성별,키,체중
학생1,이순신,,,,
학생2,,,,,
학생3,,,,,
학생4,김유신,,,,
학생5,,,,,


In [24]:
df['성별'].isin(['여'])

학생1    False
학생2     True
학생3    False
학생4    False
학생5     True
Name: 성별, dtype: bool

In [25]:
df[df['성별'].isin(['여'])]

Unnamed: 0,이름,나이,성별,키,체중
학생2,김유진,19,여,163,53
학생5,박무무,21,여,164,50


In [27]:
df['이름'].isin(['이순신', '김유신'])

학생1     True
학생2    False
학생3    False
학생4     True
학생5    False
Name: 이름, dtype: bool

In [28]:
df[df['이름'].isin(['이순신', '김유신'])]

Unnamed: 0,이름,나이,성별,키,체중
학생1,이순신,22,남,175,75
학생4,김유신,20,남,175,75


#### `query()`
- 조건에 부합하는 데이터 추출
- df.query() 함수 유용 -> .loc() 보다 느리다는 단점
    - 비교연산자, in연산자, 논리연산자, 외부 변수(또는 함수) 참조 연산, 인덱스 검색, 문자열 부분 검색

In [29]:
df = pd.DataFrame({'A': range(1, 6),
                   'B': range(10, 0, -2),
                   'C C': range(10, 5, -1)})
df

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


In [30]:
df.query('A > B')

Unnamed: 0,A,B,C C
4,5,2,6


In [31]:
df[df.A > df.B]

Unnamed: 0,A,B,C C
4,5,2,6


In [33]:
# 이름에 공백이 있는 열의 경우 백틱 인용해 사용
df.query('B == `C C`')

Unnamed: 0,A,B,C C
0,1,10,10


In [34]:
df[df.B == df['C C']]

Unnamed: 0,A,B,C C
0,1,10,10


In [35]:
df.query('A != 5')

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7


In [36]:
df.query('A in [4,5]')

Unnamed: 0,A,B,C C
3,4,4,7
4,5,2,6


In [37]:
df.query("(A > B) & (B < `C C`)")

Unnamed: 0,A,B,C C
4,5,2,6


In [38]:
df.query("(A > B) and (B < `C C`)")

Unnamed: 0,A,B,C C
4,5,2,6


In [39]:
# 외부변수
D = 5
df.query("(A == @D) and (B < @D)")

Unnamed: 0,A,B,C C
4,5,2,6


In [40]:
D = 5
df.query(f"(A=={D}) and (B<{D})")

Unnamed: 0,A,B,C C
4,5,2,6


In [41]:
# 인덱스
df.query("index >= 2")

Unnamed: 0,A,B,C C
2,3,6,8
3,4,4,7
4,5,2,6


In [4]:
data = {"name" : ["kim youngsin", "Kim sunsin", "park miso"], "age" : [5, 7, 9]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,name,age
0,kim youngsin,5
1,Kim sunsin,7
2,park miso,9


In [5]:
# case=False 대소문자 구분하지 않고 검색
df1.query("name.str.contains('kim', case=False)")

Unnamed: 0,name,age
0,kim youngsin,5
1,Kim sunsin,7


In [6]:
df1.query("name.str.contains('kim')") # kim로 시작하는 문자열

Unnamed: 0,name,age
0,kim youngsin,5


In [7]:
df1.query("name.str.contains('sin')") # sim으로 끝나는 문자열

Unnamed: 0,name,age
0,kim youngsin,5
1,Kim sunsin,7


#### T(transpose) : `DataFrame.transpose()` or `DataFrame.T`  
- 행과 열을 전치 (교환) 시킴 

In [3]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                 '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame2 = pd.DataFrame(data, columns=['이름', '생년월일', '나이'], index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,이름,생년월일,나이
one,홍길동,2001년 1월 1일,21
two,이순신,2000년 5월 3일,22
three,김유신,1997년 7월 9일,25
four,정이동,1999년 6월 1일,23
five,이순진,1998년 9월 12일,24
six,박유정,2002년 12월 24일,20


In [5]:
frame2.T

Unnamed: 0,one,two,three,four,five,six
이름,홍길동,이순신,김유신,정이동,이순진,박유정
생년월일,2001년 1월 1일,2000년 5월 3일,1997년 7월 9일,1999년 6월 1일,1998년 9월 12일,2002년 12월 24일
나이,21,22,25,23,24,20
