# 데이터프레임의 정의

실제 데이터를 다루기 전에 데이터프레임은 무엇인지 짚고 넘어갈 필요가 있습니다.

In [1]:
import pandas as pd

## 정의

이제 데이터프레임을 정의해 보자. 다음은 5명의 이름, 성별, 나이, 키가 저장된 데이터프레임을 직접 만드는 코드이다.  

In [2]:
df = pd.DataFrame(
    { 'name' : ['이철수', '김영희', '홍길동', 'John Smith', 'Mary Doe'],
      'gender'  : ['M', 'F', 'M', 'M', 'F'],
      'age'  : [ 23, 25, 21, 33, 45],
      'height' : [153.5, 175.3, 163.4, 180.0, 165.7]
    } )

df

Unnamed: 0,name,gender,age,height
0,이철수,M,23,153.5
1,김영희,F,25,175.3
2,홍길동,M,21,163.4
3,John Smith,M,33,180.0
4,Mary Doe,F,45,165.7


In [3]:
type(df)

pandas.core.frame.DataFrame

> 각 행을 나타내는 인덱스는 0으로 시작하는 정수 0,1,2,3,4 로 나타나고 각 열을 나타내는 인덱스(열이름)는
문자열로 나타나며 `name`,	`gender`,	`age`,	`height` 로 나타난다.

위의 코드는 5명의 학생의 이름(name), 성별(gender), 나이(age), 키(height)로 구성된 5개의 행과 4개 열을 가진 데이터프레임 `df` 이다. `pd.DataFrame()` 는 `pd` 로 지정된 `pandas` 라이브러리의 함수 `DataFrame()` 을 사용하겠다는 의미이다. 라이브러리의 함수 `DataFrame`의 괄호 안에 인자는 괄호 `{` 로 시작하여 괄호 `}` 로 끝나는 표현식이 들어 간다.

괄호 `{}` 안에 있는 표현식은 사전(dictionary) 형식의 데이터를 만들어 준다.

- 괄호 `{}` 안에 있는 첫 번째 요소는 이름을 나타내는 열을 만드는 표현식이며 열이름은 `name` 이고 원소들은 문자열(`str`)로 구성된 리스트이다.

```
'name' : ['이철수', '김영희', '홍길동', 'John Smith', 'Mary Doe']
```

-  괄호 `{}` 안에 있는 두 번째 요소는 성별을 나타내는 열을 만드는 표현식이며 열이름은 `gender` 이고 원소들은 문자열 `M` 과 `F` 로 구성된 리스트이다.

```
'gender'  : ['M', 'F', 'M', 'M', 'F']
```

- 괄호 `{}` 안에 있는 세 번째 요소는 나이을 나타내는 열을 만드는 표현식이며 열이름은 `age` 이고 원소들은 정수(`int`)로 구성된 리스트이다.

```
'age'  : [ 23, 25, 21, 33, 45]
```

- 괄호 `{}` 안에 있는 네 번째 요소는 키를 나타내는 열을 만드는 표현식이며 열이름은 `height` 이고 원소들은 부동소수점(`float`)로 구성된 리스트이다.

```
'height' : [153.5, 175.3, 163.4, 180.0, 165.7]
```

각 열을 나타내는 4개의 요소는 쉼표 `,` 로 분리한다.


## 열(column) 선택

데이터프레임에서 다음과 같이 괄호 `[]` 안에 열이름 또는 열이름으로 구성된 리스트를 넣어서 일부의 열을 선택할 수 있다. 이 경우 열이름은 문자열이어야 한다.

데이터프레임에서 열 또는 행의 일부를 선택하여 추출하는 작업을 **슬라이싱(slicing)** 이라고 한다.



In [4]:
df['name']

0           이철수
1           김영희
2           홍길동
3    John Smith
4      Mary Doe
Name: name, dtype: object

In [5]:
df[['age', 'height']]

Unnamed: 0,age,height
0,23,153.5
1,25,175.3
2,21,163.4
3,33,180.0
4,45,165.7


하나의 열만 슬라이싱하는 경우는 데이터프레임 이름 뒤에 마침표를 붙이고 열이름을 붙이면 된다.

In [6]:
df.age

0    23
1    25
2    21
3    33
4    45
Name: age, dtype: int64

## 행(row) 선택

이제 특정한 성질을 가진 행, 즉 자료의 구성 단위의 일부만을 선택해 보자. 데이터프레임 뒤 괄호 `[]` 안에 비교연산자를 이용한 조건 표현식을 넣어주면 조건이 만족하는 행만 추출된다.



성별이 남자인 사람만 추출해보자.

데이터프레임에 5명의 사람의 정보가 행으로 들어가 있으니 각 사람마다 남자인지 아닌지 판단을 해야 하는 조건 표현식이 필요합니다.

위에서 언급한 조건 표현식은 `df['gender'] == 'M'` 로서 `df['gender']` 의 자료를 각각 문자열 `M` 과 비교하여 참이면 `True`, 거짓이면 `False` 로 결과를 생성한다.



In [7]:
df['gender'] == 'M'

0     True
1    False
2     True
3     True
4    False
Name: gender, dtype: bool

여기서 `True`가 0,2,3 번째에서 3명 `False`가 1,4 번째에서 2명이 반환된다.

비교연산자는 `True`값이 반환된 행만 추출해준다. 이것을 행 슬라이싱이라 한다.

In [8]:
df[ df['gender'] == 'M' ]

Unnamed: 0,name,gender,age,height
0,이철수,M,23,153.5
2,홍길동,M,21,163.4
3,John Smith,M,33,180.0


자료에서 선택해야할 경우의 수가 많은 경우 다음과 같은 `.isin()` 메소드를 사용할 수 있다. `.isin` 함수의 괄호 안에 선택할 문자 또는 숫자를 리스트 형태로 넣어준다.

예를 들어 나이가 25세와 33세인 사람만 슬라이싱 해보자.

우선 조건문을 보자

각 행마다 `age`가 25 또는 33 인지 확인하고 둘 중 하나가 맞디면 `True`, 그렇지 않으면 `False`를 반환한다.

In [9]:
df['age'].isin([25,33])

0    False
1     True
2    False
3     True
4    False
Name: age, dtype: bool

이렇게 반환된 `True`,`False`중 `True`의 행만 추출해주는 것을 볼 수 있다.



In [10]:
df[ df['age'].isin([25,33]) ]

Unnamed: 0,name,gender,age,height
1,김영희,F,25,175.3
3,John Smith,M,33,180.0


이번에는 조건문을 2개 썼을 경우이다.

만약 키가 160 이상인 남자 구성원만 슬라이싱 하려면 다음과 같은 명령어를 사용한다.

어떻게 이런 결과값이 나오는 지 확인해본다.


In [11]:
(df['gender'] == 'M') & (df['height'] >= 160.0)

0    False
1    False
2     True
3     True
4    False
dtype: bool

우선 성별이 남자인 조건문의 반환값이다.

In [12]:
df['gender'] == 'M'

0     True
1    False
2     True
3     True
4    False
Name: gender, dtype: bool

다음은 키가 160이상인 조건문의 반환값이다.

In [13]:
df['height'] >= 160.0

0    False
1     True
2     True
3     True
4     True
Name: height, dtype: bool

조건문이 2개 이고 여기선 `&`를 썼으므로 둘다 만족했을 때 `True`를 반환해준다.

*   `True` `&` `True` 이면 `True`를 반환
*   `Ture` `&` `False` 이면 `False`를 반환
*   `False` `&` `False` 이면 `False`를 반환

그러므로 둘 다 `True`를 만족하는 행은 2,3 번째 행뿐이므로 2개의 행만 반환한다.

In [14]:
df[ (df['gender'] == 'M') & (df['height'] >= 160.0) ]

Unnamed: 0,name,gender,age,height
2,홍길동,M,21,163.4
3,John Smith,M,33,180.0


이번에는 2개의 조건문 중에 하나 이상이 맞으면 슬라이싱하는 방법을 본다.

만약 나이가 30세 이하 또는 키가 160 미만인 행만 슬라이싱 하려면 다음과 같은 명령어를 사용한다.

이런 경우 `|` 즉 `or` 를 써서 둘 중 하나이상 맞으면 `True`를 반환하게 끔 해준다.

*   `True` `|` `True` 이면 `True`를 반환
*   `Ture` `|` `False` 이면 `True`를 반환
*   `False` `|` `False` 이면 `False`를 반환

첫번 째 조건문에서 만족하는 행은 0,1,2

In [15]:
df['age'] <= 30

0     True
1     True
2     True
3    False
4    False
Name: age, dtype: bool

두번 째 조건문에서 만족하는 행은 0

In [16]:
df['height'] < 160.0

0     True
1    False
2    False
3    False
4    False
Name: height, dtype: bool

두 조건문 중 한개라도 맞는 행은 0,1,2

In [17]:
(df['age'] <= 30) | (df['height'] < 160.0)

0     True
1     True
2     True
3    False
4    False
dtype: bool

최종 0,1,2 번째 행이 반환되는 걸 알 수 있다.

In [18]:
df[ (df['age'] <= 30) | (df['height'] < 160.0) ]

Unnamed: 0,name,gender,age,height
0,이철수,M,23,153.5
1,김영희,F,25,175.3
2,홍길동,M,21,163.4


데이터프레임에서 행을 조건에 따라서 슬라이싱 할 때 다음과 같은 규칙을 따른다.

- 비교연산자 `<`, `<=`, `>`, `>=`, `!=`, `==` 을 사용한다.
- 두 개 이상의 비교 표현식을 연결할 경우 **또는(OR)** 은 `|` 을 사용하고 **그리고(AND)** 는 `&` 를 사용한다.
- 비교 표현식을 연결할 경우 표현식은 언제나 괄호 `()` 로 묶어준다.

참고로 두 개 이상의 비교 표현식을 연결할 경우 사용하는 연산자 `|` 와 `&` 는 비트단위연산자(bit-wise operator) 라고 부른다. 데이터프레임에 조건식을 사용하여 슬라이싱 할 경우 논리연산자 `or` 와 `and` 는 사용할 수 없다.

## 행과 열 선택

이제 특정한 열과 행을 동시에 슬라이싱 해보자.

만약 키가 170 이상인 사람들의 이름이 필요하면 다음과 같이 슬라이싱할 수 있다. 괄호에서 첫 부분은 행에 대한 조건을 쓰고 컴마 `,` 로 분리한 후 열이름를 써준다.

여기서 유의해할 점은 행과 열을 동시에 슬라이싱할 경우 테이터프레임 이름 뒤에 `.loc`를 붙여주어야 한다. 만약 붙여주지 않으면 오류가 발생한다.

In [19]:
df_1 = df.loc[ (df['height'] >= 170.0) , 'name']
df_1

1           김영희
3    John Smith
Name: name, dtype: object

In [20]:
df.loc[ (df['gender'] == 'M') , ['name', 'height']]

Unnamed: 0,name,height
0,이철수,153.5
2,홍길동,163.4
3,John Smith,180.0


데이터프레임의 행과 열에 대한 인덱스를 숫자로 사용하여 슬라이싱하려면 데이터프레임 이름 뒤에 `iloc` 을 붙여주고 괄호 `[]` 안에 행과 열 순서의 위치를 써주면 된다. 이 경우 파이썬은 모든 위치는 0으로 시작하는데 유의하자.  

하나의 위치가 아닌 여러개의 연속적인 위치는 `x:y` 형태이 범위 형식을 사용하여 지칭한다. 모든 열과 행을 지칭하는 경우 공란으로 넣거나 `:`을 사용한다.

In [21]:
df.iloc[0,0]

'이철수'

In [22]:
df.iloc[4,3]

165.7

In [23]:
df.iloc[3,1:3]

gender     M
age       33
Name: 3, dtype: object

In [24]:
df.iloc[:,2]

0    23
1    25
2    21
3    33
4    45
Name: age, dtype: int64

In [25]:
df.iloc[0,:]

name        이철수
gender        M
age          23
height    153.5
Name: 0, dtype: object

## 가계금융복지조사 데이터

실제 데이터로 실습해봅시다. 사용할 데이터는 통계청에서 제공하는 2016년 가계금융복지조사 자료의 일부입니다.

[가계금융복지조사](https://kostat.go.kr/board.es?mid=a10301040300&bid=215&act=view&list_no=422053)는 가계의 자산, 부채, 소득, 지출 등을 조사하여 국민의 생활수준과 가계의 재무건전성을 분석하여 정부와 금융당국이 복지와 금융 정책을 추진하는 데 이용하는 등 다양한 목적으로 활용됩니다.

가계금융복지조사에서 모든 화폐의 단위는 **만원(10,000)** 이다.

이 노트에서 사용되는 자료는 실제 조사자료와 다소 차이가 있으며 가중치를 고려하지 않는 자료임을 유의합니다.

### 데이터 불러오기

데이터를 불러오기 위해 `pandas` 패키기가 필요합니다. \
그 안에 `read_csv` 라는 함수를 써서 csv 파일을 불러올 수 있습니다. \
괄호 `()` 안에 파일경로를 붙여주면 해당경로의 csv파일을 가져옵니다.

In [41]:
df = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_depart/2016_housemasterdata_part1.csv", encoding='cp949',index_col=False)
df.head(5)

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0
1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,자기집,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0
2,2016,10200151,수도권,여자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,86.0㎡ ~ 132.2㎡ 미만,아파트,부채 보유,125360,8000,12600,0,0
3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0
4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0


### 데이터 파악하기

데이터를 파악하기 위해 `info()` 를 넣어주면 해당 데이터 행의 대략적인 정보를 확인 할 수 있습니다.

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18273 entries, 0 to 18272
Data columns (total 27 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  18273 non-null  int64 
 1   조사연도        18273 non-null  int64 
 2   가구고유번호      18273 non-null  int64 
 3   수도권여부       18273 non-null  object
 4   가구주_성별코드    18273 non-null  object
 5   가구원수        18273 non-null  int64 
 6   노인가구코드      18273 non-null  object
 7   조손가구코드      18273 non-null  object
 8   한부모가구코드     18273 non-null  object
 9   다문화가구코드     18273 non-null  object
 10  장애인가구코드     18273 non-null  object
 11  교육정도_통합코드   18273 non-null  object
 12  동거코드        18273 non-null  object
 13  산업대분류코드     18273 non-null  object
 14  직업대분류코드     18273 non-null  object
 15  만연령         18273 non-null  int64 
 16  종사상지위코드     18273 non-null  object
 17  혼인상태코드      18273 non-null  object
 18  입주형태통합코드    18273 non-null  object
 19  전용면적규모코드    18273 non-null  object
 20  주택종류통합

앞에 배운 것을 이용해 봅니다.

열 선택을 해봅니다

가구주가 남자인 데이터만 불러봅니다.

행 선택이기 때문에 `가구주_성별코드`가 `남자`인 행만 `True`값을 반환합니다.

In [33]:
df['가구주_성별코드'] == '남자'

0         True
1         True
2        False
3         True
4         True
         ...  
18268    False
18269    False
18270     True
18271     True
18272     True
Name: 가구주_성별코드, Length: 18273, dtype: bool

`True`가 반환된 행만 슬라이싱 해줍니다.

In [34]:
df[df['가구주_성별코드'] == '남자']

Unnamed: 0.1,Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
0,0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0
1,1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,자기집,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0
3,3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0
4,4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0
6,6,2016,10200211,비수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,156100,15000,0,7200,3600
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18266,18266,2016,993505331,비수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,86.0㎡ ~ 132.2㎡ 미만,단독주택,부채 보유,14860,5300,1040,3000,0
18267,18267,2016,994200331,비수도권,남자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,월세,86.0㎡ ~ 132.2㎡ 미만,단독주택,부채 미보유,15415,0,8000,0,0
18270,18270,2016,994505311,비수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,15300,0,4500,0,40
18271,18271,2016,994505321,비수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,200,0,2160,0,0


거주지가 수되권이 아닌 자료만 보고 싶다면 아래 코드와 같습니다.

In [42]:
df[df['수도권여부'] == '비수도권']

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
6,2016,10200211,비수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,156100,15000,0,7200,3600
7,2016,10200231,비수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,사별,월세,49.6㎡ 미만,단독주택,부채 미보유,218,0,2160,0,0
8,2016,10200241,비수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,장애인가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,20362,9000,2880,5000,0
9,2016,10200251,비수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,사별,기타,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 미보유,74310,0,0,7000,0
10,2016,10200261,비수도권,남자,2,노인가구,그 외 가구,그 외 가구,그 외 가구,장애인가구,...,배우자있음,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 보유,30,4200,120,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18268,2016,994200361,비수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ 미만,연립 및 다세대,부채 미보유,19213,0,888,100,0
18269,2016,994200381,비수도권,여자,1,노인가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,사별,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,2200,0,0,0,40
18270,2016,994505311,비수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,15300,0,4500,0,40
18271,2016,994505321,비수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,기타,49.6㎡ ~ 86.0㎡ 미만,단독주택,부채 미보유,200,0,2160,0,0


이번에는 행까지 선택해봅니다.

가구주의 연령이 30세 이하인 자료만 보려 합니다

In [37]:
df['만연령'] <= 30

0        False
1        False
2        False
3        False
4        False
         ...  
18268    False
18269    False
18270    False
18271    False
18272    False
Name: 만연령, Length: 18273, dtype: bool

In [38]:
df[df['만연령'] <= 30]

Unnamed: 0.1,Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
26,26,2016,10202141,수도권,여자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,월세,49.6㎡ 미만,기타,부채 보유,2000,20,0,3000,0
42,42,2016,10300121,수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,전세,49.6㎡ 미만,연립 및 다세대,부채 보유,22048,3050,7790,0,0
59,59,2016,10501101,수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,월세,49.6㎡ 미만,단독주택,부채 미보유,3400,0,2520,0,0
60,60,2016,10501111,수도권,남자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,전세,49.6㎡ 미만,기타,부채 미보유,11258,0,3600,0,0
82,82,2016,10600171,수도권,남자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,월세,49.6㎡ 미만,단독주택,부채 미보유,660,0,400,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17846,17846,2016,954502291,비수도권,여자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ 미만,아파트,부채 보유,13318,7610,5470,0,0
17929,17929,2016,961600231,비수도권,여자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,기타,49.6㎡ 미만,연립 및 다세대,부채 보유,3178,1000,1200,0,0
18013,18013,2016,967502231,비수도권,남자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,월세,49.6㎡ 미만,단독주택,부채 보유,8881,2920,3840,0,0
18111,18111,2016,976200321,비수도권,남자,1,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,월세,49.6㎡ 미만,연립 및 다세대,부채 보유,3860,4020,4000,0,0


위에 실행했던 행과 열을 동시에 선택해 봅니다.

가구주의 연령이  50이 이상인 자료에서 연령과 자산금액을 찾아보려 합니다

loc : location을 뜻합니다.

`df['만연령'] <= 30` 이 `True`인 행만 반환 해줄 것이고,

그 행들 중에서 연령과 자산금액인 열만 보고 싶으니 `만연령`과 `자산금액` 만 선택해줍니다.

In [39]:
df.loc[df['만연령'] <= 30, ['만연령', '자산금액']]

Unnamed: 0,만연령,자산금액
26,29,2000
42,28,22048
59,22,3400
60,28,11258
82,25,660
...,...,...
17846,26,13318
17929,27,3178
18013,30,8881
18111,30,3860


하나의 컬럼만 선택하는 경우는 컬럼 이름만 저장해도 됩니다.

In [40]:
df.loc[df['만연령'] <= 30, '부채보유여부']

26        부채 보유
42        부채 보유
59       부채 미보유
60       부채 미보유
82       부채 미보유
          ...  
17846     부채 보유
17929     부채 보유
18013     부채 보유
18111     부채 보유
18138     부채 보유
Name: 부채보유여부, Length: 576, dtype: object