# 판다스(Pandas) 03 - 행(row), 열(column) 데이터 추출하기

행(row) 데이터 추출하기 - 연속적인 행 데이터 / 불연속적인 행 데이터

- 행(row) 데이터 추출하기 위해서는 다음과 같은 순서로 진행한다.
- 1. 연속적인 데이터인 경우 파이썬 슬라이싱(slicing) 기능을 이용하며
- 2. 불연속적인 데이터를 추출하기 위해서는 loc[...] 함수를 이용

In [1]:
# 데이터 불러오기

import pandas as pd

df1 = pd.read_csv('LEC_03_data.csv')
df1

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [2]:
# 연속적인 행 데이터 추출

# 첫 행부터 인덱스 2 행 (3 - 1) 까지
df1[:3]

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer


In [3]:
# 인덱스 3행 부터 4행 까지
df1[3:5]

Unnamed: 0,Name,Country,Age,Job
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor


In [4]:
# 인덱스 4행 부터 끝까지
df1[4:]

Unnamed: 0,Name,Country,Age,Job
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [5]:
# 불연속적인 행 데이터 추출

# 0 행 데이터
df1.loc[0] # Series 리턴

Name          John
Country        USA
Age             31
Job        Student
Name: 0, dtype: object

In [6]:
# 0 행, 3행 데이터
df1.loc[[0, 3]] # DataFrame 리턴

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
3,Sato,Japan,40,Chef


In [7]:
# 1행, 2행, 5행 데이터
df1.loc[[1, 2, 5]]

Unnamed: 0,Name,Country,Age,Job
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
5,Smith,USA,55,CEO


열(column) 데이터 추출하기 - 열 이름(name)을 이용한 데이터 추출

- 데이터프레임 변수를 df라고 할 경우,
- 1. df.열이름 또는 df['열이름']을 이용하여 하나의 열 데이터를 가져올 수 있으며
- 2. 2개 이상의 데이터를 가져오기 위해서는 다음과 같이 df['열이름1', '열이름2', ...] 리스트 타입을 이용하여 복수개의 열 데이터를 가져올 수 있음.

In [8]:
# 데이터 불러오기

import pandas as pd

df1 = pd.read_csv('LEC_03_data.csv')
df1

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [9]:
# 하나의 열 데이터 추출
df1['Country'] # Series 타입 리턴

0       USA
1    France
2     Korea
3     Japan
4     Korea
5       USA
Name: Country, dtype: object

In [10]:
# 하나의 열 데이터 추출
df1.Country # Series 타입 리턴

0       USA
1    France
2     Korea
3     Japan
4     Korea
5       USA
Name: Country, dtype: object

In [11]:
# 2개 이상의 열 데이터 추출
df1[['Name', 'Country']]

Unnamed: 0,Name,Country
0,John,USA
1,Sabre,France
2,Kim,Korea
3,Sato,Japan
4,Lee,Korea
5,Smith,USA


In [12]:
# 3개의 열 데이터 추출
df1[['Name', 'Country', 'Job']]

Unnamed: 0,Name,Country,Job
0,John,USA,Student
1,Sabre,France,Lawyer
2,Kim,Korea,Developer
3,Sato,Japan,Chef
4,Lee,Korea,Professor
5,Smith,USA,CEO


열(column) 데이터 추출하기 - 열 인덱스를 이용한 데이터 추출

- 데이터프레임에서 열(column) 이름이 없고 열 인덱스(index)만 있는 경우에는 파이썬 슬라이싱(slicing)과 iloc[...] 함수를 이용하여 열 데이터를 추출할 수 있음.

In [13]:
# 데이터 불러오기

df2 = pd.read_csv('LEC_03_data_no_header.csv', header = None)

df2

Unnamed: 0,0,1,2,3
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [14]:
# 연속적인 열 데이터 추출

# 모든 행, 1열부터 2열까지
df2.iloc[:, 1:3]

Unnamed: 0,1,2
0,USA,31
1,France,33
2,Korea,28
3,Japan,40
4,Korea,36
5,USA,55


In [15]:
# 1행부터 3행, 2열부터 끝까지
df2.iloc[1:4, 2:]

Unnamed: 0,2,3
1,33,Lawyer
2,28,Developer
3,40,Chef


In [16]:
# 불연속적인 행 데이터 추출

# 모든 행, 0열, 2열, 3열
df2.iloc[:, [0, 2, 3]]

Unnamed: 0,0,2,3
0,John,31,Student
1,Sabre,33,Lawyer
2,Kim,28,Developer
3,Sato,40,Chef
4,Lee,36,Professor
5,Smith,55,CEO


In [17]:
# 1행 3행, 1열 3열
df2.iloc[[1, 3], [1, 3]]

Unnamed: 0,1,3
1,France,Lawyer
3,Japan,Chef


열(column) 데이터 추출하기 - 조건에 따른 데이터 추출

- 데이터프레임에서 연산자(>, ==, <, !=, &, | 등)를 이용하여 열 데이터를 추출할 수 있음.

In [18]:
# 데이터 불러오기

import pandas as pd

df1 = pd.read_csv('LEC_03_data.csv')
df1

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [21]:
# 조건에 따른 열 데이터 추출

# Country가 Korea 인 경우
df1[df1.Country == 'Korea']

Unnamed: 0,Name,Country,Age,Job
2,Kim,Korea,28,Developer
4,Lee,Korea,36,Professor


In [22]:
# Age > 30 인 경우
df1[df1.Age > 30]

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [24]:
# and / or 에 따른 열 데이터 추출

# Country != 'USA' & Age >= 33
df1[(df1.Country != 'USA') & (df1.Age >= 33)]

Unnamed: 0,Name,Country,Age,Job
1,Sabre,France,33,Lawyer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor


In [25]:
# Country == Korea / Job == Chef
df1[(df1.Country == 'Korea') | (df1.Job == 'Chef')]

Unnamed: 0,Name,Country,Age,Job
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
