## pandas 기초

### 라이브러리 호출

In [1]:
# pandas 라이브러리를 호출합니다. numpy 라이브러리도 함께 호출합니다.
import numpy as np
import pandas as pd

### 시리즈 생성

In [2]:
# 1차원 배열을 생성합니다.
ar1 = np.arange(start = 1, stop = 6, step = 2)

In [3]:
# ar1을 출력합니다. 원소를 가로 방향으로 출력합니다.
ar1

array([1, 3, 5])

In [4]:
# 1차원 배열로 시리즈를 생성합니다.
sr = pd.Series(data = ar1)

In [5]:
# sr을 출력합니다. 인덱스와 값을 세로로 출력하고 맨 아래에 원소 자료형을 추가합니다.
# [참고] 시리즈를 생성할 때 별도로 인덱스를 지정하지 않으면 정수 0부터 시작하는 인덱스를 적용합니다.
sr

0    1
1    3
2    5
dtype: int64

In [6]:
# sr의 클래스를 확인합니다. sr의 클래스는 pandas.core.series.Series입니다.
type(sr)

pandas.core.series.Series

### [참고] 시리즈를 생성하는 다른 방법

In [7]:
# 다양한 자료형을 원소를 갖는 리스트로 시리즈를 생성합니다.
sr1 = pd.Series(data = [1, 2.0, '3'], index = ['a', 'b', 'c'])

In [8]:
# sr1을 출력합니다. 
# sr1의 원소 자료형은 'object'이며 원소별 자료형이 다릅니다. 문자열을 따옴표 없이 출력합니다.
sr1

a      1
b    2.0
c      3
dtype: object

In [9]:
# 반복문으로 sr1의 원소별 클래스를 출력합니다. 원소별 자료형이 제각각입니다.
for i in sr1:
    print(type(i))

<class 'int'>
<class 'float'>
<class 'str'>


In [10]:
# 딕셔너리로 시리즈를 생성합니다.
# [주의] 딕셔너리의 키를 인덱스로 자동 적용하므로 다른 인덱스를 지정하면 안됩니다!
pd.Series(data = {'a': 1, 'b': 3, 'c': 5})

a    1
b    3
c    5
dtype: int64

### 시리즈 확인

In [11]:
# sr의 형태(원소 개수)를 확인합니다. sr은 1차원이며 원소 개수는 3입니다.
sr.shape

(3,)

In [12]:
# sr의 원소 자료형을 확인합니다. sr의 원소 자료형은 'int64'입니다.
# [참고] Windows에서는 정수를 'int32'로 생성합니다.
sr.dtype

dtype('int64')

In [13]:
# sr의 값(원소)을 확인합니다. sr의 값(원소)은 np.ndarray입니다.
sr.values

array([1, 3, 5])

In [14]:
# sr의 인덱스를 확인합니다.
sr.index

RangeIndex(start=0, stop=3, step=1)

### 시리즈 인덱스 변경

In [15]:
# sr 인덱스의 클래스를 확인합니다.
type(sr.index)

pandas.core.indexes.range.RangeIndex

In [16]:
# sr의 인덱스를 정수로 변경합니다.
sr.index = [1, 2, 3]
sr

1    1
2    3
3    5
dtype: int64

In [17]:
# sr 인덱스의 클래스를 확인합니다.
type(sr.index)

pandas.core.indexes.numeric.Int64Index

In [18]:
# sr의 인덱스를 문자열로 변경합니다.
sr.index = ['a', 'b', 'c']
sr

a    1
b    3
c    5
dtype: int64

In [19]:
# sr 인덱스의 클래스를 확인합니다.
type(sr.index)

pandas.core.indexes.base.Index

### 시리즈 인덱싱 및 슬라이싱: iloc 인덱서

In [20]:
# 대괄호 안에 정수 인덱스를 스칼라로 지정하면 해당 원소를 반환합니다.
sr.iloc[0]

1

In [21]:
# 대괄호 안에 정수 스칼라 대신 리스트로 지정하면 해당 원소를 시리즈로 반환합니다.
sr.iloc[[0]]

a    1
dtype: int64

In [22]:
# 연속하지 않는 인덱스를 함께 선택하려면 반드시 리스트로 지정해야 합니다.
sr.iloc[[0, 2]]

a    1
c    5
dtype: int64

In [23]:
# 정수 인덱스로 슬라이싱하면 연속한 원소를 시리즈로 반환합니다.
# [참고] iloc 인덱서는 끝(콜론 오른쪽) 인덱스를 포함하지 않습니다.
sr.iloc[0:2]

a    1
b    3
dtype: int64

### 시리즈 인덱싱 및 슬라이싱: loc 인덱서

In [24]:
# 대괄호 안에 행이름을 스칼라로 지정하면 해당 원소를 반환합니다.
sr.loc['a']

1

In [25]:
# 대괄호 안에 행이름 스칼라 대신 리스트로 지정하면 해당 원소를 시리즈로 반환합니다.
sr.loc[['a']]

a    1
dtype: int64

In [26]:
# 연속하지 않는 행이름을 함께 선택하려면 반드시 리스트로 지정해야 합니다.
sr.loc[['a', 'c']]

a    1
c    5
dtype: int64

In [27]:
# 행이름으로 슬라이싱하면 연속한 원소를 시리즈로 반환합니다.
# [참고] loc 인덱서는 끝(콜론 오른쪽) 행이름을 포함합니다!
sr.loc['a':'c']

a    1
b    3
c    5
dtype: int64

### [참고] 인덱서를 반드시 사용해야 하나?

In [28]:
# 인덱스가 정수 1부터 시작하는 시리즈를 생성합니다.
sr2 = pd.Series(data = range(3), index = range(1, 4))
sr2

1    0
2    1
3    2
dtype: int64

In [29]:
# loc 인덱서로 sr2의 인덱스가 1인 원소를 선택합니다.
sr2.loc[1]

0

In [30]:
# 중복 인덱스를 갖는 시리즈를 생성합니다.
sr3 = pd.Series(data = range(3), index = np.tile(1, 3))
sr3

1    0
1    1
1    2
dtype: int64

In [31]:
# loc 인덱서로 sr3의 행이름이 1인 원소를 선택합니다.
sr3.loc[1]

1    0
1    1
1    2
dtype: int64

In [32]:
# iloc 인덱서로 sr3의 정수 인덱스가 0인 첫 번째 원소를 선택합니다.
sr3.iloc[0]

0

### 시리즈의 불리언 인덱싱

In [33]:
# 시리즈로 비교 연산을 실행합니다.
sr >= 3

a    False
b     True
c     True
dtype: bool

In [34]:
# 대괄호 안에 비교 연산 코드를 지정하면 True에 해당하는 원소를 선택합니다.
# [주의] iloc 인덱서를 사용하면 에러가 발생합니다.
sr.loc[sr >= 3]

b    3
c    5
dtype: int64

In [35]:
# 두 개 이상의 조건을 고려하려면 비트 연산자를 추가합니다.
# [주의] 반드시 개별 조건을 소괄호로 감싸야 합니다.
sr.loc[(sr >= 3) & (sr < 5)]

b    3
dtype: int64

In [36]:
# [참고] loc 인덱서를 생략할 수 있지만 인덱서를 추가하는 것이 좋습니다.
# 데이터프레임의 경우 loc 인덱서가 없으면 에러가 발생할 수 있습니다.
sr[(sr >= 3) & (sr < 5)]

b    3
dtype: int64

### 비트 연산자 사용법

In [37]:
# 논리 연산자는 진리값(True 또는 False 스칼라) 사이에서 정상적으로 동작합니다.
sr[0] >= 3 and sr[0] < 5

False

In [38]:
# 대응하는 원소가 모두 True면 True, 아니면 False를 반환합니다.[논리곱]
(sr >= 3) & (sr < 5)

a    False
b     True
c    False
dtype: bool

In [39]:
# 대응하는 원소 중 하나라도 True면 True, 아니면 False를 반환합니다.[논리합]
(sr >= 3) | (sr < 5)

a    True
b    True
c    True
dtype: bool

In [40]:
# 대응하는 원소가 다르면 True, 같으면 False를 반환합니다.[배타적 논리합]
(sr >= 3) ^ (sr < 5)

a     True
b    False
c     True
dtype: bool

In [41]:
# True를 False로, False를 True로 반전합니다.[논리부정]
~ (sr >= 3)

a     True
b    False
c    False
dtype: bool

### 얕은 복사 vs 깊은 복사

In [42]:
# sr1을 얕은 복사한 sr4를 생성합니다.
sr4 = sr1
sr4

a      1
b    2.0
c      3
dtype: object

In [43]:
# sr4의 첫 번째 원소를 2로 변경합니다.
sr4.iloc[0] = 2
sr4

a      2
b    2.0
c      3
dtype: object

In [44]:
# sr1의 첫 번째 원소도 바뀌었습니다.
# [참고] 두 변수가 같은 객체를 가리키고 있기 때문입니다.
sr1

a      2
b    2.0
c      3
dtype: object

In [45]:
# sr1을 깊은 복사한 sr5를 생성합니다.
sr5 = sr1.copy()
sr5

a      2
b    2.0
c      3
dtype: object

In [46]:
# sr5의 첫 번째 원소를 1로 변경합니다.
sr5.iloc[0] = 1
sr5

a      1
b    2.0
c      3
dtype: object

In [47]:
# sr1의 첫 번째 원소는 바뀌지 않았습니다.
# [참고] 두 변수가 가리키는 객체가 다르기 때문입니다.
sr1

a      2
b    2.0
c      3
dtype: object

### 데이터프레임 생성

In [48]:
# 2차원 배열을 생성합니다.
ar2 = np.arange(start = 1, stop = 7).reshape(3, -1)

In [49]:
# ar2를 출력합니다.
ar2

array([[1, 2],
       [3, 4],
       [5, 6]])

In [50]:
# 2차원 배열로 데이터프레임을 생성합니다.
df = pd.DataFrame(data = ar2)

In [51]:
# df를 출력합니다.
df

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


In [52]:
# df의 클래스를 확인합니다. df의 클래스는 pandas.core.frame.DataFrame입니다.
type(df)

pandas.core.frame.DataFrame

### [참고] 데이터프레임을 생성하는 다른 방법

In [53]:
# 리스트로 데이터프레임을 생성합니다.
df = pd.DataFrame(data = ar2, index = range(1, 4), columns = ['A', 'B'])
df

Unnamed: 0,A,B
1,1,2
2,3,4
3,5,6


In [54]:
# 딕셔너리로 데이터프레임을 생성합니다.
# 딕셔너리 key를 열이름으로 적용하고, value를 열(세로 방향)로 입력합니다.
pd.DataFrame(data = {'A': [1, 2, 3], 'B': [4, 5, 6]})

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [55]:
# 딕셔너리를 원소로 갖는 리스트로 데이터프레임을 생성합니다.
# 리스트 원소를 행(가로 방향)으로 입력합니다.
pd.DataFrame(data = [{'A': 1, 'B': 2, 'C': 3},
                     {'A': 4, 'B': 5, 'C': 6}])

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


### 데이터프레임 확인

In [56]:
# df의 형태(원소 개수)를 확인합니다. df의 행 개수와 열 개수를 튜플로 반환합니다.
df.shape

(3, 2)

In [57]:
# df의 열별 자료형을 확인합니다. 
df.dtypes

A    int64
B    int64
dtype: object

In [58]:
# df의 셀 값을 확인합니다.
df.values

array([[1, 2],
       [3, 4],
       [5, 6]])

In [59]:
# df의 행이름(인덱스)을 확인합니다. 
df.index

RangeIndex(start=1, stop=4, step=1)

In [60]:
# df의 열이름(컬럼명)을 확인합니다. 
df.columns

Index(['A', 'B'], dtype='object')

In [61]:
# df의 정보를 확인합니다.
# (행 개수, 열 개수, 행이름, 열이름, 열별 결측값을 제외한 원소 개수 및 자료형)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 1 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
dtypes: int64(2)
memory usage: 180.0 bytes


### 데이터프레임 인덱싱 및 슬라이싱: iloc 인덱서

In [62]:
# 대괄호 안에 정수 인덱스를 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.iloc[0]

A    1
B    2
Name: 1, dtype: int64

In [63]:
# 대괄호 안에 스칼라 대신 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.iloc[[0]]

Unnamed: 0,A,B
1,1,2


In [64]:
# 대괄호 안에 슬라이스를 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 인덱스를 포함하지 않습니다.
df.iloc[0:2]

Unnamed: 0,A,B
1,1,2
2,3,4


In [65]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열의 정수 인덱스를 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.iloc[0:2, :]

Unnamed: 0,A,B
1,1,2
2,3,4


In [66]:
# 행 인덱스가 0~1인 행과 열 인덱스가 0~1인 열을 데이터프레임으로 반환합니다.
df.iloc[0:2, 0:2]

Unnamed: 0,A,B
1,1,2
2,3,4


In [67]:
# 행은 전체, 열은 리스트로 지정한 인덱스 순서로 데이터프레임을 반환합니다.
df.iloc[:, [1, 0]]

Unnamed: 0,B,A
1,2,1
2,4,3
3,6,5


### 데이터프레임 인덱싱 및 슬라이싱: loc 인덱서

In [68]:
# 대괄호 안에 행이름을 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.loc[1]

A    1
B    2
Name: 1, dtype: int64

In [69]:
# 대괄호 안에 스칼라 대신 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.loc[[1]]

Unnamed: 0,A,B
1,1,2


In [70]:
# 대괄호 안에 슬라이스를 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 행이름을 포함합니다.
df.loc[1:2]

Unnamed: 0,A,B
1,1,2
2,3,4


In [71]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열이름을 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.loc[1:2, :]

Unnamed: 0,A,B
1,1,2
2,3,4


In [72]:
# 행이름이 1~2인 행과 열이름이 A~B인 열을 데이터프레임으로 반환합니다.
df.loc[1:2, 'A':'B']

Unnamed: 0,A,B
1,1,2
2,3,4


In [73]:
# 행은 전체, 열은 리스트로 지정한 열이름 순서로 데이터프레임을 반환합니다.
df.loc[:, ['B', 'A']]

Unnamed: 0,B,A
1,2,1
2,4,3
3,6,5


## End of Document