## pandas 기초

### 라이브러리 호출

In [None]:
# pandas 라이브러리를 호출합니다.
# [참고] numpy 라이브러리도 함께 호출하는 것이 좋습니다.
import numpy as np
import pandas as pd

### 시리즈 생성

In [None]:
# 다양한 자료형을 원소로 갖는 리스트를 생성합니다.
a = [1, 2.0, '3']

In [None]:
# 리스트를 1차원 배열로 변환합니다.
# [참고] 1차원 배열은 원소의 자료형을 통일시킵니다.
np.array(object = a)

In [None]:
# 리스트(또는 1차원 배열)를 시리즈로 변환합니다.
# [참고] 시리즈는 원소의 자료형을 유지시킵니다.
sr = pd.Series(data = a)

In [None]:
# sr을 출력합니다. sr의 원소 자료형은 object이므로 원소별 자료형이 다를 수 있습니다.
# [참고] 시리즈는 인덱스와 값을 세로로 출력하고 원소 자료형을 아래에 추가합니다.
sr

In [None]:
# sr의 클래스를 확인합니다. sr의 클래스는 pandas.core.series.Series입니다.
type(sr)

### 시리즈 확인

In [None]:
# sr의 형태(행 개수, 열 개수)를 확인합니다.
sr.shape

In [None]:
# sr의 원소 개수를 확인합니다.
sr.size

In [None]:
# sr의 원소 자료형을 확인합니다. sr의 원소 자료형은 'O'입니다.
sr.dtype

In [None]:
# sr의 값(원소)을 확인합니다. sr의 값은 numpy.ndarray입니다.
sr.values

In [None]:
# sr의 인덱스를 확인합니다.
# [참고] 시리즈를 생성할 때 인덱스를 지정하지 않으면 정수 인덱스를 자동 적용합니다.
sr.index

### 시리즈 원소별 자료형 확인

In [None]:
# 반복문으로 sr의 원소별 클래스를 출력합니다. 원소별 자료형이 제각각입니다.
# [주의] sr로 산술 연산 또는 문자열 결합을 시도하면 에러를 반환할 수 있습니다.
for i in sr:
    print(type(i))

In [None]:
# 원소별 클래스가 다른 시리즈로 산술 연산을 시도합니다.
# [주의] sr의 세 번째 원소가 문자열이므로 에러를 반환합니다.
sr + 1

In [None]:
# 원소별 클래스가 다른 시리즈로 문자열 결합을 시도합니다.
# [주의] sr의 1~2번째 원소가 정수와 실수이므로 에러를 반환합니다.
sr + '1'

### 시리즈 원소의 자료형 변환

In [None]:
# sr의 원소 자료형을 정수로 변환하고 산술 연산을 실행합니다.
# [참고] 두 번째 원소가 실수(2.0)이므로 에러를 반환하지 않습니다.
sr.astype(int) + 1

In [None]:
# sr의 원소 자료형을 실수로 변환하고 산술 연산을 실행합니다.
sr.astype(float) + 1

In [None]:
# sr의 원소 자료형을 문자열로 변환하고 문자열 결합을 실행합니다.
sr.astype(str) + '1'

In [None]:
# sr의 원소 자료형을 실수로 변환한 결과를 sr에 재할당합니다.
# [참고] 불리언 인덱싱을 실습하기 위함입니다.
sr = sr.astype(float)

### [참고] 시리즈를 생성하는 다른 방법

In [None]:
# 리스트 또는 1차원 배열로 시리즈를 생성할 때 인덱스를 지정할 수 있습니다.
# [참고] index 매개변수에 원하는 인덱스를 리스트로 지정합니다.
pd.Series(data = a, index = ['a', 'b', 'c'])

In [None]:
# 딕셔너리로 시리즈를 생성합니다.
# [주의] 딕셔너리의 키를 인덱스로 자동 적용하므로 인덱스를 추가 지정할 수 없습니다!
pd.Series(data = {'a': 1, 'b': 3, 'c': 5})

### 시리즈 인덱스 변경

In [None]:
# sr 인덱스를 정수로 변경합니다.
sr.index = [1, 2, 3]
sr

In [None]:
# sr 인덱스를 문자열로 변경합니다.
sr.index = ['a', 'b', 'c']
sr

### 시리즈 인덱싱 및 슬라이싱

In [None]:
# 정수 인덱스로 sr의 첫 번째 원소를 선택합니다.
# [주의] 시리즈의 인덱스가 정수일 때 왼쪽 코드를 실행하면 에러를 반환할 수 있습니다.
sr[0]

In [None]:
# 행이름으로 sr의 첫 번째 원소를 선택합니다.
# [참고] 시리즈는 딕셔너리처럼 대괄호 안에 행이름을 지정할 수 있습니다.
sr['a']

In [None]:
# 정수 인덱스로 sr을 슬라이싱합니다.
# [참고] 시리즈를 정수 인덱스로 슬라이싱하면 콜론 오른쪽 인덱스를 포함하지 않습니다.
sr[0:3]

In [None]:
# 행이름으로 sr을 슬라이싱합니다.
# [참고] 시리즈를 행이름으로 슬라이싱하면 콜론 오른쪽 행이름을 포함합니다.
sr['a':'c']

In [None]:
# 대괄호 안에 정수 인덱스를 원소로 갖는 리스트를 지정합니다.(배열 인덱싱)
# [참고] 정수 인덱스 대신 행이름 ['b', 'c']를 지정해도 같은 결과를 얻습니다.
sr[[1, 2]]

### iloc 인덱서

In [None]:
# 대괄호 안에 정수 인덱스를 스칼라로 지정하면 해당 원소를 반환합니다.
sr.iloc[0]

In [None]:
# 대괄호 안에 정수 인덱스를 리스트로 지정하면 해당 원소를 시리즈로 반환합니다.
sr.iloc[[0]]

In [None]:
# 연속하지 않는 두 개 이상의 정수를 지정하려면 반드시 리스트로 묶어야 합니다.
# [참고] 아래 코드를 실행하면 sr의 0, 2번 인덱스 원소를 시리즈로 반환합니다.
sr.iloc[[0, 2]]

In [None]:
# 대괄호 안에 정수를 슬라이스로 지정하면 연속하는 원소를 시리즈로 반환합니다.
# [참고] iloc 인덱서는 콜론 오른쪽 인덱스를 포함하지 않습니다.
sr.iloc[0:2]

### loc 인덱서

In [None]:
# 대괄호 안에 행이름을 스칼라로 지정하면 해당 원소를 반환합니다.
sr.loc['a']

In [None]:
# 대괄호 안에 행이름을 리스트로 지정하면 해당 원소를 시리즈로 반환합니다.
sr.loc[['a']]

In [None]:
# 연속하지 않는 두 개 이상의 행이름을 지정하려면 반드시 리스트로 묶어야 합니다.
# [참고] 아래 코드를 실행하면 sr의 행이름이 'a'와 'c'인 원소를 시리즈로 반환합니다.
sr.loc[['a', 'c']]

In [None]:
# 대괄호 안에 행이름을 슬라이스로 지정하면 연속하는 원소를 시리즈로 반환합니다.
# [참고] loc 인덱서는 콜론 오른쪽 행이름을 포함합니다!
sr.loc['a':'c']

### [참고] 인덱서를 반드시 사용해야 하나?

In [None]:
# 인덱스가 정수 1부터 시작하는 시리즈를 생성합니다.
sr1 = pd.Series(data = range(3), index = range(1, 4))
sr1

In [None]:
# sr1의 첫 번째 원소를 인덱싱합니다.
# [주의] sr1의 행이름에 정수 0이 없으므로 에러를 반환합니다.
sr1[0]

In [None]:
# sr1에 iloc 인덱서를 추가하면 0번 인덱스(첫 번째) 원소를 선택할 수 있습니다.
sr1.iloc[0]

In [None]:
# sr1에 loc 인덱서를 추가하면 첫 번째 행이름으로 원소를 선택할 수 있습니다.
# [참고] 아래 코드에서 loc 인덱서를 생략해도 되지만 인덱서를 추가하는 것이 좋습니다.
sr1.loc[1]

In [None]:
# 중복 인덱스를 갖는 시리즈를 생성합니다.
sr2 = pd.Series(data = range(3), index = np.tile(A = 1, reps = 3))
sr2

In [None]:
# sr2에서 행이름이 정수 1인 원소를 모두 선택합니다.
sr2[1]

In [None]:
# sr2에 iloc 인덱서를 추가하면 0번 인덱스(첫 번째) 원소를 선택할 수 있습니다.
sr2.iloc[0]

### 시리즈의 비교 연산

In [None]:
# 시리즈로 비교 연산을 실행합니다.
# [참고] 왼쪽 코드를 실행하면 원소가 True 또는 False인 부울형 시리즈를 반환합니다.
sr >= 1

In [None]:
# 부울형 시리즈 사이에 논리 연산자를 사용하면 에러를 반환합니다.
# [주의] 논리 연산자는 진리값 사이에서 정상적으로 동작합니다.
# [참고] 부울형 시리즈를 True 또는 False로 판단할 수 없어서 에러를 반환합니다.
sr >= 1 and sr < 3

In [None]:
# 반복문으로 시리즈의 원소마다 비교 연산을 실행하면 진리값을 반환합니다.
for i in sr:
    print(i >= 1 and i < 3)

### 비트 연산자

In [None]:
# [논리곱] 대응하는 원소가 모두 True면 True, 아니면 False를 반환합니다.
# [참고] 비트 연산자의 우선순위가 비교 연산자보다 높습니다.
(sr >= 1) & (sr < 3)

In [None]:
# [논리합] 대응하는 원소 중 하나라도 True면 True, 아니면 False를 반환합니다.
(sr >= 1) | (sr < 3)

In [None]:
# [배타적 논리합] 대응하는 원소가 다르면 True, 같으면 False를 반환합니다.
(sr >= 1) ^ (sr < 3)

In [None]:
# [논리부정] True를 False로, False를 True로 반전합니다.
# [참고] 전체 코드를 괄호로 감싸지 않으면 결과가 달라집니다.
~((sr >= 1) & (sr < 3))

### 시리즈의 불리언 인덱싱

In [None]:
# 대괄호 안에 비교 연산 코드를 지정하면 True에 해당하는 원소를 선택합니다.
sr.loc[sr >= 1]

In [None]:
# [주의] iloc 인덱서를 사용하면 에러를 반환합니다.
sr.iloc[sr >= 1]

In [None]:
# [참고] 시리즈를 불리언 인덱싱할 때 loc 인덱서를 생략할 수 있습니다.
sr[sr >= 1]

In [None]:
# 두 개 이상의 조건을 고려하려면 비트 연산자를 추가합니다.
sr.loc[(sr >= 1) & (sr < 3)]

### [참고] 얕은 복사

In [None]:
# sr1을 얕은 복사한 sr3를 생성합니다.
sr3 = sr1

In [None]:
# 두 변수가 가리키는 객체의 메모리 주소가 같은지 확인합니다.
id(sr1) == id(sr3)

In [None]:
# sr3의 첫 번째 원소를 2로 변경합니다.
sr3.iloc[0] = 2

In [None]:
# sr1의 첫 번째 원소도 바뀌었습니다.
sr1

### [참고] 깊은 복사

In [None]:
# sr1을 깊은 복사한 sr4를 생성합니다.
sr4 = sr1.copy()

In [None]:
# 두 변수가 가리키는 객체의 메모리 주소가 같은지 확인합니다.
id(sr1) == id(sr4)

In [None]:
# sr4의 첫 번째 원소를 1로 변경합니다.
sr4.iloc[0] = 1

In [None]:
# sr1의 첫 번째 원소가 바뀌지 않았습니다.
# [참고] 객체의 복사본이 필요하면 반드시 깊은 복사를 해야 합니다.
sr1

### 데이터프레임 생성

In [None]:
# 같은 길이의 리스트를 원소로 갖는 리스트를 생성합니다.
b = [[1, 2], [3, 4], [5, 6]]

In [None]:
# 리스트를 2차원 배열로 변환합니다.
np.array(object = b)

In [None]:
# 리스트를 데이터프레임으로 변환합니다.
df = pd.DataFrame(data = b)

In [None]:
# df를 출력합니다. 데이터프레임은 인덱스(행이름)와 컬럼명(열이름)을 출력합니다.
# [참고] 데이터프레임을 생성할 때 인덱스와 컬럼명을 지정하지 않으면 정수 인덱스를 
# 자동 적용합니다.
df

In [None]:
# df의 클래스를 확인합니다. df의 클래스는 pandas.core.frame.DataFrame입니다.
type(df)

### [참고] 데이터프레임을 생성하는 다른 방법

In [None]:
# 데이터프레임을 생성할 때 인덱스와 컬럼명을 리스트로 지정할 수 있습니다.
# [참고] 리스트 대신 range()를 지정할 수 있습니다.
df = pd.DataFrame(data = b, index = range(1, 4), columns = ['A', 'B'])
df

In [None]:
# 딕셔너리로 데이터프레임을 생성합니다.
# [참고] 딕셔너리의 키를 열이름으로 적용하고 값을 세로로 입력합니다.
pd.DataFrame(data = {'A': [1, 2], 'B': [3, 4]})

In [None]:
# 딕셔너리를 원소로 갖는 리스트로 데이터프레임을 생성합니다.
# [참고] 딕셔너리의 키를 열이름으로 적용하고 값을 가로로 입력합니다.
pd.DataFrame(data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4}])

### 데이터프레임 확인

In [None]:
# df의 형태(행 개수, 열 개수)를 확인합니다.
df.shape

In [None]:
# df의 열별 자료형을 확인합니다. [참고] 데이터프레임의 원소는 열(시리즈)입니다.
df.dtypes

In [None]:
# df의 셀 값을 확인합니다. [참고] 데이터프레임의 셀 값은 2차원 배열입니다.
df.values

In [None]:
# df의 인덱스(행이름)를 확인합니다. 
df.index

In [None]:
# df의 컬럼명(열이름)을 확인합니다. 
df.columns

In [None]:
# df의 정보를 확인합니다.
# (행 개수, 열 개수, 행이름, 열이름, 열별 결측값 아닌 원소 개수 및 자료형)
# [주의] info()에서 괄호를 생략하면 출력 결과가 달라집니다.
df.info()

### 데이터프레임 인덱싱 및 슬라이싱: iloc 인덱서

In [None]:
# 대괄호 안에 정수 인덱스를 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.iloc[0]

In [None]:
# 대괄호 안에 정수 인덱스를 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.iloc[[0]]

In [None]:
# 대괄호 안에 정수 인덱스를 슬라이스로 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 인덱스를 포함하지 않습니다.
df.iloc[0:2]

In [None]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열의 정수 인덱스를 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.iloc[0:2, :]

In [None]:
# 행은 전체, 열 인덱스가 0~1인 열을 데이터프레임으로 반환합니다.
df.iloc[:, 0:2]

In [None]:
# 행은 전체, 열은 리스트의 원소(인덱스) 순으로 데이터프레임을 반환합니다.
df.iloc[:, [1, 0]]

### 데이터프레임 인덱싱 및 슬라이싱: loc 인덱서

In [None]:
# 대괄호 안에 행이름을 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.loc[1]

In [None]:
# 대괄호 안에 행이름을 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.loc[[1]]

In [None]:
# 대괄호 안에 행이름을 슬라이스를 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 행이름을 포함합니다.
df.loc[1:2]

In [None]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열이름을 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.loc[1:2, :]

In [None]:
# 행은 전체, 열이름이 'A'~'B'인 열을 데이터프레임으로 반환합니다.
df.loc[:, 'A':'B']

In [None]:
# 행은 전체, 열은 리스트의 원소(열이름) 순으로 데이터프레임을 반환합니다.
df.loc[:, ['B', 'A']]

## End of Document