# pandas 기초

### 라이브러리 호출

In [None]:
# pandas 라이브러리를 호출합니다.
import numpy as np
import pandas as pd

### 시리즈 생성

In [None]:
# 1차원 배열로 시리즈를 생성합니다.
sr = pd.Series(data = np.arange(start = 1, stop = 10, step = 2))

In [None]:
# sr을 출력합니다.
sr

In [None]:
# sr의 클래스를 확인합니다.
type(sr)

In [None]:
# 리스트로 시리즈를 생성합니다.
pd.Series(data = [1, 3, 5, 7, 9], index = ['a', 'b', 'c', 'd', 'e'])

In [None]:
# 딕셔너리로 시리즈를 생성합니다. key가 인덱스로 자동 설정됩니다.
pd.Series(data = {'a': 1, 'b': 3, 'c': 5, 'd': 7, 'e': 9})

### 시리즈 확인

In [None]:
# sr의 형태를 출력합니다.
sr.shape

In [None]:
# sr의 값을 출력합니다.
sr.values

In [None]:
# sr의 자료형을 출력합니다.
sr.dtype

In [None]:
# sr의 인덱스명을 출력합니다.
sr.index

In [None]:
# 시리즈의 인덱스명을 변경합니다.
sr.index = ['a', 'b', 'c', 'd', 'e']

In [None]:
# sr을 출력합니다.
sr

### 시리즈의 인덱싱 및 슬라이싱: iloc 인덱서

In [None]:
# 대괄호 안에 정수 인덱스 스칼라를 지정하면 해당 원소를 반환합니다.
sr.iloc[0]

In [None]:
# 대괄호 안에 스칼라 대신 리스트를 지정하면 해당 원소를 시리즈로 반환합니다.
sr.iloc[[0]]

In [None]:
# 연속하지 않는 인덱스를 지정할 때 반드시 리스트를 사용해야 합니다.
sr.iloc[[1, 3]]

In [None]:
# sr의 1~2번 인덱스 원소를 시리즈로 반환합니다.
sr.iloc[1:3]

### 시리즈의 인덱싱 및 슬라이싱: loc 인덱서

In [None]:
# 대괄호 안에 인덱스명 스칼라를 지정하면 해당 원소를 반환합니다.
sr.loc['a']

In [None]:
# 대괄호 안에 스칼라 대신 리스트를 지정하면 해당 원소를 시리즈로 반환합니다.
sr.loc[['a']]

In [None]:
# sr의 인덱스명이 'b', 'd'인 원소를 시리즈로 반환합니다.
sr.loc[['b', 'd']]

In [None]:
# sr의 인덱스명이 'b', 'c', 'd'인 원소를 시리즈로 반환합니다.
sr.loc['b':'d']

In [None]:
# sr로 비교 연산을 실행합니다.
sr >= 5

In [None]:
# 대괄호 안에 비교 연산 코드를 지정하면 True에 해당하는 원소만 선택합니다.
sr.loc[sr >= 5]

In [None]:
# [주의] iloc 인덱서를 사용하면 에러가 발생합니다.
sr.iloc[sr >= 5]

In [None]:
# 두 개 이상의 비교 연산 결과로 불리언 인덱싱을 실행합니다.
# [주의] 반드시 개별 조건을 소괄호로 묶어주어야 합니다.
sr.loc[(sr >= 5) & (sr <= 7)]

In [None]:
# [참고] loc 인덱서를 삭제해도 실행됩니다.
sr[(sr >= 5) & (sr <= 7)]

### 시리즈 복제 vs 깊은 복사

In [None]:
# sr을 복제한 sr1을 생성합니다.
sr1 = sr
sr1

In [None]:
# sr1의 첫 번째 원소를 2로 변경합니다.
sr1.loc['a'] = 2
sr1

In [None]:
# sr의 첫 번째 원소도 함께 변경되었습니다.
sr

In [None]:
# sr을 깊은 복사한 sr2를 생성합니다.
sr2 = sr.copy(deep = True)
sr2

In [None]:
# sr2의 첫 번째 원소를 3으로 변경합니다.
sr2.loc['a'] = 3
sr2

In [None]:
# sr의 첫 번째 원소가 변경되지 않았습니다.
sr

### 데이터프레임 생성

In [None]:
# 리스트로 데이터프레임을 생성합니다.
df = pd.DataFrame(data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  index = [1, 2, 3],
                  columns = ['A', 'B', 'C'])

In [None]:
# df를 출력합니다.
df

In [None]:
# df의 클래스를 확인합니다.
type(df)

In [None]:
# 딕셔너리로 데이터프레임을 생성합니다.
pd.DataFrame(data = {'A': [1, 2, 3], 
                     'B': [4, 5, 6], 
                     'C': [7, 8, 9]})

In [None]:
# 딕셔너리를 원소로 갖는 리스트로 데이터프레임을 생성합니다.
pd.DataFrame(data = [{'A': 1, 'B': 2, 'C': 3},
                     {'A': 4, 'B': 5, 'C': 6},
                     {'A': 7, 'B': 8, 'C': 9}])

### 데이터프레임 확인

In [None]:
# df의 형태를 튜플로 출력합니다.(행 길이, 열 길이)
df.shape

In [None]:
# df의 값을 2차원 배열로 출력합니다.
df.values

In [None]:
# df의 열별 자료형을 출력합니다. 
df.dtypes

In [None]:
# df의 행이름(인덱스명)을 출력합니다. 
df.index

In [None]:
# df의 열이름(컬럼명)을 출력합니다. 
df.columns

In [None]:
# df의 정보를 출력합니다.(행 길이, 열 길이, 행이름, 열이름, 자료형, 열별 결측값을 제외한 원소 개수 등)
df.info()

## End of Document