## 부록 2.2 판다스 입문

### 데이터프레임 정의하기

#### 라이브러리 임포트

In [None]:
# 라이브러리 임포트

# 넘파이 라이브러리
import numpy as np

# 판다스 라이브러리
import pandas as pd

# 데이터프레임 출력용 함수
from IPython.display import display

# 데이터프레임 수치 출력 정밀도 설정
pd.options.display.float_format = '{:.4f}'.format

# 데이터프레임의 모든 필드를 출력 대상으로
pd.set_option("display.max_columns",None)

#### 데이터프레임 정의하기

In [None]:
# 넘파이 2차원 배열 정의
b = np.array([[1, 2, 1], [4, 5, 2], [7, 8, 2],
    [10,np.nan, 1], [13, 10, 2]])

# 결과 확인
print(b)

In [None]:
# 데이터프레임 정의
df = pd.DataFrame(b, columns=['col_a', 'col_b', 'col_c'])

# 타입 출력
print(type(df))

# display 함수로 내용 출력
display(df)

In [None]:
# 데이터프레임의 각 부분의 내용을 출력

# 칼럼명
print('칼럼명', df.columns)

print('행번호', df.index)

# 데이터 내용
print('데이터 내용\n', df.values)

### 파일에서 데이터 읽어 들이기

#### CSV 파일에서 데이터 읽어 들이기

In [None]:
# CSV 파일에서 데이터 읽어 들이기

# 대상 파일의 URL
csv_url = 'https://github.com/makaishi2/sample-data\
/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.csv'

# 데이터 읽어 들이기
df_csv = pd.read_csv(csv_url)

# 결과 확인
display(df_csv)

In [None]:
# 파일을 읽어 들인 후 필드명 재정의
columns = ['A칼럼', 'B칼럼', 'C칼럼']
df_csv.columns = columns

# 결과 확인
display(df_csv)

#### 엑셀 파일로부터 데이터 읽어 들이기

In [None]:
# 엑셀 파일로부터 데이터 읽어 들이기

# 대상 파일의 URL
excel_url = 'https://github.com/makaishi2/sample-data\
/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.xlsx'

# 데이터 읽어 들이기
df_excel = pd.read_excel(excel_url)

# 결과 확인
display(df_excel)

### 시리즈 정의하기

In [None]:
# 1차원 넘파이 배열 정의
a = np.array(['male', 'male', 'female', 'male', 'female'])

# 결과 확인
print(a)

In [None]:
# 시리즈 정의하기
ser = pd.Series(a, name='col_d')

print(type(ser))

print(ser)

In [None]:
# 데이터프레임으로부터 시리즈 생성하기
ser2 = df['col_b']

print(type(ser2))

print(ser2)

### 데이터프레임과 넘파이 배열의 관계

In [None]:
# 데이터프레임과 넘파이 2차원 배열의 관계

# 데이터프레임에서 2차원 넘파이 배열을 꺼내기
ar = df.values

# 2차원 넘파이 배열로 데이터프레임을 생성하기
df0 = pd.DataFrame(ar)

In [None]:
# 데이터프레임의 shape 속성과 len 함수
# shape 속성과 len 함수는
# 내부 넘파이 객체의 반환 값을 그대로 반환한다

print(df.shape)
print(len(df))

### 데이터프레임의 부분참조

In [None]:
# 칼럼 리스트로 데이터의 일부를 추출

cols = ['col_a', 'col_c']
df2 = df[cols]

display(df2)

In [None]:
# 데이터프레임의 특정 칼럼을 넘파이 배열로 추출

y = df['col_a'].values
print(y)

In [None]:
# head 함수로 행 단위 데이터 추출
display(df.head(2))

In [None]:
# 행의 범위를 숫자로 지정하기
display(df[0:2])

#### 인덱스 배열을 이용한 행 선택

In [None]:
# idx: col_a 칼럼값의 홀수 여부
idx = (df['col_a'] % 2 == 1)
print(idx)

In [None]:
# idx를 이용해 행을 선택
df3 = df[idx]
display(df3)

In [None]:
# 위의 내용을 한줄로
df4 = df[df['col_a'] % 2 == 1]
display(df4)

### 데이터프레임의 칼럼 추가 및 삭제

In [None]:
# 칼럼 삭제
df5 = df.drop('col_a', axis=1)
display(df5)

In [None]:
# 누락 값을 포함한 행을 삭제
df6 = df.dropna(subset = ['col_b'])
display(df6)

In [None]:
# 데이터프레임 연접하기 (열방향)
df7 = pd.concat([df, ser], axis=1)
display(df7)

### 데이터프레임 함수

In [None]:
# 특정 칼럼을 대상으로 통계 함수 호출
a_mean = df['col_a'].mean()
a_max = df['col_a'].max()
a_min = df['col_a'].min()

print(f'평균: {a_mean}  최대:{a_max}  최소:{a_min}')

In [None]:
# 데이터프레임 전체를 대상으로 mean 함수를 호출
print(df.mean())

In [None]:
# 필드 단위 통계 정보 구하기
display(df.describe())

In [None]:
# 필드 값의 개수 집계하기
df7['col_d'].value_counts()

In [None]:
# 누락 값 체크하기
display(df.isnull())

In [None]:
# 칼럼 단위로 누락 값 수를 집계
print(df.isnull().sum())

### groupby 함수

In [None]:
# groupby 함수로 col_d의 값에 따른 통곗값을 계산
df8 = df7.groupby('col_d').mean()
display(df8)

### map 함수

In [None]:
# map 함수를 사용해 레이블값을 1/0으로 치환하기
df9 = df7.copy()
mf_map = {'male': 1, 'female': 0}
df9['col_d'] = df9['col_d'].map(mf_map)
display(df9)