### 판다스 (pandas)
데이터를 관리하기 위한 모듈로, 시리즈와 데이터 프레임을 제공함

In [4]:
# 모듈 불러오기
# 넘파이 모듈을 np라고 부른다
import numpy as np
# 넘파이 모듈을 pd라고 부른다
import pandas as pd

### 4.1 시리즈 (series)
<small>
데이터를 한줄로 담는 자료 구조<br>
리스트와 다른 점은 데이터에 이름표를 붙일 수 있다 (index)
/<small>

In [3]:
# 시리즈 생성
# 인덱스가 자동으로 설정됨(0~3)
# 시리즈의 인덱스 확인
s = pd.Series([1,2,3,4])
print(s)

0    1
1    2
2    3
3    4
dtype: int64


데이터 프레임에서 계산과 처리

In [22]:
# 학생 성적 데이터 만들기
data = np.array([ [60,70,80],[70,80,90],[80,90,100] ])
# 성적데이터를 담아서 프레임 생성
df = pd.DataFrame(data,
                  index=['둘리','또치','도우너'],
                  columns=['국어','영어','수학'])
df

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,100


In [12]:
# 국어 과목만 조회
df['국어']
# 국어과목에 담겨있는 값은 자료형
df['국어'].dtype
# 국어과목의 자료 구조
type(df['국어'])
# 데이터프레임은 여러 시리즈의 묶음

pandas.core.series.Series

In [15]:
# 전체 점수에 1점씩 더하기
# 데이터 프레임 전체 데이터에 더하기가 적용됨
df + 1
# 국어점수만 10점씩 더하기
df['국어'] +10

둘리     70
또치     80
도우너    90
Name: 국어, dtype: int64

In [18]:
# 조건검색 (국어점수가 70점 이상인 학생만 찾기)
df['국어'] >= 70
# 프레임에 bool 배열을 인덱슬 사용
df[df['국어'] >= 70]

Unnamed: 0,국어,영어,수학
또치,70,80,90
도우너,80,90,10


데이터프레임의 정렬  
<small>
    시험 성적 순위를 매길 때 사용
    </small>

In [26]:
# 시험 성적에서 국어 점수를 기준으로 정렬
df.sort_values('국어')
# 국어 점수를 기주능로 내림차순 정렬
# 정렬 기준: 오름차순 (1->10) / 내림차순 (10->1)
# ascending: 오름차순 (True) 내림차순(False)
df.sort_values('국어',ascending=False)

Unnamed: 0,국어,영어,수학
도우너,80,90,100
또치,70,80,90
둘리,60,70,80


In [35]:
# 랜덤함수로 시험 점수 생성
# 범위:60~100
# 개수:9개
data = np.random.randint(60,100,9)
# 3행 3열 크기의 2차원 배열로 변환
arr = data.reshape(3,3)
arr
# 프레임 생성
df = pd.DataFrame(arr, 
                  index=['둘리','또치','도우너'],
                  columns=['수학','영어','과학'])
print(df)
# 영어 점수가 높은 사람 순으로 정렬(내림차순)
df.sort_values('영어', ascending=False)

     수학  영어  과학
둘리   91  63  71
또치   93  61  91
도우너  80  60  75


Unnamed: 0,수학,영어,과학
둘리,91,63,71
또치,93,61,91
도우너,80,60,75


nan 처리  
<small>
누락된 값, 빈값<br>
예를 들어 엑셀에서 빈셀을 표현할 때 사용<br>
nan은 float타입에서만 표현 가능
</small>

In [41]:
# 둘리의 영어점수를 빈값(nan)으로 표시
# 빈값을 넣으면 해당 값이 들어간 열이 float 타입으로 자동 형변환 됨
# df.loc['둘리','영어'] = np.nan
df

Unnamed: 0,수학,영어,과학
둘리,91,,71
또치,93,61.0,91
도우너,80,60.0,75


In [44]:
# 빈값이 있는 행 삭제
# 엑시스 0 'row' =>행
# axis=0 행
# axis=1 열
df = df.dropna(axis=0)
df

Unnamed: 0,수학,영어,과학
또치,93,61.0,91
도우너,80,60.0,75


In [45]:
# 또치의 과학 점수를 반값으로 설정
df.loc['또치','과학'] = np.nan
df

Unnamed: 0,수학,영어,과학
또치,93,61.0,
도우너,80,60.0,75.0


In [46]:
# 비어있는 점수를 모두 0으로 설정
df.fillna(0)

Unnamed: 0,수학,영어,과학
또치,93,61.0,0.0
도우너,80,60.0,75.0
