# 데이터 전처리(1)
- 분석에 적합하게 데이터를 가공하는 작업
- 데이터가공(Data manupulation), 데이터 핸들링(Data Handling), 데이터 클리닝(Data Cleanging)

## 데이터 전 처리에서 수행되는 작업들

- 개별값에 접근하기
- 행 혹은 열(변수)추출
- 행 혹은 열추가, 삭제
- 정렬
- 기술통계 산출
- 다른 데이터프레임과 데이터 합치기(행,열)
- 집단별 나누기

-----------------------------
## #01. 필요한 모듈 참조

In [1]:
from pandas import DataFrame
from sample import grade_dic

-----------------------------------------------------------
## #02. 샘플 데이터프레임 만들기

In [2]:
df = DataFrame(grade_dic, index=['철수','영희','민철','수현','호영'])
df

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


------------------------------------------------
## #03. 데이터 추출하기

In [3]:
# 데이터프레임은 '열' 우선 접근이다.
df['국어']

철수     98
영희     88
민철     92
수현     63
호영    120
Name: 국어, dtype: int64

In [4]:
# '철수'라는 이름의 열은 없으므로 에러
df['철수']

KeyError: '철수'

In [5]:
# '행'단위로 접근하기 위해서는 'loc'이라는 속성을 통해 접근한다
df.loc['철수']

국어    98.0
영어     NaN
수학    88.0
과학    64.0
Name: 철수, dtype: float64

In [6]:
# 개별 값에 접근하고자 할 때도 '열>행' 순으로 접근
#df['국어']['철수']
df.loc['철수','국어']

98

In [7]:
# 행 우선 접근시 'loc'을 통해 접근한다. 단 하나의 괄호안에 [행,열] 순으로 이름을 넣는다
df.loc['철수','국어'] = 100
df

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [8]:
# 조건검색
df.query('국어> 80')

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
호영,120,50.0,,88.0


In [9]:
# 다중조건에 맞는 행 조회(1) -> And
df.query('국어> 80 and 수학 > 80')

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0


In [10]:
# 다중조건에 맞는 행 조회(2) -> Or
df.query('국어< 70 or 수학 < 70')

Unnamed: 0,국어,영어,수학,과학
영희,88,90.0,62.0,72.0
수현,63,60.0,31.0,70.0


In [11]:
# 열 필터링 --> 추출할 컬럼의 이름을 리스트로 전달한다
df.filter(['국어','영어'])

Unnamed: 0,국어,영어
철수,100,
영희,88,90.0
민철,92,70.0
수현,63,60.0
호영,120,50.0


In [12]:
# 전치 구하기(가로,세로가 바뀜)
df2 = df.T
df2

Unnamed: 0,철수,영희,민철,수현,호영
국어,100.0,88.0,92.0,63.0,120.0
영어,,90.0,70.0,60.0,50.0
수학,88.0,62.0,,31.0,
과학,64.0,72.0,,70.0,88.0


In [13]:
# 조건 검색(영희의 점수가 80 이상인 과목 찾기)
df2.filter(['영희']).query('영희 > 80')


Unnamed: 0,영희
국어,88.0
영어,90.0


수집                           처리                         분석                  시각화
--------------------------------------------------------------------------------------------

프로그래밍                 형식을 통일시킴                   통계                   그래프
java, PHP, Node                                          (Python,R)  
R,Python                   분산처리 시스템                           
                    
사용자들의 활동            Hadoop                           여기서 
내역을 텍스트로 저장       & 맵리듀스                       분석한걸 
-->로그                                                     제안하면
                           정형데이터로               -->머신러닝(Knn알고리즘)             
온라인 데이터 수집         가공 후 저장함                
                          (DB,xslx)
형식이 제각각
-->비정형 데이터

------------------------------------------------
## #04. 행 추가하기

In [14]:
#  데이터프레임 복제
cp = df.copy()

In [15]:
# 새로운 행 추가하기(원본 자체가 수정됨)
# -> 추가될 행의 인덱스 이름을 지정해 준다.
# -> 리스트로 추가할 경우 DataFrame의 컬럼 순서에 맞게 지정한다.
# -> 누락되는 값이 있거나 값의 수가 초과될 경우 에러
cp.loc['정호'] = [90,80,70,60]
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0
정호,90,80.0,70.0,60.0


In [16]:
# -> 딕셔너리 형태로 추가할 경우 컬럼의 순서는 상관없다
# -> 누락되는 값이 있거나 값의 수가 초과될 경우 에러
cp.loc['민정'] = { '국어':81,'영어':72,'과학':90,'수학':84}
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0
정호,90,80.0,70.0,60.0
민정,81,72.0,84.0,90.0


In [17]:
# 기존의 행 복사하기
cp.loc['철민'] = cp.loc['철수']
cp

Unnamed: 0,국어,영어,수학,과학
철수,100.0,,88.0,64.0
영희,88.0,90.0,62.0,72.0
민철,92.0,70.0,,
수현,63.0,60.0,31.0,70.0
호영,120.0,50.0,,88.0
정호,90.0,80.0,70.0,60.0
민정,81.0,72.0,84.0,90.0
철민,100.0,,88.0,64.0


In [18]:
# 다른 데이터프레임을 병합
# -> 제외된 열에 대해서는 NaN(결측치)로 설정됨
# -> sort : 열을 이름순으ㅗㄹ 정렬함(기본값 true)
tmp = DataFrame({'국어':81,'수학':84,'과학':90}, index=['상호'])
tmp

Unnamed: 0,국어,수학,과학
상호,81,84,90


In [19]:
new_cf = cp.append(tmp,sort=False)
new_cf

Unnamed: 0,국어,영어,수학,과학
철수,100.0,,88.0,64.0
영희,88.0,90.0,62.0,72.0
민철,92.0,70.0,,
수현,63.0,60.0,31.0,70.0
호영,120.0,50.0,,88.0
정호,90.0,80.0,70.0,60.0
민정,81.0,72.0,84.0,90.0
철민,100.0,,88.0,64.0
상호,81.0,,84.0,90.0


---------------------------------
## #05. 행 삭제하기

In [20]:
# 데이터프레임 복제
cp=df.copy()
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [21]:
# -> 추가는 원본 자체가 변하지만 삭제는 결과가 반영된 새로운 복사본이 생성된다
k1 = cp.drop("철수")
k1

Unnamed: 0,국어,영어,수학,과학
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [22]:
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [23]:
# 한번에 여러 행 삭제하기
k2 = cp.drop(['철수','영희','호영'])
k2

Unnamed: 0,국어,영어,수학,과학
민철,92,70.0,,
수현,63,60.0,31.0,70.0


In [25]:
# ->인덱싱을 통한 0번째행 삭제하기
k3 = cp.drop(cp.index[0])
k3

Unnamed: 0,국어,영어,수학,과학
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [26]:
# ->슬라이싱을 통한 3번째 행 부터 7번째 행 전까지 삭제하기
k4 = cp.drop(cp.index[3:7])
k4

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,


In [27]:
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [28]:
# drop 함수에 inplace = True 파라미터를 추가하면 원본 자체에서 삭제된다.
# 그러므로 이미 삭제된 행이라면 에러 발생
k5=cp.drop(['영희','수현'], inplace=True)
k5

In [29]:
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
민철,92,70.0,,
호영,120,50.0,,88.0


-------------------------------------
## #06. 열 추가하기

In [30]:
cp = df.copy()
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [31]:
# 열 추가하기
# -> 리스트 형식으로 추가할 경우 행의 수에 맞게 추가되어야 한다
cp['한국사']=['92','83','72','None','80']
cp

Unnamed: 0,국어,영어,수학,과학,한국사
철수,100,,88.0,64.0,92.0
영희,88,90.0,62.0,72.0,83.0
민철,92,70.0,,,72.0
수현,63,60.0,31.0,70.0,
호영,120,50.0,,88.0,80.0


In [32]:
# -> 새로운 열에 하나의 값을 지정하면 모든 행이 동일한 값을 갖는다
cp['세계사']=100
cp

Unnamed: 0,국어,영어,수학,과학,한국사,세계사
철수,100,,88.0,64.0,92.0,100
영희,88,90.0,62.0,72.0,83.0,100
민철,92,70.0,,,72.0,100
수현,63,60.0,31.0,70.0,,100
호영,120,50.0,,88.0,80.0,100


In [33]:
from pandas import Series
# 시리즈를 통한 열 추가
# -> 각 값이 연결될 행의 이름(index)를 지정해야 한다.
# -> 이 경우는 부분적으로 값을 비워 둘 수 있다
# (여기서는 호영의 데이터 생략)
cp['사회'] = Series([82,90,92,64],index=['철수','영희','민철','수현'])
cp

Unnamed: 0,국어,영어,수학,과학,한국사,세계사,사회
철수,100,,88.0,64.0,92.0,100,82.0
영희,88,90.0,62.0,72.0,83.0,100,90.0
민철,92,70.0,,,72.0,100,92.0
수현,63,60.0,31.0,70.0,,100,64.0
호영,120,50.0,,88.0,80.0,100,


In [34]:
# 딕셔너리는 행(?)을 추가 할 수 없음..학인필요

-----------------------------
## #07. 열 삭제하기

In [35]:
cp=df.copy()
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [36]:
# 열 삭제하기
# -> 컬럼 이름을 통한 열 삭제
# -> inplace=True 파라미터를 추가할 경우 원본 자체에서 삭제되고 리턴되는 객체는 없다(여기서는 사용안함)
# axis=0(x축,행,기본값), axis=1(y축,열,optional)
k1=cp.drop('국어',axis=1)
k1

Unnamed: 0,영어,수학,과학
철수,,88.0,64.0
영희,90.0,62.0,72.0
민철,70.0,,
수현,60.0,31.0,70.0
호영,50.0,,88.0


In [37]:
# 여러 열을 동시에 삭제하기 -> 열 이름을 리스트로 지정
k2=cp.drop(['영어','수학','과학'],axis=1)
k2

Unnamed: 0,국어
철수,100
영희,88
민철,92
수현,63
호영,120


In [38]:
# 인덱싱을 통한 3번째(0부터 카운트)열 삭제하기
# -> axis = 0:행삭제(기본값), axis=1 :열삭제
k3 = cp.drop(cp.columns[3],axis=1)
k3

Unnamed: 0,국어,영어,수학
철수,100,,88.0
영희,88,90.0,62.0
민철,92,70.0,
수현,63,60.0,31.0
호영,120,50.0,


In [39]:
# -> 슬라이싱을 통한 2번째 열부터 4번째 열전까지 삭제하기
k4 =cp.drop(cp.columns[2:4],axis=1)
k4

Unnamed: 0,국어,영어
철수,100,
영희,88,90.0
민철,92,70.0
수현,63,60.0
호영,120,50.0


----------------------------------
## #08. 데이터 정렬

In [40]:
cp=df.copy()
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [41]:
# 특정 열을 기준으로 오름차순(순차정렬) 정렬
# -> inplace=True 인 경우 원본 자체를 정렬함
# -> inplace=False 인 경우 정렬된 결과를 리턴하고 원본은 변화 없음(기본값)
cp.sort_values('국어',inplace=True)
cp

Unnamed: 0,국어,영어,수학,과학
수현,63,60.0,31.0,70.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
철수,100,,88.0,64.0
호영,120,50.0,,88.0


In [42]:
# 두 개 이상의 열로 정렬할 경우 리스트로 설정
# -> 국어 점수가 동일할 경우 수학점수 순으로 정렬된다(앞의 리스트가 동점일 경우만 뒤에 리스트가 order 결정요소가 됨)
cp.sort_values(['국어','수학'], inplace=True)
cp

Unnamed: 0,국어,영어,수학,과학
수현,63,60.0,31.0,70.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
철수,100,,88.0,64.0
호영,120,50.0,,88.0


---------------------------------------
## #09. 컬럼인덱스 변경

In [43]:
cp=df.copy()
cp

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [44]:
# 컬럼 순서 변경
# -> 지정된 순서대로 열이 재정렬 된 결과가 반환된다.
# -> inplace 파라미터 지원 안함
# -> 원본은 변화 없음. 결과가 적용된 복사본이 생성된다
a = cp.reindex(columns=['국어','수학','과학','영어'])
a

Unnamed: 0,국어,수학,과학,영어
철수,100,88.0,64.0,
영희,88,62.0,72.0,90.0
민철,92,,,70.0
수현,63,31.0,70.0,60.0
호영,120,,88.0,50.0


In [104]:
# 인덱스(행) 순서 변경
# -> 지정된 순서대로 행이 재정렬 된 결과가 반환된다
# -> inplace 파라미터 지원 안함
# -> 원본은 변화 없음. 결과가 적용된 복사본이 생성된다.
b = cp.reindex(index=['철수','민철','호영','영희','수현'])
b

Unnamed: 0,국어,영어,수학,과학
철수,100,,88.0,64.0
민철,92,70.0,,
호영,120,50.0,,88.0
영희,88,90.0,62.0,72.0
수현,63,60.0,31.0,70.0


In [105]:
# 컬럼, 인덱스 이름 변경
# -> '기존이름:새이름' 형식의 딕셔너리로 지정
# -> columns와 index중 변경을 원하는 하나만 설정 가능
# -> 원본은 변화없음. 결과가 적용된 복사본이 생성된다.
# -> inplace 파라미터 '지원함'
c=cp.rename(
    columns={'국어':'kor','영어':'eng','수학':'math','과학':'sci'},
    index={'영희':'yh','수현':'sh','호영':'hy','철수':'cs','민철':'mc'})
c

Unnamed: 0,kor,eng,math,sci
cs,100,,88.0,64.0
yh,88,90.0,62.0,72.0
mc,92,70.0,,
sh,63,60.0,31.0,70.0
hy,120,50.0,,88.0


## 향후 커리큐럼

데이터프레임 다루기<br>
    * 데이터전처리<br>
    * 데이터분포확인<br>
    * 데이터정제<br>
    * 데이터프레임 시각화(그래프)<br>
    
OpenAPI 연동을 통한 데이터 수집

웹페이지 스크랩핑을 통한 데이터 수집

가설검증

사이킷런(기계학습)활용<br>
    * Knn 알고리즘(최근접 이웃)