## Pandas Introductions 

### 셀실행

In [47]:
import pandas as pd
import numpy as np

In [48]:
# Series 객체
pd.Series(np.random.randn(5))

0    2.595505
1   -0.341438
2    0.058165
3   -0.890133
4   -1.435739
dtype: float64

### csv file read

In [49]:
!head -n 5 './data/deview2015_session_info.csv'

day,time,zone,title,session_id
Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115
Day1,10:00,T2,실전 스위프트 프로그래밍,95
Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119
Day1,10:00,T4,DRC-HUBO: Technical Review,114


In [50]:
ds = pd.read_csv('./data/deview2015_session_info.csv')
ds.head()

Unnamed: 0,day,time,zone,title,session_id
0,Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115
1,Day1,10:00,T2,실전 스위프트 프로그래밍,95
2,Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119
3,Day1,10:00,T4,DRC-HUBO: Technical Review,114
4,Day1,11:00,T1,네이버 효과툰 구현 이야기,89


In [51]:
## dataframe의 index 
ds.index

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47], dtype='int64')

In [52]:
## row select by index
ds.iloc[0]

day                          Day1
time                        10:00
zone                           T1
title         네이버 효과툰은 어떻게 만들어졌나?
session_id                    115
Name: 0, dtype: object

In [53]:
## rows select by range
ds[:10]

Unnamed: 0,day,time,zone,title,session_id
0,Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115
1,Day1,10:00,T2,실전 스위프트 프로그래밍,95
2,Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119
3,Day1,10:00,T4,DRC-HUBO: Technical Review,114
4,Day1,11:00,T1,네이버 효과툰 구현 이야기,89
5,Day1,11:00,T2,LINE on Apple Watch,61
6,Day1,11:00,T3,Quality without QA,76
7,Day1,11:00,T4,MIT Cheetah 로봇의 탄생,116
8,Day1,12:00,T1,Packetbeat 과 Elasticsearch 를 이용한 실시간 모니터링,121
9,Day1,12:00,T2,Rust 프로그래밍 언어,113


In [54]:
### row select by column values  
ds[ds['time']=='10:00'].head()

Unnamed: 0,day,time,zone,title,session_id
0,Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115
1,Day1,10:00,T2,실전 스위프트 프로그래밍,95
2,Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119
3,Day1,10:00,T4,DRC-HUBO: Technical Review,114
24,Day2,10:00,T1,네이버 검색과 데이터마이닝,92


In [55]:
### 1 column select  : type은 Series임
ds['title'].head()

0                                  네이버 효과툰은 어떻게 만들어졌나?
1                                        실전 스위프트 프로그래밍
2    Developing Android Libraries: Lessons from Realim
3                           DRC-HUBO: Technical Review
4                                       네이버 효과툰 구현 이야기
Name: title, dtype: object

In [56]:
### multi column select  : type은 Series임
ds[['title','session_id']].head()

Unnamed: 0,title,session_id
0,네이버 효과툰은 어떻게 만들어졌나?,115
1,실전 스위프트 프로그래밍,95
2,Developing Android Libraries: Lessons from Realim,119
3,DRC-HUBO: Technical Review,114
4,네이버 효과툰 구현 이야기,89


In [57]:
## dataframe의 각 column의 type
ds.dtypes

day           object
time          object
zone          object
title         object
session_id     int64
dtype: object

In [58]:
## row단위 iterations
for idx, row in ds.head().iterrows():
    print (idx,row.values)

0 ['Day1' '10:00' 'T1' '네이버 효과툰은 어떻게 만들어졌나?' 115]
1 ['Day1' '10:00' 'T2' '실전 스위프트 프로그래밍' 95]
2 ['Day1' '10:00' 'T3' 'Developing Android Libraries: Lessons from Realim'
 119]
3 ['Day1' '10:00' 'T4' 'DRC-HUBO: Technical Review' 114]
4 ['Day1' '11:00' 'T1' '네이버 효과툰 구현 이야기' 89]


In [None]:
## 연산
ds['session_id']+10

In [None]:
ds.session_id*10

In [None]:
ds.session_id+ds.session_id

In [None]:
ds.sum()

In [None]:
ds.mean()

In [None]:
ds.median()

In [59]:
## data grouping
ds.groupby(['day']).count()

Unnamed: 0_level_0,time,zone,title,session_id
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Day1,24,24,24,24
Day2,24,24,24,24


In [61]:
## row apply functions each rows
## time필드에서 시간만 추출하기 
ds['hour'] = ds['time'].apply( lambda x: int(x[:2]))
ds.head()

Unnamed: 0,day,time,zone,title,session_id,day_hour,hour
0,Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115,Day1 10h,10
1,Day1,10:00,T2,실전 스위프트 프로그래밍,95,Day1 10h,10
2,Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119,Day1 10h,10
3,Day1,10:00,T4,DRC-HUBO: Technical Review,114,Day1 10h,10
4,Day1,11:00,T1,네이버 효과툰 구현 이야기,89,Day1 11h,11


In [62]:
## day와 time을 합치기
ds['day'] + ' ' + ds['time']
ds['day_hour']=ds.apply( lambda x : x.day+' '+x.time[:2] + 'h', axis=1 ) 
ds.head()

Unnamed: 0,day,time,zone,title,session_id,day_hour,hour
0,Day1,10:00,T1,네이버 효과툰은 어떻게 만들어졌나?,115,Day1 10h,10
1,Day1,10:00,T2,실전 스위프트 프로그래밍,95,Day1 10h,10
2,Day1,10:00,T3,Developing Android Libraries: Lessons from Realim,119,Day1 10h,10
3,Day1,10:00,T4,DRC-HUBO: Technical Review,114,Day1 10h,10
4,Day1,11:00,T1,네이버 효과툰 구현 이야기,89,Day1 11h,11


In [63]:
## 행렬 변환
ds.pivot('day_hour','zone','title')

zone,T1,T2,T3,T4
day_hour,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Day1 10h,네이버 효과툰은 어떻게 만들어졌나?,실전 스위프트 프로그래밍,Developing Android Libraries: Lessons from Realim,DRC-HUBO: Technical Review
Day1 11h,네이버 효과툰 구현 이야기,LINE on Apple Watch,Quality without QA,MIT Cheetah 로봇의 탄생
Day1 12h,Packetbeat 과 Elasticsearch 를 이용한 실시간 모니터링,Rust 프로그래밍 언어,브라우저는 VSync 를 어떻게 활용하고 있을까,Immersive Sound for VR
Day1 14h,React Everywhere,How Riot Works,안드로이드 기반의 모바일 혈액진단기 개발 삽질기 그리고 우리가 쌓은 경험,Mobile 앱에서 효율적인 storage 접근 방법
Day1 15h,영상 인식을 통한 오프라인 고객 분석 솔루션과 딥러닝,웹 브라우저 감옥에서 살아남기,딥러닝에서 스트림처리까지: 빅데이터 분석 메타 프레임워크 Apache REEF,데이터 센터의 오픈 소스 Open Compute Project (OCP)
Day1 16h,데이터사이언스팀 빌딩 그리고 시스템 구축,JPA와 모던 자바 데이터 저장 기술,Accelerated compositing in WebKit: Now and in ...,대규모 분산환경에 최적화된 APM:Pinpoint
Day2 10h,네이버 검색과 데이터마이닝,Large scale backend service development using ...,Building Ethereum,Data science with Apache Zeppelin
Day2 11h,Docker Orchestration,대화 시스템 서비스 동향 및 개발 방법,HBase consistent secondary indexing,기계 번역 모델 기반 질의 교정 시스템
Day2 12h,The simplicity of cluster apps with the Circui...,수퍼컴퓨팅과 데이터 어낼리틱스 프레임워크 그리고 UNIST의 빅데이터 처리 프레임워크,Level 2 Network Programming using PacketNgin RTOS,산업 현장을 위한 증강 현실 기기 DAQRI Helmet 개발기
Day2 14h,Storm과 Elasticsearch를 활용한 로깅 플랫폼의 실시간 알람 시스템 구현,WIFI를 이용한 실내 장소 인식 하기,Turning data into value,분산 환경에서의 스트림과 배치 처리 통합 모델


In [64]:
import numpy as np
ds.pivot_table(columns='time', values='session_id', index='zone', aggfunc=np.count_nonzero)

time,10:00,11:00,12:00,14:10,15:10,16:10
zone,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
T1,2,2,2,2,2,2
T2,2,2,2,2,2,2
T3,2,2,2,2,2,2
T4,2,2,2,2,2,2
