In [1]:
# pandas
# 행에 '열 레이블 index'를 부착한 다차원 행렬인 데이터 프레임 자료구조를 제공하는 
# 패키지 
# 핵심 요소는 dataframe, series 시계열, index지수

# pandas의 창시자 중 한 명은 해지펀드 애널리스트로 일하며 
# 파이썬에서 금융 시게열자료를 다루기 위한 목적으로 개발

# numpy 기반 행렬은 산술연산에 적합한 자료구조
# pandas 는 numpy 행렬을 대상으로 data munging 머징/wrangling 랭글링
# 시간을 줄여주는 효과가 있음
# data munging/wrangling : data pre-processing
# 원 origin 자료를 또 다른 형태의 자료로 변환하거나 매핑하는 작업을 의미


In [4]:
import numpy as np
import pandas as pd

# 간단한 시계열 자료 생성
# 시간적인 흐름에 따라 기록한 데이터
a= pd.Series([0.0,0.25,0.5,0.75,1.0])

print('시계열 자료\n', a)
print('시계열 자료값\n', a.values)
print('시계열 인덱스값\n', a.index)
print('시계열 2번 자료\n', a[2])
print('시계열 3,4번 자료\n', a[3:5])

시계열 자료
 0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64
시계열 자료값
 [0.   0.25 0.5  0.75 1.  ]
시계열 인덱스값
 RangeIndex(start=0, stop=5, step=1)
시계열 2번 자료
 0.5
시계열 3,4번 자료
 3    0.75
4    1.00
dtype: float64


In [7]:
b = pd.Series([1.0,1.25,1.5,1.75,2.0], index=['a','b','c','d','e'])

print('시계열 자료\n', b)
print('시계열 자료값\n', b.values)
print('시계열 인덱스값\n', b.index)
print('시계열 2번 자료\n', b[2])
print('시계열 b 자료\n', b['b'])
print('시계열 3,4번 자료\n', b[3:5])
print('시계열 3,4번 자료\n', b['c':'d'])

시계열 자료
 a    1.00
b    1.25
c    1.50
d    1.75
e    2.00
dtype: float64
시계열 자료값
 [1.   1.25 1.5  1.75 2.  ]
시계열 인덱스값
 Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
시계열 2번 자료
 1.5
시계열 b 자료
 1.25
시계열 3,4번 자료
 d    1.75
e    2.00
dtype: float64
시계열 3,4번 자료
 c    1.50
d    1.75
dtype: float64


In [11]:
# pandas 에서 정수형 인덱스를 사용하는 경우
# 파이썬의 slice 연산과 혼동될 위험이 존재
# 따라서, pandas만의 특별한 인덱싱 indexer 기능 제공

# iloc : 정수형 인덱스로 요소를 찾음
# loc : 문자형 인덱스로 요소를 찾음
# ix : 정수형/문자형 인덱스로 요소를 찾음

c = pd.Series(['a','b','c','d','e'], index=[1,3,5,7,9])
print('1번 데이터\n', c[1])
print('2~3번 데이터\n', c[2:4])
print('#1번 데이터\n', c.loc[1])  # pandas indexer
print('#2,#3번 데이터\n', c.loc[3:5]) 
print('2,3번 데이터\n', c.iloc[2:4])  # python idexer 

1번 데이터
 a
2~3번 데이터
 5    c
7    d
dtype: object
#1번 데이터
 a
#2,#3번 데이터
 3    b
5    c
dtype: object
2,3번 데이터
 5    c
7    d
dtype: object


In [13]:
# 간단한 데이터프레임 자료 생성
# 파이썬 딕셔너리의 특수한 형태
# 시계열이 인덱스를 가진 1차원 배열이라면(벡터)
# 데이터프레임은 행과 열이름을 가진 2차원 배열(행렬)
area = {'seoul': 423967, 'busan':170312,'daejeon':149995, 'inchoun':141297, 'kwangju': 120163}
pop = {'seoul': 38332521, 'busan':26448193,'daejeon':19651127, 'inchoun':19552860, 'kwangju': 12882135}
states = pd.DataFrame({'pop':pop, 'area':area})

In [17]:
print('지역정보\n', states)
print('면적정보\n', states['area'], states.area)
#print('지역정보\n', states)
print('지역정보 컬럼\n', states.columns)

지역정보
               pop    area
busan    26448193  170312
daejeon  19651127  149995
inchoun  19552860  141297
kwangju  12882135  120163
seoul    38332521  423967
면적정보
 busan      170312
daejeon    149995
inchoun    141297
kwangju    120163
seoul      423967
Name: area, dtype: int64 busan      170312
daejeon    149995
inchoun    141297
kwangju    120163
seoul      423967
Name: area, dtype: int64
지역정보 컬럼
 Index(['pop', 'area'], dtype='object')


In [35]:
# 리더쉽 데이터를 pandas DF로 생성하기
data = {'manager': [1,2,3,4,5], 'date':['10/24/14','10/28/14','10/01/14','10/12/14','05/01/14'] ,
        'contury':['US','US','UK','UK','UK'], 'gender':['M','F','F','M','F'], 
        'age': [32,45,25,39,99], 'q1':[5,4,5,5,5], 'q2':[3,5,2,5,5], 'q3':[3,5,5,5,2], 
        'q4':[3,3,4,0,0], 'q5':[2,2,1,2,1]}
idx = np.arange(1,6)
leadership = pd.DataFrame(data, index=idx)
print(leadership)
print('리더쉽 데이터프레임\n', leadership)
print('나이 컬럼은?', leadership.age)
print('질문 컬럼은?', leadership.iloc[:,5:10])
print('질문 컬럼은?', leadership.loc[:,'q1':'q5'])

   manager      date contury gender  age  q1  q2  q3  q4  q5
1        1  10/24/14      US      M   32   5   3   3   3   2
2        2  10/28/14      US      F   45   4   5   5   3   2
3        3  10/01/14      UK      F   25   5   2   5   4   1
4        4  10/12/14      UK      M   39   5   5   5   0   2
5        5  05/01/14      UK      F   99   5   5   2   0   1
리더쉽 데이터프레임
    manager      date contury gender  age  q1  q2  q3  q4  q5
1        1  10/24/14      US      M   32   5   3   3   3   2
2        2  10/28/14      US      F   45   4   5   5   3   2
3        3  10/01/14      UK      F   25   5   2   5   4   1
4        4  10/12/14      UK      M   39   5   5   5   0   2
5        5  05/01/14      UK      F   99   5   5   2   0   1
나이 컬럼은? 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64
질문 컬럼은?    q1  q2  q3  q4  q5
1   5   3   3   3   2
2   4   5   5   3   2
3   5   2   5   4   1
4   5   5   5   0   2
5   5   5   2   0   1
질문 컬럼은?    q1  q2  q3  q4  q5
1   5   3   3 

In [38]:
# ex) 
df = pd.DataFrame(np.arange(1,26).reshape(5,5), index=list('abcde'),# 문자형 인덱스,
columns=['x','y','z','10','20'] )
print('데이터프레임\n', df)
print('a/b/c행, 10/20열 출력\n', df.loc['a':'c','10':'20'])
print('a/b/c행, 10/20열 출력\n', df.ix['a':'c','10':'20'])
# print('a/b/c행, 10/20열 출력\n', df)

데이터프레임
     x   y   z  10  20
a   1   2   3   4   5
b   6   7   8   9  10
c  11  12  13  14  15
d  16  17  18  19  20
e  21  22  23  24  25
a/b/c행, 10/20열 출력
    10  20
a   4   5
b   9  10
c  14  15
a/b/c행, 10/20열 출력
    10  20
a   4   5
b   9  10
c  14  15


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


In [46]:
# pandas 입출력
# 데이터 파일을 읽어 데이터프레임을 생성
# csv, excel, json, .... 등 지원
phone = pd.read_csv('c:/Java/data/phoneinfo.csv', encoding='euc-kr')
print('핸드폰 사용현황\n', phone)
# 컬럼명을 지정해서 데이터프레임 생성
cols = ['year','buy','display', 'age','height','weight', 'hptime', 'comtime', 'datetime']
idx  = np.arange(1,25)
phone = pd.read_csv('c:/Java/data/phoneinfo.csv', names=cols,encoding='euc-kr', skiprows=1, header= None)
phone.index = idx
pd.set_option('display.max_columns',30)
print('핸드폰 사용현황\n', phone)

핸드폰 사용현황
     출시연도  구매시기  화면크기  연령    키  몸무게  평균사용시간  평균PC사용시간  데이터사용량
0   2015  2015   5.0  45  173   75      60       500     100
1   2014  2015   4.5  27  176   59      70        30      50
2   2015  2015   5.0  29  183   65     120       300     200
3   2015  2016   5.0  28  172   63      80        60     190
4   2015  2015   5.0  24  179   65      90        30     500
5   2016  2016   5.5  34  175   73      80       480     160
6   2016  2016   6.0  40  169   77      60       300     170
7   2014  2014   5.0  40  182   82      50        60      50
8   2014  2014   4.5  30  175   70     100        90     300
9   2015  2014   5.0  42  177   79      40       480      30
10  2014  2015   4.5  32  167   62     130       300     400
11  2015  2015   5.5  37  171   70      90       360     200
12  2015  2016   5.5  35  173   69      60       120     150
13  2015  2015   6.0  41  181   88      60       120     130
14  2015  2015   5.5  10  178   89      70        60     140
15  2015  2015

In [51]:
zipcode = pd.read_csv('c:/Java/data/gyeonggi.csv', encoding= 'UTF-8')
print(zipcode)

         우편번호   시도  시군구   읍면      도로명  건물번호본번  건물번호부번 시군구용건물명 법정동명   리명  지번본번
0       12410  경기도  가평군  가평읍      보납로     459      86     NaN  NaN  개곡리   462
1       12410  경기도  가평군  가평읍      보납로     459      59     NaN  NaN  개곡리   436
2       12410  경기도  가평군  가평읍      보납로     459      53     NaN  NaN  개곡리   436
3       12410  경기도  가평군  가평읍      보납로     459      33     NaN  NaN  개곡리   442
4       12410  경기도  가평군  가평읍      보납로     459      49     NaN  NaN  개곡리   436
5       12410  경기도  가평군  가평읍      보납로     459      39     NaN  NaN  개곡리   436
6       12410  경기도  가평군  가평읍     능모루길      41      18     NaN  NaN  개곡리   754
7       12410  경기도  가평군  가평읍    당목가일길     562     132     NaN  NaN  개곡리   189
8       12410  경기도  가평군  가평읍    당목가일길     562      79     NaN  NaN  개곡리   189
9       12410  경기도  가평군  가평읍     능모루길      27       0     NaN  NaN  개곡리   880
10      12410  경기도  가평군  가평읍    당목가일길     473     123     NaN  NaN  개곡리   177
11      12410  경기도  가평군  가평읍    당목가일길     211      20     NaN  N

  interactivity=interactivity, compiler=compiler, result=result)


In [87]:
# 누락된 데이터 처리 : np.nan
# zipcode['읍면'] = zipcode['읍면'].replace(np.nan, '')
# print(zipcode)
# 누락된 데이터 처리 2 : fillna
#zipcode = zipcode.fillna('')
zipcode.fillna('', inplace= True)
print(zipcode.describe())
print(zipcode.head())
print(zipcode.tail())

                우편번호         건물번호본번         건물번호부번           지번본번
count  965660.000000  965660.000000  965660.000000  965660.000000
mean    14152.160106     162.668942       8.588461     530.684841
std      2740.437360     398.056862      20.744886     701.088959
min     10000.000000       1.000000       0.000000       0.000000
25%     11749.000000      18.000000       0.000000     167.000000
50%     13362.000000      44.000000       0.000000     370.000000
75%     17039.000000     120.000000       9.000000     643.000000
max     18635.000000    8922.000000     707.000000    7345.000000
    우편번호   시도  시군구   읍면  도로명  건물번호본번  건물번호부번 시군구용건물명 법정동명   리명  지번본번
0  12410  경기도  가평군  가평읍  보납로     459      86               개곡리   462
1  12410  경기도  가평군  가평읍  보납로     459      59               개곡리   436
2  12410  경기도  가평군  가평읍  보납로     459      53               개곡리   436
3  12410  경기도  가평군  가평읍  보납로     459      33               개곡리   442
4  12410  경기도  가평군  가평읍  보납로     459      49               개곡

In [60]:
# 누락된 데이터 다루기 - null, NaN, Na, None
# val1 = np.array([1,2, None,4,5])
# print('누락된 데이터', val1)
# print('누락된 데이터 유형', val1.dtype)
# # print('데이터 산술연산', val1.sum()) 누락된 데이터 산술 연산은 오류 발생


In [63]:
# 누락된 데이터 다루기 - null, NaN, Na, None
val3 = pd.Series([1,2, np.nan,4,None])
print('누락된 데이터', val3)
print('누락된 데이터 유형', val3.dtype)   # None -> nan
print('데이터 산술연산', val3.sum())  # 누락값 제외 

누락된 데이터 0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64
누락된 데이터 유형 float64
데이터 산술연산 7.0


In [78]:
# null값 다루기
# pandas 자료구조에서는 널값을 감지하고 삭제하는 기능제공
val4 = pd.Series([1,2,np.nan,4, None])
print('널값 출력', val4.isnull())
print('정상값 출력1', val4[-val4.isnull()])
print('정상값 출력1', val4[val4.notnull()])
print('정상값 출력1', val4[~val4.isnull()])
print('널값 제거\n', val4.dropna())

널값 출력 0    False
1    False
2     True
3    False
4     True
dtype: bool
정상값 출력1 0    1.0
1    2.0
3    4.0
dtype: float64
정상값 출력1 0    1.0
1    2.0
3    4.0
dtype: float64
정상값 출력1 0    1.0
1    2.0
3    4.0
dtype: float64
널값 제거
 0    1.0
1    2.0
3    4.0
dtype: float64


In [77]:
val5 = pd.DataFrame([[1, np.nan, 3],[np.nan,8,10],[15,20, np.nan]])
print('널값 출력\n', val5[val5.isnull()])
print('정상값 출력\n', val5[val5.notnull()] )
print('정상값 출력2\n', val5[~val5.isnull()])
print('널값 제거\n', val5.dropna())  # 데이터프레임에서 dropna()를 사용하면 행을 기준으로 null이 삭제됨

널값 출력
     0   1   2
0 NaN NaN NaN
1 NaN NaN NaN
2 NaN NaN NaN
정상값 출력
       0     1     2
0   1.0   NaN   3.0
1   NaN   8.0  10.0
2  15.0  20.0   NaN
정상값 출력2
       0     1     2
0   1.0   NaN   3.0
1   NaN   8.0  10.0
2  15.0  20.0   NaN
널값 제거
 Empty DataFrame
Columns: [0, 1, 2]
Index: []


In [81]:
val5 = pd.DataFrame([[1, np.nan, 3],[np.nan,8,10],[15,20, 24]])
print('널값 제거\n', val5.dropna(axis=0))
print('널값 제거\n', val5.dropna(axis=1))
# 데이터프레임의 열값 기준으로 널값제거

널값 제거
       0     1   2
2  15.0  20.0  24
널값 제거
     2
0   3
1  10
2  24


In [91]:
# 널값을 다른 값으로 대체하기 - fillna
print('널값 대체하기1\n', val4.fillna('a'))
print('앞값으로 널값 대체하기1\n', val4.fillna('a'))
print('뒷값으로 널값 대체하기1\n', val4.fillna('a'))
# method=ffill, fill=bfill 으로 널값기준 앞/뒤값으로 대체할 수 있음
print('열 기준 앞값으로 널값 대체하기2\n', val5.fillna(method='ffill',axis=0))
print('열 기준 뒷값으로 널값 대체하기2\n', val5.fillna(method='bfill',axis=0))
print('행 기준 앞값으로 널값 대체하기2\n', val5.fillna(method='ffill',axis=1))
print('행 기준 뒷값으로 널값 대체하기2\n', val5.fillna(method='bfill',axis=1))
print('널값 대체하기2\n', val5.fillna('0'))

널값 대체하기1
 0    1
1    2
2    a
3    4
4    a
dtype: object
앞값으로 널값 대체하기1
 0    1
1    2
2    a
3    4
4    a
dtype: object
뒷값으로 널값 대체하기1
 0    1
1    2
2    a
3    4
4    a
dtype: object
열 기준 앞값으로 널값 대체하기2
       0     1   2
0   1.0   NaN   3
1   1.0   8.0  10
2  15.0  20.0  24
열 기준 뒷값으로 널값 대체하기2
       0     1   2
0   1.0   8.0   3
1  15.0   8.0  10
2  15.0  20.0  24
행 기준 앞값으로 널값 대체하기2
       0     1     2
0   1.0   1.0   3.0
1   NaN   8.0  10.0
2  15.0  20.0  24.0
행 기준 뒷값으로 널값 대체하기2
       0     1     2
0   1.0   3.0   3.0
1   8.0   8.0  10.0
2  15.0  20.0  24.0
널값 대체하기2
     0   1   2
0   1   0   3
1   0   8  10
2  15  20  24


In [115]:
# ex) titanic 데이터 셋을 이용한 예제
titanic = pd.read_csv('c:/Java/data/train.csv', encoding='utf-8')
#print(titanic.head())
pd.set_option('display.expand_frame_repr', False)
# null 값 처리 
titanic = titanic.dropna()
# 생존자 수 확인
print('생존자 수 확인\n',len(titanic[titanic['Survived']== 1]))
#print(titanic[titanic['Survived']== 1])
# 남성 생존자 수 확인
print('남성 생존자 수 확인\n',len(titanic[(titanic.Survived== 1) & ( titanic.Sex== 'male')]))



생존자 수 확인
 123
남성 생존자 수 확인
 41


In [129]:
# ex) summermedals 데이터 셋을 이용한 예제
medals = pd.read_table('c:/Java/data/summerMedals.txt', encoding='utf-8', skiprows=1, header= None)
print(medals.head())
#'seoul' 도시에서 딴 전체 금/은/동 메달 수
print('seoul에서 딴 메달 수', len(medals[medals[0]== 'Seoul']))
print('seoul에서 딴 금메달 수', len(medals[(medals[0]== 'Seoul') & (medals[9]== 'Gold')]))
print('seoul에서 딴 은메달 수', len(medals[(medals[0]== 'Seoul') & (medals[9]== 'Silver')]))
print('seoul에서 딴 동메달 수', len(medals[(medals[0]== 'Seoul') & (medals[9]== 'Bronze')]))


        0     1         2         3                      4    5    6                           7  8       9
0  Athens  1896  Aquatics  Swimming       HERSCHMANN, Otto  AUT  Men              100m freestyle  M  Silver
1  Athens  1896  Aquatics  Swimming      DRIVAS, Dimitrios  GRE  Men  100m freestyle for sailors  M  Bronze
2  Athens  1896  Aquatics  Swimming     MALOKINIS, Ioannis  GRE  Men  100m freestyle for sailors  M    Gold
3  Athens  1896  Aquatics  Swimming     CHASAPIS, Spiridon  GRE  Men  100m freestyle for sailors  M  Silver
4  Athens  1896  Aquatics  Swimming  CHOROPHAS, Efstathios  GRE  Men             1200m freestyle  M  Bronze
seoul에서 딴 메달 수 1546
seoul에서 딴 금메달 수 506
seoul에서 딴 은메달 수 505
seoul에서 딴 동메달 수 535


In [None]:
print('질문 컬럼은?', leadership.iloc[:,5:10])