In [1]:
import numpy as np
import pandas as pd

In [5]:
#Series는 인덱싱된 데이터의 1차원 배열이다. 일련의 값과 인덱스를 모두 감싸고 있다.
data = pd.Series([0.25,0.5,0.75,1.0])
print(data)
data.iloc[:1:-1]

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


3    1.00
2    0.75
dtype: float64

In [3]:
#values를 사용하면 익숙한 numpy 배열로 나타난다.
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [4]:
#index는 추후
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [7]:
#numpy와 다른점은 명시적으로 인덱스를 정해줄 수 있다는 점이다.
data=pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
data['b']

0.5

In [9]:
#꼭 연속된 형태의 인덱스일 필요는 없다.
data=pd.Series([0.25,0.5,0.75,1.0],index=[2,5,3,7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

In [11]:
#딕셔너리와 비슷한 면이 있다.
population_dict= {'California':38332521,
                 'Texas':26448193,
                 'New York':19651127,
                 'Florida':19552860,
                 'Illinois':12882135}
population=pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [12]:
population['California']

38332521

In [13]:
#하지만 딕셔너리와는 달리 슬라이싱이 가능하다.
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

In [14]:
#pd.Series(data,index=index) index는 선택 요소이고, data는 많은 요소 중 하나이다.
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [15]:
pd.Series(5,index=[100,200,300])

100    5
200    5
300    5
dtype: int64

In [16]:
#딕셔너리일 경우에는 key 값을 인덱스로 잡는다
pd.Series({2:'a',1:'b',3:'c'})

1    b
2    a
3    c
dtype: object

In [18]:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

In [19]:
#DateFrame 2차원 배열이다.
area_dict={"California":423967,'Texas':695662,'New York':141297,"Florida":170312,'Illinois':149995}
area=pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

In [20]:
states=pd.DataFrame({'population':population,'area':area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [22]:
#index와 column값
print(states.index)
print(states.columns)

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')
Index(['area', 'population'], dtype='object')


In [23]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [24]:
#DataFrame은 Series의 집합체이므로, 열 하나짜리 DataFrame은 단일 Series로 구성 할 수 있다.
pd.DataFrame(population,columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


In [25]:
data=[{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [26]:
#누락된 자리는 NaN으로 표시(Not a number)
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [27]:
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.790989,0.891183
b,0.4085,0.892771
c,0.12642,0.37973


In [28]:
A=np.zeros(3,dtype=[("A",'i8'),('B','f8')])
A

array([(0,  0.), (0,  0.), (0,  0.)], 
      dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


In [30]:
#표준 파이썬 인덱싱을 사용해 값을 가져올 수 있다.
ind=pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [31]:
#numpy와 비슷한 매소드를 가지고 있다.
print(ind.size,ind.shape,ind.ndim,ind.dtype)

5 (5,) 1 int64


In [32]:
# Index가 numpy와 다른 점이라면 변경되지 않는다.
ind[1]=0

TypeError: Index does not support mutable operations

In [36]:
data=pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data['e']=1.25
#명시적인 인덱스
print(data['a':'c'])
#암묵적 정수 인덱스로 슬라이싱하기
print(data[0:2])
#마스킹
print(data[(data>0.3)&(data<0.8)])
#팬시 인덱싱
print(data[['a','e']])

a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64
b    0.50
c    0.75
dtype: float64
a    0.25
e    1.25
dtype: float64


In [40]:
#명시적인 인덱스를 참조한다. 명시된 인덱스를 따라 출력
data=pd.Series(['a','b','c'],index=[1,3,5])
print(data.loc[1])
print(data.loc[1:3])

a
1    a
3    b
dtype: object


In [41]:
#파이썬의 기본적인 인덱스를 기준으로 함
print(data.iloc[1])
print(data.iloc[1:3])

b
3    b
5    c
dtype: object


In [42]:
data=pd.DataFrame({'area':area,'pop':population})
data

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [43]:
data['density']=data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


In [44]:
data.values

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01]])

In [45]:
#전치
data.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332520.0,19552860.0,12882140.0,19651130.0,26448190.0
density,90.41393,114.8061,85.88376,139.0767,38.01874


In [46]:
#단일 인덱스를 사용시 행에 접근하게 된다.
data.values[0]

array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

In [47]:
#단일 '인덱스'를 전달하면 열에 접근한다.
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [48]:
#위치를 잡아 값을 수정할 수도 있다.
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [49]:
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [50]:
#ix는 두 방법의 하이브리드 방법이다. 근데 사라진듯?
data.ix[:3,:'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [52]:
data.loc[data.density > 100,['pop','density']]

Unnamed: 0,pop,density
Florida,19552860,114.806121
New York,19651127,139.076746


In [54]:
np.random.RandomState?

In [1]:
import pandas as pd
import numpy as np

In [2]:
rng=np.random.RandomState(42)
ser=pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [5]:
df= pd.DataFrame(rng.randint(0,10,(3,4)),columns=['a','b','c','d'])
df

Unnamed: 0,a,b,c,d
0,1,7,5,1
1,4,0,9,5
2,8,0,9,2


In [6]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [7]:
#인덱스를 보존하면서 연산한다.
np.sin(df*np.pi/4)

Unnamed: 0,a,b,c,d
0,0.7071068,-0.707107,-0.707107,0.707107
1,1.224647e-16,0.0,0.707107,-0.707107
2,-2.449294e-16,0.0,0.707107,1.0


In [9]:
#둘 중 하나라도 없는 값은 NaN으로 출력된다.
area=pd.Series({'Alaska':1723337,'Texas':695662,'Califonia':423967},name='area')
population=pd.Series({'Califonia':38332521,'Texas':26448193,'New York':19651127},name='population')
population/area

Alaska             NaN
Califonia    90.413926
New York           NaN
Texas        38.018740
dtype: float64

In [11]:
#만약 NaN 값을 원하지 않는 다면 채우기 값을 명시적으로 지정 할 수 있다.
A=pd.Series([2,4,6],index=[1,2,3])
B=pd.Series([1,3,5],index=[0,1,2])
A.add(B,fill_value=0)

0    1.0
1    5.0
2    9.0
3    6.0
dtype: float64

In [12]:
A=pd.DataFrame(rng.randint(0,20,(2,2)),columns=list('AB'))
A

Unnamed: 0,A,B
0,11,19
1,2,4


In [13]:
B=pd.DataFrame(rng.randint(0,10,(3,3)),columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,2,6,4
1,8,6,1
2,3,8,1


In [14]:
# 두 객체의 순서와 상관없이 인덱스가 올바르게 정렬되고 결과 인덱스가 정렬된다.
A+B

Unnamed: 0,A,B,C
0,17.0,21.0,
1,8.0,12.0,
2,,,


In [15]:
#A에 있는 모든 값의 평균값으로 나머지를 채울 수 있다.
fill=A.stack().mean()
A.add(B,fill_value=fill)

Unnamed: 0,A,B,C
0,17.0,21.0,13.0
1,8.0,12.0,10.0
2,17.0,12.0,10.0


In [16]:
"""pandas 메서드
+: add()
-: sub(),subtract()
*: mul(),mulitply()
/: truediv(),div(),divide()
//: floordiv()
%: mod()
**: pow()"""

'pandas 메서드\n+: add()\n-: sub(),subtract()\n*: mul(),mulitply()\n/: truediv(),div(),divide()\n//: floordiv()\n%: mod()\n**: pow()'

In [17]:
A=rng.randint(10,size=(3,4))
A

array([[9, 8, 9, 4],
       [1, 3, 6, 7],
       [2, 0, 3, 1]])

In [18]:
#각 행에 0행을 모두 감하는 방식으로 2차원 배열과 1차원 배열의 연산이 이루어졌다.
A-A[0]

array([[ 0,  0,  0,  0],
       [-8, -5, -3,  3],
       [-7, -8, -6, -3]])

In [19]:
df= pd.DataFrame(A,columns=list('QRST'))
df-df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-8,-5,-3,3
2,-7,-8,-6,-3


In [20]:
#열 방향으로 연산을 하고자 원한다면 앞에서 언급한 객체 메소드와 axis를 사용하면 된다.
df.sub(df['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,1,0,1,-4
1,-2,0,3,4
2,2,0,3,1


In [21]:
halfrow=df.iloc[0,::2]
halfrow

Q    9
S    9
Name: 0, dtype: int32

In [22]:
df-halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-8.0,,-3.0,
2,-7.0,,-6.0,


In [23]:
#누락된 데이터 처리하기
#None 은 데이터 타입이 ;object 인 배열에서만 사용가능하다.
vals1=np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

In [24]:
#하지만 이 데이터 타입은 더 훨씬 많은 오버헤드가 발생해서 집계 연산에서 오류가 발생 할 수 있다.
for dtype in ['object','int']:
    print("dtype =",dtype)
    %timeit np.arange(1E6,dtype=dtype).sum()
    print()

dtype = object
1 loop, best of 3: 248 ms per loop

dtype = int
100 loops, best of 3: 6.98 ms per loop



In [25]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [26]:
#NaN의 경우에는 부동 소수점 표기를 사용하는 모든 시스템이 인식하는 특수 부동 소수점값이다.
vals2=np.array([1,np.nan,3,4])
vals2.dtype

dtype('float64')

In [27]:
#이 배열은 빠른 연산을 지원해주긴 하지만 NaN과 연산하는 모든 값은 NaN이 된다.
1+np.nan

nan

In [28]:
0*np.nan

nan

In [29]:
#오류는 발생하진 않지만 유용하지는 않다
vals2.sum(),vals2.min(),vals2.max()

(nan, nan, nan)

In [30]:
#따라서 이 누락된 값을 무시하는 몇 가지 특별한 집계 연산을 제공한다.
np.nansum(vals2),np.nanmin(vals2),np.nanmax(vals2)

(8.0, 1.0, 4.0)

In [31]:
#np,nan을 부동 소수점으로 인식을 해서 소수점 타입으로 자동 상향되었다.
#또한 None 값을 자동으로 nan 값으로 변환하였다.
pd.Series([1,np.nan,2,None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [32]:
x=pd.Series(range(2),dtype=int)
x

0    0
1    1
dtype: int32

In [34]:
x[0]=None
x

0    NaN
1    1.0
dtype: float64

In [35]:
#널 값 탐지하기
data=pd.Series([1,np.nan,'hello',None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [36]:
#isnull()의 역
data[data.notnull()]

0        1
2    hello
dtype: object

In [37]:
#Na 값 제거하기
data.dropna()

0        1
2    hello
dtype: object

In [38]:
df=pd.DataFrame([[1,np.nan,2],
                [2,3,5],
                [np.nan,4,6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [39]:
#DataFrame에서는 단일 값만 삭제 할 수 없으므로 전체 행이나 열을 삭제하는 것만 가능하다.
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [41]:
df.dropna(axis=1)

Unnamed: 0,2
0,2
1,5
2,6


In [42]:
#위와 같은 경우에는 하나의 값만 널이라도 사라지게 된다.how='any'로 설정되어서 그렇지만 how='all' 로 지정해 삭제 할 수 있다.
df[3]=np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [43]:
df.dropna(axis=1,how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [44]:
#세부적으로 설정하기 위해서 thresh로 정할 수 있다. 널이 아닌 값이 최소 몇 개 있어야 하는지 지정한다.
df.dropna(axis=0,thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


In [46]:
#널 값 채우기
data=pd.Series([1,np.nan,2,None,3],index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [47]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [49]:
#forward-fill 이전 값으로 채우기
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [50]:
#back-fill 다음 값으로 채우기
#DataFrame의 경우에도 동일하지만 어느 축에 채울지 axis를 지정해 줘야 한다.
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [51]:
#다중 인덱스
index=[('California',2000),('California',2010),('New York',2000),('New York',2010),('Texas',2000),('Texas',2010)]
index=pd.MultiIndex.from_tuples(index)
index

MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

In [53]:
#Series를 사용해서 표현 할 경우
population=[33871648,37253956,18976457,19378102,20851820,25145561]
pop=pd.Series(population,index=index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [54]:
pop[:,2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [55]:
#DataFrame을 사용할 때
#unstack()은 Series를 DataFrame으로 변환 시켜 준다.
#stack은 당연히 반대 연산을 한다.
pop_df=pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [56]:
#3차원?
pop_df=pd.DataFrame({'total':pop,'under18':[9267089,9284094,4687374,4318033,5906301,6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [57]:
f_u18=pop_df['under18']/pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [58]:
#Multiindex 생성 메서드
df=pd.DataFrame(np.random.rand(4,2),index=[['a','a','b','b'],[1,2,1,2]],columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.806418,0.120137
a,2,0.490053,0.359587
b,1,0.468116,0.474916
b,2,0.012405,0.249343


In [59]:
pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [60]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [61]:
#데카르트 곱 방식
pd.MultiIndex.from_product([['a','b'],[1,2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [62]:
#직접 지정 튜플 방식이 제일 쉬운것 같다.
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [63]:
pop.index.names=['state','year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [64]:
#4차원 데이터 
#계층적 인덱스와 열
index=pd.MultiIndex.from_product([[2013,2014],[1,2]],
                                names=['year','visit'])
columns=pd.MultiIndex.from_product([['Bob','Guido','Sue'],['HR','Temp']],
                                  names=['subject','type'])
#일부 데이터 모형 만들기
data=np.round(np.random.randn(4,6),1)
data[:,::2]*=10
data+=37
#DataFrame 생성하기
health_data=pd.DataFrame(data,index=index,columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,33.0,35.6,43.0,37.0,32.0,38.0
2013,2,48.0,35.7,32.0,35.5,38.0,36.8
2014,1,31.0,37.6,51.0,35.9,25.0,37.7
2014,2,49.0,36.2,33.0,35.9,40.0,36.0


In [65]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,43.0,37.0
2013,2,32.0,35.5
2014,1,51.0,35.9
2014,2,33.0,35.9


In [66]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [67]:
pop['California',2000]

33871648

In [68]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [69]:
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [71]:
health_data['Guido','HR']

year  visit
2013  1        43.0
      2        32.0
2014  1        51.0
      2        33.0
Name: (Guido, HR), dtype: float64

In [72]:
health_data.iloc[:2,:2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,33.0,35.6
2013,2,48.0,35.7


In [73]:
health_data.loc[:,('Bob','HR')]

year  visit
2013  1        33.0
      2        48.0
2014  1        31.0
      2        49.0
Name: (Bob, HR), dtype: float64

In [74]:
idx=pd.IndexSlice
health_data.loc[idx[:,1],idx[:,'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,33.0,43.0,32.0
2014,1,31.0,51.0,25.0


In [1]:
import pandas as pd
import numpy as np

In [2]:
#인덱스 정렬하기
index= pd.MultiIndex.from_product([['a','c','b'],[1,2]])
data=pd.Series(np.random.rand(6),index=index)
data.index.names=['char','int']
data

char  int
a     1      0.474439
      2      0.134540
c     1      0.290248
      2      0.603530
b     1      0.257528
      2      0.221528
dtype: float64

In [3]:
data=data.sort_index()
data

char  int
a     1      0.474439
      2      0.134540
b     1      0.257528
      2      0.221528
c     1      0.290248
      2      0.603530
dtype: float64

In [4]:
#reset_index??
#다중 인덱스에서 데이터를 집계를 하고자 할 때, level 매개변수를 넣어서 mean , max , min 을 구할 수 있다.

In [6]:
def make_df(cols,ind):
    data={c: [str(c)+str(i) for i in ind]
         for c in cols}
    return pd.DataFrame(data,ind)

make_df('ABC',range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [7]:
#pd.concat(objs,axis=0,join='outer',join_axes=None, ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)

In [9]:
#pd.concat()은 Series와 DataFrame을 연결할 때 사용할 수 있다.DataFrame에도 사용이 가능하며, 
ser1=pd.Series(['A','B','C'],index=[1,2,3])
ser2=pd.Series(['D','E','F'],index=[4,5,6])
pd.concat([ser1,ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [10]:
#axis로 축을 지정한다.
df3=make_df('AB',[0,1])
df4=make_df('CD',[0,1])
print(df3);print(df4);print(pd.concat([df3,df4],axis=1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [13]:
#결과가 복제된 인덱스를 가지고 있더라도 인덱스를 유지한다.
x=make_df('AB',[0,1])
y=make_df('AB',[2,3])
y.index=x.index
print(pd.concat([x,y]))

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [14]:
#인덱스를 무시하기
x=make_df('AB',[0,1])
y=make_df('AB',[2,3])
print(pd.concat([x,y],ignore_index=True))

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [16]:
#다중 인덱스 키
print(pd.concat([x,y],keys=['x','y']))

      A   B
x 0  A0  B0
  1  A1  B1
y 2  A2  B2
  3  A3  B3


In [17]:
#조인을 이용한 연결
df5=make_df('ABC',[1,2])
df6=make_df('BCD',[3,4])
print(pd.concat([df5,df6]))

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [18]:
#채울 값이 없는 것은 NaN으로 채워진다. 이는 join과 join_axes의 옵션을 지정해 주면 된다.
#join의 기본 값은 합집합(join='outer')이지만 join='inner' 교집합으로 바꿀 수 있다.
print(pd.concat([df5,df6],join='inner'))

    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [19]:
#join_axes는 남을 열의 인덱스를 직접 지정하는 것
print(pd.concat([df5,df6],join_axes=[df5.columns]))

     A   B   C
1   A1  B1  C1
2   A2  B2  C2
3  NaN  B3  C3
4  NaN  B4  C4


In [21]:
#append() 를 사용해서 간편하게 사용 할 수 있지만, 원래의 객체를 변하게 하는게 아닌 새로운 객체를 만들어낸다.
#따라서 반복적으로 이 작업을 하면 효율이 좋지 않다.
df1=make_df('AB',[1,2])
df2=make_df('AB',[3,4])
print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [23]:
#일대일 조인
df1=pd.DataFrame({'employee':['Bob','Jake','Lisa','Sue'],
                 'group':['Accounting','Engineering','Engineering','HR']})
df2=pd.DataFrame({'employee':['Lisa','Bob','Jake','Sue'],'hire_date':[2004,2008,2012,2014]})
print(df1),print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


(None, None)

In [24]:
#employee 부분이 겹치는 것을 알고 조인한다.
df3=pd.merge(df1,df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [25]:
#다대일조인
#supervisor 부분은 이전의 값에 따라 반복적으로 등장한다.
df4=pd.DataFrame({'group':['Accounting','Engineering','HR'],
                 'supervisor':['Carly','Guido','Steve']})
print(pd.merge(df3,df4))

  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


In [27]:
#다대다조인
df5=pd.DataFrame({'group':['Accounting','Accounting','Engineering','Engineering','HR','HR'],
                 'skills':['math','spreadsheets','coding','linux','spreadsheets','organization']})
print(pd.merge(df1,df5))

  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [28]:
#키 열을 명시적으로 지정하기
print(pd.merge(df1,df2,on='employee'))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [29]:
#다른 열 이름을 가진 두 데이터세트를 병합할 때,
df3=pd.DataFrame({'name':['Bob','Jake','Lisa','Sue'],
                 'salary':[70000,80000,90000,100000]})
print(pd.merge(df1,df3,left_on='employee',right_on='name'))

  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa   90000
3      Sue           HR   Sue  100000


In [30]:
#불 필요한 열을 지울 때 drop 사용
pd.merge(df1,df3,left_on='employee',right_on='name').drop('name',axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,90000
3,Sue,HR,100000


In [32]:
#인덱스를 기준으로 병합할 때,
df1a=df1.set_index('employee')
df2a=df2.set_index('employee')
print(pd.merge(df1a,df2a,left_index=True,right_index=True))

                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [33]:
#편의를 위해 join을 사용한다.
df1a.join(df2a)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [34]:
#공통되는 값이 Mary 하나라 교집합 값이 출력된다. 기본값이 how='inner'
df6=pd.DataFrame({'name':['Peter','Paul','Mary'],
                 'food':['fish','beans','bread']},
                columns=['name','food'])
df7=pd.DataFrame({'name':['Mary','Joseph'],
                 'drink':['wine','beer']},
                columns=['name','drink'])
print(pd.merge(df6,df7))

   name   food drink
0  Mary  bread  wine


In [35]:
#outer는 합집합, right은 오른쪽을 기준으로, left는 왼쪽을 기준으로
pd.merge(df6,df7,how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [36]:
#열이 겹치는 경우에는 _x와 _y(기본값) 가 붙어서 출력된다. 이를 원하지 않는다면 suffixes를 이용해서 지정해주면 된다.
df8=pd.DataFrame({"name":['Bob','Jake','Lisa','Sue'],
                 'rank':[1,2,3,4]})
df9=pd.DataFrame({"name":['Bob','Jake','Lisa','Sue'],
                 'rank':[3,1,4,2]})
pd.merge(df8,df9,on='name',suffixes=["_L","_R"])

Unnamed: 0,name,rank_L,rank_R
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [45]:
#집계연산
"""집계 함수들은 기본적으로 열의 결과를 반환한다.axis 인수를 설정해서 행에 대해서 집계를 할 수 있다.
describe()를 사용해서 여러가지를 알 수 있다."""
df=pd.DataFrame({'집계연산':['count()','first(),last()','mean(),median()','min(),max()','std(),var()','mad()','prod()','sum()'],
                '설명':['항목 전체 개수','첫 항목과 마지막 항목','평균값괴 중앙값','최솟값과 최대값','표준편차와 분산','절대 평균 편차','전체 항목의 곱','전체 항목의 합']},
               columns=['집계연산','설명'])
df

Unnamed: 0,집계연산,설명
0,count(),항목 전체 개수
1,"first(),last()",첫 항목과 마지막 항목
2,"mean(),median()",평균값괴 중앙값
3,"min(),max()",최솟값과 최대값
4,"std(),var()",표준편차와 분산
5,mad(),절대 평균 편차
6,prod(),전체 항목의 곱
7,sum(),전체 항목의 합


In [1]:
# Groupby: 분할, 적용, 결합
import pandas as pd
df=pd.DataFrame({'key':['A','B','C','A','B','C'],'data':range(6)},columns=['key','data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [2]:
#DataFrmaeGroupBy 객체가 반환된다(분할) 이를 이용해서 적용, 결합을 한다. 
df.groupby('key')

<pandas.core.groupby.DataFrameGroupBy object at 0x00000164DAA7C128>

In [4]:
df.groupby('key').count()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,2
B,2
C,2


In [49]:
rng=np.random.RandomState(0)
df=pd.DataFrame({'key':['A','B','C','A','B','C'],
                'data1':range(6),'data2':rng.randint(0,10,6)},columns=['key','data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [50]:
#aggregate는 여러 집계를 계산한다.
df.groupby('key').aggregate(['min',np.median,max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [51]:
df.groupby('key').aggregate({'data1':'min','data2':'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


In [52]:
#필터링
def filter_func(x):
    return x['data2'].std()>4

print(df.groupby('key').filter(filter_func))

  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9


In [53]:
#변환???
df.groupby('key').transform(lambda x:x-x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


In [54]:
#apply() 임의의 함수를 그룹 결과에 적용할 때
def norm_by_data2(x):
    x['data1']/=x['data2'].sum()
    return x
print(df.groupby('key').apply(norm_by_data2))

  key     data1  data2
0   A  0.000000      5
1   B  0.142857      0
2   C  0.166667      3
3   A  0.375000      3
4   B  0.571429      7
5   C  0.416667      9


In [55]:
#분할 키 지정하기
L=[0,1,0,1,2,0]
print(df.groupby(L).sum())

   data1  data2
0      7     17
1      4      3
2      4      7


In [10]:
import pandas as pd

In [12]:
pd.Series.map?

In [5]:
#DataFrame.pivot_table(data,values=None,index=None, columns=None, aggfunc='mean',fill_value=None,margins=False,dropna=True,margin_name='All)
#aggfunc 에는 기본적으로 평균이 적용되나 집계연산을 모두 사용가능하고 열에 따라서 다른 집계를 딕셔너리로 지정할 수 있다.
#margin 은 그룹별 총합을 구할 때 사용

In [12]:
#벡터화된 문자열 연산
#일반 파이썬에서 제공하는 str 메소드 동일하게 제공
data=['Peter','Paul','MARY','gUIDO']
names=pd.Series(data)
names.str.capitalize()

0    Peter
1     Paul
2     Mary
3    Guido
dtype: object

In [13]:
names.str.extract('([A-Za-z]+)')

  """Entry point for launching an IPython kernel.


0    Peter
1     Paul
2     MARY
3    gUIDO
dtype: object

In [15]:
f1=pd.DataFrame({'메서드':['match()','extract()','findall()','replace()','contains()','count()','split()','rsplit()'],
                '설명':['각 요소에 re.match()를 호출, 부울 값을 반환','각 요소에 re.match()를 호출, 문자열로 매칭된 그룹을 반환',
                     '각 요소에 re.findall()을 호출','패턴이 발생한 곳을 다른 문자열로 대체','각 요소에 re.search()를 호출,부울값은 반환','패턴의 발생 건수를 집계',
                      'str과 동일하나 정규표현식을 따름','str과 동일하나 정규표현식을 따름']})
f1

Unnamed: 0,메서드,설명
0,match(),"각 요소에 re.match()를 호출, 부울 값을 반환"
1,extract(),"각 요소에 re.match()를 호출, 문자열로 매칭된 그룹을 반환"
2,findall(),각 요소에 re.findall()을 호출
3,replace(),패턴이 발생한 곳을 다른 문자열로 대체
4,contains(),"각 요소에 re.search()를 호출,부울값은 반환"
5,count(),패턴의 발생 건수를 집계
6,split(),str과 동일하나 정규표현식을 따름
7,rsplit(),str과 동일하나 정규표현식을 따름


In [16]:
from datetime import datetime
datetime(year=2015,month=7,day=4)

datetime.datetime(2015, 7, 4, 0, 0)

In [22]:
#위와 동일
from dateutil import parser
date= parser.parse('5th of July, 2015')
date

datetime.datetime(2015, 7, 5, 0, 0)

In [23]:
#date의 요일
date.strftime('%A')

'Sunday'

In [24]:
#날짜를 64비트 정수로 인코딩함
date= np.array('2015-07-04',dtype=np.datetime64)
date

array(datetime.date(2015, 7, 4), dtype='datetime64[D]')

In [25]:
#그래서 연산이 가능해짐
date+np.arange(12)

array(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
       '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
       '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'], dtype='datetime64[D]')

In [26]:
#pandas 시계열: 시간으로 인덱싱하기
index= pd.DatetimeIndex(['2014-07-04','2014-08-04','2015-07-04','2015-08-04'])
data=pd.Series([0,1,2,3],index=index)
data

2014-07-04    0
2014-08-04    1
2015-07-04    2
2015-08-04    3
dtype: int64

In [27]:
data['2014-07-04':'2015-07-04']

2014-07-04    0
2014-08-04    1
2015-07-04    2
dtype: int64

In [31]:
#연도만 되는 듯한 호출
data['2015']

2015-07-04    2
2015-08-04    3
dtype: int64

In [32]:
#'yyyy-mm-dd' 와 같은 꼴로 자동 변환
dates=pd.to_datetime([datetime(2015,7,3),'4th of July,2015','2015-Jul-6','07-07-2015','20150708'])
dates

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)

In [33]:
#주기 코드를 추가해서 PeriodIndex로 전환이 가능하고 여기서의 주기는 Day 이다.
dates.to_period('D')

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]', freq='D')

In [34]:
#TimeIndex 생성
dates-dates[0]

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

In [35]:
#pd.date_range()
pd.date_range('2015-07-03','2015-07-10')
#혹은 pd.date_range('2015-07-03',periods=8, freq='H')와 같이 사용 가능

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')

In [2]:
import pandas as pd
import numpy as np
nrows, ncols =100000,100
rng = np.random.RandomState(42)
df1,df2,df3,df4 =(pd.DataFrame(rng.rand(nrows,ncols)) for i in range(4))

In [3]:
%timeit df1+df2+df3+df4

1 loop, best of 3: 187 ms per loop


In [4]:
#훨씬 빠르다
%timeit pd.eval('df1+df2+df3+df4')

1 loop, best of 3: 80 ms per loop


In [5]:
np.allclose(df1+df2+df3+df4,pd.eval('df1+df2+df3+df4'))

True

In [6]:
#pd.eval()는 기본 사칙연산을 모두 지원하며, 비교연산자와 단위 연산자를 지원한다.
#하지만 함수호출 조건문 루프를 통한 복잡한 연산은 지원하지 않는다.

In [7]:
df=pd.DataFrame(rng.rand(1000,3),columns=['A','B','C'])
df.head()

Unnamed: 0,A,B,C
0,0.615875,0.525167,0.047354
1,0.330858,0.412879,0.441564
2,0.689047,0.559068,0.23035
3,0.290486,0.695479,0.852587
4,0.42428,0.534344,0.245216


In [9]:
#열을 호출해서 연산을 가능
result1=(df['A']+df['B'])/(df['C']-1)
result2=pd.eval("(df.A+df.B)/(df.C-1)")
np.allclose(result1,result2)

True

In [10]:
#다음과 같이 더 간결하게 사용이 가능하다.
result3=df.eval('(A+B)/(C-1)')
np.allclose(result1,result3)

True

In [11]:
df.head()

Unnamed: 0,A,B,C
0,0.615875,0.525167,0.047354
1,0.330858,0.412879,0.441564
2,0.689047,0.559068,0.23035
3,0.290486,0.695479,0.852587
4,0.42428,0.534344,0.245216


In [12]:
#새로운 열을 생성하고 거기에 다른 열로부터 계산된 값을 할당하는데 사용가능하다.
df.eval('D=(A+B)/C',inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.615875,0.525167,0.047354,24.095868
1,0.330858,0.412879,0.441564,1.684325
2,0.689047,0.559068,0.23035,5.418335
3,0.290486,0.695479,0.852587,1.156439
4,0.42428,0.534344,0.245216,3.909296


In [13]:
#지역 파이썬 변수와 함께 작업가능
column_mean=df.mean(1)
result1=df['A']+column_mean
result2=df.eval('A+@column_mean')
np.allclose(result1,result2)

True

In [14]:
result3=df.query('A<0.5 and B<0.5')
result3

Unnamed: 0,A,B,C,D
1,0.330858,0.412879,0.441564,1.684325
8,0.448611,0.415924,0.481001,1.797365
10,0.112910,0.394884,0.950129,0.534448
11,0.191011,0.118751,0.130223,2.378715
14,0.075723,0.260648,0.956146,0.351799
15,0.480366,0.252583,0.368133,1.990989
18,0.126973,0.302760,0.012251,35.077538
19,0.178610,0.400238,0.346224,1.671890
20,0.336750,0.153395,0.160330,3.057100
27,0.027216,0.174117,0.405619,0.496358


In [4]:
import pandas as pd

In [6]:
friend_dict_list=[
    {'name':"John",'age':24,'job':'student'},
    {'name':'Kate','age':25,'job':'teacher'}
]

In [7]:
df=pd.DataFrame(friend_dict_list)

In [8]:
df.head()

Unnamed: 0,age,job,name
0,24,student,John
1,25,teacher,Kate


In [9]:
df=df[['name','age','job']]

In [10]:
df.head()

Unnamed: 0,name,age,job
0,John,24,student
1,Kate,25,teacher


In [11]:
from collections import OrderedDict

In [13]:
friend_ordered_dict=OrderedDict([
    ('name',['john','kate']),
    ('age',[25,30]),
    ('job',['student','teacher'])
])

In [14]:
df=pd.DataFrame.from_dict(friend_ordered_dict)
df.head()

Unnamed: 0,name,age,job
0,john,25,student
1,kate,30,teacher


In [15]:
friend_list=[
    ['john',20,'student'],
    ['Nate',30,'teacher']
]

In [16]:
column_name=['name','age','job']

In [17]:
df=pd.DataFrame.from_records(friend_list,columns=column_name)
df.head()

Unnamed: 0,name,age,job
0,john,20,student
1,Nate,30,teacher


In [19]:
friend_list=[
    ['name',['John','Nate']],
    ['age',[20,30]],
    ['job',['studnet','teacher']]
]

In [20]:
df=pd.DataFrame.from_items(friend_list)
df.head()

Unnamed: 0,name,age,job
0,John,20,studnet
1,Nate,30,teacher
