In [2]:
import numpy as np
import pandas as pd

In [2]:
obj = pd.Series(range(10, 15))
obj

obj.index = [1, 2, 3, 4, 5]
obj

1    10
2    11
3    12
4    13
5    14
dtype: int64

> Series의 'name'이 DataFrame의 'columns'를 구성한다.

In [3]:
data = {'state': ['Ohio', 'Nevada'],
        'year': [2000, 2001],
        'pop': [1.5, 1.7]}

frame2 = pd.DataFrame(data, index=['one', 'two'])
frame2
print(frame2)

      state  year  pop
one    Ohio  2000  1.5
two  Nevada  2001  1.7


In [4]:
frame2['eastern'] = True

In [5]:
del frame2['eastern']

In [6]:
se = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

se['a'] = 10
se.a = 10
se[0] = 10

se['d'] = 4
se.d = 4  # nothing
se[3] = 4 # error

se['e'] # KeyError

KeyError: 'e'

### DataFrame의 생성을 위한 입력 데이터의 종류

In [37]:
# 2차원 ndarray
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
pd.DataFrame(arr2d, index=['a', 'b'], columns=['v1', 'v2', 'v3'])

Unnamed: 0,v1,v2,v3
a,1,2,3
b,4,5,6


In [38]:
# 배열, 리스트, 튜플의 사전
list1d = [1, 2, 3]
pd.DataFrame(list1d)

Unnamed: 0,0
0,1
1,2
2,3


In [39]:
# Series의 사전
se1 = pd.Series({'a': 1, 'b': 2})
se2 = pd.Series({'b': 3, 'c': 4})

se1.name = 'v1'
se2.name = 'v2'

# [참고] 입력되는 Series의 모든 index.name이 같을 때만 DataFrame에 적용됨.
se1.index.name = 'name'
se2.index.name = 'name' 

pd.DataFrame({'v11': se1, 'v22':se2}) # 딕셔너리 키값이 Series.name보다 우선함.

Unnamed: 0_level_0,v11,v22
name,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.0,
b,2.0,3.0
c,,4.0


In [40]:
# 사전의 사전
dic = {'v1': {'a': 1, 'b': 2}, 'v2': {'b': 3, 'c': 4}}
pd.DataFrame(dic)

Unnamed: 0,v1,v2
a,1.0,
b,2.0,3.0
c,,4.0


In [42]:
# 사전이나 Series의 리스트
dics = [{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]
display(pd.DataFrame(dics))

se1.name = 'v1'
se2.name = 'v2'

display(pd.DataFrame([se1, se2]))

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


name,a,b,c
v1,1.0,2.0,
v2,,3.0,4.0


In [43]:
# [참고] Series 이름을 반영한 DataFrame 생성하기
se1 = pd.Series([1, 2, 3], name='se1')
se2 = pd.Series([4, 5, 6], name='se2')
df = pd.DataFrame([se1, se2]).T
df.index = ['a', 'b', 'c']
display(df)

df.loc[['a', 'd'], ['se1']]

Unnamed: 0,se1,se2
a,1,4
b,2,5
c,3,6


KeyError: "Passing list-likes to .loc or [] with any missing labels is no longer supported. The following labels were missing: Index(['d'], dtype='object'). See https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike"

In [36]:
# 리스트나 튜플의 리스트 (2차원 리스트)
pd.DataFrame([[1, 2, 3], [4, 5, 6]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [None]:
arr2d = np.arange(9).reshape(3, 3)
print(arr2d)

arr2d[[0, 1], 2:]

### DataFrame 인덱싱

인덱싱 방법: 라벨인덱스, 정수인덱스, 팬시인덱스, 튜플(2차원), 불리언 배열

In [14]:
df = pd.DataFrame(np.arange(9).reshape(3, 3),
                  index=['a', 'b', 'c'],
                  columns=['x', 'y', 'z'])
display(df)

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
#1 라벨을 전달하면 "열"을 선택하여 Series를 반환한다.
print(df['y'])

#[참고] df[1]처럼 정수를 이용한 인덱싱는 불가능하다.

In [None]:
#2 라벨 리스트를 전달하면 여러 "열"을 선택하고 DataFrame을 생성하여 반환한다.
sub = df[['x', 'y']]
display(sub)
print(sub is df)

In [None]:
#3 정수 슬라이싱으로 "행"을 필터링하고 DataFrame을 생성하여 반환한다.
sub = df[0:2]
display(sub)
print(sub is df)

#[참고] df[5:7]처럼 범위를 벗어나는 슬라이싱도 허용한다. 단, 존재하는 행만 할당된다.

In [None]:
#4 라벨 슬라이싱으로 "행"을 필터링하고 DataFrame을 생성하여 반환한다.
sub = df['a':'b']
display(sub)
print(sub is df)

#[참고] df['k':'j']처럼 범위를 벗어나는 슬라이싱도 허용한다. 단, 존재하는 행만 할당된다.

In [None]:
#5 boolean 배열로 "행"을 필터링하고 DataFrame을 생성하여 반환한다.
print(df[[True, True, False]])

ar = np.array([True, True, False])
print(df[ar])

se = pd.Series([True, True, False], index=df.index) # 원래 DataFrame과 같은 index를 보유해야만 불리언 배열 인덱싱 가능
print(df[sub])

print(df[pd.Series([True, True, False]).values])

In [15]:
#6 boolean 배열로 모든 원소를 필터링하고 DataFrame을 생성하여 반환한다.
print(df[df>5])
df[df<5] = 0
df

     x    y    z
a  NaN  NaN  NaN
b  NaN  NaN  NaN
c  6.0  7.0  8.0


Unnamed: 0,x,y,z
a,0,0,0
b,0,0,5
c,6,7,8


---

In [None]:
df.iat[1, 1]

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape(3, 4), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape(4, 5), columns=list('abcde'))

df2.loc[1, 'b'] = np.nan

In [None]:
df1

In [None]:
df2

In [None]:
df2.add(df1, fill_value=0)

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape(4, 3), columns=list('bde'), index=['U', 'Oh', 'T', 'Or'])
series = frame.iloc[0]

display(frame)
series

In [None]:
frame - series

In [None]:
series2 = pd.Series(range(3), index = list('bef'))
series2

In [None]:
frame + series2

In [None]:
series3 = pd.Series([0.0, 1.0, 2.0], index = list('bef'))
series3

In [None]:
frame.add(series3, axis=0)

In [None]:
print(arr2d)
arr2d.sum(axis=0)

In [None]:
frame = pd.DataFrame(np.arange(6).reshape(2, 3), columns=list('xyz'), index=list('ab'))
display(frame)

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f, axis=1)

In [None]:
frame = pd.DataFrame(np.arange(6).reshape(2, 3), columns=['a', 'a', 'b'], index=list('xx'))
frame

In [13]:
arr2d = np.arange(6).reshape(2, 3)
print(arr2d)
np.sum(arr2d, axis=0)

# axis 0(열) 방향으로 더해나간다
# = 열 방향으로 더하고, 행 방향으로 반복
# = 고정된 열에서 다른 행의 값들을 더하고, 다른 열마다 반복

# = 남는 건 columns 색인

[[0 1 2]
 [3 4 5]]


array([3, 5, 7])

In [15]:
arr3d = np.arange(24).reshape(2, 3, 4)
print(arr3d)
np.sum(arr3d, axis=0)

# axis 0(깊이) 방향으로 더해나간다
# = 깊이 방향으로 더하고, 행&열 방향으로 반복
# = 고정된 기둥에서 다른 깊이의 값들을 더하고, 다른 기둥마다 반복

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


array([[12, 14, 16, 18],
       [20, 22, 24, 26],
       [28, 30, 32, 34]])

In [44]:
arr = np.zeros(4)
arr[2] = np.nan
print(arr)
arr.sum()

[ 0.  0. nan  0.]


nan