# Pandas

In [3]:
import pandas as pd

### Series
인덱스에 값 => 1차원

In [47]:
# 샘플 데이터 생성
index = ['i0','i1','i2','i3']
values = [0,1,2,3]

series_0 = pd.Series(values, index = index)

In [48]:
series_0

i0    0
i1    1
i2    2
i3    3
dtype: int64

In [49]:
# 시리즈에 이름 달아주기
series_0.name = 'series_0'
series_0.index.name = 'index'

In [50]:
series_0

index
i0    0
i1    1
i2    2
i3    3
Name: series_0, dtype: int64

In [51]:
# 시리즈에 단일값연산
print(series_0 + 1)
print(series_0 / 10)

index
i0    1
i1    2
i2    3
i3    4
Name: series_0, dtype: int64
index
i0    0.0
i1    0.1
i2    0.2
i3    0.3
Name: series_0, dtype: float64


In [52]:
# 시리즈끼리 연산
series_1 = pd.Series(values, index = index)

print(series_0 + series_1)
print(series_0 / series_1)

series_2 = series_0 / series_1

index
i0    0
i1    2
i2    4
i3    6
dtype: int64
index
i0    NaN
i1    1.0
i2    1.0
i3    1.0
dtype: float64


In [53]:
# notnull
not_null = series_2.notnull()
print(not_null)
print(series_2[not_null])

index
i0    False
i1     True
i2     True
i3     True
dtype: bool
index
i1    1.0
i2    1.0
i3    1.0
dtype: float64


In [54]:
#isnull
is_null = series_2.isnull()
print(is_null)
print(series_2[is_null])

index
i0     True
i1    False
i2    False
i3    False
dtype: bool
index
i0   NaN
dtype: float64


In [55]:
# 시리즈 값 수정
print(series_2)

series_2['i0'] = 1
print(series_2)

index
i0    NaN
i1    1.0
i2    1.0
i3    1.0
dtype: float64
index
i0    1.0
i1    1.0
i2    1.0
i3    1.0
dtype: float64


In [56]:
# 시리즈 값 삭제
print(series_2)

del series_2['i0']
print(series_2)

index
i0    1.0
i1    1.0
i2    1.0
i3    1.0
dtype: float64
index
i1    1.0
i2    1.0
i3    1.0
dtype: float64


In [57]:
# 시리즈 값 추가
print(series_2)

series_2['i0'] = 1
print(series_2)

index
i1    1.0
i2    1.0
i3    1.0
dtype: float64
index
i1    1.0
i2    1.0
i3    1.0
i0    1.0
dtype: float64


In [81]:
# 시리즈 인덱싱
print(series_0)

print(series_0.iloc[0])
print(series_0.loc['i0'])
print(series_0.iloc[[0,1]])
print(series_0.loc[['i0','i1']])
print(series_0.iloc[0:2])
print(series_0.loc['i0':'i2']) # 마지막 녀석도 포함

index
i0    0
i1    1
i2    2
i3    3
Name: series_0, dtype: int64
0
0
index
i0    0
i1    1
Name: series_0, dtype: int64
index
i0    0
i1    1
Name: series_0, dtype: int64
index
i0    0
i1    1
Name: series_0, dtype: int64
index
i0    0
i1    1
i2    2
Name: series_0, dtype: int64


### DataFrame
2차원 배열

In [11]:
# 배열 생성
cols = ['c0', 'c1', 'c2', 'c3']
index = ['i0','i1','i2','i3']
values = [[r/10 for r in range(4)] for c in range(4)]
for idx, row in enumerate(values):
    now_row = values[idx]
    for idx_2, element in enumerate(now_row):
        now_row[idx_2] += idx

df_0 = pd.DataFrame(values, index = index, columns = cols)
df_0

Unnamed: 0,c0,c1,c2,c3
i0,0.0,0.1,0.2,0.3
i1,1.0,1.1,1.2,1.3
i2,2.0,2.1,2.2,2.3
i3,3.0,3.1,3.2,3.3


In [12]:
# 인덱스 재설정
# df_0.set_index('c0')

In [13]:
# 열 선택
print(df_0['c0'])  # 'c0' 열 선택
print(df_0[['c1', 'c2']])  # 'c1', 'c2' 열 선택

# 행 선택
print(df_0.loc['i1'])  # 'i1' 행 선택
print(df_0.iloc[2])  # 인덱스가 2인 행 선택


i0    0.0
i1    1.0
i2    2.0
i3    3.0
Name: c0, dtype: float64
     c1   c2
i0  0.1  0.2
i1  1.1  1.2
i2  2.1  2.2
i3  3.1  3.2
c0    1.0
c1    1.1
c2    1.2
c3    1.3
Name: i1, dtype: float64
c0    2.0
c1    2.1
c2    2.2
c3    2.3
Name: i2, dtype: float64


In [14]:
# 특정 셀 값 변경
df_0.at['i2', 'c2'] = 2.25

# 특정 행 또는 열 값 변경
df_0['c3'] = 3.4  # 'c3' 열의 모든 값 변경
df_0.loc['i0'] = 0.5  # 'i0' 행의 모든 값 변경

df_0

Unnamed: 0,c0,c1,c2,c3
i0,0.5,0.5,0.5,0.5
i1,1.0,1.1,1.2,3.4
i2,2.0,2.1,2.25,3.4
i3,3.0,3.1,3.2,3.4


In [15]:
# 열 간 연산
df_0['c_1_2sum'] = df_0['c1'] + df_0['c2']

# 통계량 계산
print(df_0.mean())  # 각 열의 평균값 계산
print(df_0['c1'].max())  # 'c1' 열의 최댓값

df_0

c0          1.6250
c1          1.7000
c2          1.7875
c3          2.6750
c_1_2sum    3.4875
dtype: float64
3.1


Unnamed: 0,c0,c1,c2,c3,c_1_2sum
i0,0.5,0.5,0.5,0.5,1.0
i1,1.0,1.1,1.2,3.4,2.3
i2,2.0,2.1,2.25,3.4,4.35
i3,3.0,3.1,3.2,3.4,6.3
