# **Pandas 사용법**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Create a series

In [None]:
s = pd.Series([1,3,5,None, 6, 8])
s

In [None]:
type(s.values), type(s)

Create a DataFrame

In [None]:
dates = pd.date_range('20210101', periods=6)
dates

In [None]:
type(dates.values), type(dates)

In [None]:
# np.random.randn 평균0, 표준편차1의 가우시안 표준정규분포 난수를 matrix array(m,n) 생성
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

In [None]:
type(df.values), type(df)

In [None]:
a = list('abcd')
b = list(['a', 'b', 'c', 'd'])
print(a==b)
print(a,b)

In [None]:
df2 = pd.DataFrame({'A':1,
                    'B':pd.Timestamp('20210102'),
                    'C':pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D':np.array([3] * 4, dtype='int32'),
                    'E':pd.Categorical(["test","train", "test", "train"]),
                    'F':'foo'})
df2

In [None]:
df2.dtypes

복잡한 list comprehension

In [None]:
p = [ [3 *(i-1)+j] * 3 for i in range(1, 4) for j in range(1, 4)]
p

Viewing Data

In [None]:
df.head()

In [None]:
df.tail(3)

In [None]:
len(df), df.shape

In [None]:
df.index

In [None]:
df.columns

In [None]:
c = df.values
print(type(c))
c

In [None]:
# DataFrame의 요약을 보여줌
df.describe()

In [None]:
# DataFrame의 행과 열을 바꿈
df.T

In [None]:
# axis 0, index // axis 1, columns
# ascending = True는 오름차순, ascending = False는 내림차순
df.sort_index(axis=1, ascending = False)

In [None]:
df.sort_index(axis='index', ascending=False)

# **Selection**

## Getting

In [None]:
df['A']

In [None]:
df.A

In [None]:
 type(df.A)

## Selecting via[ ], which slices the rows

In [None]:
# index 0 부터 2의 행을 가져옴
df[0 : 3]

In [None]:
# 문자 슬라이싱은 자신을 포함
df['20210102' : '20210104']

## Selection by Label

In [None]:
print(df)
# 0번째 행을 가져옴
x = df.loc[dates[0]]
x

In [None]:
type(x)

In [None]:
# loc[행, 열]
df.loc[:, ['A', 'B', 'C']]

In [None]:
df.loc['20210102' : '20210104', ['A', 'B', 'D']]

In [None]:
df.loc['20210102', ['A', 'B']]

In [None]:
# 행이 1개이면 Series임
type(df.loc['20210102', ['A', 'B']])

In [None]:
df.loc[dates[0], 'A']

In [None]:
# 값이 하나이면 스칼라
type(df.loc[dates[0], 'A'])

In [None]:
df.at[dates[0], 'A']

## Selection by Position

In [None]:
df.iloc[3]

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

In [None]:
df.iloc[3:5, 0:2]

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

In [None]:
df.iloc[1 : 3, :]

In [None]:
df.iloc[:, 1:3]

In [None]:
df.iloc[1, 1]

In [None]:
df.iat[1, 1]

## Boolean Indexing

In [None]:
df[df > 0]

In [None]:
# 주소값이 아닌 전체를 복사
df3 = df.copy()
df3

In [None]:
# copy가 아니면 주소값이 복사됨
df4 = df3

In [None]:
df3['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
print(df3)
df4

## Setting

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index = pd.date_range('20130102', periods = 6))
s1

In [None]:
df.at[dates[0], 'A']  = 0
df

In [None]:
df.iat[0, 1] = 0
df

In [None]:
df.loc[:, 'D'] = np.array([5] * len(df))
df

In [None]:
df2 = df.copy()
df2

In [None]:
df2[df2 > 0] =  - df2
df2

## Missing data

In [None]:
# reindex는 배열을 재배치함
df1 = df.reindex(index = dates[0 : 4], columns = list(df.columns) + ['E'])
df1

In [None]:
df1.loc[dates[0] : dates[1] , 'E'] = 1
df1

In [None]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df5 = pd.DataFrame(dict_data, index = ['r0','r1','r2'])
print(df)

In [None]:
# 기존의 값이 없으면 NaN으로 채워준다.
new_index = ['r0','r1','r2','r3','r4']
ndf = df5.reindex(new_index)
print(ndf)

In [None]:
# null값이 있는 행 제거
# ‘any’ : row 또는 column에 NaN값이 1개만 있어도 drop (default 값입니다.)
# ‘all’ : row 또는 column에 있는 모든 값이 NaN이어야 drop
df1.dropna(how = 'any' )

In [None]:
df1.dropna(how='all')

In [None]:
# null 값 채우기
df1.fillna(value=5)

To get the boolean mask where values are NaN

In [None]:
pd.isnull(df1)

## Masking 연산

In [None]:
df0 = pd.DataFrame(np.random.randint(1, 10, (2, 2)), index=[0, 1], columns=["A", "B"])
# 데이터 프레임 출력하기
print(df0)
# 컬럼 A의 각 원소가 5보다 작거나 같은지 출력
print(df0["A"] <= 5)
# 컬럼 A의 원소가 5보다 작고, 컬럼 B의 원소가 8보다 작은 행 추출
print(df0.query("A <= 5 and B <= 8"))

# **Operations**

In [None]:
# See the Basic section on Binary Ops

# Stats
# Operations in general exclude missing data.
# 통계 일반적으로 연산은 결측 데이터를 제외
# Performing a descriptive statistic.

In [None]:
print(df)
df.mean()

In [None]:
df.mean(0)

In [None]:
# 행을 기준
df.mean(axis='index')

In [None]:
# 열을 기준
df.mean(axis='columns')

In [None]:
df.mean(0)

In [None]:
df.mean(axis='columns')

In [None]:
s = pd.Series([1, 3, 5, None, 6, 8], index= dates)
s

In [None]:
# shift는 이동 (양수는 밑으로 , 음수는 위로)
s1 = pd.Series([1, 3, 5, None, 6, 8], index= dates).shift(2)
s1

In [None]:
# 데이터 프레임 및 기타 요소 별 빼기 (이항 연산자sub).
# 각 행의 열마다 뺌
print(df)
df.sub(s, axis='index')

In [None]:
# df.sub은 행 또는 열을 뺄 수 있음
print(df)
df.sub(pd.Series([1, 1, 1, 1], index= ['A', 'B', 'C', 'D']), axis='columns')

# **Apply**

In [None]:
# 데이터에 함수를 적용
# cumsum은 주어진 축에따라 누적되는 값을 계산
df.apply(np.cumsum)

In [None]:
print(df)
df.apply(lambda x : x.max() - x.min(), axis=0)


# **String Methods**

In [None]:
s = pd.Series([ 'A', 'B', 'C', 'AaBa', 'Baca', None, 'CABA', 'dog', 'cat'])
s

In [None]:
s.str.lower()

In [None]:
s.str.upper()

# **Append**

In [None]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
df

In [None]:
s = df.iloc[3]
s

In [None]:
df.append(s, ignore_index=True)

# **Grouping**

In [None]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

In [None]:
# A 컬럼별로 데이터를 그룹지어라
df.groupby('A').sum()

In [None]:
df.groupby(['A', 'B']).sum()

# **Pivot Tables**

In [None]:
# set은 순서가 없다
my_list = list('abc' *3)
my_set = set('abc' * 3)
print('my_list', my_list)
print('my_set', my_set)

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

In [None]:
# 피벗테이블 구조로 변환
# index는 행 위치에 들어갈 열
# columns는 열 위치에 들어갈 열
# values는 데이터로 사용할 열
# aggfunc는 데이터 집계함수
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

# **Categoricals**

In [None]:
df = pd.DataFrame({"id" : [1, 2, 3, 4, 5, 6], "raw_grade" : ['a', 'b', 'b', 'a', 'a', 'e']} ,index=[0,1,2,3,4,5], columns=['raw_grade', 'id'])
df

In [None]:
# category는 범주형데이터를 말함
df['grade'] = df['raw_grade'].astype('category')
df

In [None]:
df['raw_grade'] 

In [None]:
df['grade']

In [None]:
# category데이터의 이름은 의미있게 변환
df['grade'].cat.categories = ['very good', 'good', 'very bad']
df['grade']

In [None]:
# category데이터의 범주를 추가
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df['grade']

## Categories Sort

In [None]:
# categories는 범주의 순서대로 정렬됨
df.sort_values(by= 'grade')

In [None]:
# categories 열을 기준으로 그룹화하면 빈 범주도 표시됨
df.groupby('grade').size()

# **Plotting**


In [None]:
ts = pd.Series(np.random.randn(1000), index= pd.date_range('1/1/2000', periods= 1000))
ts

In [None]:
ts = ts.cumsum()
ts

In [None]:
ts.plot()

In [None]:
# 1000 X 4 의 표준정규분포 난수 생성
df = pd.DataFrame(np.random.randn(1000, 4), index = ts.index, columns=['A', 'B', 'C', 'D'])
df

In [None]:
df = df.cumsum()
df

In [None]:
# 새로운 figure를 생성
plt.figure();
# df그래프 그리기
df.plot();
# 범례 넣기 loc = 'best'는 자동으로 최적의 위치에 범례 위치시킴
plt.legend(loc = 'best')

# **Getting Data In/Out**

In [None]:
# Writing to a csv file
df.to_csv('foo.csv')

In [None]:
# Reading from a csv file
pd.read_csv('foo.csv').head()

In [None]:
# 계층적 데이터 형식(Hierarchical Data Format, HDF)
df.to_hdf('foo.h5', 'df')

In [None]:
pd.read_hdf('foo.h5', 'df').head()

In [None]:
# Excel
df.to_excel('foo.xlsx', sheet_name='Sheet1')

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA']).head()