# day06_03_pandas
- 판다스 예제
- 판다스 이용하기 및 자료구조

In [110]:
import pandas as pd
import numpy as np

In [111]:
# pandas 버전 확인
pd.__version__

'0.25.1'

In [112]:
# Series 정의하기
obj = pd.Series([5,7,9,4])
obj

0    5
1    7
2    9
3    4
dtype: int64

In [113]:
# 시리즈의 값 확인하기
obj.values

array([5, 7, 9, 4], dtype=int64)

In [114]:
# 시리즈의 인덱스 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [115]:
# 시리즈 연산하기
# - 모든 자리에 3을 더해라
obj + 3

0     8
1    10
2    12
3     7
dtype: int64

In [116]:
# 평균 구하기
obj.mean()

6.25

# 데이터 프레임 만들기

In [117]:
# 비정형 데이터
[1,3]

[1, 3]

In [118]:
# 반정형 데이터
my_dict = {'a':[1,3],'b':[1,2],'c':[2,4]}
my_dict

{'a': [1, 3], 'b': [1, 2], 'c': [2, 4]}

In [119]:
# 정형 데이터
pd.DataFrame(my_dict)

Unnamed: 0,a,b,c
0,1,1,2
1,3,2,4


In [120]:
# 리스트 타입으로 데이터 프레임 만들기
my_list = [['tom', 20], ['nick', 30], ['korea', '6']]

In [121]:
df = pd.DataFrame(my_list, columns=['name','age'])

# Dataframe의 조회
- loc:  라벨값 기반의 2차원 인덱싱
- iloc: 인덱스 기반의 2차원 인덱싱
- at:   라벨값 기반의 인덱싱(데이터 1개)
- iat:  인덱스 기반의 인덱싱(데이터 1개)

In [122]:
my_dict = {'a':[1,4,7],'b':[2,5,8],'c':[3,6,9]}
df = pd.DataFrame(my_dict)
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [123]:
# df.loc[행, 열]
display(df.loc[:,:]) # 전체
display(df.loc[1,'b']) # 1행의 b열
display(df.loc[:,'a']) # a열
display(df.loc[1,:]) # 1행

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


5

0    1
1    4
2    7
Name: a, dtype: int64

a    4
b    5
c    6
Name: 1, dtype: int64

In [124]:
# 실습하기
# c열의 합계 구하기
# - df.loc[:,'c']로 조회하면 Series의 형태가 조회
# - 조회된 시리즈를 sum()하면 합계가 조회
df.loc[:,'c'].sum()

18

In [125]:
# df의 각 열의 평균
df.mean()

a    4.0
b    5.0
c    6.0
dtype: float64

In [126]:
# 실습하기
# df에서 각 열의 평균의 합계를 구하라
df.mean().sum()

15.0

In [127]:
# 실습하기
# df에서 0,2행의 b열의 합계를 구하라
df.loc[[0,2],'b'].sum()

10

In [128]:
# df에서 0, 2행의 a, c열의 합계를 구해주세요
df.loc[[0, 2], ['a', 'c']].sum()

a     8
c    12
dtype: int64

In [129]:
# a열의 값이 4보다 큰 행부터 전체 열을 조회해주세요.
df.a > 4
df.loc[df.a > 4]

Unnamed: 0,a,b,c
2,7,8,9


# iloc[행, 열]

In [130]:
# df에서 0,1행의 전체 열 조회
df.iloc[[0,1],:]

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [131]:
# df에서 0행의 0,2열 조회
df.iloc[0,[0,2]]

a    1
c    3
Name: 0, dtype: int64

## at[행, 열]
- 하나의 스칼라 값을 조회하는 경우에 사용
- 많은 데이터에서 데이터 하나만 뽑아올 경우, 더 빠르다.
- 빠른 인덱싱 속도가 요구되는 경우에 사용

In [132]:
%timeit df.loc[0,'a']

6.67 µs ± 45 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [133]:
%timeit df.at[0,'a']

4.42 µs ± 116 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### df에 값을 추가하기
- 마지막 행에 값 추가하기

#### 1. 데이터 프레임을 만들고 그걸 다시 데이터 프레임에  넣기
- append 사용

In [134]:
add_df = pd.DataFrame({'a':[10],'b':[11],'c':[12]})
df = df.append(add_df)

In [135]:
# row 인덱스 초기화
df = df.reset_index(drop=True)
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


- 순서를 지정해서 추가하기

In [136]:
df.loc[4,:] = [13,14,15]
df

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,10.0,11.0,12.0
4,13.0,14.0,15.0


- python 문법으로 순서를 지정해서 추가하기

In [137]:
df.loc[5] = [16,17,18]
df

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,10.0,11.0,12.0
4,13.0,14.0,15.0
5,16.0,17.0,18.0


- 열 추가하기

In [138]:
df.loc[:,'d'] = ['one','two','one','three','four','two']
df

Unnamed: 0,a,b,c,d
0,1.0,2.0,3.0,one
1,4.0,5.0,6.0,two
2,7.0,8.0,9.0,one
3,10.0,11.0,12.0,three
4,13.0,14.0,15.0,four
5,16.0,17.0,18.0,two


- 해당 열의 값에 포함 유무를 확인하여 조회하기

In [139]:
df.loc[:,'d'].isin(['one','two'])

0     True
1     True
2     True
3    False
4    False
5     True
Name: d, dtype: bool

In [156]:
# 실습하기
# df의 d열에 one, two가 포함된 값의 행의 전체 열 조회
temp = df.loc[:,'d'].isin(['one','two'])
df.loc[temp,:]

Unnamed: 0,a,b,c,d
0,1.0,2.0,3.0,one
1,4.0,5.0,6.0,two
2,7.0,8.0,9.0,one
5,16.0,17.0,18.0,two


In [161]:
df2 = df.loc[temp,:]
df2 = df2.reset_index(drop=True)

In [166]:
# df2의 e열에 0,1행에만 값을 1로 넣고, 2,3행의 값은 결측치로 만들기
df2.loc[df2.a <5,'e'] = 1

In [168]:
# 결측 데이터를 조회 안하기
df2.dropna()

Unnamed: 0,a,b,c,d,e
0,1.0,2.0,3.0,one,1.0
1,4.0,5.0,6.0,two,1.0


In [171]:
df2.isnull().sum()

a    0
b    0
c    0
d    0
e    2
dtype: int64

In [173]:
# 결측 데이터에 값을 채우기
df2.fillna(5)

Unnamed: 0,a,b,c,d,e
0,1.0,2.0,3.0,one,1.0
1,4.0,5.0,6.0,two,1.0
2,7.0,8.0,9.0,one,5.0
3,16.0,17.0,18.0,two,5.0


In [178]:
df3 = df2.loc[:,['a','b','c']]
df3.loc[3,:]  = [17,18,19]

In [179]:
# 각 열의 총합
df3.sum()

a    29.0
b    33.0
c    37.0
dtype: float64

In [181]:
# 각 행의 총합
df3.sum(axis=1)

0     6.0
1    15.0
2    24.0
3    54.0
dtype: float64

In [189]:
df3

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,17.0,18.0,19.0


In [191]:
# 람다
# 익명함수(부를 수 있는 이름이 없다)
# 재사용할 필요가 없을 때 사용
# (lambda x: print(x))(1)
df3.apply(lambda x: x+1)

Unnamed: 0,a,b,c
0,2.0,3.0,4.0
1,5.0,6.0,7.0
2,8.0,9.0,10.0
3,18.0,19.0,20.0


In [193]:
# 실습하기
# df3의 각 열의 max값 - min값을 구해서 새로운 시리즈 만들기
df3.apply(lambda x: x.max()-x.min())

a    16.0
b    16.0
c    16.0
dtype: float64

In [186]:
# 기본 함수
# - 명명함수(부를 수 있는 이름이 존재, 재사용 가능)
def korea_print(x):
    print(x)