### pandas DataFrame
- pandas는 테이블형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
  - 파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리임
- raw data를 데이터 분석 전과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨
  - raw data: 아직 데이터 분석을 위해 정제되지 않은 기본 데이터를 의미함
    - 보통 데이터 분석 목적에 맞지 않은 불필요한 데이터가 있거나, 데이터가 없는 열들이 포함됨
- 데이터프레임은 테이블형(2차원) 데이터이며, 데이터 분석/머신 러닝에서 데이터 처리를 위해 주로 사용됨
- 2차원이기 때문에 엑셀/csv와 같이 데이터가 row, column로 구성되며, 인덱스도 두 개, row/column 각각 존재함
- 행의 레이블은 인덱스로, 열의 레이블은 컬럼으로 부름

In [None]:
import pandas as pd # pandas 라이브러리 

Pandas에서 disctionary와 list를 이용하여 DataFrame을 생성할 수 있음

In [None]:
# pandas.DataFrame으로 데이터프레임 생성
# dictionaty를 이용하여 DataFrame을 생성
# dict의 key는 DataFrame의 column명이고, values는 해당 열에 속한 data들임
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6]}) 

In [None]:
type(df) # pandas에서는 DataFrame이라는 type을 이용하여 데이터를 저장

pandas.core.frame.DataFrame

In [None]:
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [None]:
df.columns # DataFrame의 column명 추출

Index(['a', 'b', 'c'], dtype='object')

In [None]:
df.values # DataFrame에 속한 value를 모두 추출

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [None]:
# list를 이용하여 DataFrame을 생성
# list를 이용하여 DataFrame을 생성하면 column명이 따로 지정되지 않고 행을 기준으로 생성됨
a = [[1,2,3], [4,5,6]]
df2 = pd.DataFrame(a)
df2

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [None]:
# list로 DataFrame을 생성할 경우 column명이 지정되지 않으므로, column명을 따로 지정
df2.columns = ['a', 'b', 'c']
df2

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [None]:
# DataFrame을 생성할 때 결측값을 넣고 싶은 경우
df3 = pd.DataFrame({'Country': ['Korea', 'Canada', 'Japan'], 'Population': [1000, NaN, 2000], 'Location': ['Asia', 'North America', 'Asia']})
df3

NameError: ignored

결측값을 넣고 싶은 경우에는 그냥 NaN을 쓰면 안되고 numpy를 이용해야 됨

In [None]:
import numpy as np # numpy 라이브러리

In [None]:
# 결측값을 위해 np.NaN을 사용
df3 = pd.DataFrame({'Country': ['Korea', 'Canada', 'Japan'], 'Population': [1000, np.NaN, 2000], 'Location': ['Asia', 'North America', 'Asia']})
df3

Unnamed: 0,Country,Population,Location
0,Korea,1000.0,Asia
1,Canada,,North America
2,Japan,2000.0,Asia


In [None]:
df = pd.DataFrame(np.random.randn(4,6)) # ndarray를 이용하여 DataFrame 생성 가능
df

Unnamed: 0,0,1,2,3,4,5
0,-0.456182,-1.544879,0.554907,0.196189,0.135456,0.787129
1,0.560561,-2.017948,-0.454917,1.827612,1.387964,1.239333
2,0.051112,1.007147,1.944193,0.557485,-0.250879,0.157378
3,-0.10748,1.20967,-0.042656,0.24247,-0.017284,-0.645423


- pd.date_range(start, end, periods) : 특정 날짜 기간을 자동으로 생성

In [None]:
# pd.date_range(시작 날짜, 끝 날짜, 기간)
pd.date_range('20210415', '20210422') # date_range를 이용하여 시작과 끝 사이의 날짜 생성

DatetimeIndex(['2021-04-15', '2021-04-16', '2021-04-17', '2021-04-18',
               '2021-04-19', '2021-04-20', '2021-04-21', '2021-04-22'],
              dtype='datetime64[ns]', freq='D')

In [None]:
pd.date_range('2022-04-15', '2022-04-22') # YYYYMMDD 형식과 YYYY-MM-DD 형식 모두 사용 가능

DatetimeIndex(['2022-04-15', '2022-04-16', '2022-04-17', '2022-04-18',
               '2022-04-19', '2022-04-20', '2022-04-21', '2022-04-22'],
              dtype='datetime64[ns]', freq='D')

In [None]:
pd.date_range('2022-04-15', periods = 6) # 시작날짜와 기간을 명시하여 표현 가능

DatetimeIndex(['2022-04-15', '2022-04-16', '2022-04-17', '2022-04-18',
               '2022-04-19', '2022-04-20'],
              dtype='datetime64[ns]', freq='D')

In [None]:
datetime_index = pd.date_range('2022-04-22', periods = 4)
df = pd.DataFrame(np.random.randn(4,6), index = datetime_index, columns = ['a', 'b', 'c', 'd', 'e', 'f'])
df

Unnamed: 0,a,b,c,d,e,f
2022-04-22,0.225569,1.724758,1.766477,-0.287032,-0.56227,1.969344
2022-04-23,1.198858,0.374622,1.117599,-1.42496,0.174052,-0.067257
2022-04-24,0.177478,1.691731,0.421125,2.061587,1.075781,-1.367275
2022-04-25,-0.353674,0.28468,-0.6867,0.366246,-0.776527,-0.452549


- pd.Timestamp(year, month, day, hour, min, sec)
- pd.Timestamp 함수에 문자열을 넣으면 자동으로 날짜로 변환

In [None]:
pd.Timestamp('20220422')

Timestamp('2022-04-22 00:00:00')

In [None]:
df = pd.DataFrame({'a': pd.date_range('2022-04-22', periods = 5), 'b': pd.Timestamp('20220422'), 'c': pd.Series([1,2,3,4,5])})
df

Unnamed: 0,a,b,c
0,2022-04-22,2022-04-22,1
1,2022-04-23,2022-04-22,2
2,2022-04-24,2022-04-22,3
3,2022-04-25,2022-04-22,4
4,2022-04-26,2022-04-22,5


- pd.Categoical() 함수는 문자열을 카테고리 자료형을 변환

In [None]:
pd.Categorical(['train', 'bus', 'airplane']) 

['train', 'bus', 'airplane']
Categories (3, object): ['airplane', 'bus', 'train']

In [None]:
a = pd.Series(['train', 'bus', 'airplane'])
a = a.astype('category') # dype을 카테고리로 변경
a

0       train
1         bus
2    airplane
dtype: category
Categories (3, object): ['airplane', 'bus', 'train']

In [None]:
a.cat.add_categories('car') # 카테고리 추가

0       train
1         bus
2    airplane
dtype: category
Categories (4, object): ['airplane', 'bus', 'train', 'car']

In [None]:
a.cat.categories = ['airplane', 'ship', 'bus'] # 카테고리 재지정
a

0         bus
1        ship
2    airplane
dtype: category
Categories (3, object): ['airplane', 'ship', 'bus']

In [None]:
a= a.cat.set_categories(['airplane', 'bus', 'ship', 'car'])
a

0         bus
1        ship
2    airplane
dtype: category
Categories (4, object): ['airplane', 'bus', 'ship', 'car']

### 시리즈(Series) 이해하기
- 데이터를 다루기 위해 데이터 프레임(Dataframe)과 시리즈(Series) 제공
- 시리즈(Series)는 1차원 데이터이고, 데이터프레임(Dataframe)이 테이블형(2차원) 데이터임
- 시리즈는 하나의 column을 의미함
- 컬럼이 하나만 존재하는 경우는 시리즈이고, 컬럼이 여러 개 존재하면 데이터프레임임
- 시리즈가 여러 개 모여 데이터프레임이 만들어짐
- 시리즈 = 시리즈 + 1차원 데이터
- 데이터프레임 = 인덱스 + 컬럼 + values

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df['a'] # DataFrame에서 하나의 column을 지정하면 시리즈를 반환함

0    1
1    2
2    3
Name: a, dtype: int64

In [None]:
type(df['a'])

pandas.core.series.Series

In [None]:
# 시리즈 생성 방법(create)
# 시리즈는 1차원 데이터이므로 list를 통해 생성할 수 있음
s = pd.Series([1,2,3,4,5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

- index는 행의 레이블을 의미함
- index를 지정하지 않으면 0부터 시작하는 인덱스 자동 생성
- 지정할 경우에는 지정된 index로 사용

In [None]:
seriesdata = pd.Series([1,2,3,4,5], index = ['a', 'b', 'c', 'd', 'e']) # iindex명을 따로 지정할 수 있음
seriesdata.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
seriesdata

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
seriesdata.values # 해당 시리즈에 속한 value

array([1, 2, 3, 4, 5])

In [None]:
seriesdata['a'] # index를 이용하여 index에 해당하는 data를 접근

1

In [None]:
seriesdata[0] # index명을 바꾸었지만 고유 index번호를 이용하여 접근할 수 있음

1

In [None]:
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df['a', 'b'] # 동시에 두 개의 시리즈를 생성할 수 없음

KeyError: ignored

In [None]:
df[['a', 'b']] # 두 개 이상의 시리즈를 생성할 때 []를 두 번 씌워야 함

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


- 시리즈는 1차원 데이터
- 두 개 이상의 열(시리즈)를 추출하면 2차원이므로 DataFrame

In [None]:
type(df[['a', 'b']])

pandas.core.frame.DataFrame

### 칼럼명 추출, 변경

In [None]:
import pandas as pd

df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df.columns # DataFrame의 column명을 list로 반환

Index(['d', 'e', 'f'], dtype='object')

In [None]:
df.columns[1] # df.columns는 list를 반환하므로 index를 통해 접근 가능

'b'

In [None]:
df.columns = ['d', 'e', 'f']  # column명 변경
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


-  DataFrame의 특정 column명을 변경할 때 df.columns를 이용하면 모든 column명을 다 다시 기입해야 하므로 불편함이 있음
- df.rename을 이용하면 원하는 column명만 수정할 수 있음

In [None]:
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df.rename(columns = {'a' : 'd'}) # 해당 column명만 수정
df # DataFrame에 수정된 결과가 적용되지 않음

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df.rename(columns = {'a': 'd'}, inplace = True) # inplace = True를 해야 DataFrame에 적용됨
df

Unnamed: 0,d,b,c
0,1,4,7
1,2,5,8
2,3,6,9


### loc와 iloc를 이용한 원하는 위치의 데이터 추출
- 데이터프레임.loc : index 를 통해서 값을 찾음
- 데이터프레임.iloc : 인덱스 번호를 통해서 값을 찾음 (0부터 시작)

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)], 'b': [i for i in range(11,21)], 'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


In [None]:
df['a'] # 원하는 column을 추출할 때는 column명을 이용하여 바로 접근 가능

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: a, dtype: int64

In [None]:
# 첫번 째 행의 data를 출력
df[0]

KeyError: ignored

- 행은 열과 다르게 index로 바로 접근이 불가능함
- 행을 출력할 때는 loc와 iloc를 사용해야 됨
- loc는 location의 약자이고 iloc는 index location의 약자임
- loc를 이용하여 slicing할 때는 마지막 index를 포함하지만, iloc는 인덱스 번호를 기준으로 slicing하기 때문에 마지막 index를 포함하지 않음

In [None]:
df.loc[0]

a     1
b    11
c    21
Name: 0, dtype: int64

In [None]:
type(df.loc[0]) # loc도 하나의 행을 시리즈로 반환

pandas.core.series.Series

In [None]:
# 행을 추출할 때 slicing도 가능
# python의 문법과 다르게 pandas에서는 slicing을 할 때 마지막 index도 포함
df.loc[0:2]

Unnamed: 0,a,b,c
0,1,5,9
1,2,6,10
2,3,7,11


- DataFrame을 생성할 때 index를 따로 설정 하지 않으면 default로 0부터 지정됨
- index를 따로 설정할 수 있음

In [None]:
index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame({'kim': [i for i in range(1,11)], 'bob': [i for i in range(11,21)], 'charles': [i for i in range(21,31)]}, index = index)
df

Unnamed: 0,kim,bob,charles
a,1,11,21
b,2,12,22
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
h,8,18,28
i,9,19,29
j,10,20,30


In [None]:
df.loc[0] # loc는 index명으로 접근을 하기 때문에 0이라는 인덱스가 없으므로 에러가 발생

KeyError: ignored

In [None]:
df.loc['g'] # g라는 index가 존재하기 때문에 해당 행의 데이터를 추출

kim         7
bob        17
charles    27
Name: g, dtype: int64

In [None]:
df.loc['c':] # slicing

Unnamed: 0,kim,bob,charles
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
h,8,18,28
i,9,19,29
j,10,20,30


- 행도 열과 동일하게 두 개 이상의 행을 추출할 때는 []를 두 번 씌워야 함

In [None]:
df.loc['a', 'b']

KeyError: ignored

In [None]:
df.loc[['a', 'b']]

Unnamed: 0,kim,bob,charles
a,1,11,21
b,2,12,22


In [None]:
df.loc[['a', 'b'],['kim', 'bob']] # loc를 사용하면 먼저 해당 행을 추출하고 원하는 열도 추출할 수 있음

Unnamed: 0,kim,bob
a,1,11
b,2,12


In [None]:
df.iloc['a'] # iloc는 index명으로 접근하는 것이 아닌 고유 index 번호로 접근함

TypeError: ignored

In [None]:
df.iloc[0:5]

Unnamed: 0,kim,bob,charles
a,1,11,21
b,2,12,22
c,3,13,23
d,4,14,24
e,5,15,25


### 데이터 추출

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [1,2,3,4], 'b': [5,6,7,8], 'c': [9,10,11,12]})
df

Unnamed: 0,a,b,c
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


- 특정 column에 접근

In [None]:
df.iloc[0:3]

Unnamed: 0,a,b,c
0,1,5,9
1,2,6,10
2,3,7,11


In [None]:
df['a'] # column명으로 접근

0    1
1    2
2    3
3    4
Name: a, dtype: int64

In [None]:
df.iloc[:, 0] # column과 index 위치로 접근

0    1
1    2
2    3
3    4
Name: a, dtype: int64

In [None]:
df.loc[:, 'a'] # column과 index이름으로 접근

0    1
1    2
2    3
3    4
Name: a, dtype: int64

- 여러 column 한번에 접근

In [None]:
df[['a', 'b']] # 두 개 이상의 column에 접근할 때는 []를 두 번 씌움

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [None]:
df.loc[:, ['a', 'b']] # 모든 행에 대해 특정 컬럼에 접근

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [None]:
df.iloc[:, [0,1]] # 모든 행에 대해 특정 column을 index로 접근

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [None]:
df.iloc[ :, 0:2] # 모든 행에 대해 slicing으로 접근

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


- 특정 index에 접근

In [None]:
df.loc[0] # index명이 0인 행을 접근

a    1
b    5
c    9
Name: 0, dtype: int64

In [None]:
df.iloc[0] # 0번쨰 index 접근

a    1
b    5
c    9
Name: 0, dtype: int64

- 특정 index와 컬럼 동시 접근

In [None]:
df.loc[0:2, ['a', 'b']] # slicing할때는 []를 씌우지 않아도 됨

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7


In [None]:
df.loc[[0,1], ['a', 'b']] # slicing이 아닌 특정 행을 직접 지정할 때는 []를 씌워야 함

Unnamed: 0,a,b
0,1,5
1,2,6


In [None]:
df.iloc[[0,1], [0,1]] # 행과 열 모두 index를 직접 지정하므로 []를 씌움

Unnamed: 0,a,b
0,1,5
1,2,6


In [None]:
df.iloc[0:1, 0:1] # 행과 열 모두 slicing이므로 []를 씌우지 않음

Unnamed: 0,a
0,1


- 특정 요소에 접근

In [None]:
df['a']

0    1
1    2
2    3
3    4
Name: a, dtype: int64

In [None]:
type(df['a']) # 특정 column을 추출하면 Series로 반환

pandas.core.series.Series

In [None]:
df['a'][0] # 시리즈는 1차원 데이터 즉, list와 동일하기 때문에 index로 특정 요소에 접근할 수 있음

1

In [None]:
df.loc[0]

a    1
b    5
c    9
Name: 0, dtype: int64

In [None]:
type(df.loc[0]) # 특정 행을 추출하여도 시리즈로 반환

pandas.core.series.Series

In [None]:
df.loc[0]['a'] # 시리즈는 list와 동일하기 때문에 index로 요소에 접근이 가능함

1

- 특정 조건에 맞는 데이터 추출

In [None]:
df = pd.DataFrame({'a': [i for i in range(1,11)], 'b': [i for i in range(11,21)], 'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


In [None]:
df[['a', 'b']] # 두 개 이상의 column 추출

Unnamed: 0,a,b
0,1,11
1,2,12
2,3,13
3,4,14
4,5,15
5,6,16
6,7,17
7,8,18
8,9,19
9,10,20


In [None]:
df['a']>=3 # ['a'] column에서 해당 조건을 만족하는지를 boolean으로 반환

0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
Name: a, dtype: bool

In [None]:
df[df['a']>=3] # 해당 조건을 만족하는 모든 행을 출력

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


In [None]:
type(df[df['a']>=3]) # 반환 결과는 DataFrame

pandas.core.frame.DataFrame

In [None]:
df[df['a']>=3][['a','b']] 
# 앞의 결과가 DataFrame이므로 원하는 column에 접근할 수 있음 
# df[['a', 'b']]와 동일한 것임

Unnamed: 0,a,b
2,3,13
3,4,14
4,5,15
5,6,16
6,7,17
7,8,18
8,9,19
9,10,20


In [None]:
df[(df['a']>=3) & (df['b']<=16)] # 두 조건을 모두 만족하는 데이터 추출

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26


### copy를 이용한 데이터 복사

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df2 = df
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df2.columns = ['d','e','f']
df2

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


- df2 = df는 df2와 df가 하나의 객체를 가리키고 있는 것이기 때문에 df나 df2가 수정되면 다른 하나에도 영향을 끼침
- shallow copy

In [None]:
import copy
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df2 = copy.deepcopy(df)
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df2.columns = ['d', 'e', 'f']
df # deepcopy를 하였기 때문에 서로에게 영향을 끼치지 않음

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


### 결측값 처리

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,2,np.NaN,np.NaN,4], 'c': [np.NaN, 3,2,1,np.NaN]})
df

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,,2.0
3,4,,1.0
4,5,4.0,


In [None]:
df.isnull() # 결측값의 유무를 True와 False로 확인

Unnamed: 0,a,b,c
0,False,False,True
1,False,False,False
2,False,True,False
3,False,True,False
4,False,False,True


In [None]:
df.isnull().sum() # True는 1, False는 0으로 간주되어 각 column마다 null의 개수를 알 수 있음

a    0
b    2
c    2
dtype: int64

In [None]:
df.dropna() # 결측값이 포함된 행을 지움

Unnamed: 0,a,b,c
1,2,2.0,3.0


In [None]:
df # 하지만 DataFrame에 반영되지 않음

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,,2.0
3,4,,1.0
4,5,4.0,


In [None]:
df.dropna(inplace = True) # inplcae = True를 해야 DataFrame에 반영됨
df

Unnamed: 0,a,b,c
1,2,2.0,3.0


In [None]:
# 결측값이 포함된 열을 지움
# dropna()에 axis를 따로 설정하지 않으면 default 값으로 axis=0이므로 결측값이 포함된 행을 지움
df.dropna(axis = 1, inplace = True)
df

Unnamed: 0,a
0,1
1,2
2,3
3,4
4,5


In [None]:
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,2,np.NaN,np.NaN,4], 'c': [np.NaN, 3,2,1,np.NaN]})
df

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,,2.0
3,4,,1.0
4,5,4.0,


In [None]:
df.fillna(0, inplace = True) # 결측값을 원하는 숫자로 채울 수 있음
df

Unnamed: 0,a,b,c
0,1,2.0,0.0
1,2,2.0,3.0
2,3,0.0,2.0
3,4,0.0,1.0
4,5,4.0,0.0


In [None]:
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,2,np.NaN,np.NaN,4], 'c': [np.NaN, 3,2,1,np.NaN]})
df

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,,2.0
3,4,,1.0
4,5,4.0,


In [None]:
df.fillna(method = 'bfill', inplace = True) # 결측값을 아래 행의 값으로 채움
df

Unnamed: 0,a,b,c
0,1,2.0,3.0
1,2,2.0,3.0
2,3,4.0,2.0
3,4,4.0,1.0
4,5,4.0,


In [None]:
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,2,np.NaN,np.NaN,4], 'c': [np.NaN, 3,2,1,np.NaN]})
df

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,,2.0
3,4,,1.0
4,5,4.0,


In [None]:
df.fillna(method = 'ffill', inplace = True) # 결측값을 앞의 값으로 채움
df

Unnamed: 0,a,b,c
0,1,2.0,
1,2,2.0,3.0
2,3,2.0,2.0
3,4,2.0,1.0
4,5,4.0,1.0


In [None]:
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,2,np.NaN,np.NaN,4], 'c': [np.NaN, 3,2,1,np.NaN]})
df

In [None]:
df.mean() # 각 열의 평균값

a    3.00
b    2.40
c    1.75
dtype: float64

In [None]:
df.fillna(df.mean(), inplace = True) # 결측값을 각 열의 평균값으로 채움
df

Unnamed: 0,a,b,c
0,1,2.0,1.75
1,2,2.0,3.0
2,3,2.0,2.0
3,4,2.0,1.0
4,5,4.0,1.0


### 레코드, 칼럼 추가, 삭제

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df['d'] = [10, 11, 12] # column 추가
df

Unnamed: 0,a,b,c,d
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [None]:
df['e'] = 1 # column을 추가하고 모든 모든 요소에 1을 대입
df

Unnamed: 0,a,b,c,d,e
0,1,4,7,10,1
1,2,5,8,11,1
2,3,6,9,12,1


In [None]:
df['f'] = df['a'] + df['b'] - df['c'] # column끼리 연산을 하여 새로운 column 추가
df

Unnamed: 0,a,b,c,d,e,f
0,1,4,7,10,1,-2
1,2,5,8,11,1,-1
2,3,6,9,12,1,0


In [None]:
df.drop(['d'], axis = 1, inplace = True) # axis=1로 열을 기준으로 원하는 열을 삭제
df

Unnamed: 0,a,b,c,e,f
0,1,4,7,1,-2
1,2,5,8,1,-1
2,3,6,9,1,0


In [None]:
df.drop(['e', 'f'], axis = 1, inplace = True)
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df.loc[3] = [4,7,10] # loc를 이용하여 행을 추가할 수 있음
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9
3,4,7,10


In [None]:
df.drop(3) # 행을 삭제하려면 변수에 덮어쓰기를 해야함
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9
3,4,7,10


In [None]:
df = df.drop(3)
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


### 타입 변환
- pandas 데이터 타입은 파이썬과 다름
  - dtype 으로 불리우며, 주요 데이터 타입은 다음과 같음
    - object 는 파이썬의 str 또는 혼용 데이터 타입 (문자열)
    - int64 는 파이썬의 int (정수)
    - float64 는 파이썬의 float (부동소숫점)
    - bool 는 파이썬의 bool (True 또는 False 값을 가지는 boolean)
    - 이외에 datetime64 (날짜/시간), timedelta[ns] (두 datatime64 간의 차) 도 활용됨

> 가끔 data type 때문에 에러가 나는 경우가 있으므로, 데이터 타입에 대한 이해 및 데이터 타입 변경 기능을 알아둬야 함

In [None]:
import pandas as pd
df = pd.DataFrame({'판매일' : ['5/11/21', '5/12/21', '5/13/21', '5/14/21', '5/15/21'],
                   '판매량' : ['10', '15', '20', '25', '30'],
                   '방문자수' : ['10', '-', '17', '23', '25'],
                   '기온' : ['24.1', '24.3', '24.8', '25', '25.4']})
df

Unnamed: 0,판매일,판매량,방문자수,기온
0,5/11/21,10,10,24.1
1,5/12/21,15,-,24.3
2,5/13/21,20,17,24.8
3,5/14/21,25,23,25.0
4,5/15/21,30,25,25.4


In [None]:
df.dtypes # 각 열의 type을 확인

판매일     object
판매량     object
방문자수    object
기온      object
dtype: object

In [None]:
df['판매량 보정'] = df['판매량'] + 1
# df['판매량]이 object(문자열)이므로 숫자 연산을 하면 에러가 발생

TypeError: ignored

In [None]:
df.astype({'판매량' : 'int'}) # astype을 이용해 자료형을 변경
df.dtypes # DataFrame에 반영되지 않음

판매일     object
판매량     object
방문자수    object
기온      object
dtype: object

In [None]:
df = df.astype({'판매량': 'int'})
df.dtypes

판매일     object
판매량      int64
방문자수    object
기온      object
dtype: object

In [None]:
df['판매량 보정'] = df['판매량'] + 1 # df['판매량']이 int로 바뀌었으므로 숫자 연산이 가능
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,-,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


### apply를 활용한 데이터 변환

In [None]:
import pandas as pd

df = pd.DataFrame({'a': [1,2,3,4,5]})

In [None]:
df

Unnamed: 0,a
0,1
1,2
2,3
3,4
4,5


In [None]:
df['b'] = 0
df

Unnamed: 0,a,b
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0


In [None]:
a = df[df['a'] < 2] # 원하는 조건에 해당하는 데이터를 먼저 추출
a

Unnamed: 0,a,b
0,1,0


In [None]:
df['b'][a.index] = '2 미만' # 원하는 조건으로 이루어진 a를 이용하여 데이터 변경
df

Unnamed: 0,a,b
0,1,2 미만
1,2,0
2,3,0
3,4,0
4,5,0


In [None]:
a = df[(df['a'] >= 2) & (df['a'] < 4)]
a

Unnamed: 0,a,b
1,2,0
2,3,0


In [None]:
df['b'][a.index] = '4 미만'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
pd.set_option('mode.chained_assignment', None)

In [None]:
df['b'][a.index] = '4 미만'
df

Unnamed: 0,a,b
0,1,2 미만
1,2,4 미만
2,3,4 미만
3,4,0
4,5,0


In [None]:
a = df[df['a'] >= 4]
df['b'][a.index] = '4 이상'
df

Unnamed: 0,a,b,c
0,1,2 미만,2 미만
1,2,4 미만,4 미만
2,3,4 미만,4 미만
3,4,4 이상,4 이상
4,5,4 이상,4 이상


In [None]:
def function(x):
    if x < 2:
        return '2 미만'
    elif x < 4:
        return '4 미만'
    else:
        return '4 이상'

In [None]:
df['c'] = df['a'].apply(function) # apply를 이용하여 함수를 DataFrame에 적용시킬 수 있음
df

Unnamed: 0,a,b,c
0,1,2 미만,2 미만
1,2,4 미만,4 미만
2,3,4 미만,4 미만
3,4,0,4 이상
4,5,0,4 이상


### 파일 호출, 저장

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/스스로 정리/csv_example.csv')
df

Unnamed: 0.1,Unnamed: 0,품목,크기,금액
0,0,바나나,중,2000
1,1,바나나,대,3000
2,2,바나나,중,2000
3,3,토마토,대,1500
4,4,토마토,소,500
...,...,...,...,...
95,95,토마토,소,500
96,96,토마토,중,1000
97,97,토마토,대,1500
98,98,바나나,중,2000
