# 데이터 프레임

## [ 데이터 프레임 ]

### 1. 데이터 프레임 생성
* dictionary로 생성하기

In [1]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})

print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


* list로 생성하기

In [2]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2

Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2

### 2. 컬럼명 지정
* dictionary

In [5]:
a = {'company' : ['abc','회사',123],
     '직원수': [400,10,6]}
df1= pd.DataFrame(a)
df1

Unnamed: 0,company,직원수
0,abc,400
1,회사,10
2,123,6


* list

In [4]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2.columns = ['A','B','C']
df2

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [6]:
import numpy as np

a = [[1,4,7], [2,5,8], [3,np.NAN,9]]

df2 = pd.DataFrame(a)
df2.columns = ['A','B','C']
df2

Unnamed: 0,A,B,C
0,1,4.0,7
1,2,5.0,8
2,3,,9


## [ 컬럼명 추출/변경 ]

### 1. 컬럼명 추출
* df.columns

In [7]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [8]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

* 컬럼명 indexing

In [9]:
df.columns[0]

'a'

### 2. 컬럼명 변환
* df.columns = []

In [10]:
df.columns = ['A','B','C']
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


* rename => df.rename(columns, inplace=True)

In [15]:
df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})

df.rename(columns={'a':'A', 'b':'B'}, inplace=True) # inplace=True를 설정해 변경사항을 바로 적용
df

Unnamed: 0,A,B,c
0,1,4,7
1,2,5,8
2,3,6,9


## [ 데이터 복사 ]

### 1. copy => 다른 객체로 따로 복사함
* 수정 전 처음 데이터프레임으로 돌아가기 위해 하나 더 만들어 두는 것
* copy.deepcopy(df)

* 참고 : df2 = df1으로 하면 df1이 변경되면 따라서 같이 변경됨 => 동일 객체이므로

In [18]:
import copy

df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})
df2 = copy.deepcopy(df)

In [19]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [20]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [21]:
df.columns = ['A','B','C']
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [22]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


---

# 시리즈

## [ 시리즈 ]

### 1. 데이터프레임에서 열 추출

In [68]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})

df['a']

0    1
1    2
2    3
Name: a, dtype: int64

In [69]:
type(df['a'])

pandas.core.series.Series

### 2. 시리즈 생성

In [70]:
a = pd.Series([1,2,3,1,2,3])
a

0    1
1    2
2    3
3    1
4    2
5    3
dtype: int64

### 3. 인덱스 변경

In [71]:
a = pd.Series([1,2,3,1,2,3], index = ['a','b','c','d','e','f'])
a

a    1
b    2
c    3
d    1
e    2
f    3
dtype: int64

In [72]:
a['e']

2

### 4. 유일한 값 찾기
* unique

In [73]:
a = pd.Series([1,2,3,1,2,3], index = ['a','b','c','d','e','f'])

print(a.unique())
print(a.unique()[2])

[1 2 3]
3


---

# 데이터 추출

## [ loc/iloc를 통한 데이터 추출 ]

### 1. list로 데이터 추출하기

In [74]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* [[컬럼명]]로 추출

In [75]:
df[['a','b']]

Unnamed: 0,a,b
0,1,11
1,2,12
2,3,13
3,4,14
4,5,15
5,6,16
6,7,17
7,8,18
8,9,19
9,10,20


### 2. loc로 데이터 추출하기

* loc로 추출 => 인덱스를 사용하여 데이터 추출

In [76]:
df.loc[0]

a     1
b    11
c    21
Name: 0, dtype: int64

In [77]:
df.loc[0:2]

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23


In [78]:
import pandas as pd
index= ['a','b','c','d','e','f','g','g','h','i']
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]}, index = index)
df

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


In [79]:
df.loc['g']

Unnamed: 0,a,b,c
g,7,17,27
g,8,18,28


* slicing

In [80]:
# slicing

df.loc['c':]

Unnamed: 0,a,b,c
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


* 특정 열과 행 추출

In [81]:
df.loc[['a','c'],['a','b']]

Unnamed: 0,a,b
a,1,11
c,3,13


### 3. iloc로 데이터 추출하기

In [82]:
import pandas as pd

df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 몇 번째 행과 열 추출

In [83]:
df.iloc[:5, [0,2]]

Unnamed: 0,a,c
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25


## [ 조건에 맞는 데이터 추출하기 ]

### 1. 

In [84]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 해당 열 추출

In [85]:
df[['a','c']]

Unnamed: 0,a,c
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25
5,6,26
6,7,27
7,8,28
8,9,29
9,10,30


* 조건에 맞는 데이터

In [86]:
df[df['a']>=3]

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


In [88]:
df[df['a']>=3][['a','c']]

Unnamed: 0,a,c
2,3,23
3,4,24
4,5,25
5,6,26
6,7,27
7,8,28
8,9,29
9,10,30


* 조건이 여러 개인 경우

In [93]:
df[(df['a']>=3) & (df['b']<16)]

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25


In [91]:
df[(df['a']>=3) | (df['b']<16)]

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


---

# 정렬

## [ sort_index/sort_values ]

### 1. index 기준 정렬

In [125]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})

* sort_index()

In [126]:
df.sort_index() # 내림차순 : df.sort_index(ascending=False)

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 정렬 결과 저장 : inplace

In [127]:
df.sort_index(ascending=False, inplace=True)
df

Unnamed: 0,a,b,c
9,10,20,30
8,9,19,29
7,8,18,28
6,7,17,27
5,6,16,26
4,5,15,25
3,4,14,24
2,3,13,23
1,2,12,22
0,1,11,21


* index 초기화 : reset_index
* 정렬을 새로하고 index를 다시 순차적으로 부여하고 싶은 경우

In [128]:
df.reset_index()

Unnamed: 0,index,a,b,c
0,9,10,20,30
1,8,9,19,29
2,7,8,18,28
3,6,7,17,27
4,5,6,16,26
5,4,5,15,25
6,3,4,14,24
7,2,3,13,23
8,1,2,12,22
9,0,1,11,21


* drop : 기존의 인덱스를 제거

In [129]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,a,b,c
0,10,20,30
1,9,19,29
2,8,18,28
3,7,17,27
4,6,16,26
5,5,15,25
6,4,14,24
7,3,13,23
8,2,12,22
9,1,11,21


### 2. 값(value) 기준 정렬

In [130]:
df = pd.DataFrame({'a':[2,3,2,7,4],
                   'b':[2,1,3,5,3],
                   'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,3,2
3,7,5,3
4,4,3,5


* sort_values(by)

In [131]:
# a열을 기준으로 오름차순 정렬

df.sort_values(by=['a'], inplace=True)
df

Unnamed: 0,a,b,c
0,2,2,1
2,2,3,2
1,3,1,1
4,4,3,5
3,7,5,3


* 각 열마다 ascending의 기준이 다른 경우

In [132]:
df.sort_values(by=['a','b'], ascending=[True, False], inplace=True)
df

Unnamed: 0,a,b,c
2,2,3,2
0,2,2,1
1,3,1,1
4,4,3,5
3,7,5,3


---

# 결측치 처리

## [ 결측값 처리 ]

### 1. 결측치 유무 확인

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[2,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,2,,2
3,7,5.0,3
4,4,3.0,5


* isnull() : 원소별 결측치 확인

In [2]:
df.isnull()

Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,False
4,False,False,False


In [3]:
df.isnull().sum()

a    0
b    1
c    0
dtype: int64

* isnull().any() : 결측치가 있는 열 확인

In [4]:
list(df.isnull().any())

[False, True, False]

### 2. 결측치 처리

* dropna() : 결측치가 있는 행 지우기

In [5]:
df1 = df.copy()
df1.dropna(inplace=True) # index는 수정되지 않음 => reset_index
df1

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
3,7,5.0,3
4,4,3.0,5


In [6]:
df1.reset_index(drop=True, inplace=True)
df1

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,7,5.0,3
3,4,3.0,5


* dropna(axis=1) : 결측치가 있는 열 지우기

In [7]:
df2 = df.copy()
df2.dropna(axis=1, inplace=True)
df2

Unnamed: 0,a,c
0,2,1
1,3,1
2,2,2
3,7,3
4,4,5


* fillna() : 결측치 특정 값으로 대체하기

In [8]:
df3 = df.copy()
df3.fillna(0, inplace=True)
df3

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,2,0.0,2
3,7,5.0,3
4,4,3.0,5


* fillna(method) : 위(ffill)나 아래(bfill)의 값으로 채우기

In [9]:
df4 = pd.DataFrame({'a':[np.NAN,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,np.NAN]})
df4.fillna(method='bfill') # df4.fillna(method='ffill')
df4

Unnamed: 0,a,b,c
0,,2.0,1.0
1,3.0,1.0,1.0
2,2.0,,2.0
3,7.0,5.0,3.0
4,4.0,3.0,


In [10]:
df4 = pd.DataFrame({'a':[np.NAN,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,np.NAN]})
df4.fillna(method='bfill', limit=1) # limit : 시행 횟수

Unnamed: 0,a,b,c
0,3.0,2.0,1.0
1,3.0,1.0,1.0
2,2.0,5.0,2.0
3,7.0,5.0,3.0
4,4.0,3.0,


* 임의의 값으로 대체

In [11]:
df4['a'].fillna(df4['a'].mean())

0    4.0
1    3.0
2    2.0
3    7.0
4    4.0
Name: a, dtype: float64

In [12]:
df4.mean()

a    4.00
b    2.75
c    1.75
dtype: float64

In [13]:
df4.fillna(df4.mean())

Unnamed: 0,a,b,c
0,4.0,2.0,1.0
1,3.0,1.0,1.0
2,2.0,2.75,2.0
3,7.0,5.0,3.0
4,4.0,3.0,1.75


* 특정 열만 결측치 채우기

In [14]:
df4.fillna(df.mean()[['b','c']])

Unnamed: 0,a,b,c
0,,2.0,1.0
1,3.0,1.0,1.0
2,2.0,2.75,2.0
3,7.0,5.0,3.0
4,4.0,3.0,2.4


---

# 타입 변환

## [ 타입 변환 ]

In [15]:
import pandas as pd

df = pd.DataFrame({'판매일':['5/11/21', '5/12/21','5/13/21', '5/14/21', '5/15/21'],
                   '판매량':['10','15','20','25','30'],
                   '방문자수':['10','-','17','23','25'],
                   '기온':['24.1','24.3','24.8','25','25.4']})
df

Unnamed: 0,판매일,판매량,방문자수,기온
0,5/11/21,10,10,24.1
1,5/12/21,15,-,24.3
2,5/13/21,20,17,24.8
3,5/14/21,25,23,25.0
4,5/15/21,30,25,25.4


In [16]:
df.dtypes

판매일     object
판매량     object
방문자수    object
기온      object
dtype: object

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      object
 2   방문자수    5 non-null      object
 3   기온      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


### 1. 숫자 변환

* astype({컬럼명 : 데이터 타입})
* inplace가 지원되지 않으므로 df를 재정의

In [18]:
df = df.astype({'판매량':'int'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      int32 
 2   방문자수    5 non-null      object
 3   기온      5 non-null      object
dtypes: int32(1), object(3)
memory usage: 268.0+ bytes


In [19]:
df['판매량 보정'] = df['판매량']+1
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,-,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


* pd.to_numeric(, errors= )결측치나 숫자로 변환되지 않는 경우에 사용
* errors = 'coerce' : 에러가 발생하면 NAN으로

In [20]:
df['방문자수'] = pd.to_numeric(df['방문자수'], errors='coerce')
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10.0,24.1,11
1,5/12/21,15,,24.3,16
2,5/13/21,20,17.0,24.8,21
3,5/14/21,25,23.0,25.0,26
4,5/15/21,30,25.0,25.4,31


In [21]:
df.fillna(method='bfill', inplace=True)
df = df.astype({'방문자수' : 'int'})
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,17,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      int32 
 2   방문자수    5 non-null      int32 
 3   기온      5 non-null      object
 4   판매량 보정  5 non-null      int32 
dtypes: int32(3), object(2)
memory usage: 268.0+ bytes


### 2. 날짜 변환
* pd.to_datetime(, format) : format 형태에 따라 날짜 형태로 변환

In [23]:
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,17,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


In [24]:
df['판매일'] = pd.to_datetime(df['판매일'], format='%m/%d/%y')
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,2021-05-11,10,10,24.1,11
1,2021-05-12,15,17,24.3,16
2,2021-05-13,20,17,24.8,21
3,2021-05-14,25,23,25.0,26
4,2021-05-15,30,25,25.4,31


In [25]:
df.dtypes

판매일       datetime64[ns]
판매량                int32
방문자수               int32
기온                object
판매량 보정             int32
dtype: object

---

# 데이터 변환

## [ 레코드/칼럼 추가 및 삭제  ]

### 1. 칼럼 추가 및 삭제

In [26]:
import pandas as pd

df = pd.DataFrame({'a':[2,3,2,7,4],'b':[2,1,4,5,3],'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


* 칼럼 추가

In [27]:
df['d'] = [1,3,4,6,8]
df

Unnamed: 0,a,b,c,d
0,2,2,1,1
1,3,1,1,3
2,2,4,2,4
3,7,5,3,6
4,4,3,5,8


In [28]:
# 같은 값이면 그냥 숫자로도 가능

df['e'] = 1
df

Unnamed: 0,a,b,c,d,e
0,2,2,1,1,1
1,3,1,1,3,1
2,2,4,2,4,1
3,7,5,3,6,1
4,4,3,5,8,1


* drop(axis=1) : 칼럼 삭제

In [29]:
df.drop(['d','e'], axis=1, inplace = True)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


### 2. 레코드 추가 및 삭제
* 레코드 추가 : append(ignore_index=True)

In [30]:
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


In [31]:
df = df.append({'a':1,'b':2,'c':3}, ignore_index=True)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3


* 레코드 추가 : loc

In [32]:
df.loc[7] = [7,8,9]
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3
7,7,8,9


* 레코드 삭제

In [33]:
df = df.drop(7)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3


In [34]:
df = df.drop([3, 5])
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
4,4,3,5


* df.drop(df.index) : **인덱스를 이용해 레코드 삭제**

In [35]:
df = df.drop(df.index[:2])
df

Unnamed: 0,a,b,c
2,2,4,2
4,4,3,5


* 인덱스를 이용하면 조건을 사용해 제거할 수 있음

In [36]:
df = pd.DataFrame({'a':[2,3,2,7,4],'b':[2,1,4,5,3],'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


In [39]:
df = df.drop(df[(df['a']>=3)|(df['b']<=2)].index)
df

Unnamed: 0,a,b,c
2,2,4,2


## [ apply.map으로 데이터 변환 ]

### 1. 조건에 맞는 데이터 직접 수정하기

In [40]:
df = pd.DataFrame({'a':[1,2,3,4,5]})
df['b']=0
df

Unnamed: 0,a,b
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0


In [42]:
df_a = df[df['a']<2]
df_a.index

Int64Index([0], dtype='int64')

In [45]:
df['b'][df_a.index] = '2미만'
df

Unnamed: 0,a,b
0,1,2미만
1,2,0
2,3,0
3,4,0
4,5,0


### 2. apply 함수 이용하기

* 적용할 함수 정의

In [60]:
def case_function(x):
    if x <2:
        return '2미만'
    elif x<4:
        return '4미만'
    else:
        return ' 4이상'

* apply 함수로 정의한 함수 적용

In [62]:
df = pd.DataFrame({'a':[1,2,3,4,5]})
df['b']=0
df

Unnamed: 0,a,b
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0


In [66]:
df['c'] = df['a'].apply(case_function)
df

Unnamed: 0,a,b,c
0,1,0,2미만
1,2,0,4미만
2,3,0,4미만
3,4,0,4이상
4,5,0,4이상


### 3. map 함수 이용하기

In [67]:
df = pd.DataFrame({'a':[1,2,3,4,5]})
df['b']=0
df

Unnamed: 0,a,b
0,1,0
1,2,0
2,3,0
3,4,0
4,5,0


In [68]:
mp = {1:'one',2:'two',3:'three',4:'four',5:'five'}

df['e'] = df['a'].map(mp)
df

Unnamed: 0,a,b,e
0,1,0,one
1,2,0,two
2,3,0,three
3,4,0,four
4,5,0,five


---

# 데이터프레임 결합

## [ 상하 결합 ]

### 1. pd.concat 이용하기

* 컬럼이 동일한 데이터 프레임
  * pd.concat([]) : 순서대로 아래로 데이터프레임 결함
  * 기존의 데이터프레임에서의 인덱스를 가지고 옴

In [69]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[11,12,13], 'C':[21,22,23]})
df2 = pd.DataFrame({'A':[4,5,6], 'B':[14,15,16], 'C':[24,25,26]})

In [70]:
pd.concat([df1,df2])

Unnamed: 0,A,B,C
0,1,11,21
1,2,12,22
2,3,13,23
0,4,14,24
1,5,15,25
2,6,16,26


In [72]:
pd.concat([df2,df1])

Unnamed: 0,A,B,C
0,4,14,24
1,5,15,25
2,6,16,26
0,1,11,21
1,2,12,22
2,3,13,23


* index 초기화

In [73]:
pd.concat([df2,df1], ignore_index=True)

Unnamed: 0,A,B,C
0,4,14,24
1,5,15,25
2,6,16,26
3,1,11,21
4,2,12,22
5,3,13,23


* 컬럼이 다른 데이터프레임
  * join을 이용해 outer/inner 적용

In [74]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[11,12,13], 'C':[21,22,23]})
df2 = pd.DataFrame({'A':[4,5,6], 'B':[14,15,16], 'D':[24,25,26]})

In [75]:
# outer join과 결과 동일

pd.concat([df1,df2]) # pd.concat([df1,df2], join= 'outer')

Unnamed: 0,A,B,C,D
0,1,11,21.0,
1,2,12,22.0,
2,3,13,23.0,
0,4,14,,24.0
1,5,15,,25.0
2,6,16,,26.0


In [77]:
pd.concat([df1,df2], join= 'inner')

Unnamed: 0,A,B
0,1,11
1,2,12
2,3,13
0,4,14
1,5,15
2,6,16


## [ 좌우 결합 ]

### 1. pd.concat 이용하기

* pd.concat(axis=1)

In [90]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[11,12,13], 'C':[21,22,23]})
df2 = pd.DataFrame({'D':[4,5,6], 'E':[14,15,16], 'F':[24,25,26]})

In [91]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,A,B,C,D,E,F
0,1,11,21,4,14,24
1,2,12,22,5,15,25
2,3,13,23,6,16,26


* ID는 데이터프레임에 동일한 컬럼
* merge(how, on) 이용
  * how : left/right(기준에 따라 왼쪽/오른쪽 데이터프레임 기준으로), inner(기준에 따라 동일 값을 가진 경우만)
  * on : 기준

In [92]:
df1 = pd.DataFrame({'ID':[1,2,3], '성별':['F','F','M'], '나이':[21,42,33]})
df2 = pd.DataFrame({'ID':[2,3,4], '키':[174,153,160], '몸무게':[64,55,76]})

In [93]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,ID,성별,나이,ID.1,키,몸무게
0,1,F,21,2,174,64
1,2,F,42,3,153,55
2,3,M,33,4,160,76


In [95]:
pd.merge(df1,df2, how='left', on='ID')

Unnamed: 0,ID,성별,나이,키,몸무게
0,1,F,21,,
1,2,F,42,174.0,64.0
2,3,M,33,153.0,55.0


In [94]:
pd.merge(df1,df2, how='inner', on='ID')

Unnamed: 0,ID,성별,나이,키,몸무게
0,2,F,42,174,64
1,3,M,33,153,55


## [ 그룹화 ]

### 1. 특정 컬럼 하나를 통한 그룹화

In [96]:
df1= pd.DataFrame({'ID':[1,2,3,4,5], '가입일':['2021-01-02','2021-01-04','2021-01-10','2021-02-10','2021-02-24'], '성별':['F','M','F','M','M']})
df2= pd.DataFrame({'구매순서':[1,2,3,4,5],'ID':[1,1,2,4,1], '구매월':[1,1,2,2,3],'금액':[1000,1500,2500,2000,4000]})
df1,df2

(   ID         가입일 성별
 0   1  2021-01-02  F
 1   2  2021-01-04  M
 2   3  2021-01-10  F
 3   4  2021-02-10  M
 4   5  2021-02-24  M,
    구매순서  ID  구매월    금액
 0     1   1    1  1000
 1     2   1    1  1500
 2     3   2    2  2500
 3     4   4    2  2000
 4     5   1    3  4000)

In [97]:
pd.merge(df1,df2, how='left', on='ID')

Unnamed: 0,ID,가입일,성별,구매순서,구매월,금액
0,1,2021-01-02,F,1.0,1.0,1000.0
1,1,2021-01-02,F,2.0,1.0,1500.0
2,1,2021-01-02,F,5.0,3.0,4000.0
3,2,2021-01-04,M,3.0,2.0,2500.0
4,3,2021-01-10,F,,,
5,4,2021-02-10,M,4.0,2.0,2000.0
6,5,2021-02-24,M,,,


* 그룹화 : '각 회원의 누적 금액'과 같은 집계
* groupby(by=기준)[집계할 컬럼].집계함수()

In [98]:
df2.groupby(by=['ID'])['금액'].sum()

ID
1    6500
2    2500
4    2000
Name: 금액, dtype: int64

In [99]:
s = df2.groupby(by=['ID'])['금액'].sum()
pd.merge(df1, s, how='left', on='ID')

Unnamed: 0,ID,가입일,성별,금액
0,1,2021-01-02,F,6500.0
1,2,2021-01-04,M,2500.0
2,3,2021-01-10,F,
3,4,2021-02-10,M,2000.0
4,5,2021-02-24,M,


### 2. 여러 컬럼을 통한 그룹화

* 그룹의 기준이 여러 개인 경우
  * by[컬럼1, 컬럼2 ..]

In [100]:
df2.groupby(by=['ID','구매월'])['금액'].sum()

ID  구매월
1   1      2500
    3      4000
2   2      2500
4   2      2000
Name: 금액, dtype: int64

* '구매월' 이라는 기준 하나가 결측
  * Series를 DataFrame으로 변환하여 진행

In [101]:
s2 = df2.groupby(by=['ID','구매월'])['금액'].sum()
pd.merge(df1, s2, how='left', on='ID')

Unnamed: 0,ID,가입일,성별,금액
0,1,2021-01-02,F,2500.0
1,1,2021-01-02,F,4000.0
2,2,2021-01-04,M,2500.0
3,3,2021-01-10,F,
4,4,2021-02-10,M,2000.0
5,5,2021-02-24,M,


In [103]:
# 그룹화한 기준이 인덱스로 들어감

s2 = df2.groupby(by=['ID','구매월'])['금액'].sum()
df3 = pd.DataFrame(s2)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,금액
ID,구매월,Unnamed: 2_level_1
1,1,2500
1,3,4000
2,2,2500
4,2,2000


In [105]:
# 2차원 인덱스

df3.index

MultiIndex([(1, 1),
            (1, 3),
            (2, 2),
            (4, 2)],
           names=['ID', '구매월'])

In [107]:
pd.merge(df1, df3, how='left', on='ID')

Unnamed: 0,ID,가입일,성별,금액
0,1,2021-01-02,F,2500.0
1,1,2021-01-02,F,4000.0
2,2,2021-01-04,M,2500.0
3,3,2021-01-10,F,
4,4,2021-02-10,M,2000.0
5,5,2021-02-24,M,


* as_index = False : 그룹화된 인덱스를 적용해도 필요한 컬럼이 생기지 않으므로 제거

In [110]:
# 그룹화 인덱스 제거

s3 = df2.groupby(['ID', '구매월'], as_index=False)['금액'].sum()
s3

Unnamed: 0,ID,구매월,금액
0,1,1,2500
1,1,3,4000
2,2,2,2500
3,4,2,2000


In [111]:
pd.merge(df1, s3, how='left', on='ID')

Unnamed: 0,ID,가입일,성별,구매월,금액
0,1,2021-01-02,F,1.0,2500.0
1,1,2021-01-02,F,3.0,4000.0
2,2,2021-01-04,M,2.0,2500.0
3,3,2021-01-10,F,,
4,4,2021-02-10,M,2.0,2000.0
5,5,2021-02-24,M,,


### 3. 특정 컬럼 하나 그룹화를 통한 여러 집계
* 단순 집계 : .특정함수
* 여러 집계 : .agg([함수1, 함수2..])

In [134]:
df= pd.DataFrame({'구매순서':[1,2,3,4,5],'ID':[1,1,2,4,1], '구매월':[1,1,2,2,3],'금액':[1000,1500,2500,2000,4000], '수수료':[100,150,200,250,300]})
df

Unnamed: 0,구매순서,ID,구매월,금액,수수료
0,1,1,1,1000,100
1,2,1,1,1500,150
2,3,2,2,2500,200
3,4,4,2,2000,250
4,5,1,3,4000,300


In [135]:
# 각 회원마다 누적 금액과 횟수

s1 = df.groupby(by=['ID'], as_index=False)['금액'].agg([sum,len])
s1.reset_index()

Unnamed: 0,ID,sum,len
0,1,6500,3
1,2,2500,1
2,4,2000,1


* 여러 집계에서 다양한 결과를 보고 싶은 경우(min, max, avg)
  * multi index이므로 컬럼명을 변환해 주어야 함

In [136]:
# 각 회원의 최대/최소 구매금액과 최소 수수료

s2 = df.groupby(by=['ID']).agg({'금액':[min,max], '수수료':[min]})
s2.reset_index()

Unnamed: 0_level_0,ID,금액,금액,수수료
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,min
0,1,1000,4000,100
1,2,2500,2500,200
2,4,2000,2000,250


In [137]:
# multi index

s2.columns

MultiIndex([( '금액', 'min'),
            ( '금액', 'max'),
            ('수수료', 'min')],
           )

In [138]:
s2.columns.values

array([('금액', 'min'), ('금액', 'max'), ('수수료', 'min')], dtype=object)

In [139]:
# ''.join으로 인덱스 합치기

s2.columns = ['_'.join(_col) for _col in s2.columns.values] # s2.columns이면 이상하게 나옴
s2.reset_index(inplace=True)
s2

Unnamed: 0,ID,금액_min,금액_max,수수료_min
0,1,1000,4000,100
1,2,2500,2500,200
2,4,2000,2000,250


## [ 피벗 테이블]

### 1. 피벗테이블
* pd.pivot_table(dataframe, values, index, columns) : 어떤 dataframe에 대해 인덱스는 index로, 컬럼은 columns를 갖는 테이블에 값을 각 index와 columns에 해당하는 values값으로 채우기

In [145]:
import pandas as pd

df = pd.DataFrame({'가입월':[1,1,1,2,2,3], '탈퇴월':[1,2,3,2,3,3], '탈퇴회원수':[101,52,30,120,60,130]})
df

Unnamed: 0,가입월,탈퇴월,탈퇴회원수
0,1,1,101
1,1,2,52
2,1,3,30
3,2,2,120
4,2,3,60
5,3,3,130


In [146]:
pivot = pd.pivot_table(df, values='탈퇴회원수', index=['가입월'], columns=['탈퇴월'])
pivot

탈퇴월,1,2,3
가입월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,101.0,52.0,30.0
2,,120.0,60.0
3,,,130.0


* NAN을 채우기

In [147]:
pd.pivot_table(df, values='탈퇴회원수', index='가입월', columns='탈퇴월', fill_value=0)

탈퇴월,1,2,3
가입월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,101,52,30
2,0,120,60
3,0,0,130


### 2. 피벗테이블에서 집계하기

* 임의의 데이터 만들기 : random

In [148]:
# 임의의 값 만들기

import random

random.randint(1,3) # 1,2,3 중에서 값을 랜덤하게 추출

2

In [152]:
a = []
b = []
for i in range(100):
    a.append(random.randint(1,3))
    b.append(random.randint(1,3))

In [153]:
df = pd.DataFrame({'품목':a , '크기': b})
df

Unnamed: 0,품목,크기
0,1,1
1,3,1
2,1,1
3,3,1
4,3,2
...,...,...
95,1,1
96,2,2
97,2,3
98,2,2


In [154]:
df['금액'] = df['품목']*df['크기']*500
df['수수료'] = df['금액'] * 0.1
df

Unnamed: 0,품목,크기,금액,수수료
0,1,1,500,50.0
1,3,1,1500,150.0
2,1,1,500,50.0
3,3,1,1500,150.0
4,3,2,3000,300.0
...,...,...,...,...
95,1,1,500,50.0
96,2,2,2000,200.0
97,2,3,3000,300.0
98,2,2,2000,200.0


* map

In [155]:
fruit_name = {1 : '토마토', 2 : '바나나', 3: '사과'}
fruit_size = {1 : '소', 2 : '중', 3: '대'}

df['품목'] = df['품목'].map(fruit_name)
df['크기'] = df['크기'].map(fruit_size)

df

Unnamed: 0,품목,크기,금액,수수료
0,토마토,소,500,50.0
1,사과,소,1500,150.0
2,토마토,소,500,50.0
3,사과,소,1500,150.0
4,사과,중,3000,300.0
...,...,...,...,...
95,토마토,소,500,50.0
96,바나나,중,2000,200.0
97,바나나,대,3000,300.0
98,바나나,중,2000,200.0


* pivot table 만들기
  * 여러 집계 : aggfunc

In [159]:
# 품목과 크기별로 갯수와 금액

pd.pivot_table(df, values='금액', index=['품목'], columns=['크기'], aggfunc=['count','sum'])

Unnamed: 0_level_0,count,count,count,sum,sum,sum
크기,대,소,중,대,소,중
품목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
바나나,16,5,13,48000,5000,26000
사과,4,8,7,18000,12000,21000
토마토,12,18,17,18000,9000,17000


In [160]:
# 품목별, 크기별 판매개수 / 판매금액과 수수료의 합

pd.pivot_table(df, index=['품목'], columns=['크기'], aggfunc={'금액' :['count', 'sum'], '수수료': ['sum']})

Unnamed: 0_level_0,금액,금액,금액,금액,금액,금액,수수료,수수료,수수료
Unnamed: 0_level_1,count,count,count,sum,sum,sum,sum,sum,sum
크기,대,소,중,대,소,중,대,소,중
품목,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
바나나,16,5,13,48000,5000,26000,4800.0,500.0,2600.0
사과,4,8,7,18000,12000,21000,1800.0,1200.0,2100.0
토마토,12,18,17,18000,9000,17000,1800.0,900.0,1700.0


---

# 파일 호출 및 저장

## [ 파일 호출 : pd.read_csv ]

### 1. 인덱스가 이미 있는 csv파일

In [167]:
import pandas as pd

df = pd.read_csv('../Data/Preprocessing/과일가게.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,품목,크기,금액,수수료
0,0,바나나,중,2000,200.0
1,1,바나나,대,3000,300.0
2,2,바나나,중,2000,200.0
3,3,토마토,대,1500,150.0
4,4,토마토,소,500,50.0


* index_col : 데이터 내에서 인덱스가 있을 경우 어떤 컬럼을 사용할 것인지
  * 인덱스가 새로 생기는 것을 방지

In [166]:
df = pd.read_csv('../Data/Preprocessing/과일가게.csv', index_col=0)
df.head()

Unnamed: 0,품목,크기,금액,수수료
0,바나나,중,2000,200.0
1,바나나,대,3000,300.0
2,바나나,중,2000,200.0
3,토마토,대,1500,150.0
4,토마토,소,500,50.0


### 2. ','로 구분된 csv가 아닌 파일

* 구분자가 일반적인 ','가 아닌 경우

In [169]:
df = pd.read_csv('../Data/Preprocessing/read_sep.txt', sep='|')
df

Unnamed: 0,index,A,B,C
0,0,1,11,21
1,1,2,12,22
2,2,3,13,23


In [168]:
df = pd.read_csv('../Data/Preprocessing/read_sep.txt', index_col=0, sep='|')
df

Unnamed: 0_level_0,A,B,C
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,11,21
1,2,12,22
2,3,13,23


### 3. Multi Header 파일인 경우

* Header가 여러 줄인 경우 => Multi Header
  * 데이터가 2행부터 있는게 아닌 경우

In [171]:
df = pd.read_csv('../Data/Preprocessing/read_multi_header.csv')
df

Unnamed: 0,A,B,C
0,a,b,c
1,1,11,21
2,2,12,22
3,3,13,23
4,4,14,24


In [174]:
df = pd.read_csv('../Data/Preprocessing/read_multi_header.csv', header=1)
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24


### 4. 데이터를 호출하면서 컬럼명을 추가하고 싶은 경우
* Header가 없이 1행부터 데이터가 있는 경우"

In [176]:
df = pd.read_csv('../Data/Preprocessing/make_column_name.csv')
df.head()

Unnamed: 0,0,바나나,중,2000,200.0
0,1,바나나,대,3000,300.0
1,2,바나나,중,2000,200.0
2,3,토마토,대,1500,150.0
3,4,토마토,소,500,50.0
4,5,바나나,중,2000,200.0


In [178]:
df = pd.read_csv('../Data/Preprocessing/make_column_name.csv', names = ['품목','크기','금액', '수수료'], index_col=1)
df.head()

Unnamed: 0,품목,크기,금액,수수료
바나나,0,중,2000,200.0
바나나,1,대,3000,300.0
바나나,2,중,2000,200.0
토마토,3,대,1500,150.0
토마토,4,소,500,50.0


### 5. 컬럼 일부만 사용하고 싶은 경우

In [179]:
df = pd.read_csv('../Data/Preprocessing/과일가게.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,품목,크기,금액,수수료
0,0,바나나,중,2000,200.0
1,1,바나나,대,3000,300.0
2,2,바나나,중,2000,200.0
3,3,토마토,대,1500,150.0
4,4,토마토,소,500,50.0


* 자동으로 인덱스 컬럼이 지워지므로 새로 생김

In [181]:
df = pd.read_csv('../Data/Preprocessing/과일가게.csv', usecols = ['품목', '크기'])
df.head()

Unnamed: 0,품목,크기
0,바나나,중
1,바나나,대
2,바나나,중
3,토마토,대
4,토마토,소


## [ 파일 생성 ]

### 1. 파일 저장

In [182]:
df.to_csv('../Data/Preprocessing/과일가게_품목크기.csv')