# 데이터 프레임

## [ 데이터 프레임 ]

### 1. 데이터 프레임 생성
* dictionary로 생성하기

In [1]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})

print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


* list로 생성하기

In [2]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2

Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2

### 2. 컬럼명 지정
* dictionary

In [5]:
a = {'company' : ['abc','회사',123],
     '직원수': [400,10,6]}
df1= pd.DataFrame(a)
df1

Unnamed: 0,company,직원수
0,abc,400
1,회사,10
2,123,6


* list

In [4]:
a = [[1,4,7], [2,5,8], [3,6,9]]

df2 = pd.DataFrame(a)
df2.columns = ['A','B','C']
df2

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [6]:
import numpy as np

a = [[1,4,7], [2,5,8], [3,np.NAN,9]]

df2 = pd.DataFrame(a)
df2.columns = ['A','B','C']
df2

Unnamed: 0,A,B,C
0,1,4.0,7
1,2,5.0,8
2,3,,9


## [ 컬럼명 추출/변경 ]

### 1. 컬럼명 추출
* df.columns

In [7]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [8]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

* 컬럼명 indexing

In [9]:
df.columns[0]

'a'

### 2. 컬럼명 변환
* df.columns = []

In [10]:
df.columns = ['A','B','C']
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


* rename => df.rename(columns, inplace=True)

In [15]:
df = pd.DataFrame({'a':[1,2,3], 
                   'b':[4,5,6], 
                   'c':[7,8,9]})

df.rename(columns={'a':'A', 'b':'B'}, inplace=True) # inplace=True를 설정해 변경사항을 바로 적용
df

Unnamed: 0,A,B,c
0,1,4,7
1,2,5,8
2,3,6,9


## [ 데이터 복사 ]

### 1. copy => 다른 객체로 따로 복사함
* 수정 전 처음 데이터프레임으로 돌아가기 위해 하나 더 만들어 두는 것
* copy.deepcopy(df)

* 참고 : df2 = df1으로 하면 df1이 변경되면 따라서 같이 변경됨 => 동일 객체이므로

In [18]:
import copy

df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})
df2 = copy.deepcopy(df)

In [19]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [20]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [21]:
df.columns = ['A','B','C']
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [22]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


---

# 시리즈

## [ 시리즈 ]

### 1. 데이터프레임에서 열 추출

In [68]:
import pandas as pd

df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})

df['a']

0    1
1    2
2    3
Name: a, dtype: int64

In [69]:
type(df['a'])

pandas.core.series.Series

### 2. 시리즈 생성

In [70]:
a = pd.Series([1,2,3,1,2,3])
a

0    1
1    2
2    3
3    1
4    2
5    3
dtype: int64

### 3. 인덱스 변경

In [71]:
a = pd.Series([1,2,3,1,2,3], index = ['a','b','c','d','e','f'])
a

a    1
b    2
c    3
d    1
e    2
f    3
dtype: int64

In [72]:
a['e']

2

### 4. 유일한 값 찾기
* unique

In [73]:
a = pd.Series([1,2,3,1,2,3], index = ['a','b','c','d','e','f'])

print(a.unique())
print(a.unique()[2])

[1 2 3]
3


---

# 데이터 추출

## [ loc/iloc를 통한 데이터 추출 ]

### 1. list로 데이터 추출하기

In [74]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* [[컬럼명]]로 추출

In [75]:
df[['a','b']]

Unnamed: 0,a,b
0,1,11
1,2,12
2,3,13
3,4,14
4,5,15
5,6,16
6,7,17
7,8,18
8,9,19
9,10,20


### 2. loc로 데이터 추출하기

* loc로 추출 => 인덱스를 사용하여 데이터 추출

In [76]:
df.loc[0]

a     1
b    11
c    21
Name: 0, dtype: int64

In [77]:
df.loc[0:2]

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23


In [78]:
import pandas as pd
index= ['a','b','c','d','e','f','g','g','h','i']
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]}, index = index)
df

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


In [79]:
df.loc['g']

Unnamed: 0,a,b,c
g,7,17,27
g,8,18,28


* slicing

In [80]:
# slicing

df.loc['c':]

Unnamed: 0,a,b,c
c,3,13,23
d,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


* 특정 열과 행 추출

In [81]:
df.loc[['a','c'],['a','b']]

Unnamed: 0,a,b
a,1,11
c,3,13


### 3. iloc로 데이터 추출하기

In [82]:
import pandas as pd

df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 몇 번째 행과 열 추출

In [83]:
df.iloc[:5, [0,2]]

Unnamed: 0,a,c
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25


## [ 조건에 맞는 데이터 추출하기 ]

### 1. 

In [84]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 해당 열 추출

In [85]:
df[['a','c']]

Unnamed: 0,a,c
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25
5,6,26
6,7,27
7,8,28
8,9,29
9,10,30


* 조건에 맞는 데이터

In [86]:
df[df['a']>=3]

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


In [88]:
df[df['a']>=3][['a','c']]

Unnamed: 0,a,c
2,3,23
3,4,24
4,5,25
5,6,26
6,7,27
7,8,28
8,9,29
9,10,30


* 조건이 여러 개인 경우

In [93]:
df[(df['a']>=3) & (df['b']<16)]

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25


In [91]:
df[(df['a']>=3) | (df['b']<16)]

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


---

# 정렬

## [ sort_index/sort_values ]

### 1. index 기준 정렬

In [125]:
import pandas as pd
df = pd.DataFrame({'a': [i for i in range(1,11)],
                  'b': [i for i in range(11,21)],
                  'c': [i for i in range(21,31)]})

* sort_index()

In [126]:
df.sort_index() # 내림차순 : df.sort_index(ascending=False)

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


* 정렬 결과 저장 : inplace

In [127]:
df.sort_index(ascending=False, inplace=True)
df

Unnamed: 0,a,b,c
9,10,20,30
8,9,19,29
7,8,18,28
6,7,17,27
5,6,16,26
4,5,15,25
3,4,14,24
2,3,13,23
1,2,12,22
0,1,11,21


* index 초기화 : reset_index
* 정렬을 새로하고 index를 다시 순차적으로 부여하고 싶은 경우

In [128]:
df.reset_index()

Unnamed: 0,index,a,b,c
0,9,10,20,30
1,8,9,19,29
2,7,8,18,28
3,6,7,17,27
4,5,6,16,26
5,4,5,15,25
6,3,4,14,24
7,2,3,13,23
8,1,2,12,22
9,0,1,11,21


* drop : 기존의 인덱스를 제거

In [129]:
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,a,b,c
0,10,20,30
1,9,19,29
2,8,18,28
3,7,17,27
4,6,16,26
5,5,15,25
6,4,14,24
7,3,13,23
8,2,12,22
9,1,11,21


### 2. 값(value) 기준 정렬

In [130]:
df = pd.DataFrame({'a':[2,3,2,7,4],
                   'b':[2,1,3,5,3],
                   'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,3,2
3,7,5,3
4,4,3,5


* sort_values(by)

In [131]:
# a열을 기준으로 오름차순 정렬

df.sort_values(by=['a'], inplace=True)
df

Unnamed: 0,a,b,c
0,2,2,1
2,2,3,2
1,3,1,1
4,4,3,5
3,7,5,3


* 각 열마다 ascending의 기준이 다른 경우

In [132]:
df.sort_values(by=['a','b'], ascending=[True, False], inplace=True)
df

Unnamed: 0,a,b,c
2,2,3,2
0,2,2,1
1,3,1,1
4,4,3,5
3,7,5,3


---

# 결측치 처리

## [ 결측값 처리 ]

### 1. 결측치 유무 확인

In [141]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[2,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,2,,2
3,7,5.0,3
4,4,3.0,5


* isnull() : 원소별 결측치 확인

In [142]:
df.isnull()

Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,False
4,False,False,False


In [143]:
df.isnull().sum()

a    0
b    1
c    0
dtype: int64

* isnull().any() : 결측치가 있는 열 확인

In [144]:
list(df.isnull().any())

[False, True, False]

### 2. 결측치 처리

* dropna() : 결측치가 있는 행 지우기

In [145]:
df1 = df.copy()
df1.dropna(inplace=True) # index는 수정되지 않음 => reset_index
df1

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
3,7,5.0,3
4,4,3.0,5


In [146]:
df1.reset_index(drop=True, inplace=True)
df1

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,7,5.0,3
3,4,3.0,5


* dropna(axis=1) : 결측치가 있는 열 지우기

In [147]:
df2 = df.copy()
df2.dropna(axis=1, inplace=True)
df2

Unnamed: 0,a,c
0,2,1
1,3,1
2,2,2
3,7,3
4,4,5


* fillna() : 결측치 특정 값으로 대체하기

In [148]:
df3 = df.copy()
df3.fillna(0, inplace=True)
df3

Unnamed: 0,a,b,c
0,2,2.0,1
1,3,1.0,1
2,2,0.0,2
3,7,5.0,3
4,4,3.0,5


* fillna(method) : 위(ffill)나 아래(bfill)의 값으로 채우기

In [151]:
df4 = pd.DataFrame({'a':[np.NAN,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,np.NAN]})
df4.fillna(method='bfill') # df4.fillna(method='ffill')
df4

Unnamed: 0,a,b,c
0,,2.0,1.0
1,3.0,1.0,1.0
2,2.0,,2.0
3,7.0,5.0,3.0
4,4.0,3.0,


In [153]:
df4 = pd.DataFrame({'a':[np.NAN,3,2,7,4],
                   'b':[2,1,np.NAN,5,3],
                   'c':[1,1,2,3,np.NAN]})
df4.fillna(method='bfill', limit=1) # limit : 시행 횟수

Unnamed: 0,a,b,c
0,3.0,2.0,1.0
1,3.0,1.0,1.0
2,2.0,5.0,2.0
3,7.0,5.0,3.0
4,4.0,3.0,


* 임의의 값으로 대체

In [159]:
df4['a'].fillna(df4['a'].mean())

0    4.0
1    3.0
2    2.0
3    7.0
4    4.0
Name: a, dtype: float64

In [161]:
df4.mean()

a    4.00
b    2.75
c    1.75
dtype: float64

In [162]:
df4.fillna(df4.mean())

Unnamed: 0,a,b,c
0,4.0,2.0,1.0
1,3.0,1.0,1.0
2,2.0,2.75,2.0
3,7.0,5.0,3.0
4,4.0,3.0,1.75


* 특정 열만 결측치 채우기

In [163]:
df4.fillna(df.mean()[['b','c']])

Unnamed: 0,a,b,c
0,,2.0,1.0
1,3.0,1.0,1.0
2,2.0,2.75,2.0
3,7.0,5.0,3.0
4,4.0,3.0,2.4


---

# 타입 변환

## [ 타입 변환 ]

In [164]:
import pandas as pd

df = pd.DataFrame({'판매일':['5/11/21', '5/12/21','5/13/21', '5/14/21', '5/15/21'],
                   '판매량':['10','15','20','25','30'],
                   '방문자수':['10','-','17','23','25'],
                   '기온':['24.1','24.3','24.8','25','25.4']})
df

Unnamed: 0,판매일,판매량,방문자수,기온
0,5/11/21,10,10,24.1
1,5/12/21,15,-,24.3
2,5/13/21,20,17,24.8
3,5/14/21,25,23,25.0
4,5/15/21,30,25,25.4


In [166]:
df.dtypes

판매일     object
판매량     object
방문자수    object
기온      object
dtype: object

In [168]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      object
 2   방문자수    5 non-null      object
 3   기온      5 non-null      object
dtypes: object(4)
memory usage: 288.0+ bytes


### 1. 숫자 변환

* astype({컬럼명 : 데이터 타입})
* inplace가 지원되지 않으므로 df를 재정의

In [171]:
df = df.astype({'판매량':'int'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      int32 
 2   방문자수    5 non-null      object
 3   기온      5 non-null      object
dtypes: int32(1), object(3)
memory usage: 268.0+ bytes


In [173]:
df['판매량 보정'] = df['판매량']+1
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,-,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


* pd.to_numeric(, errors= )결측치나 숫자로 변환되지 않는 경우에 사용
* errors = 'coerce' : 에러가 발생하면 NAN으로

In [174]:
df['방문자수'] = pd.to_numeric(df['방문자수'], errors='coerce')
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10.0,24.1,11
1,5/12/21,15,,24.3,16
2,5/13/21,20,17.0,24.8,21
3,5/14/21,25,23.0,25.0,26
4,5/15/21,30,25.0,25.4,31


In [175]:
df.fillna(method='bfill', inplace=True)
df = df.astype({'방문자수' : 'int'})
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,17,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


In [176]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   판매일     5 non-null      object
 1   판매량     5 non-null      int32 
 2   방문자수    5 non-null      int32 
 3   기온      5 non-null      object
 4   판매량 보정  5 non-null      int32 
dtypes: int32(3), object(2)
memory usage: 268.0+ bytes


### 2. 날짜 변환
* pd.to_datetime(, format) : format 형태에 따라 날짜 형태로 변환

In [177]:
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,17,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


In [179]:
df['판매일'] = pd.to_datetime(df['판매일'], format='%m/%d/%y')
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,2021-05-11,10,10,24.1,11
1,2021-05-12,15,17,24.3,16
2,2021-05-13,20,17,24.8,21
3,2021-05-14,25,23,25.0,26
4,2021-05-15,30,25,25.4,31


In [181]:
df.dtypes

판매일       datetime64[ns]
판매량                int32
방문자수               int32
기온                object
판매량 보정             int32
dtype: object

---

# 레코드/칼럼 추가 및 삭제

## [ 레코드/칼럼 추가 및 삭제  ]

### 1. 칼럼 추가 및 삭제

In [182]:
import pandas as pd

df = pd.DataFrame({'a':[2,3,2,7,4],'b':[2,1,4,5,3],'c':[1,1,2,3,5]})
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


* 칼럼 추가

In [183]:
df['d'] = [1,3,4,6,8]
df

Unnamed: 0,a,b,c,d
0,2,2,1,1
1,3,1,1,3
2,2,4,2,4
3,7,5,3,6
4,4,3,5,8


In [185]:
# 같은 값이면 그냥 숫자로도 가능

df['e'] = 1
df

Unnamed: 0,a,b,c,d,e
0,2,2,1,1,1
1,3,1,1,3,1
2,2,4,2,4,1
3,7,5,3,6,1
4,4,3,5,8,1


* drop(axis=1) : 칼럼 삭제

In [187]:
df.drop(['d','e'], axis=1, inplace = True)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


### 2. 레코드 추가 및 삭제
* 레코드 추가 : append(ignore_index=True)

In [188]:
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5


In [193]:
df = df.append({'a':1,'b':2,'c':3}, ignore_index=True)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3


* 레코드 추가 : loc

In [194]:
df.loc[7] = [7,8,9]
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3
7,7,8,9


* 레코드 삭제

In [195]:
df = df.drop(7)
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
3,7,5,3
4,4,3,5
5,1,2,3


In [197]:
df = df.drop([3, 5])
df

Unnamed: 0,a,b,c
0,2,2,1
1,3,1,1
2,2,4,2
4,4,3,5


* df.drop(df.index) : **인덱스를 이용해 레코드 삭제**

In [198]:
df = df.drop(df.index[:2])
df

Unnamed: 0,a,b,c
2,2,4,2
4,4,3,5


* 
* 인덱스를 이용하면 조건을 사용해 제거할 수 있음

---

# 데이터프레임 결합

## [  ]

### 1.

# 정렬

## [  ]

### 1.