# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작(가공)

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_values(), sort_index()
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min())
- 데이터 삭제 : drop(axis=0/1)
- 결측치 처리 : dropna(axis=0/1, subset, inplace)
- 데이터 변경 : 
    - 자료형 변경 : astype()
    - 수치형 데이터를 범주형 데이터로 변경 : 
        - 구간을 지정하여 범주화 : cut(data, bins, labels)
        - 동일한 개수를 갖도록 범주화 : qcut(data, bins_num, labels)
- 행/열에 동일한 함수 적용 : apply()

-------------------------------------

In [63]:
import numpy as np
import pandas as pd

In [64]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

## 4. 데이터 삭제

- **Series.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

- **DataFrame.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

### 1) 데이터프레임의 행 삭제

- df.drop(labels='행이름', axis=0, inplace=False(기본값)) : 행삭제
- df.drop(index=['행이름1', '행이름2',..])


- 행삭제 후 데이터프레임으로 결과 반환
     
     
- 원본에 반영되지 않으므로 원본수정하려면 저장해야 함
    - 객체변수로 저장하거나, 매개변수 inplace를 True로 지정

In [65]:
np.random.seed(1)
df1 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [66]:
df1['Total'] = df1.sum(axis=1)
df1.loc['colTotal']=df1.sum()
df1

Unnamed: 0,0,1,2,3,4,5,6,7,Total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
colTotal,24,33,25,24,15,10,5,16,152


- df1의 ColTotal 행 삭제

In [67]:
df1.drop(labels = 'colTotal', axis=0, inplace=True)
df1

Unnamed: 0,0,1,2,3,4,5,6,7,Total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


### 2) 데이터프레임의 열 삭제
- df.drop(labels='열이름', axis=1) : 열 삭제
- df.drop(columns=['열이름1', '열이름2',..])
- 행삭제 후 데이터프레임으로 결과 반환

In [68]:
df1.drop(labels='Total', axis=1, inplace=True)
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [69]:
df1['Total']=df1.sum(axis=1)
df1['colTotal']=df1.sum()
df1

Unnamed: 0,0,1,2,3,4,5,6,7,Total,colTotal
0,5,8,9,5,0,0,1,7,35,24
1,6,9,2,4,5,2,4,2,34,33
2,4,7,7,9,1,7,0,6,41,25
3,9,9,7,6,9,1,0,1,42,24


In [70]:
df1.drop(columns='colTotal')

Unnamed: 0,0,1,2,3,4,5,6,7,Total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [71]:
df1.loc['colTotal']=df1.sum()
df1

Unnamed: 0,0,1,2,3,4,5,6,7,Total,colTotal
0,5,8,9,5,0,0,1,7,35,24
1,6,9,2,4,5,2,4,2,34,33
2,4,7,7,9,1,7,0,6,41,25
3,9,9,7,6,9,1,0,1,42,24
colTotal,24,33,25,24,15,10,5,16,152,106


In [72]:
df1.drop(index='colTotal', columns=['Total', 'colTotal'])

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


-----------------------------------

## 5. 결측치 처리

: **NaN 값 처리** 함수

- **df.dropna(axis=0 또는 1, inplace=False)**
    - NaN값이 있는 열 또는 행을 삭제
    - 원본 반영되지 않음
    - inplace=True : 원본 데이터프레임 변경


- **df.fillna(0, inplace=False)**
    - NaN값을 정해진 숫자로 채움
    - 원본 반영 되지 않음

#### 결측치 적용

In [73]:
np.random.seed(10)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,9,4,0,1,9,0,1,8
1,9,0,8,6,4,3,0,4
2,6,8,1,8,4,1,3,6
3,5,3,9,6,9,1,9,4


In [74]:
df2.iloc[0,0] = np.nan #결측치가 들어가면 float로 바뀜
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0,1,9,0,1,8
1,9.0,0,8,6,4,3,0,4
2,6.0,8,1,8,4,1,3,6
3,5.0,3,9,6,9,1,9,4


In [75]:
df2.iloc[2,3]=np.nan
df2.iloc[1,2]=np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


### 0) 결측치 확인 : isna(), isnull() - detect missing value

In [76]:
df2.isna()

Unnamed: 0,0,1,2,3,4,5,6,7
0,True,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False
2,False,False,False,True,False,False,False,False
3,False,False,False,False,False,False,False,False


In [77]:
df2.isna().sum()

0    1
1    0
2    1
3    1
4    0
5    0
6    0
7    0
dtype: int64

### 1) 결측치 포함 행 삭제 : dropna()

- dropna(axis=0) 또는 dropna(axis='index')

In [78]:
df2.dropna() #완전 drop 하려면 inplace 써야함
df2

Unnamed: 0,0,1,2,3,4,5,6,7
3,5.0,3,9.0,6.0,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


### 2) 결측치 포함 열 삭제 : dropna(axis=1)

- dropna(axis=1) 또는 dropna(axis='columns')

In [79]:
df2.dropna(axis=1)
df2

Unnamed: 0,1,4,5,6,7
0,4,9,0,1,8
1,0,4,3,0,4
2,8,4,1,3,6
3,3,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [80]:
df2.dropna(axis=1, subset=[0]) #subset은 컬럼
df2

Unnamed: 0,1,2,3,4,5,6,7
0,4,0.0,1.0,9,0,1,8
1,0,,6.0,4,3,0,4
2,8,1.0,,4,1,3,6
3,3,9.0,6.0,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


### 3) 결측치를 다른 값으로 대체 : fillna() 함수

**결측치를 0으로 변경**

In [81]:
df2
df2.fillna(0) #na를 0으로 바꾸기

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,4,0.0,1.0,9,0,1,8
1,9.0,0,0.0,6.0,4,3,0,4
2,6.0,8,1.0,0.0,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


**결측치를 1로 변경**

In [82]:
df2.fillna(1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,1.0,4,0.0,1.0,9,0,1,8
1,9.0,0,1.0,6.0,4,3,0,4
2,6.0,8,1.0,1.0,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [83]:
df2.loc[1].fillna(0)

0    9.0
1    0.0
2    0.0
3    6.0
4    4.0
5    3.0
6    0.0
7    4.0
Name: 1, dtype: float64

**결측치를 평균으로 변경**

In [84]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [85]:
#컬럼 단위로 변경 - 3컬럼
df2[3].fillna(df2[3].mean(), inplace=True)
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [86]:
df2.fillna(method='bfill') #뒤의 값이 채워짐

  df2.fillna(method='bfill') #뒤의 값이 채워짐


Unnamed: 0,0,1,2,3,4,5,6,7
0,9.0,4,0.0,1.0,9,0,1,8
1,9.0,0,1.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [87]:
df2.fillna(method='ffill') #앞(위)의 값이 채워짐

  df2.fillna(method='ffill') #앞(위)의 값이 채워짐


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,0.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [88]:
df2.bfill()
df2.ffill()

Unnamed: 0,0,1,2,3,4,5,6,7
0,9.0,4,0.0,1.0,9,0,1,8
1,9.0,0,1.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,0.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


-------------------------------

## 6. 데이터의 변경

### 1) 데이터 자료형(dtype) 변경


**astype(데이터형)**

- astype({컬럼:dtype, ...})

In [89]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [90]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       3 non-null      float64
 1   1       4 non-null      int64  
 2   2       3 non-null      float64
 3   3       4 non-null      float64
 4   4       4 non-null      int64  
 5   5       4 non-null      int64  
 6   6       4 non-null      int64  
 7   7       4 non-null      int64  
dtypes: float64(3), int64(5)
memory usage: 388.0 bytes


#### 데이터를 정수형으로 변경 : astype(int)

In [91]:
df2.fillna(0).astype(int) #float로 되어있던건 잘라버림

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,4,0,1,9,0,1,8
1,9,0,0,6,4,3,0,4
2,6,8,1,4,4,1,3,6
3,5,3,9,6,9,1,9,4


In [92]:
df2[3]= df2[3].astype(int)
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1,9,0,1,8
1,9.0,0,,6,4,3,0,4
2,6.0,8,1.0,4,4,1,3,6
3,5.0,3,9.0,6,9,1,9,4


#### 데이터를 실수형으로 변경 : astype(float)

In [93]:
df2[3].astype(float)

0    1.0
1    6.0
2    4.0
3    6.0
Name: 3, dtype: float64

In [94]:
df2.astype({3:'float64'})

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.0,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


### 2) 수치형 데이터를 범주형 데이터로 변환

- 범주형 데이터 **Categorical 클래스** 객체로 변환


- **cut(x, bins, label)** : 구간 경계선을 선정하여 범주형 데이터로 변환
    - x : 구간 나눌 실제 값
    - bins : 구간 경계값
    - label: 카테고리 값
        
        
- **qcut(data, bins, label)** : 구간 경계선을 선정하지 않고 데이터 개수가 같도록 구간을 분할하여 범주형 데이터로 변환

### ① 구간 경계선을 선정하여 범주형 데이터로 변환 : cut()

#### 리스트 데이터를 범주형 데이터로 변환

- 예제 데이터

In [95]:
ages = [0.1,0.5,5,4,6,3,10,31,15,33,37,17,25,36,70,61,20,40,31,100]
len(ages)

20

- 구간 경계값, 범주 라벨 설정

In [96]:
# 0 < 영유아 <= 5 
# 5 < 어린이 <= 15
# 15 < 청소년  <= 20
# 20 < 청년   <= 40 
# 40 < 장년   <= 64
# 65 < 노년   <= 100

# 구간경계값
bins = [0, 5, 15, 20, 40, 65, 100] #(0,100] 0은 포함 X, 100은 포함

# 구간별(범주) 라벨
labels = ['영유아', '어린이', '청소년', '청년', '장년', '노년']

- cut()로 범주형 데이터로 변경

In [97]:
cat_age = pd.cut(ages, bins=bins, labels=labels)
cat_age

['영유아', '영유아', '영유아', '영유아', '어린이', ..., '장년', '청소년', '청년', '청년', '노년']
Length: 20
Categories (6, object): ['영유아' < '어린이' < '청소년' < '청년' < '장년' < '노년']

In [98]:
list(cat_age)

['영유아',
 '영유아',
 '영유아',
 '영유아',
 '어린이',
 '영유아',
 '어린이',
 '청년',
 '어린이',
 '청년',
 '청년',
 '청소년',
 '청년',
 '청년',
 '노년',
 '장년',
 '청소년',
 '청년',
 '청년',
 '노년']

In [99]:
type(cat_age) #Categorical 범주형 데이터

pandas.core.arrays.categorical.Categorical

In [100]:
df_age = pd.DataFrame(ages, columns=['나이'])
df_age

Unnamed: 0,나이
0,0.1
1,0.5
2,5.0
3,4.0
4,6.0
5,3.0
6,10.0
7,31.0
8,15.0
9,33.0


In [101]:
df_age['연령대'] = cat_age
df_age.head() #너무 길어서 줄여서 보기

Unnamed: 0,나이,연령대
0,0.1,영유아
1,0.5,영유아
2,5.0,영유아
3,4.0,영유아
4,6.0,어린이


In [102]:
df_age.연령대.value_counts().sort_index() #인덱스 순서로 보고 싶을 때 

연령대
영유아    5
어린이    3
청소년    2
청년     7
장년     1
노년     2
Name: count, dtype: int64

In [103]:
df_age.연령대.value_counts(sort=False) #인덱스 순서로 보고 싶을 때 

연령대
영유아    5
어린이    3
청소년    2
청년     7
장년     1
노년     2
Name: count, dtype: int64

In [104]:
df_age.나이.min()
df_age.나이.max()
df_age.나이.mean()
df_age.나이.std()

0.1

100.0

27.23

25.948128418463106

#### ages리스트와 범주형 데이터를 데이터프레임으로

In [105]:
df_age.describe()

Unnamed: 0,나이
count,20.0
mean,27.23
std,25.948128
min,0.1
25%,5.75
50%,22.5
75%,36.25
max,100.0


In [106]:
df_age.describe(include='category')

Unnamed: 0,연령대
count,20
unique,6
top,청년
freq,7


**참고: Categorical 클래스 객체**

- 카테고리명 속성 : Categorical.categories


- 코드 속성 : Categorical.codes 
    - 인코딩한 카테고리 값을 정수로 갖음

In [107]:
cat_age.categories

Index(['영유아', '어린이', '청소년', '청년', '장년', '노년'], dtype='object')

In [108]:
cat_age.codes

array([0, 0, 0, 0, 1, 0, 1, 3, 1, 3, 3, 2, 3, 3, 5, 4, 2, 3, 3, 5],
      dtype=int8)

### ② 데이터 개수가 같도록 데이터 분할 :  qcut()

**: 구간 경계선을 지정하지 않고 데이터의 사분위수(quantile) 기준으로 분할**

- 형식 : **pd.qcut(data,구간수,labels=[d1,d2....])**


- 예. 1000개의 데이터를 4구간으로 나누려고 한다면
     - qcut 명령어를 사용 한 구간마다 250개씩 나누게 된다.
     - 예외) 같은 숫자인 경우에는 같은 구간으로 처리한다.

- 예제 데이터

In [110]:
np.random.seed(2)
data = np.random.randint(20, size=20)
data

array([ 8, 15, 13,  8, 11, 18, 11,  8,  7,  2, 17, 11, 15,  5,  7,  3,  6,
        4, 10, 11])

- 20개의 데이터를 동일한 개수를 갖는 4개 구간으로 나누어 범주형 데이터로 생성하고, 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정

In [111]:
qcut_data = pd.qcut(data, 4, labels=['Q1','Q2','Q3','Q4'])
qcut_data

['Q2', 'Q4', 'Q4', 'Q2', 'Q3', ..., 'Q1', 'Q1', 'Q1', 'Q3', 'Q3']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [113]:
np.sort(data)
np.argsort(data) #index 

array([ 2,  3,  4,  5,  6,  7,  7,  8,  8,  8, 10, 11, 11, 11, 11, 13, 15,
       15, 17, 18])

array([ 9, 15, 17, 13, 16, 14,  8,  0,  3,  7, 18,  6, 11,  4, 19,  2, 12,
        1, 10,  5])

In [114]:
list(qcut_data)

['Q2',
 'Q4',
 'Q4',
 'Q2',
 'Q3',
 'Q4',
 'Q3',
 'Q2',
 'Q2',
 'Q1',
 'Q4',
 'Q3',
 'Q4',
 'Q1',
 'Q2',
 'Q1',
 'Q1',
 'Q1',
 'Q3',
 'Q3']

In [118]:
df_qcut = pd.DataFrame(data, columns=['data'])
df_qcut['qcut'] = qcut_data
df_qcut

Unnamed: 0,data,qcut
0,8,Q2
1,15,Q4
2,13,Q4
3,8,Q2
4,11,Q3
5,18,Q4
6,11,Q3
7,8,Q2
8,7,Q2
9,2,Q1


In [119]:
df_qcut = pd.DataFrame({'data':data, 'qcut':qcut_data})
df_qcut

Unnamed: 0,data,qcut
0,8,Q2
1,15,Q4
2,13,Q4
3,8,Q2
4,11,Q3
5,18,Q4
6,11,Q3
7,8,Q2
8,7,Q2
9,2,Q1


In [120]:
df_qcut.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   data    20 non-null     int64   
 1   qcut    20 non-null     category
dtypes: category(1), int64(1)
memory usage: 516.0 bytes


In [121]:
type(qcut_data)

pandas.core.arrays.categorical.Categorical

In [122]:
qcut_data.codes

array([1, 3, 3, 1, 2, 3, 2, 1, 1, 0, 3, 2, 3, 0, 1, 0, 0, 0, 2, 2],
      dtype=int8)

---------------------------------------