# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작(가공)

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_values(), sort_index()
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min())
- 데이터 삭제 : drop(axis=0/1)
- 결측치 처리 : dropna(axis=0/1, subset, inplace)
- 데이터 변경 : 
    - 자료형 변경 : astype()
    - 수치형 데이터를 범주형 데이터로 변경 : 
        - 구간을 지정하여 범주화 : cut(data, bins, labels)
        - 동일한 개수를 갖도록 범주화 : qcut(data, bins_num, labels)
- 행/열에 동일한 함수 적용 : apply()

-------------------------------------

In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

## 4. 데이터 삭제

- **Series.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

- **DataFrame.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

### 1) 데이터프레임의 행 삭제

- df.drop(labels='행이름', axis=0) : 행삭제 
- df.drop(columns='열이름', index='행이름')

- 행삭제 후 데이터프레임으로 결과 반환
     
     
- 원본에 반영되지 않으므로 원본수정하려면 저장해야 함
    - 객체변수로 저장하거나, 매개변수 inplace를 True로 지정

In [3]:
np.random.seed(1)
df1 = pd.DataFrame(np.random.randint(10,size=(4,8)))
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [10]:
df1['total']=df1.sum(axis=1)
df1.loc['coltotal'] = df1.sum()
df1

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,105
1,6,9,2,4,5,2,4,2,102
2,4,7,7,9,1,7,0,6,123
3,9,9,7,6,9,1,0,1,126
coltotal,24,33,25,24,15,10,5,16,456


- df1의 coltotal 행 삭제

In [11]:
# 원본 변경x
df1.drop(labels='coltotal')

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,105
1,6,9,2,4,5,2,4,2,102
2,4,7,7,9,1,7,0,6,123
3,9,9,7,6,9,1,0,1,126


In [12]:
# 원본변경
df1.drop(labels='coltotal', inplace=True)

In [None]:
df1.drop(index='coltotal', inplace=True)

### 2) 데이터프레임의 열 삭제
- df.drop(labels='행이름', axis=1) : 열 삭제
- df.drop(columns='열이름', index='행이름')
- 행삭제 후 데이터프레임으로 결과 반환

In [13]:
df1.drop(labels='total', axis=1, inplace=True)
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [None]:
df1.drop(columns='total', inplace=True)

In [None]:
df1.drop(columns='total', index='coltotal')

-----------------------------------

## 5. 결측치 처리

: **NaN 값 처리** 함수

- **df.dropna(axis=0 또는 1, inplace=False)**
    - NaN값이 있는 열 또는 행을 삭제
    - 원본 반영되지 않음
    - inplace=True : 원본 데이터프레임 변경


- **df.fillna(0, inplace=False)**
    - NaN값을 정해진 숫자로 채움
    - 원본 반영 되지 않음

#### 결측치 적용

In [15]:
np.random.seed(10)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,9,4,0,1,9,0,1,8
1,9,0,8,6,4,3,0,4
2,6,8,1,8,4,1,3,6
3,5,3,9,6,9,1,9,4


In [16]:
df2.iloc[0,0]= np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0,1,9,0,1,8
1,9.0,0,8,6,4,3,0,4
2,6.0,8,1,8,4,1,3,6
3,5.0,3,9,6,9,1,9,4


In [17]:
df2.iloc[2,3]=np.nan
df2.iloc[1,2]=np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


### 1) 결측치 포함 행 삭제 : dropna()

- dropna(axis=0) 또는 dropna(axis='index')

In [None]:
df2.dropna(axis='index')

### 2) 결측치 포함 열 삭제 : dropna(axis=1)

- dropna(axis=1) 또는 dropna(axis='columns')

In [22]:
df2.dropna(axis='columns')

Unnamed: 0,1,4,5,6,7
0,4,9,0,1,8
1,0,4,3,0,4
2,8,4,1,3,6
3,3,9,1,9,4


### 3) 결측치를 다른 값으로 대체 : fillna() 함수

**결측치를 0으로 변경**

In [23]:
df2.fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,4,0.0,1.0,9,0,1,8
1,9.0,0,0.0,6.0,4,3,0,4
2,6.0,8,1.0,0.0,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


**결측치를 1로 변경**

In [26]:
df2.fillna(1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,1.0,4,0.0,1.0,9,0,1,8
1,9.0,0,1.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


**결측치를 평균으로 변경**

In [27]:
df2[3].fillna(df2[3].mean(), inplace=True)
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [35]:
#결측값을 바로 아래 값과 동일하게 변경
df2.bfill()
#결측값을 바로 위 값과 동일하게 변경합니다.
df2.ffill()

Unnamed: 0,0,1,2,3,4,5,6,7
0,9.0,4,0.0,1.0,9,0,1,8
1,9.0,0,1.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,0.0,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


#### 결측치 확인

In [32]:
# 결측치 확인: isna(),ismull() / False=0, True=1
df2.isna()
df2.isnull()

Unnamed: 0,0,1,2,3,4,5,6,7
0,True,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False


Unnamed: 0,0,1,2,3,4,5,6,7
0,True,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False


In [33]:
df2.isna().sum()

0    1
1    0
2    1
3    0
4    0
5    0
6    0
7    0
dtype: int64

In [30]:
df2.isnull()

Unnamed: 0,0,1,2,3,4,5,6,7
0,True,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False


-------------------------------

## 6. 데이터의 변경

### 1) 데이터 자료형(dtype) 변경


**astype(데이터형)**
- astype(dtype)
- astype({col:'dtype'})

In [37]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.333333,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [36]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       3 non-null      float64
 1   1       4 non-null      int32  
 2   2       3 non-null      float64
 3   3       4 non-null      float64
 4   4       4 non-null      int32  
 5   5       4 non-null      int32  
 6   6       4 non-null      int32  
 7   7       4 non-null      int32  
dtypes: float64(3), int32(5)
memory usage: 308.0 bytes


#### 데이터를 정수형으로 변경 : astype(int)

In [39]:
df2.fillna(0).astype(int)

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,4,0,1,9,0,1,8
1,9,0,0,6,4,3,0,4
2,6,8,1,4,4,1,3,6
3,5,3,9,6,9,1,9,4


In [43]:
df2[3]= df2[3].astype(int)
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1,9,0,1,8
1,9.0,0,,6,4,3,0,4
2,6.0,8,1.0,4,4,1,3,6
3,5.0,3,9.0,6,9,1,9,4


#### 데이터를 실수형으로 변경 : astype(float)

In [45]:
df2[3] = df2[3].astype(float)
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9,0,1,8
1,9.0,0,,6.0,4,3,0,4
2,6.0,8,1.0,4.0,4,1,3,6
3,5.0,3,9.0,6.0,9,1,9,4


In [47]:
df2.astype({3:'float64',4:'float64'})

Unnamed: 0,0,1,2,3,4,5,6,7
0,,4,0.0,1.0,9.0,0,1,8
1,9.0,0,,6.0,4.0,3,0,4
2,6.0,8,1.0,4.0,4.0,1,3,6
3,5.0,3,9.0,6.0,9.0,1,9,4


### 2) 수치형 데이터를 범주형 데이터로 변환

- 범주형 데이터 **Categorical 클래스** 객체로 변환


- **cut(data, bins, label)** : 구간 경계선을 선정하여 범주형 데이터로 변환
    - data : 구간 나눌 실제 값
    - bins : 구간 경계값
    - label: 카테고리 값
        
        
- **qcut(data, bins, label)** : 구간 경계선을 선정하지 않고 데이터 개수가 같도록 구간을 분할하여 범주형 데이터로 변환

### ① 구간 경계선을 선정하여 범주형 데이터로 변환 : cut()

#### 리스트 데이터를 범주형 데이터로 변환

- 예제 데이터

In [48]:
ages = [0.1,0.5,5,4,6,3,10,31,15,33,37,17,25,36,70,61,20,40,31,100]
len(ages)

20

- 구간 경계값, 범주 라벨 설정

In [49]:
# 0 < 영유아 <= 5 
# 5 < 어린이 <= 15
# 15 < 청소년  <= 20
# 20 < 청년   <= 40 
# 40 < 장년   <= 64
# 65 < 노년   <= 100

# 구간경계값
bins = [0,5, 15, 20, 40, 64, 100]
# 구간별(범주) 라벨
labels = ['영유아','어린이','청소년','청년','장년','노년']

- cut()로 범주형 데이터로 변경

In [53]:
cat_age = pd.cut(ages, bins=bins, labels=labels)
cat_age

['영유아', '영유아', '영유아', '영유아', '어린이', ..., '장년', '청소년', '청년', '청년', '노년']
Length: 20
Categories (6, object): ['영유아' < '어린이' < '청소년' < '청년' < '장년' < '노년']

In [54]:
list(cat_age)

['영유아',
 '영유아',
 '영유아',
 '영유아',
 '어린이',
 '영유아',
 '어린이',
 '청년',
 '어린이',
 '청년',
 '청년',
 '청소년',
 '청년',
 '청년',
 '노년',
 '장년',
 '청소년',
 '청년',
 '청년',
 '노년']

In [55]:
type(cat_age)

pandas.core.arrays.categorical.Categorical

In [60]:
df_age.연령대.value_counts(sort=False)

연령대
영유아    5
어린이    3
청소년    2
청년     7
장년     1
노년     2
Name: count, dtype: int64

In [61]:
df_age.나이.min()
df_age.나이.max()
df_age.나이.mean()
df_age.나이.std()

0.1

100.0

27.23

25.948128418463106

#### ages리스트와 범주형 데이터를 데이터프레임으로

In [57]:
df_age = pd.DataFrame(ages, columns=['나이'])
df_age

Unnamed: 0,나이
0,0.1
1,0.5
2,5.0
3,4.0
4,6.0
5,3.0
6,10.0
7,31.0
8,15.0
9,33.0


In [58]:
df_age['연령대'] = cat_age
df_age

Unnamed: 0,나이,연령대
0,0.1,영유아
1,0.5,영유아
2,5.0,영유아
3,4.0,영유아
4,6.0,어린이
5,3.0,영유아
6,10.0,어린이
7,31.0,청년
8,15.0,어린이
9,33.0,청년


**참고: Categorical 클래스 객체**

- 카테고리명 속성 : Categorical.categories


- 코드 속성 : Categorical.codes 
    - 인코딩한 카테고리 값을 정수로 갖음

In [62]:
cat_age.categories

Index(['영유아', '어린이', '청소년', '청년', '장년', '노년'], dtype='object')

In [63]:
cat_age.codes

array([0, 0, 0, 0, 1, 0, 1, 3, 1, 3, 3, 2, 3, 3, 5, 4, 2, 3, 3, 5],
      dtype=int8)

### ② 데이터 개수가 같도록 데이터 분할 :  qcut()

**: 구간 경계선을 지정하지 않고 데이터의 사분위수(quantile) 기준으로 분할**

- 형식 : **pd.qcut(data,구간수,labels=[d1,d2....])**


- 예. 1000개의 데이터를 4구간으로 나누려고 한다면
     - qcut 명령어를 사용 한 구간마다 250개씩 나누게 된다.
     - 예외) 같은 숫자인 경우에는 같은 구간으로 처리한다.

- 예제 데이터

In [84]:
np.random.seed(2)
data = np.random.randint(20, size= 20)
data

array([ 8, 15, 13,  8, 11, 18, 11,  8,  7,  2, 17, 11, 15,  5,  7,  3,  6,
        4, 10, 11])

- 20개의 데이터를 동일한 개수를 갖는 4개 구간으로 나누어 범주형 데이터로 생성하고, 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정

In [67]:
qcut_data = pd.qcut(data, 4 ,labels=['Q1','Q2','Q3','Q4'])
qcut_data

['Q2', 'Q4', 'Q4', 'Q2', 'Q3', ..., 'Q1', 'Q1', 'Q1', 'Q3', 'Q3']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [80]:
np.sort(data)

array([ 2,  3,  4,  5,  6,  7,  7,  8,  8,  8, 10, 11, 11, 11, 11, 13, 15,
       15, 17, 18])

In [71]:
np.argsort(data)

array([ 9, 15, 17, 13, 16, 14,  8,  0,  3,  7, 18,  6, 11,  4, 19,  2, 12,
        1, 10,  5], dtype=int64)

In [83]:
list(qcut_data)

['Q2',
 'Q4',
 'Q4',
 'Q2',
 'Q3',
 'Q4',
 'Q3',
 'Q2',
 'Q2',
 'Q1',
 'Q4',
 'Q3',
 'Q4',
 'Q1',
 'Q2',
 'Q1',
 'Q1',
 'Q1',
 'Q3',
 'Q3']

In [76]:
df_qcut= pd.DataFrame(data, columns=['data'])
df_qcut['qcut'] = qcut_data
df_qcut

Unnamed: 0,data,qcut
0,8,Q2
1,15,Q4
2,13,Q4
3,8,Q2
4,11,Q3
5,18,Q4
6,11,Q3
7,8,Q2
8,7,Q2
9,2,Q1


In [85]:
qcut_data.categories

Index(['Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

In [86]:
qcut_data.codes

array([1, 3, 3, 1, 2, 3, 2, 1, 1, 0, 3, 2, 3, 0, 1, 0, 0, 0, 2, 2],
      dtype=int8)

---------------------------------------