# pandas 데이터 파악과 조작

**분석할 데이터를 수집(확보)하면 데이터의 특징을 파악하고 다루기 쉽게 변형하는 작업을 수행해야 한다**

# #2. 데이터 조작(가공)

- 데이터 개수 세기 : count(), value_counts()
- 데이터 정렬 : sort_values(), sort_index()
- 데이터 집계 : 합계(sum()), 평균(mean()), 최대(max()), 최소(min())
- 데이터 삭제 : drop(axis=0/1)
- 결측치 처리 : dropna(axis=0/1, subset, inplace)
- 데이터 변경 : 
    - 자료형 변경 : astype()
    - 수치형 데이터를 범주형 데이터로 변경 : 
        - 구간을 지정하여 범주화 : cut(data, bins, labels)
        - 동일한 개수를 갖도록 범주화 : qcut(data, bins_num, labels)
- 행/열에 동일한 함수 적용 : apply()

-------------------------------------

In [2]:
import numpy as np
import pandas as pd

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## 4. 데이터 삭제

- **Series.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

- **DataFrame.drop**(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

### 1) 데이터프레임의 행 삭제

- df.drop(labels='행이름', axis=0, inplace=False) : 행삭제
- df.drop(index=['행이름1','행이름2',..])
- 행삭제 후 데이터프레임으로 결과 반환 
- 원본에 반영되지 않으므로 원본수정하려면 저장해야 함
- 객체변수로 저장하거나, 매개변수 inplace를 True로 지정

In [4]:
np.random.seed(1)
df1 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [6]:
df1['total'] = df1.sum(axis=1)
df1
df1.loc['colTotal'] = df1.sum(axis=0)
df1

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84


Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84
colTotal,24,33,25,24,15,10,5,16,304


- df1의 ColTol 행 삭제

In [8]:
df1.drop(labels='colTotal', axis=0)
df1

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84


Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84
colTotal,24,33,25,24,15,10,5,16,304


In [9]:
df1.drop(index='colTotal')

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84


### 2) 데이터프레임의 열 삭제
- df.drop(labels='열이름', axis=1, inplace=False) : 열 삭제
- df.drop(columns=['열이름1','열이름2',..])
- 행삭제 후 데이터프레임으로 결과 반환

In [10]:
df1.drop(labels='total',axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
colTotal,24,33,25,24,15,10,5,16


In [11]:
df1.drop(columns='total')

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
colTotal,24,33,25,24,15,10,5,16


In [12]:
df1.drop(index='colTotal', columns='total')

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [13]:
df1.drop(index='colTotal', columns='total', inplace=True)
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


-----------------------------------

## 5. 결측치 처리

: **NaN 값 처리** 함수

- **df.dropna(axis=0 또는 1, inplace=False)**
    - NaN값이 있는 열 또는 행을 삭제
    - 원본 반영되지 않음
    - inplace=True : 원본 데이터프레임 변경

- **df.fillna(0, inplace=False)**
    - NaN값을 정해진 숫자로 채움
    - 원본 반영 되지 않음

- **df.ffill(), df.bfill()**

#### 결측치 적용

In [14]:
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [16]:
df1.iloc[0,0] = np.nan
df1.iloc[2,3] = np.nan
df1.iloc[1,2] = np.nan

In [17]:
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


### 0) 결측치 확인 : isna(), isnull()

In [18]:
df1.isna()

Unnamed: 0,0,1,2,3,4,5,6,7
0,True,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False
2,False,False,False,True,False,False,False,False
3,False,False,False,False,False,False,False,False


In [20]:
df1.isnull().sum()

0    1
1    0
2    1
3    1
4    0
5    0
6    0
7    0
dtype: int64

In [21]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 0 to 3
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       3 non-null      float64
 1   1       4 non-null      int64  
 2   2       3 non-null      float64
 3   3       3 non-null      float64
 4   4       4 non-null      int64  
 5   5       4 non-null      int64  
 6   6       4 non-null      int64  
 7   7       4 non-null      int64  
dtypes: float64(3), int64(5)
memory usage: 288.0+ bytes


결측치 처리 :
- 삭제 : 행 삭제, 열 삭제
- 값으로 대체 (imputation) : 평균값으로 대체, 이전(이후)관측값 대체, 핫덱대체, 회귀분석

### 1) 결측치 포함 행 삭제 : dropna()

- dropna(axis=0) 또는 dropna(axis='index')

In [26]:
df1.dropna(axis='index')
df1

Unnamed: 0,0,1,2,3,4,5,6,7
3,9.0,9,7.0,6.0,9,1,0,1


Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


### 2) 결측치 포함 열 삭제 : dropna(axis=1)

- dropna(axis=1) 또는 dropna(axis='columns')

In [27]:
df1.dropna(axis=1)

Unnamed: 0,1,4,5,6,7
0,8,0,0,1,7
1,9,5,2,4,2
2,7,1,7,0,6
3,9,9,1,0,1


In [30]:
df1
df1.dropna(axis=1, subset=[0])

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


Unnamed: 0,1,2,3,4,5,6,7
0,8,9.0,5.0,0,0,1,7
1,9,,4.0,5,2,4,2
2,7,7.0,,1,7,0,6
3,9,7.0,6.0,9,1,0,1


In [32]:
df1
df1.dropna(axis=0, subset=[0])

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


Unnamed: 0,0,1,2,3,4,5,6,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


### 3) 결측치를 다른 값으로 대체 : fillna() 함수

fillna(value=, limit=, inplace=False)

**결측치를 0으로 변경**

In [33]:
df1
df1.fillna(0)

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,,4.0,5,2,4,2
2,4.0,7,7.0,,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,0.0,4.0,5,2,4,2
2,4.0,7,7.0,0.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


**결측치를 1로 변경**

In [34]:
df1.fillna(1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,1.0,8,9.0,5.0,0,0,1,7
1,6.0,9,1.0,4.0,5,2,4,2
2,4.0,7,7.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


In [95]:
df1[3] = df1[3].fillna(1)
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,0.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


**결측치를 평균으로 변경**

In [96]:
df1[2] = df1[2].fillna(df1[2].mean())
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,0.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


In [41]:
df1.iloc[2,2] = np.nan
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


**결측치를 앞(뒤)의 값으로 변경**

In [42]:
# bfill : backward fill
df1.bfill()

Unnamed: 0,0,1,2,3,4,5,6,7
0,6.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,7.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


In [43]:
# ffill() : forward fill
df1.ffill()

Unnamed: 0,0,1,2,3,4,5,6,7
0,,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,7.666667,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


In [45]:
# 컬럼별 결측치 대체
df1.fillna(value={0:0, 2:-10})

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,-10.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


-------------------------------

## 6. 데이터의 변경

### 1) 데이터 자료형(dtype) 변경


**astype(데이터형)**
- astype(dtype)
- astype({컬럼:dtype,...})- 

In [46]:
df1.fillna(0, inplace=True)
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,0.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


#### 데이터를 정수형으로 변경 : astype(int)

In [47]:
df1.astype(int)

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,8,9,5,0,0,1,7
1,6,9,7,4,5,2,4,2
2,4,7,0,1,1,7,0,6
3,9,9,7,6,9,1,0,1


In [49]:
df1.astype({0:'int64'})

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,8,9.0,5.0,0,0,1,7
1,6,9,7.666667,4.0,5,2,4,2
2,4,7,0.0,1.0,1,7,0,6
3,9,9,7.0,6.0,9,1,0,1


#### 데이터를 실수형으로 변경 : astype(float)

In [50]:
df1.astype({1:float})

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8.0,9.0,5.0,0,0,1,7
1,6.0,9.0,7.666667,4.0,5,2,4,2
2,4.0,7.0,0.0,1.0,1,7,0,6
3,9.0,9.0,7.0,6.0,9,1,0,1


In [53]:
df1[0].astype(int)
df1

0    0
1    6
2    4
3    9
Name: 0, dtype: int64

Unnamed: 0,0,1,2,3,4,5,6,7
0,0.0,8,9.0,5.0,0,0,1,7
1,6.0,9,7.666667,4.0,5,2,4,2
2,4.0,7,0.0,1.0,1,7,0,6
3,9.0,9,7.0,6.0,9,1,0,1


### 2) 수치형 데이터를 범주형 데이터로 변환

- 범주형 데이터 **Categorical 클래스** 객체로 변환


- **cut(x, bins, labels)** : 구간 경계선을 선정하여 범주형 데이터로 변환
    - x : 구간 나눌 실제 값
    - bins : 구간 경계값
    - labels: 카테고리 값
        
        

- **qcut(data, bins, label)** : 구간 경계선을 선정하지 않고 데이터 개수가 같도록 구간을 분할하여 범주형 데이터로 변환

### ① 구간 경계선을 선정하여 범주형 데이터로 변환 : cut()

#### 리스트 데이터를 범주형 데이터로 변환

- 예제 데이터

In [55]:
ages = [0.1,0.5,5,4,6,3,10,31,15,33,37,17,25,36,70,61,20,40,31,100]
len(ages)

20

- 구간 경계값, 범주 라벨 설정

In [56]:
# 0 < 영유아 <= 5 
# 5 < 어린이 <= 15
# 15 < 청소년  <= 20
# 20 < 청년   <= 40 
# 40 < 장년   <= 64
# 65 < 노년   <= 100

# 구간경계값
bins = [0,5,15,20,40,64,100]

# 구간별(범주) 라벨
labels = ['영유아', '어린이', '청소년', '청년', '징년', '노년']
labels

['영유아', '어린이', '청소년', '청년', '징년', '노년']

- cut()로 범주형 데이터로 변경

In [57]:
cut_ages = pd.cut(ages, bins=bins, labels=labels)
cut_ages

['영유아', '영유아', '영유아', '영유아', '어린이', ..., '징년', '청소년', '청년', '청년', '노년']
Length: 20
Categories (6, object): ['영유아' < '어린이' < '청소년' < '청년' < '징년' < '노년']

In [58]:
type(cut_ages)

pandas.core.arrays.categorical.Categorical

In [59]:
ages

[0.1, 0.5, 5, 4, 6, 3, 10, 31, 15, 33, 37, 17, 25, 36, 70, 61, 20, 40, 31, 100]

#### ages리스트와 범주형 데이터를 데이터프레임으로

In [61]:
df_age= pd.DataFrame(ages, columns=['나이'])
df_age

Unnamed: 0,나이
0,0.1
1,0.5
2,5.0
3,4.0
4,6.0
5,3.0
6,10.0
7,31.0
8,15.0
9,33.0


In [65]:
df_age['연령대'] = cut_ages
df_age.head()

Unnamed: 0,나이,연령대
0,0.1,영유아
1,0.5,영유아
2,5.0,영유아
3,4.0,영유아
4,6.0,어린이


In [66]:
df_age['연령대'].value_counts()

연령대
청년     7
영유아    5
어린이    3
청소년    2
노년     2
징년     1
Name: count, dtype: int64

In [68]:
df_age['나이'].mean()
df_age['나이'].min()
df_age['나이'].max()

np.float64(27.23)

np.float64(0.1)

np.float64(100.0)

In [70]:
df_age.describe()

Unnamed: 0,나이
count,20.0
mean,27.23
std,25.948128
min,0.1
25%,5.75
50%,22.5
75%,36.25
max,100.0


In [71]:
df_age.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   나이      20 non-null     float64 
 1   연령대     20 non-null     category
dtypes: category(1), float64(1)
memory usage: 532.0 bytes


In [73]:
df_age.describe(include='category')

Unnamed: 0,연령대
count,20
unique,6
top,청년
freq,7


**참고: Categorical 클래스 객체**

- 카테고리명 속성 : Categorical.categories


- 코드 속성 : Categorical.codes 
    - 인코딩한 카테고리 값을 정수로 갖음

In [74]:
type(cut_ages)

pandas.core.arrays.categorical.Categorical

In [75]:
cut_ages.codes

array([0, 0, 0, 0, 1, 0, 1, 3, 1, 3, 3, 2, 3, 3, 5, 4, 2, 3, 3, 5],
      dtype=int8)

In [82]:
cut_ages.categories

Index(['영유아', '어린이', '청소년', '청년', '징년', '노년'], dtype='object')

### ② 데이터 개수가 같도록 데이터 분할 :  qcut()

**: 구간 경계선을 지정하지 않고 데이터의 사분위수(quantile) 기준으로 분할**

- 형식 : **pd.qcut(data,구간수,labels=[d1,d2....])**


- 예. 1000개의 데이터를 4구간으로 나누려고 한다면
     - qcut 명령어를 사용 한 구간마다 250개씩 나누게 된다.
     - 예외) 같은 숫자인 경우에는 같은 구간으로 처리한다.

- 예제 데이터

In [88]:
np.random.seed(2)
data = np.random.randint(20, size=20)
data

array([ 8, 15, 13,  8, 11, 18, 11,  8,  7,  2, 17, 11, 15,  5,  7,  3,  6,
        4, 10, 11], dtype=int32)

- 20개의 데이터를 동일한 개수를 갖는 4개 구간으로 나누어 범주형 데이터로 생성하고, 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정

In [89]:
qcut_data = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
qcut_data

['Q2', 'Q4', 'Q4', 'Q2', 'Q3', ..., 'Q1', 'Q1', 'Q1', 'Q3', 'Q3']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [87]:
# data.sort()
# data

array([ 2,  3,  4,  5,  6,  7,  7,  8,  8,  8, 10, 11, 11, 11, 11, 13, 15,
       15, 17, 18], dtype=int32)

In [91]:
df_qcut = pd.DataFrame({'data':data, 'qcut':qcut_data})
df_qcut.head()

Unnamed: 0,data,qcut
0,8,Q2
1,15,Q4
2,13,Q4
3,8,Q2
4,11,Q3


In [92]:
type(qcut_data)

pandas.core.arrays.categorical.Categorical

In [93]:
qcut_data.categories

Index(['Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

In [94]:
qcut_data.codes

array([1, 3, 3, 1, 2, 3, 2, 1, 1, 0, 3, 2, 3, 0, 1, 0, 0, 0, 2, 2],
      dtype=int8)

---------------------------------------