<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

<center>- Pandas의 모든 것을 배우지 않습니다. 데이터 전처리에 대한 부분만 학습 대상이 됩니다 -</center>

# 학습 목표

- 특정 값, 특정 행, 특정 열의 데이터를 변경할 수 있습니다.
- 특정 열을 삭제할 수 있습니다.
- 열 이름을 변경할 수 있습니다.

# 5. 데이터프레임 변경 - 1단계

- 데이터 전처리를 위해 꼭 익혀두어야 할 내용입니다.
- 반복 학습과 실습을 통해서 익숙해져야 합니다.

In [1]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

## 5.1. 값 변경

**1) 기본 변경**

- 이전에 배운 방법으로 대상 데이터를 **찾아** 확인한 후 **변경**합니다.

In [2]:
# 데이터프레임 만들기
dict = {'이름': ['홍길동', '한사랑', '일지매', '박여인'],
        '등급': ['Gold', 'Bronze', 'Silver', 'Gold'],
        '점수': [56000, 23000, 44000, 52000]}

df = pd.DataFrame(dict, index=['1번', '2번', '3번', '4번'])
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동,Gold,56000
2번,한사랑,Bronze,23000
3번,일지매,Silver,44000
4번,박여인,Gold,52000


In [3]:
# 점수 열에 10 곱하기
df['점수'] = df['점수'] * 10
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동,Gold,560000
2번,한사랑,Bronze,230000
3번,일지매,Silver,440000
4번,박여인,Gold,520000


In [4]:
# 이름 열 변경
df['이름'] = df['이름'] + '님' 
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,Gold,560000
2번,한사랑님,Bronze,230000
3번,일지매님,Silver,440000
4번,박여인님,Gold,520000


In [5]:
# 2번 이름을 '두사람님'으로 변경
df.loc['2번', ['이름']] = '두사랑님' 
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,Gold,560000
2번,두사랑님,Bronze,230000
3번,일지매님,Silver,440000
4번,박여인님,Gold,520000


In [6]:
# 1번 ~ 3번 점수를 모두 0으로 변경
df.loc['1번':'3번', ['점수']] = 0
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,Gold,0
2번,두사랑님,Bronze,0
3번,일지매님,Silver,0
4번,박여인님,Gold,520000


In [7]:
# 1번 ~ 3번 점수를 각각 10000, 20000, 30000으로 변경
df.loc['1번':'3번', ['점수']] = [10000, 20000, 30000]
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,Gold,10000
2번,두사랑님,Bronze,20000
3번,일지매님,Silver,30000
4번,박여인님,Gold,520000


In [8]:
# 1번 ~ 3번 등급과 점수를 모두 NaN으로 변경
df.loc['1번':'3번', ['등급','점수']] = np.nan
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,,
2번,두사랑님,,
3번,일지매님,,
4번,박여인님,Gold,520000.0


In [9]:
# 1번 ~ 3번 모두 등급은 NaN, 점수는 0으로 변경
df.loc['1번':'3번', ['등급','점수']] = [np.nan, 0]
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,,0.0
2번,두사랑님,,0.0
3번,일지매님,,0.0
4번,박여인님,Gold,520000.0


In [10]:
# 1번 ~ 3번 등급과 점수를 지정한 값으로 각각 변경
df.loc['1번':'3번', ['등급','점수']] = [['Gold', 56000], ['Bronze', 23000], ['Silver', 44000]]
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동님,Gold,56000.0
2번,두사랑님,Bronze,23000.0
3번,일지매님,Silver,44000.0
4번,박여인님,Gold,520000.0


**2) map() 메소드 사용**

- **map()** 메소드를 사용하면 쉽게 범주형 데이터를 다른 값으로 변경을 할 수 있습니다.
- 단, **하나의 열에 대해서만 사용**할 수 있습니다.

In [11]:
# 데이터프레임 만들기
dict = {'이름': ['홍길동', '한사랑', '일지매', '박여인'],
        '가입일': ['2019-01-15', '2019-05-01', '2020-01-15', '2020-02-12'],
        '등급': ['Gold', 'Bronze', 'Silver', 'Gold'],
        '점수': [56000, 23000, 44000, 52000]}

df = pd.DataFrame(dict, index=['1번', '2번', '3번', '4번'])
df.head()

Unnamed: 0,이름,가입일,등급,점수
1번,홍길동,2019-01-15,Gold,56000
2번,한사랑,2019-05-01,Bronze,23000
3번,일지매,2020-01-15,Silver,44000
4번,박여인,2020-02-12,Gold,52000


- Gold → Diamond / Silver → Emerald / Bronze → Garnet

In [12]:
# 경우에 따른 값 변경
df['등급'] = df['등급'].map({'Gold': 'Diamond', 'Silver': 'Emerald', 'Bronze': 'Garnet'})
df.head()

Unnamed: 0,이름,가입일,등급,점수
1번,홍길동,2019-01-15,Diamond,56000
2번,한사랑,2019-05-01,Garnet,23000
3번,일지매,2020-01-15,Emerald,44000
4번,박여인,2020-02-12,Diamond,52000


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

다음에 주어진 데이터프레임을 확인한 후 이어지는 셀을 완성해 보세요.

In [17]:
# 데이터프레임 만들기
dict = {'이름': ['나처럼', '즐거운', '사람이', '누구요'],
        '1월': [45600, 20000, 46000, 50000],
        '2월': [56000, 23000, 44000, 45000],
        '3월': [52000, 33000, 39000, 49000],
        }

df_test = pd.DataFrame(dict, index=['C001', 'C002', 'C003', 'C004'])
df_test.head()

Unnamed: 0,이름,1월,2월,3월
C001,나처럼,45600,56000,52000
C002,즐거운,20000,23000,33000
C003,사람이,46000,44000,39000
C004,누구요,50000,45000,49000


In [18]:
# 1월 실적에서 5000씩 빼기
df_test['1월'] = df_test['1월'] - 5000

# 확인
df_test.head()


Unnamed: 0,이름,1월,2월,3월
C001,나처럼,40600,56000,52000
C002,즐거운,15000,23000,33000
C003,사람이,41000,44000,39000
C004,누구요,45000,45000,49000


In [21]:
# C002 이름을 '행복한'으로 변경
df_test.loc['C002','이름'] = '행복한'

# 확인
df_test.head()


Unnamed: 0,이름,1월,2월,3월
C001,나처럼,40600,56000,52000
C002,행복한,15000,23000,33000
C003,사람이,41000,44000,39000
C004,누구요,45000,45000,49000


In [23]:
# C001 3월 실적을 55000으로 변경
df_test.loc['C001',['3월']] = 55000

# 확인
df_test.head()

Unnamed: 0,이름,1월,2월,3월
C001,나처럼,40600,56000,55000
C002,행복한,15000,23000,33000
C003,사람이,41000,44000,39000
C004,누구요,45000,45000,49000


## 5.2. 열 이름 변경

- 기존 데이터프레임의 열 이름을 적절히 변경해야 할 경우가 있습니다.
- 또는 집계 결과를 가진 열 이름을 이해하기 쉽게 변경해야 할 경우도 있습니다.

In [24]:
# 데이터프레임 만들기
dict = {'이름': ['홍길동', '한사랑', '일지매', '박여인'],
        'Level': ['Gold', 'Bronze', 'Silver', 'Gold'],
        'Score': [56000, 23000, 44000, 52000]}

df = pd.DataFrame(dict, index=['1번', '2번', '3번', '4번'])
df.head()

Unnamed: 0,이름,Level,Score
1번,홍길동,Gold,56000
2번,한사랑,Bronze,23000
3번,일지매,Silver,44000
4번,박여인,Gold,52000


**1) 모든 열 이름 변경**

- 모든 열 이름을 변경할 때는 **columns** 속성을 변경합니다.

In [25]:
# 전체 변경
df.columns = ['이름', '등급', '점수']
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동,Gold,56000
2번,한사랑,Bronze,23000
3번,일지매,Silver,44000
4번,박여인,Gold,52000


**2) 일부 열 이름 변경**

- **rename()** 함수를 사용해 변경 전후의 열 이름을 딕셔너리 형태로 나열하는 방법으로 변경합니다.

In [26]:
# rename() 함수로 열 이름 변경 가능
df.rename(columns={'이름': 'Name', '등급': 'Level', '점수': 'Score'}, inplace=True)
df.head()

Unnamed: 0,Name,Level,Score
1번,홍길동,Gold,56000
2번,한사랑,Bronze,23000
3번,일지매,Silver,44000
4번,박여인,Gold,52000


## 5.3. 열 추가

- 새로운 열을 추가하여 기존 데이터에서 계산된 결괏값을 저장해야할 경우가 있습니다.

In [27]:
# 데이터프레임 만들기
dict = {'이름': ['홍길동', '한사랑', '일지매', '박여인'],
        '등급': ['Gold', 'Bronze', 'Silver', 'Gold'],
        '점수': [56000, 23000, 44000, 52000]}

df = pd.DataFrame(dict, index=['1번', '2번', '3번', '4번'])
df.head()

Unnamed: 0,이름,등급,점수
1번,홍길동,Gold,56000
2번,한사랑,Bronze,23000
3번,일지매,Silver,44000
4번,박여인,Gold,52000


**1) 맨 뒤에 열 추가**

- **없는 열를 변경**하면 그 **열이 추가**됩니다.
- 맨 뒤 열로 추가되며, 원하는 위치에 열을 추가할 수는 없습니다.

In [28]:
# 맨 뒤에 0으로 채워진 열 추가(있으면 변경, 없으면 추가)
df['포인트2'] = 0 
df.head()

Unnamed: 0,이름,등급,점수,포인트2
1번,홍길동,Gold,56000,0
2번,한사랑,Bronze,23000,0
3번,일지매,Silver,44000,0
4번,박여인,Gold,52000,0


**2) 지정한 위치에 열 추가**

- **insert()** 함수를 사용하면 원하는 위치에 열을 추가할 수 있습니다.
- **allow_duplicates** 옵션으로 같은 이름의 열이 있으면 추가할 지의 여부를 지정합니다.

In [29]:
# 포인트2 열 앞에 0으로 채워진 새로운 열 추가
df.insert(3, '포인트1', 0, allow_duplicates=True)
df.head()

Unnamed: 0,이름,등급,점수,포인트1,포인트2
1번,홍길동,Gold,56000,0,0
2번,한사랑,Bronze,23000,0,0
3번,일지매,Silver,44000,0,0
4번,박여인,Gold,52000,0,0


In [30]:
# 추가된 열에 계산 값 넣기
df['포인트1'] = df['점수'] * 0.01
df['포인트2'] = df['포인트1'] * 0.1
df.head()

Unnamed: 0,이름,등급,점수,포인트1,포인트2
1번,홍길동,Gold,56000,560.0,56.0
2번,한사랑,Bronze,23000,230.0,23.0
3번,일지매,Silver,44000,440.0,44.0
4번,박여인,Gold,52000,520.0,52.0


**3) 계산된 값을 갖는 열 추가**

- 열을 추가한 후 그 열에 계산 결과를 넣는 방법보다 더 간결한 방법입니다.

In [31]:
# 계산된 값을 갖는 새로운 열을 맨 뒤에 추가
df['포인트3'] = df['포인트2'] * 0.1
df['최종점수'] = df['점수'] + df['포인트1'] + df['포인트2'] + df['포인트3']

# 정수 형으로 변환
df['최종점수'] = df['최종점수'].astype(int)
df.head()

Unnamed: 0,이름,등급,점수,포인트1,포인트2,포인트3,최종점수
1번,홍길동,Gold,56000,560.0,56.0,5.6,56621
2번,한사랑,Bronze,23000,230.0,23.0,2.3,23255
3번,일지매,Silver,44000,440.0,44.0,4.4,44488
4번,박여인,Gold,52000,520.0,52.0,5.2,52577


## 5.4. 열 삭제

- 분석에 의미가 없는 열은 제거하여 데이터 크기를 줄이는 것이 좋습니다.
- 불필요한 데이터는 분석을 방해하는 요인이 됩니다.

In [35]:
# 데이터프레임 만들기
dict = {'이름': ['홍길동', '한사랑', '일지매', '박여인'],
        '성별': ['남', '여', '남', '여'],
        '나이': [25, 27, 31, 26],
        '등급': ['Gold', 'Bronze', 'Silver', 'Gold'],
        '점수': [56000, 23000, 44000, 52000]}

df = pd.DataFrame(dict, index=['1번', '2번', '3번', '4번'])
df.head()

Unnamed: 0,이름,성별,나이,등급,점수
1번,홍길동,남,25,Gold,56000
2번,한사랑,여,27,Bronze,23000
3번,일지매,남,31,Silver,44000
4번,박여인,여,26,Gold,52000


**1) 열 하나 삭제**

- **drop()** 메소드를 사용해 열을 삭제합니다.
- axis=0: 행 삭제(기본 값) 
- axis=1: 열 삭제


In [36]:
# 열 하나 삭제
df.drop('성별', axis=1, inplace=True)
df.head()

Unnamed: 0,이름,나이,등급,점수
1번,홍길동,25,Gold,56000
2번,한사랑,27,Bronze,23000
3번,일지매,31,Silver,44000
4번,박여인,26,Gold,52000


**2) 여러 열 삭제**

In [37]:
# 열 두 개 삭제
df.drop(['나이','등급'], axis=1, inplace=True)
df.head()

Unnamed: 0,이름,점수
1번,홍길동,56000
2번,한사랑,23000
3번,일지매,44000
4번,박여인,52000


<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align="left"/>

다음에 주어진 데이터프레임을 확인한 후 이어지는 셀을 완성해 보세요.

In [38]:
# 데이터프레임 만들기
dict = {'이름': ['나처럼', '즐거운', '사람이', '누구요'],
        '나이': [32, 36, 28, 33],
        '1월': [45600, 20000, 46000, 50000],
        '2월': [56000, 23000, 44000, 45000],
        '3월': [52000, 33000, 39000, 49000],
        }

df_test = pd.DataFrame(dict, index=['C001', 'C002', 'C003', 'C004'])
df_test.head()

Unnamed: 0,이름,나이,1월,2월,3월
C001,나처럼,32,45600,56000,52000
C002,즐거운,36,20000,23000,33000
C003,사람이,28,46000,44000,39000
C004,누구요,33,50000,45000,49000


In [39]:
# 열 이름을 'Name', 'Age', 'Jan', 'Feb', 'Mar' 로 변경
df_test.columns = ['Name','Age','Jan','Feb','Mar']

# 확인
df_test.head()

Unnamed: 0,Name,Age,Jan,Feb,Mar
C001,나처럼,32,45600,56000,52000
C002,즐거운,36,20000,23000,33000
C003,사람이,28,46000,44000,39000
C004,누구요,33,50000,45000,49000


In [40]:
# 0으로 채워진 Mean 열 추가
df_test['Mean'] = 0

# 확인
df_test.head()

Unnamed: 0,Name,Age,Jan,Feb,Mar,Mean
C001,나처럼,32,45600,56000,52000,0
C002,즐거운,36,20000,23000,33000,0
C003,사람이,28,46000,44000,39000,0
C004,누구요,33,50000,45000,49000,0


In [44]:
# NaN으로 채워진 Total 열 추가
df_test['Total'] = 'NaN'

# 확인
df_test.head()


Unnamed: 0,Name,Age,Jan,Feb,Mar,Mean,Total
C001,나처럼,32,45600,56000,52000,0,
C002,즐거운,36,20000,23000,33000,0,
C003,사람이,28,46000,44000,39000,0,
C004,누구요,33,50000,45000,49000,0,


In [47]:
# Age 열 제거
df_test.drop('Age', axis=1, inplace=True)

# 확인
df_test.head()


Unnamed: 0,Name,Jan,Feb,Mar,Mean,Total
C001,나처럼,45600,56000,52000,0,
C002,즐거운,20000,23000,33000,0,
C003,사람이,46000,44000,39000,0,
C004,누구요,50000,45000,49000,0,


In [48]:
# Total 열에 Jan + Feb + Mar 계산 결과 저장
df_test['Total'] = df_test['Jan'] + df_test['Feb'] + df_test['Mar']

# 확인
df_test.head()


Unnamed: 0,Name,Jan,Feb,Mar,Mean,Total
C001,나처럼,45600,56000,52000,0,153600
C002,즐거운,20000,23000,33000,0,76000
C003,사람이,46000,44000,39000,0,129000
C004,누구요,50000,45000,49000,0,144000


In [49]:
# Mean 열에 평균 저장
df_test['Mean'] = df_test['Total'] / 3

# 확인
df_test.head()


Unnamed: 0,Name,Jan,Feb,Mar,Mean,Total
C001,나처럼,45600,56000,52000,51200.0,153600
C002,즐거운,20000,23000,33000,25333.333333,76000
C003,사람이,46000,44000,39000,43000.0,129000
C004,누구요,50000,45000,49000,48000.0,144000


In [50]:
# Mean 열 데이터 형식을 정수로 변경
df_test['Mean'] = df_test['Mean'].astype(int)

# 확인
df_test.head()


Unnamed: 0,Name,Jan,Feb,Mar,Mean,Total
C001,나처럼,45600,56000,52000,51200,153600
C002,즐거운,20000,23000,33000,25333,76000
C003,사람이,46000,44000,39000,43000,129000
C004,누구요,50000,45000,49000,48000,144000


## <center>수고하셨습니다.</center>
<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/end.png' width=200/></center>