# 데이터 변경

## 0. 라이브러리 및 csv 로딩

In [1]:
# 필요 라이브러리 로딩
import numpy as np
import pandas as pd

In [2]:
# 지난 시간에 저장한 csv 로딩
df = pd.read_csv('./data/student.csv') # 이보다 상위 디렉토리에 폴더가 있다고 하면, '../data' 이런 식으로 .. 을 적으면 된다. 
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


In [3]:
# 무슨 워킹디렉토리에 있는지 모를 때?
import os
os.getcwd() # get current working directory

'C:\\Users\\user\\AIBLE SCHOOL_pre'

## 1. 컬럼 생성

In [4]:
# '등급'이라는 컬럼 생성해보자
df['등급'] = 'A' # 새로운 컬럼 명시 후 (임의의) 값 부여
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문학,3.0,A
1,김연아,수학,1.0,A
2,홍길동,컴퓨터,3.5,A
3,장범준,철학,2.7,A
4,강감찬,경영학,4.0,A


In [5]:
# 성적에 따 등급을 부여해보자
grade = np.array(['B', 'D', 'B', 'C', 'A'])
df['등급'] = grade
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문학,3.0,B
1,김연아,수학,1.0,D
2,홍길동,컴퓨터,3.5,B
3,장범준,철학,2.7,C
4,강감찬,경영학,4.0,A


In [6]:
# 컬럼을 생성하는 또 다른 방법! # pandas의 Series 활용
# 나이를 의미하는 age라는 시리즈 생성 # 
age = pd.Series([21, 20, 24, 23, 28])

# 데이터프레임 내 나이 컬럼을 만들고 시리즈를 값으로 할당
df['나이'] = age
display(df)

Unnamed: 0,이름,학과,성적,등급,나이
0,아이유,국문학,3.0,B,21
1,김연아,수학,1.0,D,20
2,홍길동,컴퓨터,3.5,B,24
3,장범준,철학,2.7,C,23
4,강감찬,경영학,4.0,A,28


- 컬럼을 생성하는 또 다른 방법! `pandas의 Series 활용`
- 데이터프레임은 각 컬럼이 Series로 이루어져 있다.
- pandas의 series를 만들어주고, 임의의 나이를 설정

## 2. 인덱스 설정 및 리셋

In [7]:
# 현재 df의 인덱스 속성을 보겠다. 
df.index

RangeIndex(start=0, stop=5, step=1)

- rangeindex가 쓰였고, 0부터 5까지 하나씩 올라가는, 즉 0, 1, 2, 3, 4까지인 인덱스

In [8]:
# 데이터프레임의 인덱스는 df.index를 명시해 접근 가능함
df.index = ['one', 'two', 'three', 'four', 'five'] # 인덱스의 값을 바꾸고 싶다면 인덱스의 개수만큼의 원소를 포함한 리스트를 할당
df

Unnamed: 0,이름,학과,성적,등급,나이
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,A,28


In [9]:
# 또 새로운 컬럼 성별(sex) 생성해보자
sex = pd.Series(['여자', '여자', '남자', '남자', '남자'])
df['성별'] = sex # 성별 컬럼 생성 # 컬럼에 새롭게 만든 시리즈를 값으로 부여
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,
two,김연아,수학,1.0,D,20,
three,홍길동,컴퓨터,3.5,B,24,
four,장범준,철학,2.7,C,23,
five,강감찬,경영학,4.0,A,28,


- 갑자기 성별이 결측치인 NaN로 나온 것을 확인할 수 있다.
- 왜 그런가? 서로 인덱스가 다르기 떄문이다. 아래의 두 코드를 보자. 

In [10]:
# 시리즈 sex와 데이터 프레임 df의 인덱스 출력
print('시리즈 sex의 인덱스 ---> ', sex.index)
print('데이터프레임 dfdml 인덱스 ---> ', df.index)

시리즈 sex의 인덱스 --->  RangeIndex(start=0, stop=5, step=1)
데이터프레임 dfdml 인덱스 --->  Index(['one', 'two', 'three', 'four', 'five'], dtype='object')


In [11]:
# 인덱스 통일 후 다시 성별 컬럼에 값 부여
sex.index = df.index # 성별 시리즈의 인덱스를 데이터프레임 인덱스로 변경
df['성별'] = sex
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,A,28,남자


- sex 시리즈는 인덱스를 지정하지 않았기 때문에 기본적으로 0, 1, 2, 3, 4로 인덱스가 부여된다.
- 반면, df 데이터프레임의 인덱스는 one, two, three, four, five로 이미 지정되어 있다.
- 그래서 두 인덱스가 일치하지 않기 때문에, df['성별'] = sex 구문을 실행했을 때, 인덱스가 일치하는 부분이 없어서 NaN 값이 할당된다.

- sex 시리즈의 인덱스를 df의 인덱스와 동일하게 맞춰주면, 이제 sex 시리즈의 인덱스가 one, two, three, four, five로 변경된다.
- 이제 df의 인덱스와 sex 시리즈의 인덱스가 일치하기 때문에, df['성별'] = sex 구문이 제대로 동작한다. 각각의 인덱스에 맞는 성별 값이 df['성별']에 잘 할당되게 되는 것이다.

- 가끔은 시계열데이터나 여러 경우에 인덱스를 리셋하고 재설해야 하는 상황이 생긴다.
- 그럼 reset_index를 활용한다.

In [12]:
# 현재 설정되어 있는 인덱스 리셋
df.reset_index() # 이러면 index가 옆으로 빠지고 0, 1, 2, 3, 4로 리셋 # 기존의 index는 새로운 컬럼이 

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문학,3.0,B,21,여자
1,two,김연아,수학,1.0,D,20,여자
2,three,홍길동,컴퓨터,3.5,B,24,남자
3,four,장범준,철학,2.7,C,23,남자
4,five,강감찬,경영학,4.0,A,28,남자


In [13]:
df # 그런데 다시 df를 찍어보니까 위의 인덱스가 반영되지 않았음 # 위의 df는 view 형태이다(원본에 대한 변형 x)

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,A,28,남자


In [14]:
# 원본을 바꿔주려면 inplace=True라는 인수값을 주어 데이터프레임 원본에 바로 적용이 되도록 하자!
df.reset_index(inplace=True)
df

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문학,3.0,B,21,여자
1,two,김연아,수학,1.0,D,20,여자
2,three,홍길동,컴퓨터,3.5,B,24,남자
3,four,장범준,철학,2.7,C,23,남자
4,five,강감찬,경영학,4.0,A,28,남자


In [15]:
# 반면 인덱스를 새로 설정하는 방법도 있다. 
# index 설정: set_index 활용, 인덱스로 활용할 컬럼 이름을 명시
df.set_index('index', inplace=True) # index 컬럼에 대해서 set_index
df

Unnamed: 0_level_0,이름,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,A,28,남자


## 3. 컬럼 삭제
- 데이터프레임이 제공하는 drop이라는 메소드 활용
- 주의점 : drop이라는 메소드 안에 두 개의 인수가 들어가야 함! `컬럼명`, `축`

In [16]:
# 성별 컬럼 삭제(dataframe의 drop 메서드 이용
df.drop('성별', axis=1) # drop에서 axis=1의 값을 주면 컬럼을 삭제하겠다는 의미(세로줄!)

Unnamed: 0_level_0,이름,학과,성적,등급,나이
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,A,28


In [17]:
# 그러나 역시 view 형태이기 때문에 원본에 반영된 것은 아니다. 
# 원본에 반영하려면 inplace 인수를 주어야 한다.
df

Unnamed: 0_level_0,이름,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,A,28,남자


In [18]:
# 좀 헷갈린다면 axis=1 대신 axis='columns'라고 직접적으로 명시해주어도 됨!
df.drop('성별', axis='columns')

Unnamed: 0_level_0,이름,학과,성적,등급,나이
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,A,28


In [19]:
# 컬럼을 완전히 삭제하는 방법?
# 1. 해당 피처를 제외한 새로운 데이터프레임 생성 (좀 더 안전. 원본 데이터 보존!)
df2 = df.drop('성별', axis=1)
df2

Unnamed: 0_level_0,이름,학과,성적,등급,나이
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,A,28


In [20]:
# 원본 데이터는 이때 그대로 있다. 
df

Unnamed: 0_level_0,이름,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,A,28,남자


In [21]:
# 2. 원본 데이터에서 해당 피처 삭제: inplace 인수를 부여
df.drop('성별', axis=1, inplace=True) # inplace=True 인수 설정
df

Unnamed: 0_level_0,이름,학과,성적,등급,나이
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,A,28


In [22]:
# 데이터프레임 행 삭제 방법은?
df = df.drop('one', axis=0)
# 삭제할 행 인덱스를 적어주고, axis=0 축 설정