## 8월 1일 과제
### pandas로 my_data.csv를 수정하여 저장하기

요구사항
1. Unnamed:0라고 표기되는 열을 지운다.  
단 Unnamed:0라 쓰지말고 새롭게 컬럼 이름을 만들어서 지운다.

2. 0,1,2,3,4로 보여지는 index 부분을 지운다.

3. name에 해당되는 영문 이름을 한글로 바꾼다.

4. salary에 해당되는 숫자를 000 세자리 단위로 콤마를 넣어서 값을 바꿔 넣는다.

5. 1~4를 처리하고 나서 csv파일로 저장한다.

In [1]:
#%pip install pandas

In [2]:
import pandas as pd

In [3]:
# 데이터 불러오기
data = pd.read_csv("my_data.csv")
data

Unnamed: 0.1,Unnamed: 0,name,age,salary
0,0,Alice,25,50000
1,1,Bob,30,60000
2,2,Charlie,35,70000
3,3,james,30,400000
4,4,Alice,25,50000
5,5,Bob,30,60000
6,6,Charlie,35,70000
7,7,james,30,400000


In [4]:
# 데이터 프레임 형식으로 바꾸기
df = pd.DataFrame(data)
df

Unnamed: 0.1,Unnamed: 0,name,age,salary
0,0,Alice,25,50000
1,1,Bob,30,60000
2,2,Charlie,35,70000
3,3,james,30,400000
4,4,Alice,25,50000
5,5,Bob,30,60000
6,6,Charlie,35,70000
7,7,james,30,400000


In [5]:
# 1. Unnamed:0라고 표기되는 열을 새로운 이름으로 바꾼 뒤 지운다.  
df = df.rename(columns={'Unnamed: 0':'unnamed_col'})
df

Unnamed: 0,unnamed_col,name,age,salary
0,0,Alice,25,50000
1,1,Bob,30,60000
2,2,Charlie,35,70000
3,3,james,30,400000
4,4,Alice,25,50000
5,5,Bob,30,60000
6,6,Charlie,35,70000
7,7,james,30,400000


In [6]:
df = df.drop('unnamed_col', axis=1)
df

Unnamed: 0,name,age,salary
0,Alice,25,50000
1,Bob,30,60000
2,Charlie,35,70000
3,james,30,400000
4,Alice,25,50000
5,Bob,30,60000
6,Charlie,35,70000
7,james,30,400000


In [7]:
df['name'].value_counts()

Alice      2
Bob        2
Charlie    2
james      2
Name: name, dtype: int64

In [8]:
# (원만한 진행을 위해 단계 2와 순서를 바꿈)
# 3. name에 해당되는 영문 이름을 한글로 바꾼다.
df = df.replace({'Alice':'앨리스', 'Bob':'밥', 'Charlie':'찰리', 'james':'제임스'})
df

Unnamed: 0,name,age,salary
0,앨리스,25,50000
1,밥,30,60000
2,찰리,35,70000
3,제임스,30,400000
4,앨리스,25,50000
5,밥,30,60000
6,찰리,35,70000
7,제임스,30,400000


In [9]:
# 2. 0,1,2,3,4로 보여지는 index 부분을 지운다.
df = df.set_index('name')
df
# (set_index() 메소드: 데이터프레임의 특정 열을 행 인덱스로 설정)

Unnamed: 0_level_0,age,salary
name,Unnamed: 1_level_1,Unnamed: 2_level_1
앨리스,25,50000
밥,30,60000
찰리,35,70000
제임스,30,400000
앨리스,25,50000
밥,30,60000
찰리,35,70000
제임스,30,400000


In [10]:
df['salary'].value_counts()

50000     2
60000     2
70000     2
400000    2
Name: salary, dtype: int64

In [11]:
# 4. salary에 해당되는 숫자를 000 세자리 단위로 콤마를 넣어서 값을 바꿔 넣는다.
df['salary'].apply(lambda x: "{:,}".format(int(x))) 

name
앨리스     50,000
밥       60,000
찰리      70,000
제임스    400,000
앨리스     50,000
밥       60,000
찰리      70,000
제임스    400,000
Name: salary, dtype: object

##### 코드 추가 설명
- 데이터프레임['컬럼명'].apply(정의한 함수명):  
내가 정의한 함수에 따라 특정 column의 값들을 일괄적으로 변경할 수 있음.  
(여기선 lambda로 간단한 함수 정의)  

- int(x): 각 'salary' 값이 문자열 형태일 경우 정수로 변환.  

- "{:,}".format(): 정수로 변환된 값을 천 단위마다 쉼표(,)를 추가하여 문자열로 포맷.  
예를 들어, 50000을 "50,000"으로 변환  

- :는 포매팅 코드를 사용하기 위한 특수 문자.  
이 포매팅 코드는 해당 위치에 값을 포맷하는 방식을 지정.  

- ','는 천 단위마다 쉼표를 추가하는 포매팅 코드.


In [12]:
# 참고:  
# 데이터프레임['컬럼명'].map('{:,}'.format)도 가능
# 그러나 apply()와 달리 map()은 시리즈 데이터에서만 적용 가능.
# (apply()는 판다스 DataFrame 객체의 메서드, map()은 파이썬 내장 자료형)
df['salary'].map('{:,}'.format)

name
앨리스     50,000
밥       60,000
찰리      70,000
제임스    400,000
앨리스     50,000
밥       60,000
찰리      70,000
제임스    400,000
Name: salary, dtype: object

In [13]:
# 어차피 값들이 문자열이 아니라서 함수 말고 그냥 .format 바로 적용해줘도 됨.

# 주의:
# 구분자 포맷팅은 salary 열의 값들에만 적용하고 있기 떄문에
# 저장할 때 전체 데이터프레임인 df가 아닌 해당 열인 df['salary']에 저장해야 함.

df['salary'] = df['salary'].apply('{:,}'.format) 
df

Unnamed: 0_level_0,age,salary
name,Unnamed: 1_level_1,Unnamed: 2_level_1
앨리스,25,50000
밥,30,60000
찰리,35,70000
제임스,30,400000
앨리스,25,50000
밥,30,60000
찰리,35,70000
제임스,30,400000


In [14]:
# 5. 1~4를 처리하고 나서 csv파일로 저장한다.
df.to_csv('my_data_save.csv')