In [1]:
import pandas as pd
scientists = pd.read_csv("../../../data/scientists.csv")

데이터를 추출하고 슬라이싱하는 방법을 알았으니 이번에는 데이터 객체 변경 방법을 살펴보자.

### 열 추가하기
1. 여기서도 scientists 데이터프레임을 사용한다. 데이터프레임의 dtypes 속성을 사용하여 각 열의 유형을 보면 Born열과 Died 열의 dtype은 object이다. 즉, 두 열의 값은 문자열 또는 일련의 문자이다.

In [2]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


날짜와 시간을 나타내는 문자열은 datetime 형으로 변환하는 것이 좋다. 날짜 차이를 계산하거나 사람의 나이를 계산하는 등 날짜와 시간 계산에 다양하게 활용할 수 있기 때문이다. 날짜 문자열이 다른 형식이라면 매개변수 format을 지정하여 원하는 형식의 datetime으로 변환할 수 있다. datetime 모듈에서 제공하는 형식은 공식 문서를 참고하자.

2. Born 열을 문자열(object)에서 datetime형으로 변환해보자. 이 열의 날짜 형식은 YYYY-MM-DD 이므로 format에 %Y-%m-%d를 지정하고 변환 결과는 born_datetime에 저장한다.

In [3]:
born_datetime = pd.to_datetime(scientists["Born"], format="%Y-%m-%d")
print(born_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]


3. Died 열도 Born 열과 같은 형식이므로 같은 방법으로 변환하고 died_datetime에 저장한다.

In [4]:
died_datetime = pd.to_datetime(scientists["Died"], format="%Y-%m-%d")
print(died_datetime)

0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


4. 이제 born_datetime과 died_datetime을 각각 born_dt, died_dt라는 새로운 열로 scientists 데이터프레임에 추가하자.

In [5]:
scientists["born_dt"], scientists["died_dt"] = born_datetime, died_datetime

In [6]:
print(scientists.head())

                   Name        Born        Died  Age    Occupation    born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   61  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   56     Biologist 1907-05-27   

     died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  


5. shape과 dtypes 속성으로 데이터프레임의 모양과 각 열의 자료형도 살펴보자.

In [7]:
print(scientists.shape)

(8, 7)


In [8]:
print(scientists.dtypes)

Name                  object
Born                  object
Died                  object
Age                    int64
Occupation            object
born_dt       datetime64[ns]
died_dt       datetime64[ns]
dtype: object


### 열 내용 변환하기
1. 여기서는 열 내용을 무작위로 섞어 보겠다. 먼저 scientists 데이터프레임의 Age열을 살펴보자.

In [9]:
print(scientists["Age"])

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


2. 이제 열을 섞어 보자. 시리즈의 sample() 메서드를 사용하여 열을 무작위로 섞어 보자. sample() 메서드는 무작위로 시리즈의 값을 추출하는 메서드로, 매개변수 frac에 원하는 추출 비율을 0~1 사이의 값으로 지정할 수 있다. 열 전체의 값을 무작위로 섞고자 하므로 전체 값(100%)을 추출한다는 의미로 1을 지정한다. 매개변수 random_state는 컴퓨터가 생성하는 난수의 기준값을 정하는 역할로, 같은 값을 사용하면 같은 결과를 얻는다. 여기서는 42로 지정했다.

In [10]:
print(scientists["Age"].sample(frac=1, random_state=42))

1    61
5    45
0    37
7    77
2    90
4    56
3    66
6    41
Name: Age, dtype: int64


3. 열 값의 순서가 무작위로 변한 것을 알 수 있다. 이제 이렇게 섞인 열을 Age 열에 할당하고 어떻게 변했는지 살펴보자.

In [11]:
scientists["Age"] = scientists["Age"].sample(frac=1, random_state=42)
print(scientists.head())

                   Name        Born        Died  Age    Occupation    born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   61  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   56     Biologist 1907-05-27   

     died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  


분명히 순서를 섞은 데이터를 할당했는데 Age 열의 값이 기존 순서대로 돌아왔다. 이것은 판다스가 대부분의 연산에서 index를 기준으로 자동 병합하기 때문이다. 즉, 열의 값을 섞을 때 각 값에 대응하는 인덱스는 변하지 ㅇ낳으면서 제자리를 찾아간 것이다. 이 문제를 해결하려면 열의 값을 할당할 때 index 정보를 제거해야한다.

4. 인덱스 정보 없이 값만 반환하는 values를 사용하면 섞인 값을 그대로 할당할 수 있다.

In [12]:
scientists["Age"] = scientists["Age"].sample(frac=1, random_state=42).values
print(scientists.head())

                   Name        Born        Died  Age    Occupation    born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   61       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   45  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   37         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   77       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   90     Biologist 1907-05-27   

     died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  


이제 값이 잘 섞여서 저장되었다. 그런데 데이터의 나이 정보가 뒤죽박죽이 뒤었다. 다행히 출생일과 사망일 정보가 있으니 정확한 나이를 계산할 수 있다.

5. datetime 연산을 사용하여 각 과학자의 실제 나이를 구해보자. 앞에서 구한 born_dt와 died_dt 열의 날짜 차이를 계산하고 이것을 새로운 열 age_days에 저장한다.

In [13]:
scientists["age_days"] = scientists["died_dt"] - scientists["born_dt"]
print(scientists)

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   61             Chemist   
1        William Gosset  1876-06-13  1937-10-16   45        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   37               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   77             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   90           Biologist   
5             John Snow  1813-03-15  1858-06-16   56           Physician   
6           Alan Turing  1912-06-23  1954-06-07   66  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   41       Mathematician   

     born_dt    died_dt   age_days  
0 1920-07-25 1958-04-16 13779 days  
1 1876-06-13 1937-10-16 22404 days  
2 1820-05-12 1910-08-13 32964 days  
3 1867-11-07 1934-07-04 24345 days  
4 1907-05-27 1964-04-14 20777 days  
5 1813-03-15 1858-06-16 16529 days  
6 1912-06-23 1954-06-07 15324 days  
7 1777-04-30 1855-0

6. 새로운 열 age_days에는 출생일부터 사망일가지의 날짜 수가 저장되었다. 이 날짜 수를 햇수로 변환한다.