In [1]:
%config Completer.use_jedi = False
import warnings
warnings.filterwarnings(action="ignore")
import numpy as np
import pandas as pd

***
Pandas의 데이터프레임과 시리즈
***
데이터프레임과 시리즈는 파이썬의 리스트나 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어 있다.  
리스트나 딕셔너리는 많은 양의 데이터를 저장하거나 조작할 수 있는 메소드가 많지않다.
  
반면, pandas의 데이터프레임과 시리즈는 많은 양의 데이터를 저장할 수 있을 뿐만아니라  
스프레드시트 계열(엑셀)의 프로그램을 사용하는 것처럼 행과 열 단위로 데이터를 조작할 수 있는 다양한 메소드와  
속성을 제공한다.

***
시리즈 만들기
***
시리즈를 만들기 위해서는 리스트 또는 튜플을 Series() 클래스의 인수로 전달하면 된다.  

In [2]:
s = pd.Series(['banana', 31])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    banana
1        31
dtype: object


In [3]:
s = pd.Series( ('fruit', 'grapefruit') )
print(type(s))
print(s)
print('-'* 100)
print(s.loc[0])
print(s.iloc[0])

<class 'pandas.core.series.Series'>
0         fruit
1    grapefruit
dtype: object
----------------------------------------------------------------------------------------------------
fruit
fruit


In [4]:
#시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
#문자열을 인덱스로 지정하려면 index 속성으로 인덱스로 사용할 문자열을 리스트에 담아서 전달하면 된다.
s = pd.Series(['뽀로로', '크롱'], index=['name1', 'name2'])
print(s)
print(s.loc['name1'])
print(s.iloc[0])

name1    뽀로로
name2     크롱
dtype: object
뽀로로
뽀로로


***
데이터프레임 만들기
***
데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame() 클래스의 인수로 전달하면 된다.  
   
딕셔너리의 key가 데이터프레임의 열 이름이 되고, 딕셔너리의 value(반드시 list 형태)는 데이터가 된다.

In [5]:
data = {
    'name' : ['뽀로로', '크롱'],
    'job' : ['놀이꾼', '흑우'],
    'born': ['2000년일껄', '옆에 애랑 비슷할껄??'],
    'ref' : ['노는거 좋아함', '노는 거 좋아하는 놈 좋아함'],
    'age' : [5, 6]
}
print(type(data))
df = pd.DataFrame(data)
print(type(df))
df

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,ref,age
0,뽀로로,놀이꾼,2000년일껄,노는거 좋아함,5
1,크롱,흑우,옆에 애랑 비슷할껄??,노는 거 좋아하는 놈 좋아함,6


In [6]:
#데이터프레임을 생성할 때 문자열을 인덱스로 지정할 수 있다.
#문자열을 인덱스로 지정하려면 index 속성으로 인덱스로 사용할 문자열을 리스트에 담아서 전달하면 된다.
#column 속성으로 딕셔너리의 key 중에서 데이터프레임으로 만들 key를 지정할 수 있다.
data = {
    'job' : ['놀이꾼', '흑우'],
    'born': ['2000년일껄', '옆에 애랑 비슷할껄??'],
    'ref' : ['노는거 좋아함', '노는 거 좋아하는 놈 좋아함'],
    'age' : [5, 6]
}
print(type(data))
df = pd.DataFrame(data, index=['뽀로로', '크롱'], columns=['job', 'age'])
print(type(df))
df

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,job,age
뽀로로,놀이꾼,5
크롱,흑우,6


In [7]:
# 딕셔너리는 key와 value로 이루어진 한 쌍으로 입력되는 데이터의 순서를 보장하지 않는다.
# 순서가 보장되는 딕셔너리를 전달하려면 collections 모듈의 OrderedDict 클래스를 import하고
# OrderedDict 클래스의 인수로 key와 value가 튜플 형태로 작성된 리스트를 넘겨주면 데이터의 순서를
# 그대로 유지하는 데이터프레임을 만들 수 있다.
from collections import OrderedDict
data = OrderedDict([
    ('name', ['뽀로로', '크롱']),
    ('job', ['놀이꾼', '흑우']),
    ('born', ['2000년일껄', '옆에 애랑 비슷할껄??']),
    ('ref', ['노는거 좋아함', '노는 거 좋아하는 놈 좋아함']),
    ('age', [5, 6])
])
df = pd.DataFrame(data)
df

Unnamed: 0,name,job,born,ref,age
0,뽀로로,놀이꾼,2000년일껄,노는거 좋아함,5
1,크롱,흑우,옆에 애랑 비슷할껄??,노는 거 좋아하는 놈 좋아함,6


***
시리즈 다루기
***


In [8]:
data = {
    'job' : ['놀이꾼', '흑우'],
    'born': ['2000년일껄', '옆에 애랑 비슷할껄??'],
    'ref' : ['노는거 좋아함', '노는 거 좋아하는 놈 좋아함'],
    'age' : [5, 6]
}
df = pd.DataFrame(data, index=['뽀로로', '크롱'])
df

Unnamed: 0,job,born,ref,age
뽀로로,놀이꾼,2000년일껄,노는거 좋아함,5
크롱,흑우,옆에 애랑 비슷할껄??,노는 거 좋아하는 놈 좋아함,6


In [9]:
# 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스(행 또는 열의 이름)을 전달하거나
# iloc 속성에 행 도는 열의 일련번호를 전달한다.
row = df.iloc[0]
print(type(row))
print(row)
print('-' * 100)
row = df.loc['뽀로로']
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
job         놀이꾼
born    2000년일껄
ref     노는거 좋아함
age           5
Name: 뽀로로, dtype: object
----------------------------------------------------------------------------------------------------
<class 'pandas.core.series.Series'>
job         놀이꾼
born    2000년일껄
ref     노는거 좋아함
age           5
Name: 뽀로로, dtype: object


In [10]:
col = df.iloc[:, 0]
print(col)
print(type(col))
print('-' * 100)
col = df.loc[:, 'job']
print(col)
print(type(col))

뽀로로    놀이꾼
크롱      흑우
Name: job, dtype: object
<class 'pandas.core.series.Series'>
----------------------------------------------------------------------------------------------------
뽀로로    놀이꾼
크롱      흑우
Name: job, dtype: object
<class 'pandas.core.series.Series'>


***
index, values 속성와 keys() 메소드

In [11]:
print(row)
print(row.index) # 시리즈의 인덱스를 얻어온다.
print(row.keys()) #keys() 메소드는 index 속성과 같이 시리즈의 인덱스를 얻어온다.
print(row.values) # 시리즈의 데이터를 얻어온다.
print(type(row.values))

job         놀이꾼
born    2000년일껄
ref     노는거 좋아함
age           5
Name: 뽀로로, dtype: object
Index(['job', 'born', 'ref', 'age'], dtype='object')
Index(['job', 'born', 'ref', 'age'], dtype='object')
['놀이꾼' '2000년일껄' '노는거 좋아함' 5]
<class 'numpy.ndarray'>


In [12]:
print(col)
print(col.index)
print(col.keys())
print(col.values)
print(type(col.values))

뽀로로    놀이꾼
크롱      흑우
Name: job, dtype: object
Index(['뽀로로', '크롱'], dtype='object')
Index(['뽀로로', '크롱'], dtype='object')
['놀이꾼' '흑우']
<class 'numpy.ndarray'>


***
시리즈 통계 메소드
***

In [13]:
ages = df.age
print(type(ages))
print(ages)
print('-'* 100)

print('갯수 -> {}'.format(ages.count()))
print('합계 -> {}'.format(ages.sum()))
print('평균 -> {}'.format(ages.mean()))
print('최대값 -> {}'.format(ages.max()))
print('최소값 -> {}'.format(ages.min()))
print('분산 -> {}'.format(ages.var()))
print('표준편차 -> {}'.format(ages.std()))


<class 'pandas.core.series.Series'>
뽀로로    5
크롱     6
Name: age, dtype: int64
----------------------------------------------------------------------------------------------------
갯수 -> 2
합계 -> 11
평균 -> 5.5
최대값 -> 6
최소값 -> 5
분산 -> 0.5
표준편차 -> 0.7071067811865476


In [14]:
#scientists = pd.read_csv('./data/scientists.csv', sep=',')
scientists = pd.read_csv('./data/scientists.csv') # sep 옵션의 기본값은 ','이다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [15]:
ages = scientists.Age
print(type(ages))
print(ages)
print('-'*100)

print('갯수 -> {}'.format(ages.count()))
print('합계 -> {}'.format(ages.sum()))
print('평균 -> {}'.format(ages.mean()))
print('최대값 -> {}'.format(ages.max()))
print('최소값 -> {}'.format(ages.min()))
print('분산 -> {}'.format(ages.var()))
print('표준편차 -> {}'.format(ages.std()))


<class 'pandas.core.series.Series'>
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
----------------------------------------------------------------------------------------------------
갯수 -> 8
합계 -> 473
평균 -> 59.125
최대값 -> 90
최소값 -> 37
분산 -> 335.8392857142857
표준편차 -> 18.325918413937288


***
브로드캐스팅
***
시리즈나 데이터프레임에서 모든 데이터에 대해서 한번에 연산하는 것을 브로드캐스팅이라 한다.  
여러 개의 값을 가지는 데이터를 벡터라하고, 단순 크기를 나타내는 데이터 1개를 스칼라라고 한다.

In [16]:
#scientists 데이터프레임의 Age 시리즈의 평균 나이 (59.125)보다 나이가 많은 데이터만 추출한다.
bool_values = ages > ages.mean() # 브로드캐스팅
print(bool_values)

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [17]:
print(ages[bool_values]) # 불리언 인덱싱

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [18]:
print(ages[[False, True, True, True ,False, False, False, True]])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [19]:
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [20]:
for age in ages:
    print('{:4d}'.format(age), end=' ')

  37   61   90   66   56   45   41   77 

In [21]:
# 같은 길이의 벡터로 연산을 하면 결과값으로 같은 길이의 벡터가 출력된다.
for age in ages + ages:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * ages:
    print('{:4d}'.format(age), end=' ')

  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 

In [22]:
# 벡터에 스칼라값을 연산하면 각각의 벡터값에 스칼라값이 연산된 결과가 출력된다.
for age in ages + 100:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{:4d}'.format(age), end=' ')

 137  161  190  166  156  145  141  177 
  74  122  180  132  112   90   82  154 

In [23]:
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산한다.
print(pd.Series([1, 100]))
# print(pd.Series([1, 100]))의 0, 1 인덱스만 계산되고 나머지는 계산할 수 없으므로
# 누락값(NaN, nan, NA, na, 결측치)으로 처리된다.
print(ages + pd.Series([1, 100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


***
시리즈 정렬
***
- sort_index() 메소드는 인덱스를 정렬한다.  
- sort_values() 메소드는 데이터를 정렬한다.  
- sort_index() 메소드와 sort_values() 메소드는 별도의 설정을 하지 않으면 오름차순으로 정렬되지만,  
내림차순으로 정렬하려면 ascending 속성값을 False로 지정한다.

In [24]:
print(ages)
print('-' * 100)
print( ages.sort_index() ) # 오름차순 정렬, ages.sort_index(ascending=True)
print('-' * 100)
print( ages.sort_index(ascending=False) ) # 내림차순 정렬print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
----------------------------------------------------------------------------------------------------
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
----------------------------------------------------------------------------------------------------
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [25]:
print( ages.sort_values() ) # 오름차순 정렬, ages.sort_values(ascending=True)
print('-' * 100)
print( ages.sort_values(ascending=False) ) # 내림차순 정렬

0    37
6    41
5    45
4    56
1    61
3    66
7    77
2    90
Name: Age, dtype: int64
----------------------------------------------------------------------------------------------------
2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64


In [26]:
# 벡터와 벡터의 연산은 같은 인덱스를 가지는 값끼리 수행한다.
for age in ages + ages.sort_index(ascending=False):
    print('{:4d}'.format(age), end=' ')

  74  122  180  132  112   90   82  154 

***
데이터프레임도 시리즈와 마찬가지로 브로드캐스팅과 불리언 인덱싱이 가능하다
***


In [27]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [28]:
#(ages[ages > ages.mean()]
scientists[scientists.Age > scientists.Age.mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [29]:
#시리즈에 스칼라 연산을 적용할 때 모든 요소에 스칼라 연산이 실행되는 것처럼 데이터프레임도 스칼라 연산이 적용된다.
#데이터프레임에 2를 곱하면 숫자 데이터는 2를 곱한 숫자가 되고, 문자열 데이터는 2회 반복된다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


***
데이터프레임 열의 자료형 바꾸기
***

In [30]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


In [31]:
# 날짜를 문자열 형태로 저장한 데이터는 날짜 및 시간에 관련된 작업을 할 수 있도록 데이터타입을 변경해야한다.
# to_datetime() 메소드는 object(문자열) 타입의 데이터를 datetime(날짜 및 시간) 타입으로 변경한다.
born_datetime = pd.to_datetime(scientists.Born)
print(born_datetime)
died_datetime = pd.to_datetime(scientists.Died, format='%Y-%m-%d')
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [32]:
scientists.Born = pd.to_datetime(scientists.Born)
scientists.Died = pd.to_datetime(scientists.Died, format='%Y-%m-%d')

In [33]:
print(scientists.dtypes)

Name                  object
Born          datetime64[ns]
Died          datetime64[ns]
Age                    int64
Occupation            object
dtype: object


***
 파생변수(열, 계산에 의한 변수) 추가하기 -> 데이터프레임의 한 열을 변수라 부르기도 한다.
***

In [34]:
# object 타입을 datetime 타입으로 변경한 born_datetime, died_datetime를 데이터프레임에 파생 변수로 추가한다.
print(scientists.shape)
# 데이터프레임에 존재하는 열에 데이터를 넣으면 기존 데이터가 수정되고, 
# 존재하지 않는 열에 데이터를 넣으면 데이터가 추가된다.
# 데이터프레임에 파생 변수 추가는 데이터프레임이름['파생변수이름'] = 데이터 형태만 가능하다.
scientists['born_dt'] = born_datetime 
#scientists.get('died_dt') = died_datetime # 사용 불가
#scientists.died_dt = died_datetime # 사용 불가
scientists['died_dt'] = died_datetime
print(scientists.shape)


(8, 5)
(8, 7)


In [35]:
scientists['age_days'] = scientists.died_dt - scientists.born_dt
print(scientists.shape)
scientists

(8, 8)


Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


***
데이터프레임의 열 삭제하기
***
- drop() 메소드는 데이터프레임의 열을 삭제한다.
- drop() 메소드는 axis=0이 기본값이므로 열 방향 단위로 작업을 해 삭제하려하기때문에  
에러가 발생되므로 반드시 axis=1로 설정해야한다.  
- 삭제할 열이 2개이상이면 삭제할 열 목록을 리스트로 만들어서 drop() 메소드에 전달한다.

In [36]:
#scientists_dropped = scientists.drop('Born') # scientists.drop('Born', axis=0) # 에러
#scientists_dropped = scientists.drop('Born', axis=1) # 열 1개 삭제
scientists_dropped = scientists.drop(['Born', 'Died'], axis=1) # 열 1개 삭제
scientists_dropped

Unnamed: 0,Name,Age,Occupation,born_dt,died_dt,age_days
0,Rosaline Franklin,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,77,Mathematician,1777-04-30,1855-02-23,28422 days


***
데이터프레임을 파일로 저장하기
***
- 피클(pickle)은 Pandas 전용 데이터 파일로 데이터를 바이너리(이진) 형태로 직렬화한 객체로 저장하는 방법으로 데이터를 오래 보관할 수 있다는 뜻으로 피클이라고 이름이 붙여졌다.  
-  피클로 저장하면 스프레드시트 형태보다 더 작은 용량으로 데이터를 저장할 수 있다.
- 시리즈 피클 파일로 저장하기
- to_pickle() 메소드로 시리즈나 데이터프레임을 피클 파일로 저장할 수 있다.

In [37]:
names = scientists.Name
print(type(names))
print(names)


names.to_pickle('./output/scientist_name_series.pickle')

<class 'pandas.core.series.Series'>
0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


***
데이터프레임을 피클 파일로 저장하기
***

In [38]:
scientists.to_pickle('./output/scientist_df_name_series.pickle')

***
피클 파일을 읽어오기
***
read_pickle() 메소드로 시리즈나 데이터프레임을 피클 파일로 저장할 수 있다.

In [39]:
print(pd.read_pickle('./output/scientist_name_series.pickle'))

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [40]:
pd.read_pickle('./output/scientist_df_name_series.pickle')

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


***
시리즈나 데이터프레임을 텍스트(csv 또는 tsv) 파일로 저장하기
***
- to_csv() 메소드로 시리즈나 데이터프레임을 텍스트 파일로 저장할 수 있다. 


- csv 파일로 저장할 때는 to_csv() 메소드의 구분자를 지정하는 sep 옵션의 기본값이 ','이므로  
    구분자를 별로도 지정하지 않아도 되지만,  
    tsv 파일로 저장할 때는 구분자를 반드시 '\t'로 지정해야한다.

In [41]:
names.to_csv('./output/scientist_name.csv')
scientists.to_csv('./output/scientist_df.tsv', sep='\t')