In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd

판다스의 데이터프레임과 시리즈  
데이터프레임과 시리즈는 파이썬의 리스트나 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어 있다.  
리스트와 딕셔너리는 많은 양의 데이터를 저장하거나 데이터를 조작할 수 있는 함수가 많치 않은 반면에 판다스는 데이터프레임과 시리즈는 많은 양의 데이터를 저장할 수 있을 뿐만아니라 스프레드시트 계열의 프로그램을 사용하는 것 처럼 행과 열 단위로 데이터를 조작할 수 있는 다양한 함수와 속성들을 제공한다.

시리즈 만들기  
시리즈를 만들기 위해서는 리스트를 Series() 함수의 인수로 전달하면 된다.

In [2]:
s = pd.Series(['banana', 42])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    banana
1        42
dtype: object


In [3]:
s = pd.Series(['홍길동', '도적넘'])
print(s)
print(s.loc[0])
print(s.loc[1])
print(s.iloc[0])
print(s.iloc[1])

0    홍길동
1    도적넘
dtype: object
홍길동
도적넘
홍길동
도적넘


In [4]:
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 지정하려면 index 속성으로 인덱스로 사용하려는 문자열을 리스트에 담아서 전달하면 된다.
s = pd.Series(['홍길동', '도적넘'], index=['name', 'job'])
print(s)
print(s.loc['name'])
print(s.loc['job'])
print(s.iloc[0])
print(s.iloc[1])

name    홍길동
job     도적넘
dtype: object
홍길동
도적넘
홍길동
도적넘


데이터프레임 만들기  
데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame() 함수의 인수로 전달하면 된다.

In [5]:
df = pd.DataFrame({
    # 'key': [value, value, ...] # key가 데이터프레임의 열 이름이 되고 value는 데이터가 된다.
    'name': ['홍길동', '임꺽정'],
    'job': ['도적놈', '도둑놈'],
    'born': ['1569-04-20', '1875-06-10'],
    'died': ['1620-08-25', '1950-01-19'],
    'age': [52, 75]
})
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died,age
0,홍길동,도적놈,1569-04-20,1620-08-25,52
1,임꺽정,도둑놈,1875-06-10,1950-01-19,75


In [6]:
# DataFrame() 함수의 data 속성으로 딕셔너리 형태로 데이터를 지정하고 index 속성으로 인덱스를 지정할 수 있다.
# columns 속성으로 열 이름을 지정할 수 있다. data 속성에 지정한 key와 같은 열 이름만 데이터프레임으로 만들어진다.
df = pd.DataFrame(
    data={
        'job': ['도적놈', '도둑놈'],
        'born': ['1569-04-20', '1875-06-10'],
        'died': ['1620-08-25', '1950-01-19'],
        'age': [52, 75]
    },
    index=['홍길동', '임꺽정'],
    columns=['job', 'age']
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,job,age
홍길동,도적놈,52
임꺽정,도둑놈,75


In [7]:
# 딕셔너리는 key와 value로 이루어진 한 쌍의 데이터로 입력되는 데이터들의 순서를 보장하지 않는다.
# 순서가 보장되는 딕셔너리를 전달하려면 collections 모듈의 OrderedDict() 함수를 import 하고 OrderedDict() 함수의 인수로
# 튜플 형태의 인수를 전달하면 데이터의 순서를 그대로 유지하면서 데이터프레임을 만들수 있다.
from collections import OrderedDict
df = pd.DataFrame(
    OrderedDict([
        ('name', ['홍길동', '임꺽정']),
        ('job', ['도적놈', '도둑놈']),
        ('born', ['1569-04-20', '1875-06-10']),
        ('died', ['1620-08-25', '1950-01-19']),
        ('age', [52, 75])
    ])
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died,age
0,홍길동,도적놈,1569-04-20,1620-08-25,52
1,임꺽정,도둑놈,1875-06-10,1950-01-19,75


시리즈 다루기

In [8]:
df = pd.DataFrame(
    data={
        'job': ['도적놈', '도둑놈'],
        'born': ['1569-04-20', '1875-06-10'],
        'died': ['1620-08-25', '1950-01-19'],
        'age': [52, 75]
    },
    index=['홍길동', '임꺽정'],
    columns=['job', 'born', 'died', 'age']
)
df

Unnamed: 0,job,born,died,age
홍길동,도적놈,1569-04-20,1620-08-25,52
임꺽정,도둑놈,1875-06-10,1950-01-19,75


In [9]:
# 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스(행 또는 열 이름)을 전달하거나 iloc 속성에 행 또는 열의 일련번호를
# 전달한다.
row = df.loc['홍길동']
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
job            도적놈
born    1569-04-20
died    1620-08-25
age             52
Name: 홍길동, dtype: object


In [10]:
col = df.loc[:, 'job']
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적놈
임꺽정    도둑놈
Name: job, dtype: object


index, values 속성과 keys() 함수

In [11]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(type(row.index))
print(row.index)
print(col.index)

<class 'pandas.core.indexes.base.Index'>
Index(['job', 'born', 'died', 'age'], dtype='object')
Index(['홍길동', '임꺽정'], dtype='object')


In [12]:
# keys() 함수는 index 속성과 똑같이 시리즈의 인덱스를 얻어온다.
print(type(row.keys()))
print(row.keys())
print(col.keys())

<class 'pandas.core.indexes.base.Index'>
Index(['job', 'born', 'died', 'age'], dtype='object')
Index(['홍길동', '임꺽정'], dtype='object')


In [13]:
# index 속성의 특정 값 추출하기
print(type(row.index[0]))
print(row.index[0])
print(type(col.keys()[0]))
print(col.keys()[1])

<class 'str'>
job
<class 'str'>
임꺽정


In [14]:
# values 속성은 시리즈의 데이터를 numpy 배열 형태로 얻어온다.
print(type(row.values))
print(row.values)
print(col.values)

<class 'numpy.ndarray'>
['도적놈' '1569-04-20' '1620-08-25' 52]
['도적놈' '도둑놈']


In [15]:
# values 속성의 특정 값 추출하기
print(type(row.values[0]))
print(row.values[0])
print(type(col.values[1]))
print(col.values[1])

<class 'str'>
도적놈
<class 'str'>
도둑놈


시리즈 기초 통계 함수

In [16]:
# ages = df['age']
# ages = df.get('age')
ages = df.age
print(type(ages))
print(ages)
print('=' * 80)

print('max = {}'.format(ages.max()))
print('min = {}'.format(ages.min()))
print('sum = {}'.format(ages.sum()))
print('mean = {}'.format(ages.mean()))
print('std = {}'.format(ages.std()))

<class 'pandas.core.series.Series'>
홍길동    52
임꺽정    75
Name: age, dtype: int64
max = 75
min = 52
sum = 127
mean = 63.5
std = 16.263455967290593


In [17]:
scientists = pd.read_csv('./data/scientists.csv')
print(type(scientists))
scientists

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [18]:
ages = scientists.Age
print(type(ages))
print(ages)
print('=' * 80)

print('max = {}'.format(ages.max()))
print('min = {}'.format(ages.min()))
print('sum = {}'.format(ages.sum()))
print('mean = {}'.format(ages.mean()))
print('std = {}'.format(ages.std()))

<class 'pandas.core.series.Series'>
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
max = 90
min = 37
sum = 473
mean = 59.125
std = 18.325918413937288


In [19]:
# 평균 나이(59.125)보다 나이가 많은 사람의 데이터만 추출한다.
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [20]:
# print(ages > ages.mean())
bool_value = ages > ages.mean()
print(bool_value)
print(ages[bool_value])

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool
1    61
2    90
3    66
7    77
Name: Age, dtype: int64


브로드캐스팅  
ages > ages.mean()과 같이 시리즈나 데이터프레임의 모든 데이터에 대해 한 번에 연산하는 것을 브로드캐스팅이라 한다.  
여러개의 값을 가진 데이터를 벡터라 하고 단순 크기를 나타내는 데이터를 스칼라라 부른다.

In [21]:
for age in ages:
    print('{:4d}'.format(age), end=' ')

  37   61   90   66   56   45   41   77 

In [22]:
# 같은 길이의 벡터로 연산을 하면 결괏값으로 같은 길이의 벡터가 출력된다.
for age in ages + ages:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * ages:
    print('{:4d}'.format(age), end=' ')

  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 

In [23]:
# 벡터에 스칼라 값을 연산하면 벡터 각각의 값에 스칼라 값이 연산된 결과가 출력된다.
for age in ages + 100:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{:4d}'.format(age), end=' ')

 137  161  190  166  156  145  141  177 
  74  122  180  132  112   90   82  154 

In [24]:
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산된다.
print(pd.Series([1, 100]))
# pd.Series([1, 100])의 0, 1 인덱스만 계산되고 나머지는 계산할 수 없으므로 누락값(NaN, nan, NA, na, 결측치)으로 처리된다.
print(ages + pd.Series([1, 100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


시리즈 정렬  
sort_index() 함수는 인덱스를 정렬하고 sort_values() 함수가 데이터를 정렬한다.

In [25]:
print(ages)
# sort_index() 함수와 sort_values() 함수는 정렬 방식이 오름차순 정렬이 기본값으로 사용된다.
# ascending=True가 기본값이므로 별다른 설정을 하지 않으면 오름차순으로 정렬되지만 False로 변경하면 내림차순으로 정렬된다.
print(ages.sort_values())
print(ages.sort_index(ascending=False))

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
0    37
6    41
5    45
4    56
1    61
3    66
7    77
2    90
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [26]:
print(ages)
rev_args = ages.sort_index(ascending=False)
print(rev_args)
# 벡터와 벡터의 연산은 같은 인덱스를 가지는 값끼리 수행하기 때문에 ages * 2와 같은 결과가 계산된다.
for age in ages + rev_args:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{:4d}'.format(age), end=' ')

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
  74  122  180  132  112   90   82  154 
  74  122  180  132  112   90   82  154 

데이터프레임도 시리즈와 마찬가지로 불린 인덱싱과 브로드캐스팅을 할 수 있다.

In [27]:
print(scientists)
print('=' * 80)
print(scientists[scientists.Age > scientists.Age.mean()])

                   Name        Born        Died  Age          Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1        William Gosset  1876-06-13  1937-10-16   61        Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5             John Snow  1813-03-15  1858-06-16   45           Physician
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician
                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


In [28]:
# 시리즈에 스칼라 연산을 적용할 때 모든 요소에 스칼라를 적용해서 연산이 실행된 것 처럼 데이터프레임도 마찬가지로 
# 데이터프레임에 2를 곱하면 문자열 데이터는 문자열이 2회 반복되고 숫자 데이터는 2를 곱한 숫자가 된다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


데이터프레임 열의 자료형 바꾸기

In [29]:
scientists = pd.read_csv('./data/scientists.csv')
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [30]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


In [31]:
# 날짜를 문자열로 저장한 데이터는 날짜 및 시간에 관련된 작업을 할 수 있도록 to_datetime() 함수로 datetime 자료형으로 바꿔주는
# 것이 좋다.
# to_datetime(날짜 시리즈[, format='날짜 서식'])
# %Y => 년도 4자리, %y => 년도 2자리, %m => 월(숫자), %B => 월(영어, 전체), %b(%h) => 월(영어, 3글자), %d => 일
# %A => 요일(전체), %a => 요일(3글자), %H => 시간(24시각), %I => 시간(12시각), %M => 분, %S => 초, %p => AM/PM
# %f => 마이크로 초
born_datetime = pd.to_datetime(scientists.Born, format='%Y-%m-%d')
print(scientists.Born)
print(born_datetime)
died_datetime = pd.to_datetime(scientists.Died, format='%Y-%m-%d')
print(died_datetime)

0    1920-07-25
1    1876-06-13
2    1820-05-12
3    1867-11-07
4    1907-05-27
5    1813-03-15
6    1912-06-23
7    1777-04-30
Name: Born, dtype: object
0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [32]:
# datetime 형태로 변경한 born_datetime, died_datetime를 데이터프레임에 추가한다.
print(scientists.shape)
# 데이터프레임에 존재하는 열 이름에 데이터를 넣으면 기존의 열이 수정되고 존재하지 않는 열 이름에 데이터를 넣으면 데이터가
# 추가된다.
# 데이터프레임['열 이름'] = 데이터
# scientists['born_dt'] = born_datetime
# scientists['died_dt'] = died_datetime
scientists['born_dt'], scientists['died_dt'] = born_datetime, died_datetime
print(scientists.shape)
scientists

(8, 5)
(8, 7)


Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


In [33]:
scientists.dtypes

Name                  object
Born                  object
Died                  object
Age                    int64
Occupation            object
born_dt       datetime64[ns]
died_dt       datetime64[ns]
dtype: object

In [38]:
# 추가된 파생 변수 scientists.died_dt에서 scientists.born_dt를 빼면 얼마동안 세상을 살다 떠났는지 계산할 수 있다.
scientists['age_days_dt'] = scientists.died_dt - scientists.born_dt
print(scientists.shape)
scientists

(8, 8)


Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


시리즈, 데이터프레임의 데이터 섞기

In [42]:
import random as r
# 파이썬 random 모듈의 shuffle() 함수는 데이터를 무작위 섞어준다.
r.shuffle(scientists.Age) # scientists 데이터프레임의 Age 열만 섞인다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,61,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,56,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,37,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,41,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,45,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,77,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,66,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,90,Mathematician,1777-04-30,1855-02-23,28422 days


In [62]:
# 파이썬 random 모듈의 sample() 함수는 데이터를 무작위 섞고 지정한 개수만큼 추출한다.
r.sample(list(scientists.Name), 4)

['Alan Turing', 'Johann Gauss', 'Rachel Carson', 'William Gosset']

데이터프레임 열 삭제하기

In [90]:
scientists = pd.read_csv('./data/scientists.csv')
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [89]:
# drop() 함수는 데이터프레임의 열을 삭제한다.
# drop(삭제할 열 이름, axis=1) # 삭제할 열이 2개 이상일 경우 리스트에 넣어줘야 한다.
# drop() 함수는 axis=0이 기본값으로 설정되어있어서 행을 제거하려 하기 때문에 에러가 발생되므로 반드시 axis=1로 지정해서
# 사용해야 한다.
# scientists_dropped = scientists.drop('Age', axis=1) # 열 1개 삭제
scientists_dropped = scientists.drop(['Name', 'Age'], axis=1) # 열 2개 이상 삭제
scientists_dropped

Unnamed: 0,Born,Died,Occupation
0,1920-07-25,1958-04-16,Chemist
1,1876-06-13,1937-10-16,Statistician
2,1820-05-12,1910-08-13,Nurse
3,1867-11-07,1934-07-04,Chemist
4,1907-05-27,1964-04-14,Biologist
5,1813-03-15,1858-06-16,Physician
6,1912-06-23,1954-06-07,Computer Scientist
7,1777-04-30,1855-02-23,Mathematician


시리즈나 데이터프레임을 피클(pickle), csv, tsv 파일로 저장하고 불러오기

In [95]:
# 시리즈를 피클로 저장하기
# 피클은 데이터를 바이너리 형태로 직렬화한 객체를 저장하는 방법으로 데이터를 오래 보관한다는 뜻으로 피클이라 이름이 붙여졌다.
# 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있다.
names = scientists.Name
print(type(names))
print(names)
# 시리즈를 피클로 저장하려면 to_pickle() 함수를 사용한다.
# 피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클 파일을 메모장같은 데이터 편집기 프로그램으로 열어보면 이상한 문자가
# 표시된다.
names.to_pickle('./output/scientists_name_series.pickle')

<class 'pandas.core.series.Series'>
0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [96]:
# 피클 파일을 읽어오려면 read_pickle() 함수를 사용한다.
scientists_name_from_pickle = pd.read_pickle('./output/scientists_name_series.pickle')
print(scientists_name_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [99]:
# 데이터프레임도 피클 파일로 저장할 수 있다.
scientists.to_pickle('./output/scientists_df.pickle')
scientists_from_pickle = pd.read_pickle('./output/scientists_df.pickle')
scientists_from_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [101]:
# to_csv() 함수로 시리즈나 데이터프레임을 csv 또는 tsv 파일로 저장할 수 있다.
names.to_csv('./output/scientists_name_csv.csv')
# sep='\t'로 지정하면 데이터가 tab으로 구분되는 tsv 파일로 저장할 수 있다.
scientists.to_csv('./output/scientists_df_tsv.tsv', sep='\t')