In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as pl

pandas의 데이터 프레임과 시리즈  
데이터 프레임과 시리즈는 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어있다.  
파이썬의 리스트와 딕셔너리는 많은 양의 데이터를 저장하거나 조작할 수 있는 함수가 많지 않은 반면에   
pandas의 데이터프레임과 시리즈는 많은 약의 데이터를 저장할 수 있을 뿐만 아니라 스프레드시트 프로그램 사용하는 것 처럼  
행과 열 단위로 데이터를 조작할 수 있는 다양한 속성과 함수를 제공한다.

In [8]:
s = pd.Series(['banana', 2000])
print(type(s))
print(s)
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 지정하려면 Series() 함수의 index 속성에 인덱스로 사용하려는 문자열을 리스트에 담아 전달하면 된다.
s = pd.Series(['홍길동', '이몽룡'],index=['도적', '공무원'])
print(s)

<class 'pandas.core.series.Series'>
0    banana
1      2000
dtype: object
도적     홍길동
공무원    이몽룡
dtype: object


데이터 프레임 만들기

In [14]:
# 데이터프레임을 만들기 위해서는 딕셔너리 DataFrame() 함수의 인수로 전달하면 된다.
df = pd.DataFrame({
    # 'key' ['value',.......]  # key는 데이터 프레임의 열 이름이 되고 value는 데이터가 된다.
    'name' :['홍길동', '임꺽정'],
    'job' :['도적', '공무원'],
    'born': ['1920-04-20', '1875-06-10'],
    'died' : ['1957-08-20','1900-12-12']
})
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died
0,홍길동,도적,1920-04-20,1957-08-20
1,임꺽정,공무원,1875-06-10,1900-12-12


In [26]:
# DataFrame() 함수의 data 속성에 데이터, index 속성에  인덱스, column 속성에 열 이름을 지정할 수 있다.
df = pd.DataFrame(
    data={
        'job' :['도적', '공무원'],
        'born': ['1920-04-20', '1875-06-10'],
        'died' : ['1957-08-20','1900-12-12'],
        'age' : [37, 66]
    },
    index =['홍길동', '임꺽정'],
#     columns=['job', 'born', 'died', 'age']
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,job,born,died,age
홍길동,도적,1920-04-20,1957-08-20,37
임꺽정,공무원,1875-06-10,1900-12-12,66


시리즈 다루기

In [32]:
# 행 단위
# 데이터 프레임에서 시리즈를 선택하려면 loc, iloc 속성에 열 인덱스를 전달하면 된다.
# 시리즈 : 한 행의 데이터 또는 한 열의 데이터
row = df.loc['임꺽정']
print(type(row))
print(row)
row = df.iloc[0]
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
job            공무원
born    1875-06-10
died    1900-12-12
age             66
Name: 임꺽정, dtype: object
<class 'pandas.core.series.Series'>
job             도적
born    1920-04-20
died    1957-08-20
age             37
Name: 홍길동, dtype: object


In [70]:
# 열단위
col = df.loc[:,'age']
print(type(col))
print(col)
col = df.iloc[:,3]
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    37
임꺽정    66
Name: age, dtype: int64
<class 'pandas.core.series.Series'>
홍길동    37
임꺽정    66
Name: age, dtype: int64


In [56]:
col = df['age'] # loc, iloc 생략 해서 열 이름을 직관적으로 추출할 수 잇다.
print(type(col))
print(col)
col = df.get(['age', 'job'])
print(type(col))
print(col)
col = df.age   # 1개의 열만 얻어올 때 사용
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    37
임꺽정    66
Name: age, dtype: int64
<class 'pandas.core.frame.DataFrame'>
     age  job
홍길동   37   도적
임꺽정   66  공무원
<class 'pandas.core.series.Series'>
홍길동    37
임꺽정    66
Name: age, dtype: int64


index, values 속성과 keys() 함수

In [74]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(type(row.index))
print(row.index)
print(type(col.index))
print(col.index)

<class 'pandas.core.indexes.base.Index'>
Index(['job', 'born', 'died', 'age'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
Index(['홍길동', '임꺽정'], dtype='object')


In [77]:
# values 속성은 시리즈의 데이터를 얻어온다.
print(type(row.values))
print(row.values)
print(type(col.values))
print(col.values)

<class 'numpy.ndarray'>
['도적' '1920-04-20' '1957-08-20' 37]
<class 'numpy.ndarray'>
[37 66]


In [78]:
# keys 속성은 index 속성과 똑같이 시리즈의 데이터를 얻어온다.
print(type(row.keys))
print(row.keys)
print(type(col.keys))
print(col.keys)

<class 'method'>
<bound method Series.keys of job             도적
born    1920-04-20
died    1957-08-20
age             37
Name: 홍길동, dtype: object>
<class 'method'>
<bound method Series.keys of 홍길동    37
임꺽정    66
Name: age, dtype: int64>


In [83]:
# index, values 속성의 특정 위치의 값 추출하기
print(row.index[0])
print(col.index[0])
print(row.values[0])
print(col.values[0])

job
홍길동
도적
37


시리즈 기초 통계함수

In [87]:
scientists = pd.read_csv('./data/scientists.csv')
print(type(scientists))
scientists

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [95]:
ages = scientists['Age']
print(type(ages))
ages

print('sum() = {}'.format(ages.sum()))
print('mean() = {}'.format(ages.mean()))
print('max() = {}'.format(ages.max()))
print('min() = {}'.format(ages.min()))
print('count() = {}'.format(ages.count()))
print('std() = {}'.format(ages.std()))

<class 'pandas.core.series.Series'>
sum() = 473
mean() = 59.125
max() = 90
min() = 37
count() = 8
std() = 18.325918413937288


브로드 캐스팅
ages > ages.mean()와 같이 시리즈나 데이터프레임의 모든 데이터에 대해서 한 번에 연산하는 것을 브로드 캐스팅이라 한다. 
이 때, 여러 개의 값을 가진 데이터를 벡터라 하고 단순 크기를 나타내는 데이터를 스칼라 라고 부른다.

In [102]:
# 평균 나이보다 나이가 많은 사람의 나이 데이터를 추출한다. 
print(ages > ages.mean())
bool_value = ages[ages > ages.mean()]
print(bool_value)
print(ages[[False, True, True, True, False, False, False, True]])

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool
1    61
2    90
3    66
7    77
Name: Age, dtype: int64
1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [110]:
for age in ages:
    print('{:4d}'.format(age), end=' ')
print('\n==========================')
# 같은 길이의 벡터로 연산을 하면 결과 값을 같은 길이의 벡터가 출력된다.
for age in ages + ages:
    print('{:4d}'.format(age), end=' ')
print('\n==========================')
for age in ages * ages:
    print('{:4d}'.format(age), end=' ')
print('\n==========================')

# 벡터와 스칼라 값을 연산하면 벡터 각각의 값에 스칼라 값이 연산된 결과가 출력된다.


  37   61   90   66   56   45   41   77 
  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 


In [112]:
print(pd.Series([1, 100]))
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산된다.
# pd.Series([1, 100])의 0, 1 인덱스만 계산되고 나머지는 계산할 수 없으므로 누락값(NaN, 결측치)으로 처리된다.
print(ages + pd.Series([1, 100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [121]:
print(ages)
# sort_index() 함수는 데이터를 정렬하는 것이 아니고 인덱스를 정렬한다.
# 정렬을 하면 기본값으로 오름차순으로 정려하는데 내림차순으로 정렬하려면 ascending=False 로 인수를 넣어준다.
print(ages.sort_index(ascending=False))
# 데이터를 정렬하려면 sort_values() 함수를 사용한다.
print(ages.sort_values(ascending=False))

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64


In [124]:
print(ages)
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)
# 벡터와 벡터의 연산은 같은 인덱스끼리 연산이 실행된다.
for age in ages + rev_ages:
    print('{:4d}'.format(age), end=' ')
print('\n=========================================')

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
  74  122  180  132  112   90   82  154 


***

데이터 프레임도 시리즈와 마찬가지로 브로드캐스팅과 인덱싱을 할 수 있다.

In [126]:
# print(ages[ages > ages.mean()])
scientists[scientists['Age'] > scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [127]:
print(type(scientists[scientists['Age'] > scientists['Age'].mean()]))

<class 'pandas.core.frame.DataFrame'>


In [128]:
scientists[scientists['Age'] > scientists.get('Age').mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [129]:
scientists[scientists['Age'] > scientists.Age.mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [130]:
# 데이터 프레임에 곱하기 연산을 하면 문자열은 곱해진 숫자만큼 반복되고 숫자는 곱하기 연산이 실행된다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


데이터프레임 열의 자료형 바꾸기

In [131]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [132]:
scientists.dtypes

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object

In [134]:
scientists.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Name        8 non-null      object
 1   Born        8 non-null      object
 2   Died        8 non-null      object
 3   Age         8 non-null      int64 
 4   Occupation  8 non-null      object
dtypes: int64(1), object(4)
memory usage: 448.0+ bytes


In [136]:
print(scientists['Born'].dtypes)

object


In [140]:
# 날짜를 문자열 형태로 저장한 데이터는 날짜 및 시간에 관련된 작업을 할 수 있도록 to_datetime() 함수로 datetime 타입으로
# 바꿔서 작업한다.
born_datetime = pd.to_datetime(scientists['Born'])
print(born_datetime)
died_datetime = pd.to_datetime(scientists['Died'])
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


파생변수, 계산에 의한 변수

In [141]:
scientists = pd.read_csv('./data/scientists.csv')

In [142]:
# datetime 타입으로 변경한 born_datetime, died_datetime를 scientists 데이터 프레임에 열로 추가한다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [157]:
# 데이터 프레임['추가할 열 이름'] = 추가할 데이터
# scientists['born_df'] = born_datetime
# scientists['dide_Df'] = died_datetime
scientists['born_df'], scientists['dide_df'] = born_datetime, died_datetime
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_df,dide_Df,dide_df
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,1855-02-23


In [162]:
scientists['born_df'] = pd.to_datetime(scientists['Born'])
scientists['dide_df'] = pd.to_datetime(scientists['Died'])
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_df,dide_Df,dide_df
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,1855-02-23


In [166]:
# print(scientists['Died'] - scientists['Born']) # 에러, 문자열은 '-' 연산을 할 수 없다.
# to_datetime() 함수로 문자열 형태의 날짜 데이터를 날짜 데이터로 변환한 파생변수 born_df, died_df를 사용하면 얼마동안 세상을
# 살다 떠났는지 계산할 수 있다.
scientists['age_days_df'] = scientists['dide_df'] - scientists['born_df']
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_df,dide_Df,dide_df,age_days_df
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,1855-02-23,28422 days


시리즈, 데이터프레임 열 섞기 

In [167]:
import random as r

In [168]:
# shuffle() 함수는 데이터를 무작위로 섞어준다.
r.shuffle(scientists['Age']) # scientists 데이터 프레임의 Age 열만 섞인다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_df,dide_Df,dide_df,age_days_df
0,Rosaline Franklin,1920-07-25,1958-04-16,45,Chemist,1920-07-25,1958-04-16,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,77,Statistician,1876-06-13,1937-10-16,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,66,Nurse,1820-05-12,1910-08-13,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,37,Chemist,1867-11-07,1934-07-04,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,41,Biologist,1907-05-27,1964-04-14,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,61,Computer Scientist,1912-06-23,1954-06-07,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,90,Mathematician,1777-04-30,1855-02-23,1855-02-23,28422 days


데이터프레임 열 삭제하기

In [176]:
# drop() 함수는 데이터프레임의 열을 삭제한다.
# drop(삭제할열 이름, axis=1), 삭제할 열이 2개 이상이면 리스트에 넣어줘야 한다.
# drop() 함수는 axis=0 이 기본값이고 axis=0으로 지정하면 행을 제거하려 하기 때문에 에러가 발생되므로 1로 지정해서 사용한다.
scientists_droped = scientists.drop(['Born', 'Died', 'dide_Df'], axis=1)
scientists_droped

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   45             Chemist   
1        William Gosset  1876-06-13  1937-10-16   77        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   66               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   37             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   41           Biologist   
5             John Snow  1813-03-15  1858-06-16   56           Physician   
6           Alan Turing  1912-06-23  1954-06-07   61  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   90       Mathematician   

     born_df    dide_Df    dide_df age_days_df  
0 1920-07-25 1958-04-16 1958-04-16  13779 days  
1 1876-06-13 1937-10-16 1937-10-16  22404 days  
2 1820-05-12 1910-08-13 1910-08-13  32964 days  
3 1867-11-07 1934-07-04 1934-07-04  24345 days  
4 1907-05-27 1964-04-14 1964-04-14  20777 days  
5 1813-03-15 1858-06-

Unnamed: 0,Name,Age,Occupation,born_df,dide_df,age_days_df
0,Rosaline Franklin,45,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,77,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,66,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,37,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,41,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,61,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,90,Mathematician,1777-04-30,1855-02-23,28422 days


데이터를 피클, csv tsc 차이로 저장하고 불러오기

In [177]:
# 피클은 데이터를 바이너리 형태로 직력화한 오브젝트를 저장하는 방법으로 데이터를 오래 보관한다는 뜻으로 피클이라 명명함.
# 피클을 저장하면 스프에드시트보다 더 작은 용량으로 데이터를 저장할 수 있다.
names = scientists['Name']
print(names)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [179]:
# 시리즈나 데이터 프레임을 피클로 저장할 때 to_pickle()함수를 사용한다.
names.to_pickle('./output/scientists_name_series.pickle')

In [180]:
# 피클은 바이너리 형태의 오브젝트이기 때문에 피클을 메모장 같은 프로그램에서 열면 이상한 문자가 나타난다.
# 피클을 읽어들이려면 read_pickle() 함수를 사용한다.
pd.read_pickle('./output/scientists_name_series.pickle')

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [181]:
scientists.to_pickle('./output/scientists_df.pickle')

In [182]:
pd.read_pickle('./output/scientists_df.pickle')

Unnamed: 0,Name,Born,Died,Age,Occupation,born_df,dide_Df,dide_df,age_days_df
0,Rosaline Franklin,1920-07-25,1958-04-16,45,Chemist,1920-07-25,1958-04-16,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,77,Statistician,1876-06-13,1937-10-16,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,66,Nurse,1820-05-12,1910-08-13,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,37,Chemist,1867-11-07,1934-07-04,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,41,Biologist,1907-05-27,1964-04-14,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,61,Computer Scientist,1912-06-23,1954-06-07,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,90,Mathematician,1777-04-30,1855-02-23,1855-02-23,28422 days


In [189]:
# to_csv() 함수로 시리즈와 데이터 프레임을 텍스트 파일(csv || tsv)로 저장한다.
# 기본값이 csv 로 설정되어있기 때문에 tsv 파일로 저장하려면 sep속성을 '\t' 로 지정해야한다.
names.to_csv('./output/scientists_name_series.csv')
names.to_csv('./output/scientists_name_series.tsv', sep='\t')
scientists.to_csv('./output/scientists_df.csv')
scientists.to_csv('./output/scientists_df.tsv',sep='\t')