In [1]:
import warnings
warnings.filterwarnings("ignore")
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
plt.rcParams["font.size"] = 18
plt.rcParams["font.family"] = "NanumGothicCoding"
mpl.rcParams["axes.unicode_minus"] = False
import seaborn as sns
%matplotlib notebook

판다스 데이터프레임과 시리즈  
데이터프레임과 시리즈 파이썬의 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화된 구조이다.  
리스트나 딕셔너리는 많은 양의 데이터를 저장하거나 조작할 수 있는 메소드가 많지 않은 반면에 판다스의 데이터프레임과 시리즈는 많은 양을 저장할 수 있을 뿐만아니라 스프레드시트 프로그램을 사용하는 것 처럼 열과 행 단위로 원하는 데이터를 조작할 수 있는 다양한 속성과 메소드를 제공한다.

시리즈 만들기

In [2]:
s = pd.Series(["banana", 42])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    banana
1        42
dtype: object


In [3]:
s = pd.Series(["Wes McKinney", "Creator of Pandas"])
print(s)
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
s = pd.Series(["Wes McKinney", "Creator of Pandas"], index = ["Person", "Who"])
print(s)

0         Wes McKinney
1    Creator of Pandas
dtype: object
Person         Wes McKinney
Who       Creator of Pandas
dtype: object


데이터프레임 만들기

In [4]:
# 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame() 메소드의 인수로 넘겨주면 된다.
scientists = pd.DataFrame({
    # "key": [value, value, ...] # key가 데이터프레임의 열 이름이 되고 리스트의 value는 데이터가 된다.
    "Name": ["Franklin", "Gosset"],
    "Occu": ["Chemist", "Statistician"],
    "Born": ["1920-07-25", "0876-06-13"],
    "Died": ["1958-04-16", "1937-10-16"],
    "Age": [37, 61]
})
print(type(scientists))
print(scientists)

<class 'pandas.core.frame.DataFrame'>
       Name          Occu        Born        Died  Age
0  Franklin       Chemist  1920-07-25  1958-04-16   37
1    Gosset  Statistician  0876-06-13  1937-10-16   61


In [5]:
# DataFrame() 메소드의 data 속성으로 데이터를 지정하고 index 속성으로 인덱스를 지정하고 columns 속성으로 열
# 이름을 지정할 수 있다.
scientists = pd.DataFrame(
    data = {
        "Occu": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "0876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61]
    }, 
    index = ["Franklin", "Gosset"],
    # columns = ["Occu", "Born", "Died", "Age"]
)
print(type(scientists))
print(scientists)

<class 'pandas.core.frame.DataFrame'>
                  Occu        Born        Died  Age
Franklin       Chemist  1920-07-25  1958-04-16   37
Gosset    Statistician  0876-06-13  1937-10-16   61


In [6]:
# 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스를 전달하면 된다. => 인덱스는 문자열도 가능하다.
first_row = scientists.loc["Franklin"]
print(type(first_row))
print(first_row)

<class 'pandas.core.series.Series'>
Occu       Chemist
Born    1920-07-25
Died    1958-04-16
Age             37
Name: Franklin, dtype: object


index, value 속성과 keys() 메소드

In [7]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(first_row.index)
print(type(first_row.index))
# values 속성은 시리즈의 데이터를 얻어온다.
print(first_row.values)
print(type(first_row.values))
# keys() 메소드는 index 속성과 같이 시리즈의 인덱스를 얻어온다.
print(first_row.keys())
print(type(first_row.keys()))
# index 속성의 첫 번째 값 추출하기
print(first_row.index[0])
print(type(first_row.index[0]))
print(first_row.keys()[0])
print(type(first_row.keys()[0]))
# values 속성의 첫 번째 값 추출하기
print(first_row.values[0])
print(type(first_row.values[0]))

Index(['Occu', 'Born', 'Died', 'Age'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
['Chemist' '1920-07-25' '1958-04-16' 37]
<class 'numpy.ndarray'>
Index(['Occu', 'Born', 'Died', 'Age'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
Occu
<class 'str'>
Occu
<class 'str'>
Chemist
<class 'str'>


시리즈 기초 통계 메소드

In [8]:
scientists = pd.read_csv("./data/scientists.csv")
print(type(scientists))
scientists

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [9]:
ages = scientists["Age"]
print("max = {}".format(ages.max()))
print("min = {}".format(ages.min()))
print("sum = {}".format(ages.sum()))
print("mean = {}".format(ages.mean()))
print("std = {}".format(ages.std()))

max = 90
min = 37
sum = 473
mean = 59.125
std = 18.325918413937288


In [10]:
# 평균 나이보다 나이가 많은 사람의 데이터를 추출한다.
print(ages[ages > ages.mean()])
# print(ages > ages.mean())
bool_value = ages > ages.mean()
#print(bool_value)
print(ages[bool_value])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64
1    61
2    90
3    66
7    77
Name: Age, dtype: int64


브로드캐스팅  
ages > ages.mean()와 같이 시리즈나 데이터프레임의 모든 데이터에 대해 한 번에 연산하는 것을 말한다.

In [11]:
# 여러개의 값을 가진 데이터를 벡터라 하고 단순 크기를 나타내는 데이터를 스칼라라 한다.
for age in ages:
    print("{0:4d}".format(age), end = " ")
print()
# 같은 길이의 벡터로 연산을 하면 결과값으로 같은 길이의 벡터가 출력된다.
for age in ages + ages:
    print("{0:4d}".format(age), end = " ")
print()
for age in ages * ages:
    print("{0:4d}".format(age), end = " ")
print()
# 벡터에 스칼라 연산을 하면 벡터 각각의 값에 스칼라 값이 연산된 결과가 출력된다.
for age in ages + 100:
    print("{0:4d}".format(age), end = " ")
print()
for age in ages * 2:
    print("{0:4d}".format(age), end = " ")

  37   61   90   66   56   45   41   77 
  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 
 137  161  190  166  156  145  141  177 
  74  122  180  132  112   90   82  154 

In [12]:
print(pd.Series([1, 100]))
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산된다.
# pd.Series([1, 100])의 0, 1 인덱스만 계산되고 나머지 인덱스는 계산할 수 없으므로 누락값(NaN)으로 처리된다.
print(ages + pd.Series([1, 100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [13]:
print(ages)
# sort_index() 메소드는 데이터를 정렬하는 것이 아니고 인덱스를 정렬한다. 기본 정렬방식은 오름차순 정렬이고
# 내림차순으로 정렬하려면 ascending = False 옵션을 지정하면 된다.
rev_ages = ages.sort_index(ascending = False)
print(rev_ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [14]:
for age in ages * 2:
    print("{0:4d}".format(age), end = " ")
print()
# 벡터와 벡터의 연산은 일치하는 인덱스를 가지는 값끼리 연산을 수행하기 때문에 ages * 2와 ages + rev_ages는 같은
# 결과가 계산된다.
for age in ages + rev_ages:
    print("{0:4d}".format(age), end = " ")

  74  122  180  132  112   90   82  154 
  74  122  180  132  112   90   82  154 

In [15]:
# 데이터를 정렬시키려면 sort_values() 메소드를 사용해야 하고 기본적으로 오름차순으로 정렬되며 ascending = False 
# 속성을 지정하면 내림차순으로 정렬된다.
rev_values = ages.sort_values()
print(rev_values)

0    37
6    41
5    45
4    56
1    61
3    66
7    77
2    90
Name: Age, dtype: int64


데이터프레임도 시리즈와 마찬가지로 불린 인덱싱과 브로드캐스팅을 할 수 있다.

In [16]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [17]:
scientists[scientists["Age"] > scientists["Age"].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [18]:
# 시리즈에 스칼라 연산을 적용할 때 모든 요소에 스칼라를 적용해서 연산이 실행된 것 처럼 데이터프레임도 마찬가지로
# 데이터프레임에 2을 곱하면 문자열 데이터는 문자열이 2회 반복되고 정수 데이터는 2를 곱한 숫자가 된다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


데이터프레임 열의 자료형 바꾸기

In [19]:
print(type(scientists["Born"]))
print(scientists["Born"].dtype) # object => 파이썬의 문자열(str)은 판다스에서 object 타입이된다.
print(scientists["Died"].dtype)

<class 'pandas.core.series.Series'>
object
object


In [20]:
# 날짜를 문자열로 저장한 데이터는 시간 관련 작업을 할 수 있도록 to_datetime() 메소드로 datetime 자료형으로
# 바꿔주는 것이 좋다.
# to_datetime(시리즈, format = "날자서식")
# %Y => 년도 4자리, %y => 년도 2자리, %m => 월, %B => 영어로 월(전체), %b => 영어로 월(3글자), %d => 일
# %A => 요일(전체), %a => 요일(3글자), %I => 시간(12시각), %H => 시간(24시간), %M => 분, %S => 초
# %p => AM/PM, %f => 마이크로초
born_datetime = pd.to_datetime(scientists["Born"], format = "%Y-%m-%d")
print(born_datetime)
died_datetime = pd.to_datetime(scientists["Died"], format = "%Y-%m-%d")
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [21]:
# datetime 타입으로 변경한 born_datetime와 died_datetime를 데이터프레임에 추가한다.
print(scientists.shape)
# 데이터프레임["추가할열이름"] = 추가할데이터
# scientists["born_datetime"] = born_datetime
# scientists["died_datetime"] = died_datetime
# 위의 2줄을 아래와 같이 1줄로 줄여서 사용할 수 있다.
scientists["born_datetime"], scientists["died_datetime"] = born_datetime, died_datetime
print(scientists.shape)

(8, 5)
(8, 7)


In [22]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_datetime,died_datetime
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


In [23]:
# 추가한 파생 변수 scientists["died_datetime"]에서 scientists["born_datetime"]를 빼면 얼마동안 세상을 살다가
# 떠났는지 계산할 수 있다.
scientists["age_days"] = scientists["died_datetime"] - scientists["born_datetime"]
print(scientists.shape)

(8, 8)


In [24]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_datetime,died_datetime,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


시리즈, 데이터프레임의 데이터 섞기

In [25]:
import random
# random 라이브러리의 shuffle() 메소드는 데이터를 무작위로 섞어준다.
random.shuffle(scientists["Age"]) # scientists 데이터프레임의 Age 열 만 섞는다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_datetime,died_datetime,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,66,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,90,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,45,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,61,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician,1777-04-30,1855-02-23,28422 days


데이터프레임 열 삭제하기

In [26]:
# drop() 메소드는 데이터프레임의 열을 삭제한다.
# 첫 번째 인수로 삭제할 열의 이름을 적어주고 두 번째 인수로 axis = 1을 전달한다.
# drop(삭제할 열 이름, axis = 1), 삭제할 열이 2개 이상일 경우 리스트에 넣어줘야 한다.
# drop() 메소드는 axis = 0이 기본값이고 axis = 0으로 지정하면 행을 제거하려 시도하기 때문에 에러가 발생된다.
scientists = scientists.drop("born_datetime", axis = 1)

In [27]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,died_datetime,age_days
0,Rosaline Franklin,1920-07-25,1958-04-16,66,Chemist,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,90,Statistician,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,45,Nurse,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,61,Chemist,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician,1855-02-23,28422 days


In [28]:
scientists = scientists.drop(["died_datetime", "age_days"], axis = 1)

In [29]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,66,Chemist
1,William Gosset,1876-06-13,1937-10-16,90,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,45,Nurse
3,Marie Curie,1867-11-07,1934-07-04,61,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist
5,John Snow,1813-03-15,1858-06-16,56,Physician
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician


데이터를 피클, CSV, TSC 파일로 저장하고 불러오기

In [30]:
name = scientists["Name"]
print(name)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [31]:
# 피클은 데이터를 바이너리 형태로 직렬화한 오브젝트 저장하는 방법으로 데이터를 오래 보관한다는 뜻으로 피클이라는
# 이름이 붙여진 것이다.
# 피클로 저장하면 스프레시트 보다 더 작은 용량으로 데이터를 저장할 수 있다.
# 시리즈를 피클로 저장하려면 to_pickle() 메소드를 사용한다.
name.to_pickle("./output/scientists_names_series.pickle")

In [32]:
# 피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클을 데이터 편집기와 같은 프로그램에서 열어보면 이상한
# 문자가 나타난다.
# 피클을 읽어오려면 read_pickle() 메소드를 사용한다.
scientists_names_from_pickle = pd.read_pickle("./output/scientists_names_series.pickle")
scientists_names_from_pickle

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [33]:
# 데이터프레임도 피클로 저장할 수 있다.
scientists.to_pickle("./output/scientists_df.pickle")
scientists_from_pickle = pd.read_pickle("./output/scientists_df.pickle")
scientists_from_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,66,Chemist
1,William Gosset,1876-06-13,1937-10-16,90,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,45,Nurse
3,Marie Curie,1867-11-07,1934-07-04,61,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist
5,John Snow,1813-03-15,1858-06-16,56,Physician
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician


In [34]:
# to_csv() 메소드는 시리즈와 데이터프레임을 CSV 파일로 저장할 수 있다. 이 때, sep 속성에 "\t"를 지정하고 파일의
# 확장명으로 tsv를 지정하면 TSV 파일로 저장할 수 있다.
name.to_csv("./output/scientists_names_series.csv")
name.to_csv("./output/scientists_names_series.tsv", sep = "\t")