In [1]:
import warnings
warnings.filterwarnings('ignore')
from IPython.display import Image
import numpy as np
import pandas as pd

판다스 데이터프레임과 시리즈  
데이터프레임과 시리즈는 리스트, 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어 있다.  
리스트와 딕셔너리는 많은 양의 데이터를 저장하거나 조작할 수 있는 함수가 많치 않은 반면에 판다스의 데이터프레임과 시리즈는 많은 양을 저장할 수 있을 뿐만 아니라 스프레드시트 프로그램을 사용하는 것 처럼 행과 열 단위로 데이터를 조작할 수 있는 다양한 속성과 함수를 제공한다.

시리즈 만들기

In [2]:
s = pd.Series(['banana', 2000])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    banana
1      2000
dtype: object


In [3]:
s = pd.Series(['홍길동', '이몽룡'])
print(s)
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 지정하려면 Series() 함수의 index 속성에 인덱스로 사용하려는 문자열을 리스트에 담아서 전달하면 된다.
s = pd.Series(['홍길동', '이몽룡'], index=['도적넘', '공무원'])
print(s)

0    홍길동
1    이몽룡
dtype: object
도적넘    홍길동
공무원    이몽룡
dtype: object


데이터프레임 만들기

In [4]:
# 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame() 함수의 인수로 전달하면 된다.
df = pd.DataFrame({
    # 'key': [value, value, ...] # key는 데이터프레임의 열 이름이 되고 value가 데이터가 된다.
    'Name': ['홍길동', '임꺽정'],
    'Job': ['도둑넘', '도적넘'],
    'Born': ['1920-04-20', '1875-06-10'],
    'Died': ['1957-08-20', '1930-12-10'],
    'Age': [37, 60]
})
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Job,Born,Died,Age
0,홍길동,도둑넘,1920-04-20,1957-08-20,37
1,임꺽정,도적넘,1875-06-10,1930-12-10,60


In [5]:
# DataFrame() 함수의 data 속성으로 데이터를 지정하고 index 속성으로 인덱스를 colunms 속성으로 열 이름을 지정할 수 있다.
df = pd.DataFrame(
    data={
        'Job': ['도둑넘', '도적넘'],
        'Born': ['1920-04-20', '1875-06-10'],
        'Died': ['1957-08-20', '1930-12-10'],
        'Age': [37, 60]
    },
    index=['홍길동', '임꺽정'],
    columns=['Job', 'Age', 'Born', 'Died'] # 생략 가능, 생략시 data에 지정한 순서대로 열이 만들어진다.
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Job,Age,Born,Died
홍길동,도둑넘,37,1920-04-20,1957-08-20
임꺽정,도적넘,60,1875-06-10,1930-12-10


시리즈 다루기

In [6]:
# 데이터프레임에서 시리즈를 선택하려면 loc 속성에 열 이름을 전달하거나 iloc 속성에 인덱스를 전달하면 된다.
row = df.loc['임꺽정']
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
Job            도적넘
Age             60
Born    1875-06-10
Died    1930-12-10
Name: 임꺽정, dtype: object


index, values 속성과 keys() 함수

In [7]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(type(row.index))
print(row.index)
print('=' * 80)
# values 속성은 시리즈의 데이터를 얻어온다.
print(type(row.values))
print(row.values)
print('=' * 80)
# keys() 함수는 index 속성과 같이 시리즈의 인덱스를 얻어온다.
print(type(row.keys()))
print(row.keys())
print('=' * 80)
# index 속성의 첫 번째 값 추출하기
print(row.index[0])
print(row.keys()[0])
# values 속성의 첫 번째 값 출력하기
print(row.values[0])

<class 'pandas.core.indexes.base.Index'>
Index(['Job', 'Age', 'Born', 'Died'], dtype='object')
<class 'numpy.ndarray'>
['도적넘' 60 '1875-06-10' '1930-12-10']
<class 'pandas.core.indexes.base.Index'>
Index(['Job', 'Age', 'Born', 'Died'], dtype='object')
Job
Job
도적넘


시리즈 기초 통계 함수

In [8]:
scientists = pd.read_csv('./data/scientists.csv')
print(type(scientists))
scientists

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [9]:
ages = scientists['Age']
print(type(ages))
ages

print('max() = {}'.format(ages.max()))
print('min() = {}'.format(ages.min()))
print('sum() = {}'.format(ages.sum()))
print('mean() = {}'.format(ages.mean()))
print('count() = {}'.format(ages.count()))
print('std() = {}'.format(ages.std()))

<class 'pandas.core.series.Series'>
max() = 90
min() = 37
sum() = 473
mean() = 59.125
count() = 8
std() = 18.325918413937288


브로드캐스팅  
ages(나이 전체, 여러개) > ages.mean()(나이 평균, 1개)와 같이 시리즈나 데이터프레임의 모든 데이터에 대해 한 번에 연산하는 것을 브로드캐스팅이라 한다.  
이 때, 여러개의 값을 가진 데이터를 벡터라 하고 단순 크기를 나타내는 데이터를 스칼라라 부른다.

In [10]:
# 평균 나이보다 나이가 많은 사람의 나이 데이터를 추출한다.
# print(ages > ages.mean()) # False, True, True, True, False, False, False, True
# bool_value = ages > ages.mean()
# print(bool_value)
# print(ages[bool_value])
print(ages[[False, True, True, True, False, False, False, True]])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [11]:
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [16]:
for age in ages:
    print('{0:4d}'.format(age), end=' ')
print()    
# 같은 길이의 벡터로 연산을 하면 결과값으로 같은 길이의 벡터가 출력된다.
for age in ages + ages:
    print('{0:4d}'.format(age), end=' ')
print()
for age in ages * ages:
    print('{0:4d}'.format(age), end=' ')
print()
# 벡터와 스칼라 값을 연산하면 벡터 각각의 값에 스칼라 값이 연산된 결과가 출력된다.
for age in ages + 100:
    print('{0:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{0:4d}'.format(age), end=' ')
print()

  37   61   90   66   56   45   41   77 
  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 
 137  161  190  166  156  145  141  177 
  74  122  180  132  112   90   82  154 


In [20]:
print(pd.Series([1, 100]))
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산된다.
# pd.Series([1, 100])의 0, 1 인덱스만 계산되고 나머지는 계산할 수 없으므로 누락값(NaN, 결측치)으로 처리한다.
print(ages + pd.Series([1, 100]))

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [29]:
print(ages)
# sort_index() 함수는 데이터를 정렬하는 것이 아니고 인덱스를 정렬한다.
# ascending 옵션을 False로 지정하면 내림차순으로 정렬된다. 생략시 기본값은 True가 사용된다.
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)
# 데이터를 정렬하려면 sort_values() 함수를 사용한다.
rev_ages = ages.sort_values(ascending=False)
print(rev_ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64


In [33]:
print(ages)
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)
# 벡터와 벡터의 연산은 같은 인덱스를 가지는 값끼리 수행하기 때문에 ages + rev_ages와 ages * 2는 같은 결과가 계산된다.
for age in ages + rev_ages:
    print('{0:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{0:4d}'.format(age), end=' ')
print()

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
  74  122  180  132  112   90   82  154 
  74  122  180  132  112   90   82  154 


데이터프레임도 시리즈와 마찬가지로 불린 인덱싱과 브로드캐스팅을 할 수 있다.

In [34]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [35]:
scientists[scientists['Age'] > scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [36]:
# 시리즈에 스칼라 연산을 적용할 때 모든 요소에 스칼라를 적용해서 연산이 실행된 것 처럼 데이터프레임도 마찬가지로 
# 데이터프레임에 2를 곱하면 문자열 데이터는 문자열이 2회 반복되고 숫자 데이터는 2를 곱한 숫자가 된다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


데이터프레임 열의 자료형 바꾸기

In [42]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [45]:
# dtypes 속성을 이용하면 시리즈 또는 데이터프레임에 저장된 데이터 타입을 얻어올 수 있다.
print(type(scientists['Born']))
print(scientists['Born'].dtypes) # object => 파이썬의 문자열(str)은 판다스에서 object 타입이 된다.
print(scientists['Died'].dtypes)

<class 'pandas.core.series.Series'>
object
object


파이썬 strftime() 함수로 날짜 서식을 지정할 때 사용하는 날짜 서식  
%Y => 년도 4자리, %y => 년도 2자리, %m => 월(숫자), %B => 월(영어, 전체), %b(%h) => 월(영어, 3글자), %d => 일  
%A => 요일(전체), %a => 요일(3글짜)  
%H => 시간(24시각), %I => 시간(12시각), %M => 분, %S => 초, %p => AM/PM, %f => 마이크로초

In [53]:
# 날짜를 문자열 형태로 저장한 데이터는 날짜 및 시간관련 작업을 할 수 있도록 to_datetime() 함수로 datetime 자료형으로
# 바꿔주는 것이 좋다.
# to_datetime(시리즈, format='%Y-%m-%d'), format 속성 생략시 '%Y-%m-%d'가 기본 서식으로 사용된다.
# born_datetime = pd.to_datetime(scientists['Born'])
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')
print(born_datetime)
died_datetime = pd.to_datetime(scientists['Died'])
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


파생 변수, 계산에 의한 변수

In [78]:
scientists = pd.read_csv('./data/scientists.csv')

In [79]:
# datetime 타입으로 변경한 born_datetime, died_datetime를 scientists 데이터프레임에 열로 추가한다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [84]:
# 데이터프레임['추가할 열 이름'] = 추가할 데이터
# scientists['born_dt'] = born_datetime
# scientists['died_dt'] = died_datetime
scientists['born_dt'], scientists['died_dt'] = born_datetime, died_datetime
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


In [86]:
# scientists['Died'] - scientists['Born'] # 에러
# 날짜 데이터로 변환해서 추가한 파생 변수 born_dt, died_dt를 사용하면 얼마동안 세상을 살다 떠났는지 계산할 수 있다.
scientists['age_days_dt'] = scientists['died_dt'] - scientists['born_dt']
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


시리즈, 데이터프레임 열 섞기

In [89]:
import random as r
# shuffle() 함수는 데이터를 무작위로 섞어준다.
r.shuffle(scientists['Age']) # scientists 데이터프레임의 Age 열만 섞인다.
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,77,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,61,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,90,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,45,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,66,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician,1777-04-30,1855-02-23,28422 days


데이터프레임 열 삭제하기

In [96]:
# drop() 함수는 데이터프레이의 열을 삭제한다.
# drop([삭제할 열 이름], axis=1), 삭제할 열이 2개 이상일 경우 리스트에 넣어줘야 한다.
# drop() 함수는 axis=0이 기본값이고 axis=0으로 지정하면 행을 제거하려 하기 때문에 에러가 발생되므로 반드시 1로 지정해서
# 사용해야 한다.
scientists_dropped = scientists.drop(['Born', 'Died'], axis=1)
scientists_dropped

Unnamed: 0,Name,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,77,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,61,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,90,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,45,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,66,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,41,Mathematician,1777-04-30,1855-02-23,28422 days


데이터를 피클, CSV, TSV 파일로 저장하고 불러오기

In [97]:
name = scientists['Name']
print(name)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [101]:
# 피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법으로 데이터를 오래 보관한다는 뜻으로 피클이라는 이름이
# 붙여진것이다.
# 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있다.
# 시리즈를 피클로 저장하려면 to_pickle() 함수를 사용한다.
name.to_pickle('./output/scientists_name_series.pickle')

In [102]:
# 피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클을 데이터 편집기와 같은 프로그램에서 열면 이상한 문자가 나타난다.
# 피클을 읽어들이려면 read_pickle() 함수를 사용한다.
scientists_name_series_pickle = pd.read_pickle('./output/scientists_name_series.pickle')
print(scientists_name_series_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [104]:
scientists.to_pickle('./output/scientists_df.pickle')
scientists_from_pickle = pd.read_pickle('./output/scientists_df.pickle')
scientists_from_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,77,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,61,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,90,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,45,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,66,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,41,Mathematician,1777-04-30,1855-02-23,28422 days


In [109]:
# to_csv() 함수로 시리즈와 데이터프레임을 텍스트 파일로 저장할 수 있다.
# 파일 확장명에 'tsv'를 지정하고 sep 속성에 '\t'를 지정하면 tsv 파일로 저장할 수 있다.
name.to_csv('./output/scientists_name_series.csv')
name.to_csv('./output/scientists_name_series.tsv', sep='\t')
scientists.to_csv('./output/scientists_df.csv')
scientists.to_csv('./output/scientists_df.tsv', sep='\t')