In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Computer.use_jedi = False
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pandas의 데이터프레임과 시리즈

데이터프레임과 시리즈는 파이썬의 리스트나 딕셔너리와 비슷하지만 데이터를 다루는 데 더 특화되어 있다.   
리스트와 딕셔너리는 많은 양의 데이터를 저장하거나 데이터를 조직할 수 있는 메소드가 많지 않은 반면에 pandas의 데이터프레임과 시리즈는 많은 양의 데이터를 저장할 수 있을 뿐만 아니라 스프레드시트 계열의 프로그램을 사용하는 것 처럼 행과 열 단위로 데이터를 조작할 수 있는 다양한 메소드와 속성들을 제공한다.  

시리즈 만들기  

시리즈를 만들기 위해서는 리스트를 Series() 메소드의 인수로 전달하면 된다. 

In [2]:
s = pd.Series(['apple', 42])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    apple
1       42
dtype: object


In [3]:
s = pd.Series(['이순신', '을지문덕'])
print(s)
print(s.loc[0])

0     이순신
1    을지문덕
dtype: object
이순신


In [4]:
# 시리즈를 생성할 떄 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 저장하려면 index 속성으로 인덱스로 사용하려는 문자열을 리스트에 담아서 전달하면 된다. 
s = pd.Series(['이순신', '을지문덕'], index=['chosun','korea'])
print(s)
print(s.loc['chosun'])
print(s.iloc[0])

chosun     이순신
korea     을지문덕
dtype: object
이순신
이순신


데이터프레임 만들기

데이터프레임을 만들기 위해서는 딕녀러리를 DataFrame() 메소드의 인수로 전달하면 된다.  
딕셔너리의 key가 데이터프레임의 열 이름이 되고 value는 데이터가 된다. 

In [5]:
data = {
    'name' : ['이순신', '을지문덕'],
    'area' : ['조선', '고려'],
    'born' : ['2001-05-15' , '1995-07-07'],
    'fight' : ['명량해전' , '살수대첩'],
    'age' : [23, 29]
}
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,area,born,fight,age
0,이순신,조선,2001-05-15,명량해전,23
1,을지문덕,고려,1995-07-07,살수대첩,29


In [6]:
# - 데이터프레임을 생성할 때 문자열을 index로 지정할 수 있다. 
# - 문자열을 인덱스로 지정하려면 index 속성으로 인덱스를 사용하려는 문자열을 리스트에 담아서 전달하면 된다. 
# - columns 속성으로 data 속성에 지정된 딕셔너리에 데이터프레임을 만들 key를 지정할 수 있다. 
data = {
    'area' : ['조선', '고려'],
    'fight' : ['명량해전' , '살수대첩'],
    'current' : ['충무로' , '을지로']
}
df = pd.DataFrame(data, index=['이순신','을지문덕'], columns=['area' , 'fight'])
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,area,fight
이순신,조선,명량해전
을지문덕,고려,살수대첩


In [7]:
# 딕셔너리리는 key와 value로 이루어진 한 쌍의 데이터로 입력되는 데이터들의 순서를 보장하지 않는다.
# 순서가 보장되는 딕셔너리를 전달하려면 collections 모듈의 OrderedDict 객체를 import 하고  
from collections import OrderedDict
data = OrderedDict([
     ('area' , ['조선', '고려']),
   ( 'fight' , ['명량해전' , '살수대첩']),
   ( 'current' , ['충무로' , '을지로']),
    ('age' , [56 , 46])
])
df = pd.DataFrame(data, index=['이순신','을지문덕'])
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,area,fight,current,age
이순신,조선,명량해전,충무로,56
을지문덕,고려,살수대첩,을지로,46


In [8]:
# 데이터프레임에서 시리즈를 선택하려면 
row = df.iloc[0]
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
area         조선
fight      명량해전
current     충무로
age          56
Name: 이순신, dtype: object


In [9]:
# 데이터프레임에서 시리즈를 선택하려면 
col = df.loc[: ,'area']
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
이순신     조선
을지문덕    고려
Name: area, dtype: object


In [10]:
# index 속성은 시리즈의 인덱스를 얻어오고 values 속성은 시리즈의 데이터를 numpy 배열로 얻어온다.
print(row)
print(row.index)
print(type(row.index))
print(row.values)

area         조선
fight      명량해전
current     충무로
age          56
Name: 이순신, dtype: object
Index(['area', 'fight', 'current', 'age'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
['조선' '명량해전' '충무로' 56]


In [11]:
print(col)
print(col.index)
print(type(col.index))
print(col.values)
# index 속성의 결과에서 특정 값 추출하기
print(row.index[0])


이순신     조선
을지문덕    고려
Name: area, dtype: object
Index(['이순신', '을지문덕'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
['조선' '고려']
area


In [12]:
print(row.index)
print(row.keys())

Index(['area', 'fight', 'current', 'age'], dtype='object')
Index(['area', 'fight', 'current', 'age'], dtype='object')


시리즈 기초 통계 함수

In [13]:
# ages = df['age']
# ages = df.get('age')
ages = df.age
ages

이순신     56
을지문덕    46
Name: age, dtype: int64

In [14]:
scientists = pd.read_csv('./data/scientists.csv')
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [15]:
ages = scientists.Age
print(type(ages))
print(ages)

<class 'pandas.core.series.Series'>
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


브로드캐스팅

시리즈나 데이터프레임에서 모든 데이터에 대해 한 번에 연산하는 것을 브로드캐스팅이라 한다. 

In [16]:
# 평균 나이(59.125)보다 나이가 많은 사람의 데이터만 추출한다.
bool_value = ages > ages.mean()
print(bool_value)

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [17]:
print(ages[bool_value])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [18]:
for age in ages :
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * ages :
   print('{:4d}'.format(age), end=' ')

  37   61   90   66   56   45   41   77 
1369 3721 8100 4356 3136 2025 1681 5929 

In [19]:
# 백터에 스칼라 값을 연산하면 각각의 벡터 값에 스칼라 값이 연산된 결과가 출력된다. 
for age in ages * 100 :
    print('{:4d}'.format(age), end=' ')

3700 6100 9000 6600 5600 4500 4100 7700 

In [20]:
print(pd.Series([1,100]))
# print(pd.Series([1,100]))의 0 , 1 인덱스만 계산되고 나머지는 계산할 수 없으므로 누락값(NaN, nan, NA, na, 결측치)
print(ages * pd.Series([1,100]))

0      1
1    100
dtype: int64
0      37.0
1    6100.0
2       NaN
3       NaN
4       NaN
5       NaN
6       NaN
7       NaN
dtype: float64


시리즈 정렬

sort_index() 메소드는 인덱스를 정렬하고 sort_value() 메소드는 데이터를 정렬한다.

In [26]:
print(ages)
print(ages.sort_values())
print(ages.sort_index())

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
0    37
6    41
5    45
4    56
1    61
3    66
7    77
2    90
Name: Age, dtype: int64
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [29]:
print(ages)
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)
# 벡터와 벡터의 연산은 같은 인덱스를 가지는 값끼리 수행하기 때문에 ages + rev_ages는 ages * 2와 같은 결과가 계산된다.
for age in ages + rev_ages :
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2 :
    print('{:4d}'.format(age), end=' ')

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
  74  122  180  132  112   90   82  154 
  74  122  180  132  112   90   82  154 

데이터프레임도 시리즈와 마찬가지로 브로드캐스팅

In [33]:
scientists[scientists.Age > scientists.Age.mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


시리즈에 스칼라 연산을 적용할 때 모든 요소에 스칼라 연산이 실행되는 것 처럼 데이터프레임도 마찬가지로 데이터프레임에 2를 곱하면 숫자 데이터는 2를 곱한 숫자가 되고 문자열 데이터는 2회 반복된다.


In [36]:
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


  
  
  
데이터프레임 열의 자료형 바꾸기

In [39]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


In [46]:
# 날짜를 문자열 형태로 저장한 데이터는 날짜 및 시간에 관련한 작업을 할 수 있도록 to_datetime() 메소드로 object 타입을 datetime 타입으로 바꾸는 것이 좋다.
# to_datetime(날짜 시리즈,format='날짜 서식')
# %Y => 년도 4자리, %y => 년도 2자리, %m => 월(숫자), %B => 월(영어, 전체), $b => 월(영어, 앞3글자), $d => 일, %A => 요일(영어, 전체) 
# %a => 요일(영어, 앞 3글자), %H => 시간(24시각), tI => 시간(12시각), %M => 분, %S => 초 %p => AM/PM
born_datatime = pd.to_datetime(scientists.Born, format='%Y-%m-%d')
print(born_datatime)
died_datatime = pd.to_datetime(scientists.Died)
print(died_datatime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [47]:
# object 타입을 datetime 타입으로 변경한 born_datetime, died_datetime를 데이터프레임에 추가한다. 
print(scientists.shape)
# 

(8, 5)


In [48]:
import random as r

In [50]:
# 파이썬 random 모듈의 shuffle() 메소드는 데이터를 무작위로 섞어준다.
r.shuffle(scientists.Age) # scientists 데이터 프레임의 Age 열만 섞는다. 
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,41,Chemist
1,William Gosset,1876-06-13,1937-10-16,37,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,45,Nurse
3,Marie Curie,1867-11-07,1934-07-04,56,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,90,Biologist
5,John Snow,1813-03-15,1858-06-16,61,Physician
6,Alan Turing,1912-06-23,1954-06-07,77,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,66,Mathematician


시리즈나 데이터프레임을 피클(pickle), csv, tsv 파일로 저장하고 불러오기

피클은 데이터를 바이너리(2진) 형태로 직렬화한 객체로 저장하는 방법으로 데이터를 오래 보관할 수 있다는 뜻으로 피클이라 이름이 붙여졋다.  
피클로 저장하면 스프레드시트 보다 더 작은 용량으로 데이터를 저장할 수 있다.

In [54]:
names = scientists.Name
print(type(names))
print(names)

# 시리즈나 데이터프레임을 피클로 저장하려면 to_pickle() 메소드를 사용한다. 
names.to_pickle('./output/scientists_name_serise.pickle')

<class 'pandas.core.series.Series'>
0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [55]:
# 데이터프레임도 피클 파일로 저장할 수 있다. 
scientists.to_pickle('./output/scientists_df.pickle')

시리즈를 피클 파일로 저장하기

In [56]:
# 피클 파일을 읽어오려면 read_pcikle() 메소드를 사용한다. 
print(pd.read_pickle('./output/scientists_name_serise.pickle'))
print(pd.read_pickle('./output/scientists_df.pickle'))

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object
