In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd

판다스의 데이터프레임과 시리즈

데이터프레임과 시리즈는 파이썬의 리스트나 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어 있다.

판다스는 데이터프레임과 시리즈는 많은 양의 데이터를 저장할 수 있을 뿐만아니라 스프레드시트 계열의 프로그램을 사용하는 것 처럼 
행과 열 단위로 데이터를 조작할 수 있는 다양한 함수와 속성들을 제공한다.

시리즈 만들기

시리즈를 만들기 위해서는 리스트를 Series() 함수의 인수로 전달하면 된다.

In [None]:
s = pd.Series(['홍길동', '도적넘'])
print(s)
print(s.loc[0])
print(s.loc[1])
print(s.iloc[0])
print(s.iloc[1])

In [None]:
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 지정하려면 index 속성으로 인덱스로 사용하려는 문자열을 리스트에 담아서 전달하면 된다.
s = pd.Series(['홍길동', '도적넘'], index=['name', 'job'])
print(s)
print(s.loc['name'])
print(s.loc['job'])
print(s.iloc[0])
print(s.iloc[1])


데이터프레임 만들기

딕셔너리를 DataFrame() 인수로 전달하면 된다.


In [3]:
df = pd.DataFrame({
    # 'key': [value, value, ...] # key가 데이터프레임의 열 이름이 되고 value는 데이터가 된다.
    'name': ['홍길동', '임꺽정'],
    'job': ['도적놈', '도둑놈'],
    'born': ['1569-04-20', '1875-06-10'],
    'died': ['1620-08-25', '1950-01-19'],
    'age': [52, 75]
})
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died,age
0,홍길동,도적놈,1569-04-20,1620-08-25,52
1,임꺽정,도둑놈,1875-06-10,1950-01-19,75


In [2]:
# DataFrame()하고 index 속성으로 인덱스를 지정할 수 있다.
# columns 열 이름을 지정. data 속성에 지정한 key와 같은 열 이름만 데이터프레임으로 만들어진다.
df = pd.DataFrame(
    data={ #  data 속성 - 딕셔너리 형태로 데이터를 지정
        'job': ['도적놈', '도둑놈'],
        'born': ['1569-04-20', '1875-06-10'],
        'died': ['1620-08-25', '1950-01-19'],
        'age': [52, 75]
    },
    index=['홍길동', '임꺽정'],
    columns=['job', 'age']
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,job,age
홍길동,도적놈,52
임꺽정,도둑놈,75


In [4]:
# 딕셔너리 : key와 value로 이루어진 한 쌍의 데이터. 입력 데이터들의 순서를 보장하지 않는다.
# OrderedDict() : 순서가 보장되는 딕셔너리. 튜플 형태의 인수를 전달하면 데이터의 순서를 그대로 유지하면서 데이터프레임을 만들수 있다.
from collections import OrderedDict # 튜플 형태의 인수를 리스트로 전달. 몰라도됨ㅅㅂ
data=OrderedDict([
        ('name', ['홍길동', '임꺽정']),
        ('job', ['도적놈', '도둑놈']),
        ('born', ['1569-04-20', '1875-06-10']),
        ('died', ['1620-08-25', '1950-01-19']),
        ('age', [52, 75])
    ])
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died,age
0,홍길동,도적놈,1569-04-20,1620-08-25,52
1,임꺽정,도둑놈,1875-06-10,1950-01-19,75


시리즈 다루기

In [5]:
data={
    'job': ['도적놈', '도둑놈'],
    'born': ['1569-04-20', '1875-06-10'],
    'died': ['1620-08-25', '1950-01-19'],
    'age': [52, 75]
}
df = pd.DataFrame(data=data, index=['홍길동','임꺽정'])
df

Unnamed: 0,job,born,died,age
홍길동,도적놈,1569-04-20,1620-08-25,52
임꺽정,도둑놈,1875-06-10,1950-01-19,75


In [8]:
# 데이터프레임에서 시리즈 선택 
# loc 속성에 인덱스(행 또는 열 이름)을 전달하거나 iloc 속성에 행 또는 열의 일련번호를 전달한다.
row=df.loc['홍길동']
print(row)

job            도적놈
born    1569-04-20
died    1620-08-25
age             52
Name: 홍길동, dtype: object


In [9]:
col = df.loc[:,'job']
print(col)

홍길동    도적놈
임꺽정    도둑놈
Name: job, dtype: object


In [13]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(row.index)
print(col.index)
# index 속성의 특정 값 추출하기
print(row.index[0])
print(col.keys()[1])
# values 속성은 시리즈의 데이터를 numpy 배열 형태로 얻어온다.
print(type(row.values))
print(row.values)
print(col.values)

Index(['job', 'born', 'died', 'age'], dtype='object')
Index(['홍길동', '임꺽정'], dtype='object')
job
임꺽정
<class 'numpy.ndarray'>
['도적놈' '1569-04-20' '1620-08-25' 52]
['도적놈' '도둑놈']


In [14]:
# keys() 함수는 index 속성과 똑같이 시리즈의 인덱스를 얻어온다.
print(row.keys())
print(col.keys())

Index(['job', 'born', 'died', 'age'], dtype='object')
Index(['홍길동', '임꺽정'], dtype='object')


시리즈 기초 통계 함수

In [15]:
# ages = df['age']
# ages = df.get('age')
ages = df.age
print(type(ages))
print(ages)
print('=' * 80)

print('max = {}'.format(ages.max()))
print('min = {}'.format(ages.min()))
print('sum = {}'.format(ages.sum()))
print('mean = {}'.format(ages.mean()))
print('std = {}'.format(ages.std()))

<class 'pandas.core.series.Series'>
홍길동    52
임꺽정    75
Name: age, dtype: int64
max = 75
min = 52
sum = 127
mean = 63.5
std = 16.263455967290593


In [17]:
scientists = pd.read_csv('./data/scientists.csv')
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [19]:
ages = scientists.Age
print(ages)

#브로드캐스팅
print('max = {}'.format(ages.max()))
print('min = {}'.format(ages.min()))
print('sum = {}'.format(ages.sum()))
print('mean = {}'.format(ages.mean()))
print('std = {}'.format(ages.std()))

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
max = 90
min = 37
sum = 473
mean = 59.125
std = 18.325918413937288


브로드캐스팅  
시리즈나 데이터프레임의 모든 데이터에 대해 한 번에 연산하는것  
ages > ages.mean()  


벡터 : 여러개의 값을 가진 데이터

스칼라 : 단순 크기를 나타내는 데이터

In [25]:
# 평균 나이(59.125)보다 나이가 많은 사람의 데이터만 추출한다.
print(scientists[ages>ages.mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


In [26]:
for age in ages:
    print('{:4d}'.format(age), end=' ') # 4자리의 정수.

  37   61   90   66   56   45   41   77 

In [27]:
# 같은 길이의 벡터로 연산을 하면 결괏값으로 같은 길이의 벡터가 출력된다. -> 당연 
for age in ages + ages:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * ages:
    print('{:4d}'.format(age), end=' ')

  74  122  180  132  112   90   82  154 
1369 3721 8100 4356 3136 2025 1681 5929 

In [29]:
# 벡터에 스칼라 값을 연산하면 벡터 각각의 값에 스칼라 값이 연산된 결과가 출력된다.
for age in ages + 100:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{:4d}'.format(age), end=' ')

 137  161  190  166  156  145  141  177 
  74  122  180  132  112   90   82  154 

In [30]:
# 길이가 서로 다른 벡터를 연산하면 같은 인덱스를 가지는 값만 계산된다.
print(pd.Series([1, 100]))
# pd.Series([1, 100])의 0, 1 인덱스만 계산되고 나머지는 계산할 수 없으므로 누락값(NaN, nan, NA, na, 결측치)으로 처리된다.
print(ages + pd.Series([1, 100])) 

# 열심이군 준혁쿤 ㅋ

0      1
1    100
dtype: int64
0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


시리즈 정렬

sort_index() 함수는 인덱스를 정렬하고 sort_values() 함수가 데이터를 정렬한다.

In [38]:
print(ages)
print(ages.sort_values(ascending=False)) # 내림차순
print(ages.sort_index(ascending=False))

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [43]:
print(ages)
rev_ages= ages.sort_index(ascending=False)
print(rev_ages)

# 벡터의 연산은 같은 인덱스를 가지는 값끼리 수행.(중요 x)
for age in ages + rev_ages:
    print('{:4d}'.format(age), end=' ')
print()
for age in ages * 2:
    print('{:4d}'.format(age), end=' ')
    

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64
  74  122  180  132  112   90   82  154 
  74  122  180  132  112   90   82  154 

데이터프레임도 불린 인덱싱과 브로드캐스팅을 할 수 있다.

In [50]:
print(scientists[scientists.Age>scientists.Age.mean()]) # 불린 인덱싱 많이 사용됨
scientists.Age>scientists.Age.mean()

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

In [51]:
# 데이터프레임에 2를 곱하면 문자열은 2회 반복되고 숫자는 2를 곱한다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


데이터프레임 열의 자료형 바꾸기

In [52]:
print(scientists.dtypes)

Name          object
Born          object
Died          object
Age            int64
Occupation    object
dtype: object


In [57]:
# to_datetime() : datetime 자료형으로 바꿔준다.
# to_datetime(날짜 시리즈[, format='날짜 서식'])
# %Y => 년도 4자리, %y => 년도 2자리, %m => 월(숫자), %B => 월(영어, 전체), %b(%h) => 월(영어, 3글자), %d => 일 일
# %A => 요일(전체), %a => 요일(3글자), %H => 시간(24시각), %I => 시간(12시각), %M => 분, %S => 초, %p => AM/PM  %f => 마이크로 초

born_datetime = pd.to_datetime(scientists.Born, format='%Y-%m-%d')
print(scientists.Born)
print(born_datetime)
died_datetime = pd.to_datetime(scientists.Died, format='%Y-%m-%d')
print(died_datetime)

0    1920-07-25
1    1876-06-13
2    1820-05-12
3    1867-11-07
4    1907-05-27
5    1813-03-15
6    1912-06-23
7    1777-04-30
Name: Born, dtype: object
0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [62]:
# 데이터프레임에 추가한다. datetime 형태로 변경한 born_datetime, died_datetime를 
print(scientists.shape)

# 데이터프레임에 존재하는 열 이름에 데이터를 넣으면 기존의 열이 수정되고 존재하지 않는 열 이름에 데이터를 넣으면 데이터가
# 추가된다.
# 데이터프레임['열 이름'] = 데이터
scientists['born_dt'] = born_datetime
scientists['died_dt'] = died_datetime
scientists['born_dt'], scientists['died_dt'] = born_datetime, died_datetime
print(scientists.shape)
scientists

(8, 8)
(8, 8)


Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


In [59]:
scientists.dtypes


Name                  object
Born                  object
Died                  object
Age                    int64
Occupation            object
born_dt       datetime64[ns]
died_dt       datetime64[ns]
dtype: object

In [60]:
# 얼마동안 세상을 살다 떠났는지
scientists['age_days_dt'] = scientists.died_dt - scientists.born_dt
print(scientists.shape)
scientists

(8, 8)


Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


시리즈, 데이터프레임의 데이터 섞기

In [96]:
import random as r
# random 모듈의 shuffle() 함수는 데이터를 무작위 섞어준다.
r.shuffle(scientists.Age) # scientists 데이터프레임의 Age 열만 섞인다.
scientists



['Rosaline Franklin', 'William Gosset', 'Rachel Carson', 'Marie Curie']

In [369]:
# random 모듈의 sample() 함수는 데이터를 무작위 섞고 지정한 개수만큼 추출한다.
r.sample(list(scientists.Name), 4)

['Marie Curie', 'Johann Gauss', 'Rosaline Franklin', 'Rachel Carson']

데이터프레임 열 삭제하기

In [670]:
# drop() 
# drop() 함수는 axis=0이 기본값
# scientists_dropped = scientists.drop('Age', axis=1) # 열 1개 삭제
scientists_dropped = scientists.drop(['Name', 'Age'], axis=1) # 열 2개 이상 삭제... 리스트에 넣어줘야 한다.
scientists_dropped
scientists.drop(0) # 0항 삭제 

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
1,William Gosset,1876-06-13,1937-10-16,41,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,66,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,90,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,45,Mathematician,1777-04-30,1855-02-23,28422 days


시리즈, 데이터프레임을 피클(pickle), csv, tsv 파일로 저장하고 불러오기

In [676]:
# 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있다.데이터를 오래 보관한다는 뜻
names = scientists.Name
print(type(names))
print(names)

# 시리즈를 피클로 저장하려면 to_pickle() 함수를 사용한다.
# 피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클 파일을 메모장같은 데이터 편집기 프로그램으로 열어보면 이상한 문자가
# 표시된다.
names.to_pickle('./output/scientists_name_series.pickle')

scientists.to_pickle('./output/scientists_df.pickle')


<class 'pandas.core.series.Series'>
0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [679]:
# 읽기는 read pickle
(pd.read_pickle('./output/scientists_df.pickle'))

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,61,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,41,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,66,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,90,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,77,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,56,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,37,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,45,Mathematician,1777-04-30,1855-02-23,28422 days


In [681]:
# to_csv() 함수로 시리즈나 데이터프레임을 csv 또는 tsv 파일로 저장할 수 있다.
names.to_csv('./output/scientists_name_csv.csv')
# sep='\t'로 지정하면 데이터가 tab으로 구분되는 tsv 파일로 저장할 수 있다.
scientists.to_csv('./output/scientists_df_tsv.tsv', sep='\t')