In [1]:
import numpy as np
import pandas as pd

판다스의 데이터프레임과 시리즈  
데이터프레임과 시리즈는 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어 있다.  
파이썬의 리스트와 딕셔너리는 많은 양의 데이터를 저장하거나 조작할 수 있는 함수가 많치 않은 반면에 판다스의 데이터프레임과 시리즈는 많은 양의 데이터를 저장할 수 있을 뿐만아니라 스프레드시트 프로그램을 사용하는 것 처럼 행과 열 단위로 데이터를 조작할 수 있는 다양한 속성과 메소드가 제공된다.

시리즈 만들기

In [4]:
s = pd.Series(['banana', 2000])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    banana
1      2000
dtype: object


In [8]:
# 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다.
# 문자열을 인덱스로 지정하려면 Series() 메소드의 index 속성에 인덱스로 사용하려는 문자열을 리스트에 담아
# 전달하면 된다.
s = pd.Series(['홍길동', '이몽룡']) # 인덱스를 지정하지 않으면 인덱스가 숫자로 자동 부여된다.
print(s)
print('=' * 50)
s = pd.Series(['홍길동', '이몽룡'], index=['도적넘', '공무원'])
print(s)

0    홍길동
1    이몽룡
dtype: object
도적넘    홍길동
공무원    이몽룡
dtype: object


데이터프레임 만들기

In [14]:
# 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame() 함수의 인수로 전달하면 된다.
df = pd.DataFrame({
    # 'key': [value, value, ...] # key는 데이터프레임의 열 이름이 되고 value는 데이터가 된다.
    'name': ['홍길동', '임꺽정'],
    'job': ['도적넘', '도둑넘'],
    'born': ['1920-04-20', '1875-05-10'],
    'died': ['1957-08-20', '1930-12-10'],
    'age': [37, 56]
})
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,job,born,died,age
0,홍길동,도적넘,1920-04-20,1957-08-20,37
1,임꺽정,도둑넘,1875-05-10,1930-12-10,56


In [23]:
# DataFrame() 함수의 data 속성에 데이터를 index 속성에 인덱스를 columns 속성에 열 이름을 지정할 수 있다.
df = pd.DataFrame(
    data={
        'job': ['도적넘', '도둑넘'],
        'born': ['1920-04-20', '1875-05-10'],
        'died': ['1957-08-20', '1930-12-10'],
        'age': [37, 56]
    },
    index=['홍길동', '임꺽정'],
    # columns=['job', 'age'] # data 중에서 columns 속성으로 지정한 데이터만 데이터프레임으로 만든다.
)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,job,born,died,age
홍길동,도적넘,1920-04-20,1957-08-20,37
임꺽정,도둑넘,1875-05-10,1930-12-10,56


시리즈 다루기

In [25]:
# 데이터프레임에서 시리즈를 선택하려면 loc, iloc에 인덱스를 전달하면 된다.
row = df.loc['임꺽정']
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
job            도둑넘
born    1875-05-10
died    1930-12-10
age             56
Name: 임꺽정, dtype: object


In [27]:
row = df.iloc[1]
print(type(row))
print(row)

<class 'pandas.core.series.Series'>
job            도둑넘
born    1875-05-10
died    1930-12-10
age             56
Name: 임꺽정, dtype: object


In [29]:
col = df.loc[:, 'job']
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적넘
임꺽정    도둑넘
Name: job, dtype: object


In [30]:
col = df.iloc[:, 0]
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적넘
임꺽정    도둑넘
Name: job, dtype: object


In [40]:
# []에 지정한 열 이름이 데이터프레임에 없으면 에러가 발생된다.
col = df['job']
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적넘
임꺽정    도둑넘
Name: job, dtype: object


In [41]:
# get() 메소드의 인수로 지정한 열 이름이 데이터프레임에 없으면 None이 리턴된다.
col = df.get('job')
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적넘
임꺽정    도둑넘
Name: job, dtype: object


In [42]:
col = df.job # 1개의 열만 얻어올 때 사용한다.
print(type(col))
print(col)

<class 'pandas.core.series.Series'>
홍길동    도적넘
임꺽정    도둑넘
Name: job, dtype: object


index, values 속성과 keys() 메소드

In [44]:
# index 속성은 시리즈의 인덱스를 얻어온다.
print(type(row))
print(row.index)

<class 'pandas.core.series.Series'>
Index(['job', 'born', 'died', 'age'], dtype='object')


In [45]:
print(type(col))
print(col.index)

<class 'pandas.core.series.Series'>
Index(['홍길동', '임꺽정'], dtype='object')


In [47]:
# values 속성은 시리즈의 데이터를 얻어온다.
print(type(row.values)) # 시리즈의 데이터는 넘파이 배열이다.
print(row.values)

<class 'numpy.ndarray'>
['도둑넘' '1875-05-10' '1930-12-10' 56]


In [48]:
print(type(col.values))
print(col.values)

<class 'numpy.ndarray'>
['도적넘' '도둑넘']


In [49]:
# keys() 메소드는 index 속성과 똑같이 시리즈의 인덱스를 얻어온다.
print(type(row.keys()))
print(row.keys())

<class 'pandas.core.indexes.base.Index'>
Index(['job', 'born', 'died', 'age'], dtype='object')


In [50]:
print(type(col.keys()))
print(col.keys())

<class 'pandas.core.indexes.base.Index'>
Index(['홍길동', '임꺽정'], dtype='object')


In [53]:
# index, values 속성의 특정 위치의 값 추출하기
print(row.index)
print(row.index[0])
print(row.index[1:3])

Index(['job', 'born', 'died', 'age'], dtype='object')
job
Index(['born', 'died'], dtype='object')


시리즈 기초 통계 함수

In [57]:
scientists = pd.read_csv('./data/scientists.csv')
print(type(scientists))
scientists

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [65]:
# ages = scientists['Age']
# ages = scientists.get('Age')
ages = scientists.Age
print(type(ages))
print(ages)

<class 'pandas.core.series.Series'>
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [67]:
print('sum() = {}'.format(ages.sum()))
print('mean() = {}'.format(ages.mean()))
print('max() = {}'.format(ages.max()))
print('min() = {}'.format(ages.min()))
print('count() = {}'.format(ages.count()))
print('std() = {}'.format(ages.std()))

sum() = 473
mean() = 59.125
max() = 90
min() = 37
count() = 8
std() = 18.325918413937288


브로드캐스팅  
ages > ages.mean()와 같이 시리즈나 데이터프레임의 모든 데이터에 대해 한 번에 연산하는 것을 브로드캐스팅이라 한다.  
이 때, 여러개의 값을 가진 데이터를 '벡터'라 하고 단순 크기를 나타내는 데이터를 '스칼라'라 부른다.

In [77]:
# print(ages > ages.mean())
bool_value = ages > ages.mean()
print(bool_value)
# print(ages[bool_value])

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [75]:
print(ages[[False, True, True, True, False, False, False, True]])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64
