# Chapter 3. 단변량 표현

In [2]:
import numpy as np
import pandas as pd

import datetime

# 판다스 렌더링 방식 제어 옵션
# pd.set_option('display.notebook_repr_html', False) # 표 형식으로 출력되는 것이 아니라, 텍스트 형식으로 출력
pd.set_option('display.max_columns', 7) # 최대 몇개까지의 컬럼을 표시할 것인지 설정
pd.set_option('display.max_rows', 10) # 최대 몇개까지의 로우를 표시할 것인지 설정
pd.set_option('display.width', 60) # 한 셀에 최대 몇글자까지 표시할 것인지 설정

import matplotlib.pyplot as plt
%matplotlib inline

### Series 생성

In [9]:
# 리스트를 이용한 시리즈 생성
# 생성시, index 값을 리스트로 지정해주면 해당 값으로 인덱스 구성 가능
value_list = [10, 11, 12, 13, 14]
index_list = ['a', 'b', 'c', 'd', 'e']

series_list = pd.Series(value_list,
                        index = index_list)
print(series_list)

# 딕셔너리를 이용할 경우, key 값은 인덱스로, value 값은 value로 입력된다.
series_dic = pd.Series(
                        {
                            'Mike': 'Dad',
                            'Marcia': 'Mom',
                            'Mikael': 'Son',
                            'Bleu': 'Best doggie ever'
                        }
)
print(series_dic)

a    10
b    11
c    12
d    13
e    14
dtype: int64
Mike                   Dad
Marcia                 Mom
Mikael                 Son
Bleu      Best doggie ever
dtype: object


In [5]:
# 리스트의 단축 표기법
lst_1 = [2] * 5
print(lst_1)

lst_2 = list('abcde')
print(lst_2)

[2, 2, 2, 2, 2]
['a', 'b', 'c', 'd', 'e']


In [11]:
# numpy를 활용한 생성
s = pd.Series(np.arange(4, 9)) # 범위 사이의 정수 배열 생성
print(s)

0    4
1    5
2    6
3    7
4    8
dtype: int32


In [12]:
s = pd.Series(np.linspace(0, 9, 5)) # 범위를 n개의 간격으로 균등하게 나누어 생성
print(s)

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64


In [14]:
# random을 통해 난수 생성
np.random.seed(12345)
s = pd.Series(np.random.normal(size = 5))
print(s)

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64


### 시리즈의 크기와 형태

In [8]:
s = pd.Series(np.arange(10))

print(len(s))
print(s.size)
print(s.shape)

10
10
(10,)


### 데이터 조회

In [10]:
s1 = pd.Series(np.arange(10, 15), index = list('abcde'))
s2 = pd.Series([1, 2, 3, 4], index = [10, 11, 12, 13])

print(s1)
print(s2)

a    10
b    11
c    12
d    13
e    14
dtype: int32
10    1
11    2
12    3
13    4
dtype: int64


In [13]:
# iloc - 포지션 값으로 검색
print(s1.iloc[0])
print(s1.iloc[[0, 2]])
print(s1.iloc[[2, 0]])

10
a    10
c    12
dtype: int32
c    12
a    10
dtype: int32


In [21]:
# loc - 레이블 값으로 검색
print(s2.loc[11])
print(s1.loc['c'])
print(s1.loc[['c', 'b']])

2
12
c    12
b    11
dtype: int32


### 슬라이싱

In [22]:
s = pd.Series(np.arange(100, 110), index = np.arange(10, 20))
print(s)

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int32


### 불리언 선택

In [30]:
s = pd.Series(np.arange(0, 5), index = list('abcde'))
print(s)

a    0
b    1
c    2
d    3
e    4
dtype: int32


In [33]:
logical_results = s >= 3
print(logical_results)
print(s[logical_results])

a    False
b    False
c    False
d     True
e     True
dtype: bool
d    3
e    4
dtype: int32


### 데이터 프레임 객체 생성

In [38]:
df = pd.DataFrame(np.arange(1, 6))
# 따로 인덱스를 지정하지 않을 경우, RangeIndex에 기초해 0부터 인덱스 설정 됨
# 따로 컬럼명을 지정하지 않을 경우, 0부터 시작하는 정수값을 부여
display(df)

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [40]:
# 다차원 배열을 통한 데이터 프레임 생성
df = pd.DataFrame(np.array([
                                [10, 11],
                                [20, 21]
]))
display(df)

print(df.columns)
print(df.index)

Unnamed: 0,0,1
0,10,11
1,20,21


RangeIndex(start=0, stop=2, step=1)
RangeIndex(start=0, stop=2, step=1)


In [41]:
# 컬럼명 지정
df = pd.DataFrame(np.array([[70, 71], [90, 91]]),
                  columns = ['Missoula', 'Philadelphia'])
display(df)

Unnamed: 0,Missoula,Philadelphia
0,70,71
1,90,91


In [42]:
# 딕셔너리를 이용한 데이터프레임 생성
temps_missoula = [70, 71]
temps_philly = [90, 91]
temperatures = {'Missoula': temps_missoula,
               'Philadelphia': temps_philly}

df = pd.DataFrame(temperatures)
display(df)

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [58]:
# 시리즈를 이용한 데이터프레임 생성 - Series 하나가 데이터 프레임의 row로 입력됨
# 이 경우, 처음 생성 시에 columns 값 입력을 설정할 수 없다.
temps_time0 = pd.Series([70, 90])
temps_time1 = pd.Series([71, 91])
display(temps_time0)
display(temps_time1)

df = pd.DataFrame([temps_time0, temps_time1])
display(df)

df = pd.DataFrame([temps_time0, temps_time1],
                  columns = ['Missoula', 'Philadelphia'])
display(df)

0    70
1    90
dtype: int64

0    71
1    91
dtype: int64

Unnamed: 0,0,1
0,70,90
1,71,91


Unnamed: 0,Missoula,Philadelphia
0,,
1,,


In [53]:
# .columns 속성을 통해 컬럼명 지정 가능
df = pd.DataFrame([temps_time0, temps_time1])
df.columns = ['Missoula', 'Philadelphia']

display(df)

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [57]:
# dictionary는 컬럼 단위로 데이터를 입력한다.
temps_mso_series = pd.Series(temps_missoula)
temps_phl_series = pd.Series(temps_philly)
display(temps_mso_series)
display(temps_phl_series)

df = pd.DataFrame({'Missoula': temps_mso_series,
                   'Philadelphia': temps_phl_series})
display(df)

0    70
1    71
dtype: int64

0    90
1    91
dtype: int64

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [62]:
# csv 데이터 읽어오기
data_path = './data/Learning-Pandas-Second-Edition-master/data/sp500.csv'

sp500 = pd.read_csv(data_path)
display(sp500.head(3))

Unnamed: 0,Symbol,Name,Sector,...,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Co.,Industrials,...,2.95,5.26,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,ABT,Abbott Laboratories,Health Care,...,2.74,2.55,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABBV,AbbVie Inc.,Health Care,...,4.48,18.16,http://www.sec.gov/cgi-bin/browse-edgar?action...


In [65]:
sp500 = pd.read_csv(data_path,
                    index_col = 'Symbol',  # 인덱스로 사용할 컬럼 설정 가능
                    usecols = [0, 2, 3, 7] # 특정 컬럼만 지정해서 읽어올 수 있음
                   )
display(sp500.head(3))

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


### 데이터 접근

In [69]:
# 특정 컬럼 데이터 선택
display(sp500['Sector'].head(3))
display(sp500[['Price', 'Book Value']].head(3))
# 여러 개 컬럼을 지정할 경우 [[]] 대괄호로 한 번 더 감싸야 한다.

Symbol
MMM     Industrials
ABT     Health Care
ABBV    Health Care
Name: Sector, dtype: object

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954


In [76]:
# loc, iloc 를 통해 row 데이터 가져오기
print(sp500.loc['MMM']) # loc를 이용할 경우, 인덱스의 레이블 값을 입력
print(sp500.iloc[0]) # iloc를 이용할 경우, 인덱스의 포지션 값을 입력

# 여러 개의 row 데이터를 읽어오고 싶을 경우는 마찬가지로 대괄호를 통해 지정해주면 된다.
display(sp500.loc[['MMM', 'ABBV']])

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object
Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object


Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABBV,Health Care,53.95,2.954


In [80]:
# 인덱스 레이블 값을 통해 포지션 값을 알고 싶을 때
index_1 = sp500.index.get_loc('MMM')
index_2 = sp500.index.get_loc('A')

print(index_1, index_2)
display(sp500.iloc[[index_1, index_2]])

0 10


Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
A,Health Care,56.18,16.928


In [83]:
# 특정 셀의 값 조회 (row x col)
print(sp500.at['MMM', 'Price']) # 레이블 값을 통한 조회. MMM row의 Price col 값 조회
print(sp500.iat[0, 1]) # 포지션 값을 통한 조회. 0번째 row의 1번째 col 값 조회

141.14
141.14


In [94]:
# 특정 로우, 컬럼의 데이터만 선택 - 데이터 서브셋 추출
# 간단히, loc를 이용해 row 선택 후, 원하는 컬럼만 지정해주는 방식
display(sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']])

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53


### 슬라이싱 - loc, iloc를 이용하여 슬라이싱 하는 습관을 들이자

In [91]:
display(sp500[1:5])
display(sp500.iloc[1:5])
display(sp500.loc['ABT':'ACE'])

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897
