# 기본환경구축
import numpy as np
import pandas as pd
#from pandas import Series,DataFrame 이라는 문장을통해서
#명시적으로 Series와 DataFrame객체를 임포트 할 수 있게 된다.
#그러면 pd.이라는 접두사를 사용하지 않아도 참조할 수 있게 되므로 약간의 타이핑을
#줄이는 효과적인 방법이다.
import datetime
from datetime import datetime, date
#시계열 데이터를 다룰 때 흔히 사용되므로 모든 노트북에 포함시키게 될 라이브러리.
pd.set_option('display.notebook_repr_html', False)
#Series와 DataFrame의 출력을 HTML이 아닌 텍스트로 렌더링하게 설정하였다.
pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)
#칼럼과 로우의 최대 크기를 지정하고, 하나의 로우에 최대 몇글자를 보여줄지 설정 하였다.
import matplotlib.pyplot as plt
%matplotlib inline

# 기본환경 구축

# Series는 pandas의 기본 데이터 구조이다.
Numpy에서의 배열과 비슷하지만, 인덱스를 갖는다는 점에서 다르다.

In [None]:
s= pd.Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

# []에 레이블을 전달해 접근하기.

In [None]:
s[[1,2]]

1    2
2    3
dtype: int64

In [None]:
s[1:2]

1    2
dtype: int64

# index가 문자열로된 Series 객체를 만드는 예시

In [None]:
s= pd.Series([1,2,3,4], index=['a','b','c','d'])
s

a    1
b    2
c    3
d    4
dtype: int64

In [None]:
s[[1,2,]]

b    2
c    3
dtype: int64

In [None]:
s[['a','b']]

a    1
b    2
dtype: int64

In [None]:
#index 속성확인
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

# pd.date_range()함수를 이용해 날짜 범위 만들기

In [None]:
s=pd.date_range('2016-04-01','2016-04-06')
s
#DatetimeIndex를 갖는 이와 같은 유형의 시리즈를 시계열이라고 한다.

DatetimeIndex(['2016-04-01', '2016-04-02', '2016-04-03',
               '2016-04-04', '2016-04-05', '2016-04-06'],
              dtype='datetime64[ns]', freq='D')

# 위의 생성된 인덱스를 이용하여 Series 만들어보기

In [None]:
temps1=pd.Series([80,82,85,90,83,87],index=s)
temps1

2016-04-01    80
2016-04-02    82
2016-04-03    85
2016-04-04    90
2016-04-05    83
2016-04-06    87
Freq: D, dtype: int64

In [None]:
temps1['2016-04-04']
#특정 날짜를 나타내는 문자열을 사용해 최고 기온을 조회할 수 있다.

90

In [None]:
temps2=pd.Series([70,75,69,83,79,77],index=s)
temp_diffs=temps1-temps2
temp_diffs

2016-04-01    10
2016-04-02     7
2016-04-03    16
2016-04-04     7
2016-04-05     4
2016-04-06    10
Freq: D, dtype: int64

In [None]:
#제로베이스 방법으로 값을 찾기
temp_diffs[2]

16

In [None]:
temp_diffs['2016-04-03']

16

# pandas를 이용한 다수의 기술통계 메서드

In [None]:
temp_diffs.mean()

9.0

# pandas DataFrame
pandas의 Series는 각 인덱스 레이블당 하나의 값만 가질 수 있다.

하지만 데이터프레임을 사용하면 인덱스 레이블당
복수의 값을 가질 수 있다.

데이터 프레임은 인덱스 레이블을 기준으로 배열된 하나 이상의 Series를 나타낸다.

각 Series는 데이터프레임의 칼럼이 되며, 각 칼럼은 하나의 이름을 가진다.

In [None]:
temps_df=pd.DataFrame({'Missoula': temps1, 'Philadelphia' : temps2})
temps_df

            Missoula  Philadelphia
2016-04-01        80            70
2016-04-02        82            75
2016-04-03        85            69
2016-04-04        90            83
2016-04-05        83            79
2016-04-06        87            77

In [None]:
temps_df['Missoula']

2016-04-01    80
2016-04-02    82
2016-04-03    85
2016-04-04    90
2016-04-05    83
2016-04-06    87
Freq: D, Name: Missoula, dtype: int64

temps_df['2016-04-03']
이건 에러가 뜬다 왜??

DataFrame의 []연산자에 이름 목록을 전달하면 복수의 칼럼을 가져온다.

Series의 경우엔 복수의 로우를 반환한다는 차이가 있다.


In [None]:
#리스트로 검색하기.
temps_df[['Missoula','Philadelphia']]

            Missoula  Philadelphia
2016-04-01        80            70
2016-04-02        82            75
2016-04-03        85            69
2016-04-04        90            83
2016-04-05        83            79
2016-04-06        87            77

In [None]:
#칼럼의 이름에 공백이 없을경우 속성으로 표기하는 방법
temps_df.Missoula

2016-04-01    80
2016-04-02    82
2016-04-03    85
2016-04-04    90
2016-04-05    83
2016-04-06    87
Freq: D, Name: Missoula, dtype: int64

In [None]:
#두 칼럼사이의 기온 차를 계산하는 코드
temps_df.Missoula-temps_df.Philadelphia

2016-04-01    10
2016-04-02     7
2016-04-03    16
2016-04-04     7
2016-04-05     4
2016-04-06    10
Freq: D, dtype: int64

# DataFrame에 새 칼럼을 추가하는 코드

In [None]:
temps_df['Difference']=temp_diffs
temps_df

            Missoula  Philadelphia  Difference
2016-04-01        80            70          10
2016-04-02        82            75           7
2016-04-03        85            69          16
2016-04-04        90            83           7
2016-04-05        83            79           4
2016-04-06        87            77          10

In [None]:
#columns 메서드로 칼럼명 검색하기
temps_df.columns

Index(['Missoula', 'Philadelphia', 'Difference'], dtype='object')

In [None]:
#특정 로우만 검색하기
temps_df.Difference[1:4]

2016-04-02     7
2016-04-03    16
2016-04-04     7
Freq: D, Name: Difference, dtype: int64

# 전체 칼럼에 있어서의 특정 로우 데이터 검색하기
.loc 는 인덱스 레이블을 사용해 검색한다.

.iloc 는 제로베이스 위치를 사용해 검색한다.

In [None]:
temps_df.iloc[1]

Missoula        82
Philadelphia    75
Difference       7
Name: 2016-04-02 00:00:00, dtype: int64

In [None]:
temps_df.iloc[1].index
#2번째 줄에 있는 요소들의 인덱스 확인

Index(['Missoula', 'Philadelphia', 'Difference'], dtype='object')

In [None]:
temps_df.loc['2016-04-05']

Missoula        83
Philadelphia    79
Difference       4
Name: 2016-04-05 00:00:00, dtype: int64

In [None]:
#특정 칼럼의 특정 위치의 값을 검색하는 코드
temps_df.Difference.iloc[[1,3,5]]
#순서 바뀌어도 무방하다.

2016-04-02     7
2016-04-04     7
2016-04-06    10
Freq: 2D, Name: Difference, dtype: int64

# 논리식에 기초하여 로우 데이터를 탐색하기
## 불리언 선택

In [None]:
temps_df.Missoula>82

2016-04-01    False
2016-04-02    False
2016-04-03     True
2016-04-04     True
2016-04-05     True
2016-04-06     True
Freq: D, Name: Missoula, dtype: bool

In [None]:
#조건에 맞는 값만 반환하기
temps_df[temps_df.Missoula>82]

            Missoula  Philadelphia  Difference
2016-04-03        85            69          16
2016-04-04        90            83           7
2016-04-05        83            79           4
2016-04-06        87            77          10

# 정리
## Series 에서는 []로 열, 행 모두 접근 가능
## DataFrame 에서는 []로는 열에만 접근하고 .iloc나 .loc로 행에만 접근 가능

# Making Series

In [5]:
import numpy as np
import pandas as pd
import datetime
from datetime import datetime, date
import matplotlib.pyplot as plt
%matplotlib inline
s=pd.Series([10,11,12,13,14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [6]:
s[3]

13

In [7]:
pd.Series(list('abcde'))

0    a
1    b
2    c
3    d
4    e
dtype: object

In [10]:
pd.Series({'Mike' : 'Dad', 'Marcia' : 'Mom'})

Mike      Dad
Marcia    Mom
dtype: object

In [11]:
pd.Series(np.arange(4,9))

0    4
1    5
2    6
3    7
4    8
dtype: int64

In [12]:
pd.Series(np.linspace(0,9,5))

0    0.00
1    2.25
2    4.50
3    6.75
4    9.00
dtype: float64

# when generate the random number

In [16]:
np.random.seed(12345)
pd.Series(np.random.normal(size=5))
#it followed the normal distribution in size 5

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

# Values method has access for figuring out the database


In [18]:
s=pd.Series([1,2,3])
s.values

array([1, 2, 3])