# 파이썬의 과학기술 분야 Ecosystem
<img src="img/파이썬과학기술라이브러리.jpg" alt="datetime" style="width: 1200px;"/>
# 1. Pandas 소개
<img src="img/6pandas소개.jpg" alt="datetime" style="width: 1200px;"/>
# [ Pandas API 공식 문서 ]
## http://pandas.pydata.org/pandas-docs/stable/api.html

# 2. Pandas 주요 데이터 타입

## 2.1. Series (시리즈)
<img src="img/Series소개.jpg" alt="datetime" style="width: 1200px;"/>

In [100]:
# Pandas 라이브러리 사용
import pandas as pd
from pandas import Series

## 2.1.1 Series 생성

In [101]:
#기본 Series 생성
data1 = Series([3,5,1,2])
data1

0    3
1    5
2    1
3    2
dtype: int64

In [102]:
#값은 모든 데이터 타입 가능
data2 = Series(['big data',30,[1,2,3]])
data2

0     big data
1           30
2    [1, 2, 3]
dtype: object

In [103]:
data2[2]

[1, 2, 3]

In [104]:
#인덱스 라벨 추가
data2.index = ['강의명','수강생수','비고']
data2

강의명      big data
수강생수           30
비고      [1, 2, 3]
dtype: object

In [105]:
#숫자 인덱스로 값 접근
data2[1]

30

In [106]:
# 인덱스 라벨로 값 접근
data2['수강생수']

30

In [107]:
#사전 타입처럼 인덱스:값의 형태로도 생성 가능
data3 = Series({'a':1, 'b':3, 'c':10, 'd':5})
data3

a     1
b     3
c    10
d     5
dtype: int64

In [108]:
# 값과 Index 인자를 사용하여, Series 생성
data4 = Series([10,20,30,40,50,60,70,80,90,100],
               index = ['a','b','c','d','e','f','g','h','i','j'])
data4

a     10
b     20
c     30
d     40
e     50
f     60
g     70
h     80
i     90
j    100
dtype: int64

## 2.2.2. Series 색인

In [109]:
# 특정 인덱스 접근 (숫자 인덱스)
data4[5]

60

In [110]:
# 특정 인덱스 접근 (인덱스 라벨)
data4['c']

30

In [111]:
# 여러 인덱스 접근
data4[['a','c','f']]


a    10
c    30
f    60
dtype: int64

In [112]:
data4[[2,7,8,9]]

c     30
h     80
i     90
j    100
dtype: int64

In [113]:
#data4[[1,2,3,4,5]]
data4[1:6]

b    20
c    30
d    40
e    50
f    60
dtype: int64

# 인덱스 슬라이싱 (숫자 인덱스)
<img src="img/3문자열슬라이싱.jpg" alt="datetime" style="width: 800px;"/>

### 1) :을 기점으로 왼쪽에 start index, 오른쪽에 end index 지정
### 2) start index 보다 크거나 같고, end index보다 작은 항목을 선택
### 3) 예를 들어, a[2:5]는 a[[2,3,4]]와 동일
### 4) start index와 end index는 생략 가능하며, 생략 시 start index는 첫 인덱스, end index는 끝 인덱스로 지정됨.
### 5) 음수 인덱스는 끝에서 시작되는 역인덱스임.

In [114]:
#숫자 인덱스가 3부터 6까지 슬라이싱
data4[3:7]

d    40
e    50
f    60
g    70
dtype: int64

In [115]:
#data4의 마지막 5개 값만 출력
data4[-5:]

f     60
g     70
h     80
i     90
j    100
dtype: int64

In [116]:
#인덱스 라벨 슬라이싱
# 기본적으로 숫자 인덱스와 동일하나, end index 포함여부가 다름.
# 숫자 인덱스는 end index가 포함되지 않으나, 인덱스 라벨 슬라이싱은 end index가 포함됨.
data4['a':'b']

a    10
b    20
dtype: int64

# 조건을 활용한 인덱스 선택 (조건 색인)
# 매우 많이 활용되므로, 꼭 알고 있어야 함!
<img src="img/조건색인.jpg" alt="datetime" style="width: 1200px;"/>

In [138]:
# data4의 값이 50 이상인 경우만 선택
data4[data4 >= 50]

e     50
f     60
g     70
h     80
i     90
j    100
dtype: int64

In [141]:
# data4의 항목값의 평균보다 큰 항목만 선택
data4[data4>data4.mean()]

f     60
g     70
h     80
i     90
j    100
dtype: int64

## 2.2.3. Series 속성 조회 및 주요 함수

### 속성 (Attributes)

In [142]:
# 1) index - 인덱스 출력
data4.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

In [143]:
# 2) values - 값 출력
data4.values

array([ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100], dtype=int64)

In [144]:
# 3) dtype - 데이터 타입 출력
data4.dtype

dtype('int64')

In [145]:
# 4) size - Series의 크기 
data4.size

10

### 주요 함수

In [147]:
# 1) 인덱스 라벨이 있는지 체크
'c' in data4 #in문에서는 .index가 default

True

In [150]:
# 2) 특정 값이 있는지 체크
50 in data4.values

True

In [151]:
# data4의 모든 항목 값을 출력
for i in data4.values:
    print(i)

10
20
30
40
50
60
70
80
90
100


In [153]:
# data4의 모든 인덱스 라벨을 출력
for i in data4.index:
    print(i)

a
b
c
d
e
f
g
h
i
j


In [156]:
# data4의 모든 인덱스 라벨과 값의 쌍을 출력
for index, value in data4.items():
    print(index, value)

a 10
b 20
c 30
d 40
e 50
f 60
g 70
h 80
i 90
j 100


=============================================================
# 실습 문제 

In [127]:
import random

In [157]:
# 실습 데이터 생성
sample = random.sample(range(1,100),26) # 1~100사이의 값을 26개 생성하여 list로 반환
data = Series(sample, index = list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
data

A    45
B    15
C    89
D    10
E    66
F    19
G    83
H    85
I    64
J     4
K     1
L    73
M    91
N    97
O     9
P    41
Q    87
R    26
S    28
T    49
U    59
V     6
W    62
X    72
Y    84
Z    88
dtype: int64

In [158]:
# 1) 인덱스 라벨이 'K' 항목의 값 출력
data['K']

1

In [159]:
# 2) 인덱스 라벨이 'A','F','C' 항목의 값 출력
data[['A','F','C']]

A    45
F    19
C    89
dtype: int64

In [160]:
# 3) 5번 인덱스부터 15번 인덱스까지의 항목 출력
data[5:16]

F    19
G    83
H    85
I    64
J     4
K     1
L    73
M    91
N    97
O     9
P    41
dtype: int64

In [161]:
# 4) 뒤에서 5개 항목 출력
data[-5:]

V     6
W    62
X    72
Y    84
Z    88
dtype: int64

In [163]:
# 5) data의 항목의 갯수를 출력
data.size

26

In [165]:
# 6) data 항목 값들의 평균보다 큰 항목만 출력 
## Hint. data 항목 값들의 평균은 data.mean()으로 구할 수 있다.
data[data > data.mean()]

C    89
E    66
G    83
H    85
I    64
L    73
M    91
N    97
Q    87
U    59
W    62
X    72
Y    84
Z    88
dtype: int64

In [166]:
# 7) data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False를 출력
50 in data.values

False

In [170]:
# 8) data의 인덱스 라벨과 각 항목 값을 아래와 같이 출력
# index: A, value: XX
# index: B, value: XX
# index: C, value: XX
for index, value in data.items():
    print("index: {0}, value: {1}".format(index,value))

index: A, value: 45
index: B, value: 15
index: C, value: 89
index: D, value: 10
index: E, value: 66
index: F, value: 19
index: G, value: 83
index: H, value: 85
index: I, value: 64
index: J, value: 4
index: K, value: 1
index: L, value: 73
index: M, value: 91
index: N, value: 97
index: O, value: 9
index: P, value: 41
index: Q, value: 87
index: R, value: 26
index: S, value: 28
index: T, value: 49
index: U, value: 59
index: V, value: 6
index: W, value: 62
index: X, value: 72
index: Y, value: 84
index: Z, value: 88
