# Pandas 라이브러리 import 하기

In [1]:
# Python의 리스트(list) 타입의 데이터 생성하기
data = [3,5,1,2]
data

[3, 5, 1, 2]

In [4]:
# Pandas의 Series 타입의 데이터 생성하기
pandas.Series([3,5,1])

0    3
1    5
2    1
dtype: int64

In [5]:
# pandas 라이브러리 임포트하기(1)
import pandas

In [6]:
# pandas 라이브러리 임포트하기(2) - 별칭
import pandas as pd

In [9]:
# pandas 라이브러리 임포트하기(3)
from pandas import Series
Series([3,5,1,2])

0    3
1    5
2    1
3    2
dtype: int64

# Series 생성
- 1차원 데이터를 저장하는 파이썬의 데이터타입인 리스트, 튜플, 사전 타입 등을 이용해서 Series 객체를 생성해 보고, Series 객체의 특징들을 살펴보도록 하겠습니다.

# 1) List를 사용하여 Series 생성하기

In [11]:
arr = [3,5,1,2] # 파이썬의 리스트 타입 변수
data1= Series(arr)

In [12]:
data1

0    3
1    5
2    1
3    2
dtype: int64

In [13]:
data1.index = ['a','b','c','d']

In [14]:
data1

a    3
b    5
c    1
d    2
dtype: int64

In [17]:
# data1 = Series([3,5,1,2],['a','b','c','d'])
data1 = Series(data=[3,5,1,2],index=['a','b','c','d'])

In [18]:
data1

a    3
b    5
c    1
d    2
dtype: int64

# 2) Tuple을 사용하여 Series 생성하기

In [19]:
arr2 = (3,5,1,2) # 튜플 타입의 데이터 생성
data2 = Series(arr2)
data2

0    3
1    5
2    1
3    2
dtype: int64

# 3) Dict 타입의 변수를 사용하여 Series 생성하기

In [21]:
arr3 = {
    'a':3,
    'b':5,
    'c':1,
    'd':2
}# Dict(사전) 타입의 데이터 생성
data3 = Series(arr3)
data3

a    3
b    5
c    1
d    2
dtype: int64

# ** 몇 가지 Series 특징들 **
- Series,values는 numpy의 ndarray 객체입니다.

In [22]:
data3

a    3
b    5
c    1
d    2
dtype: int64

In [23]:
# 값만 출력
data3.values

array([3, 5, 1, 2], dtype=int64)

In [25]:
# 타입 확인
type(data3.values)

numpy.ndarray

- 값에는 모든 데이터 타입 사용이 가능합니다.

In [28]:
Series(['big data',10,3.5,[1,2,3],{'a':5,'b':3},Series([1,2,3])])

0                             big data
1                                   10
2                                  3.5
3                            [1, 2, 3]
4                     {'a': 5, 'b': 3}
5    0    1
1    2
2    3
dtype: int64
dtype: object

# Series의 속성(Attributes)와 함수(Method)들

**샘플 데이터 생성**  
값과 Index 인자를 사용하여, Series 생성

In [29]:
sample = Series([85,90,75,55,45,90,95,85,90,100],
               index = ['a','b','c','d','e','f','g','h','i','j'])
sample

a     80
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
dtype: int64

## 속성(Attributes) = Series가 가지고 있는 객체, 속성(특징) 혹은 간단한 기능을 제공
1) index - Series의 인덱스 (혹은 인덱스 라벨)

In [31]:
sample.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

2) values- Series의 데이터

In [32]:
sample.values

array([ 80,  90,  75,  55,  45,  90,  95,  85,  90, 100], dtype=int64)

3) size- Series의 크기(데이터의 길이)

In [34]:
# 샘플 Series 항목의 갯수
sample.size

10

4) dtype- Series의 데이터(Series,values)의 데이터 타입
- 정수형 숫자 : int64
- 실수형 숫자 : float64
- 문자열이거나 2개 이상의 데이터 타입으로 이루어진 경우: 'O' (Object)

In [35]:
sample.dtype

dtype('int64')

In [36]:
Series(['a','c'])

0    a
1    c
dtype: object

In [37]:
Series([3,5.3,'abc'])  # 두 가지의 데이터일 경우 Object

0      3
1    5.3
2    abc
dtype: object

In [38]:
Series([3,5.3])

0    3.0
1    5.3
dtype: float64

 # Series의 함수
 1) describe() - 통계 정보를 한 눈에 제공해주는 함수

In [39]:
sample.describe()

count     10.000000
mean      80.500000
std       17.709069
min       45.000000
25%       76.250000
50%       87.500000
75%       90.000000
max      100.000000
dtype: float64

 2) 통계 함수들 - max(),min(),avg(), ...

In [40]:
sample.max()

100

In [41]:
sample.mean()

80.5

In [42]:
sample.agg('mean')

80.5

3) add_prefix(prefix) - 인덱스 라벨 앞에 prefix 문자열을 추가

In [43]:
sample.add_prefix('data-')

data-a     80
data-b     90
data-c     75
data-d     55
data-e     45
data-f     90
data-g     95
data-h     85
data-i     90
data-j    100
dtype: int64

In [44]:
# 원본에 반영 되지 않는다
sample 

a     80
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
dtype: int64

In [45]:
# 원본에 반영하고 싶다면
sample2= sample.add_prefix('data-')

In [46]:
sample2

data-a     80
data-b     90
data-c     75
data-d     55
data-e     45
data-f     90
data-g     95
data-h     85
data-i     90
data-j    100
dtype: int64

4) value_counts() - Series에 있는 데이터 값들의 개수

In [47]:
sample.value_counts()

90     3
80     1
100    1
85     1
55     1
75     1
45     1
95     1
dtype: int64

5) add(값) - Series의 데이터 각각에 값을 더하기

In [48]:
sample.add(100)

a    180
b    190
c    175
d    155
e    145
f    190
g    195
h    185
i    190
j    200
dtype: int64

**[Mini Quiz #1]** 앞에 5개의 데이터에는 5를 더하고, 나머지 5개의 데이터에는 10을 더하시오.

In [51]:
sample.add([5,5,5,5,5,10,10,10,10,10])

a     85
b     95
c     80
d     60
e     50
f    100
g    105
h     95
i    100
j    110
dtype: int64

6) append(series) - 인자로 받은 series를 기존 series 뒤에 이어 붙여서 하나의 series로 만든다.

In [55]:
sr = Series(80,index=['m'])
sr

m    80
dtype: int64

In [56]:
sample.append(sr)

a     80
b     90
c     75
d     55
e     45
f     90
g     95
h     85
i     90
j    100
m     80
dtype: int64

7) isin(val_list) - Series에 있는 각각의 데이터들이 val_list에 포함되어 있는지 여부를 확인