# Pandas Series
- **Series**
- Dataframe

In [2]:
import pandas as pd
import numpy as np

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)

pandas ver :  0.24.2
numpy ver :  1.16.4


## Series
- 인덱싱된 데이터의 1차원 배열
- 리스트나 배열로 만들 수 있음

### [Pandas Series 객체 선언]
  - [DOC](https://pandas.pydata.org/pandas-docs/stable/reference/series.html)

#### Series 객체 선언 및 정보 확인  

- **선언**
  - `class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`
  - data : 리스트, Numpy배열, tuple, dictionary(키값이 인덱스가 됨), 정수1개(인덱스의 수에 따라 모두 같은 정수 값이 들어감)


In [3]:
print("* 리스트 : ")
print(pd.Series([44,22,33,11]))
print("\n")
print("* Numpy배열 : ")
print(pd.Series(np.arange(0,6)))
print("\n")
print("* tuple : ")
print(pd.Series((44,22,33,11)))
print("\n")
print("* Dictionary : ")
print(pd.Series({"a":1,"b":2,"c":3,"d":4}))
print("\n")
print("* 정수1개 : ")
print(pd.Series(100, index=[1,2,3,4,5]))
print("\n")

* 리스트 : 
0    44
1    22
2    33
3    11
dtype: int64


* Numpy배열 : 
0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64


* tuple : 
0    44
1    22
2    33
3    11
dtype: int64


* Dictionary : 
a    1
b    2
c    3
d    4
dtype: int64


* 정수1개 : 
1    100
2    100
3    100
4    100
5    100
dtype: int64




In [4]:
arr = np.random.normal(loc=0, scale=1, size=[4])
print("arr : ",arr)
print("type : ",type(arr))
print("ndim : ",arr.ndim)
print("shape : ",arr.shape)
print("size : ",arr.size)
print("\n")

# numpy ndarray 이용한 Pandas Series 선언
data = pd.Series(arr)
print("data(Series) : \n", data)

arr :  [-0.38114027 -1.0497343   0.62237906 -0.41795164]
type :  <class 'numpy.ndarray'>
ndim :  1
shape :  (4,)
size :  4


data(Series) : 
 0   -0.381140
1   -1.049734
2    0.622379
3   -0.417952
dtype: float64


In [5]:
listData = [11,22,33,44,55]
print("listData : ",listData)
print("type : ",type(listData))
print("size : ",len(listData))
print("\n")
# python list 이용한 Pandas Series 선언
data2 = pd.Series(listData)
print("data2(Series) : \n",data2)

listData :  [11, 22, 33, 44, 55]
type :  <class 'list'>
size :  5


data2(Series) : 
 0    11
1    22
2    33
3    44
4    55
dtype: int64


#### Series 객체 Attribute 

- **`Series.values`** : Series 데이터 확인
  - return : ndarray

In [6]:
result_values = data.values
print(result_values)
print("type : ",type(result_values))
print("\n")
result2_values = data2.values
print(result2_values)
print("type : ",type(result2_values))

[-0.38114027 -1.0497343   0.62237906 -0.41795164]
type :  <class 'numpy.ndarray'>


[11 22 33 44 55]
type :  <class 'numpy.ndarray'>


- **`Series.index`** : 인덱스 확인

In [7]:
result_index = data.index
print("result_index : ",result_index)
print("\n")
result2_index = data2.index
print("result2_index : ",result2_index)

result_index :  RangeIndex(start=0, stop=4, step=1)


result2_index :  RangeIndex(start=0, stop=5, step=1)


- **`Series.shape`** : 데이터 형태 확인

In [8]:
data.shape

(4,)

- **`Series.ndim`** : 데이터 차원 확인

In [9]:
data.ndim

1

- **`Series.size`** : 데이터 크기 확인

In [10]:
data.size

4

- **`Series.array`** : PandasArray 데이터 반환 
  - return : PandasArray
  - [Pandas Array DOC](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html)
  

In [11]:
print(data.array)
print(type(data.array))

<PandasArray>
[-0.3811402693085281, -1.0497342980461437,  0.6223790550858628,
 -0.4179516415152897]
Length: 4, dtype: float64
<class 'pandas.core.arrays.numpy_.PandasArray'>


* **`Series.keys()`** : Series index 반환

In [15]:
print(data)
print("\n")
print(data.keys())
for ind in data.keys():
    print(ind)

0   -0.381140
1   -1.049734
2    0.622379
3   -0.417952
dtype: float64


RangeIndex(start=0, stop=4, step=1)
0
1
2
3


#### Series 데이터 접근
- 대괄호안에 인덱스로 접근 가능하며 슬라이싱도 사용 가능

In [55]:
print("data Series : \n",data)
print("\n")


# 인덱스로 데이터 접근
print("data[2] = \n",data[2])

data Series : 
 0   -1.682291
1    1.635158
2    0.969099
3    0.745511
dtype: float64


data[2] = 
 0.9690992535067479


In [56]:
# 슬라이싱을 이용한 데이터 접근
print("data[:2] : \n",data[:2])

data[:2] : 
 0   -1.682291
1    1.635158
dtype: float64


### [Series 와 Numpy배열]

- **차이점**
  - Series는 **명시적으로 정의된 인덱스**를 사용
  - Numpy 배열은 암묵적으로 정의된 정수형 인덱스 사용
- Series에 인덱스를 추가 할 수 있게 하며 다양한 타입을 사용 가능 
- 정의된 인덱스 뿐만 아니라 **정수형 인덱스도 함께 사용** 하여 데이터 접근 가능

In [59]:
# index 를 추가하여 Series 선언
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [60]:
# 정의된 인덱스를 이용하여 데이터 접근
print("data[d] : ",data['d'])
print("data[3] : ",data[3])

data[d] :  1.0
data[3] :  1.0


- 정의된 인덱스를 정수형으로 추가 한다면 기존 정수형 인덱스로 접근 했던 정수로는 접근이 안됨
- 새롭게 정의된 정수형 인덱스로만 접근이 가능, 주의해야함!

In [65]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
print("data series : \n",data)
print("\n")
print("data[2] : ",data[2])

data series : 
 2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64


data[2] :  0.25


### [ Dictionary ... Series ]

- Python Dictionary(이하 Dict) 자료형 : 임의의 값에 임의의 키를 매핑
- Pandas Series : **타입이 지정된 키**를 일련의 **타입이 지정된 값**에 매핑

- Series는 타입이 지정된 값을 사용하기 때문에 연산을 할 경우에 좀더 효율적인 성능을 보임

In [68]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
print("population_dict : \n",population_dict)
print("\n")

# Python Dictionary 자료형으로 Series 객체를 선언함
population = pd.Series(population_dict)
print("Population Series : \n",population)

population_dict : 
 {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}


Population Series : 
 California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


- Dict 와 Series의 차이점
  - Series는 '키'를 이용하여 슬라이싱이 가능함

In [76]:
# 키로 슬라이싱
print("population['New York':'California'] : \n",population['New York':'California'])
print("\n")
print("population['New York':'Illinois'] : \n",population['New York':'Illinois'])
print("\n")
print("population[:3] : \n",population[:3])
print("\n")
print("population['California'] : \n",population['California'])

population['New York':'California'] : 
 Series([], dtype: int64)


population['New York':'Illinois'] : 
 New York    19651127
Florida     19552860
Illinois    12882135
dtype: int64


population[:3] : 
 California    38332521
Texas         26448193
New York      19651127
dtype: int64


population['California'] : 
 38332521
