## Pandas_Series
- 시리즈 객체 생성 방법
    - `pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`
    - 시리즈 = 데이터 + 데이터를 가리키는 인덱스
    - 시리즈 생성
        - 데이터 : 1차원 배열 형식
        - 인덱스 : 인덱스의 값을 인덱스 레이블 이라고 함 / 인덱스 레이블은 정수, 문자열, 실수 또는 파이썬 객체 등의 데이터 형식을 가짐
        

#### 1. 리스트, ndarray에서 시리즈 객체 생성
- 데이터 : 리스트, ndarray(numpy 배열)
- 인덱스 : 
    - 데이터가 ndarray인 경우 : 데이터 길이와 같게 지정
    - 인덱스가 전달되지 않은 경우 : 1 ~ len(data) -1 까지의 정수 인덱스가 자동 생성

In [2]:
import pandas as pd
import numpy as np

In [3]:
# 인덱스 미지정
obj = pd.Series([4, 7, -5, 3])      # 인덱스를 지정하지 않으면 0부터 시작하는 정수 인덱스가 자동 생성
print(obj)
print('------------------')
print(obj.index)
print('------------------')
print(obj.values)

0    4
1    7
2   -5
3    3
dtype: int64
------------------
RangeIndex(start=0, stop=4, step=1)
------------------
[ 4  7 -5  3]


In [5]:
# 인덱스 지정
obj2 = pd.Series([4, 7, -5, 3], index= ['a', 'b', 'c', 'd']) # 인덱스를 지정하여 생성
print(obj2)
print('------------------')
print(obj2.index)
print('------------------')
print(obj2.values)


a    4
b    7
c   -5
d    3
dtype: int64
------------------
Index(['a', 'b', 'c', 'd'], dtype='object')
------------------
[ 4  7 -5  3]


#### dtype 속성 : 데이터 프레임 에서 특정 열에 대해서만 자료형의 정보를 확인할 때 사용

In [6]:
ser = pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd'])   #인덱스를 지정하여 생성
print(ser)    #시리즈 출력

a   -0.853248
b    1.615727
c   -0.623513
d    1.444237
dtype: float64


In [7]:
ser.values      #값만 출력

array([-0.85324801,  1.6157272 , -0.62351322,  1.44423712])

In [8]:
ser.index       #인덱스만 출력

Index(['a', 'b', 'c', 'd'], dtype='object')

In [9]:
ser.dtypes      #자료형만 출력

dtype('float64')

In [14]:
obj2 = pd.Series([4, 7, -5, 3], index= ['a', 'b', 'c', 'd'])
print(obj2['a'])
print(obj2['b'])
print(obj2['c'])
print(obj2['d'])

print('------------------')

obj2['c'] = 6
print(obj2[['a', 'b', 'c']]) # 인덱스 레이블을 사용해서 값에 접근
print('------------------')
print(obj2[[0, 1, 2]]) # 인덱스를 사용해서 값에 접근

4
7
-5
3
------------------
a    4
b    7
c    6
dtype: int64
------------------
a    4
b    7
c    6
dtype: int64


  print(obj2[[0, 1, 2]]) # 인덱스를 사용해서 값에 접근


a    4
b    7
c    6
dtype: int64


  print(obj2[[0, 1, 2]])


In [18]:
# 시리즈 인덱싱과 슬라이싱
print(obj2[0:2]) 
print(obj2['a':'c'])

a    4
b    7
dtype: int64
a    4
b    7
c    6
dtype: int64


In [20]:
print(obj2 > 5)

a    False
b     True
c     True
d    False
dtype: bool


In [21]:
print('b' in obj2)
print('e' in obj2)

True
False


In [22]:
print(obj2[obj2 > 0])
print(obj2 * 2)

a    4
b    7
c    6
d    3
dtype: int64
a     8
b    14
c    12
d     6
dtype: int64


#### 2. 딕셔너리 데이터에서 시리즈 객체 생성
- 데이터 : 딕셔너리의 값
- 인덱스 : 딕셔너리의 키 값이 순서대로 들어감
    - 색인을 직접 지정하고 싶다면 원하는 순서대로 색인을 넘겨 줄 수 있음
    - 딕셔너리 키에 해당하는 값이 없으면 NaN(Not a Number)값 표시되고 판다스에서 누락된 값, 혹은 NA값으로 취급
- 딕셔너리 자료형에서 제공하는 in 연산 가능
- items 메서드를 사용하면 for 루프를 통해 각 원소의 key와 value에 접근 가능

In [23]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])       #인덱스를 지정하여 생성
print(s)    

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [24]:
for key, value in s.items():        #items()함수를 사용하여 key, value를 출력
    print(f'{key} 인구는 {value}명 입니다.')        #key, value 출력

서울 인구는 9904312명 입니다.
부산 인구는 3448737명 입니다.
인천 인구는 2890451명 입니다.
대구 인구는 2466052명 입니다.


In [25]:
list_data = ['2022-07-12', 3.14, 'ulsan', 100, True]
series_data = pd.Series(list_data, index=['날짜', 'PI', '주소', '점수', '참/거짓'])
print(series_data)
print('------------------')
print(series_data.날짜) # 인덱스 레이블이 속성인 것처럼 .(dot)를 사용해서 값에 접근
print('------------------')
print(series_data['주소']) # 인덱스 레이블을 사용해서 값에 접근
print(series_data['PI'])

날짜      2022-07-12
PI            3.14
주소           ulsan
점수             100
참/거짓          True
dtype: object
------------------
2022-07-12
------------------
ulsan
3.14


#### 딕셔너리로 시리즈 만들기

In [26]:
dic1 = {'a':1, 'b':2, 'c':3}        #딕셔너리 생성
sd = pd.Series(dic1)                #딕셔너리를 시리즈로 변환
print(type(sd))                     #타입 출력
print('--------------')             
print(sd)     

<class 'pandas.core.series.Series'>
--------------
a    1
b    2
c    3
dtype: int64


In [27]:
pd.Series(dic1, index=['b', 'c', 'd', 'a']) #인덱스를 지정하여 생성 d는 없으므로 NaN으로 출력

b    2.0
c    3.0
d    NaN
a    1.0
dtype: float64

#### 딕셔너리 값으로 시리즈 객체 생성

In [28]:
s1 = pd.Series({"서울": 9904312, "부산": 3448737, "인천": 2890451, "대구": 2466052})
s1

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [32]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
                index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

#### 시리즈의 인덱스 기반 연산
- isnull 메서드 : NaN값이면 True
- notnull 메서드 : NaN값이면 False

In [34]:
ds = s1 + s2 
ds # 인덱스가 매치되지 않는 경우 : NaN 표시, 자료형은 float형

대구           NaN
대전           NaN
부산     6841928.0
서울    19535794.0
인천     5522486.0
dtype: float64

In [35]:
pd.notnull(ds)

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [36]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [37]:
ds[pd.notnull(ds)]

부산     6841928.0
서울    19535794.0
인천     5522486.0
dtype: float64

In [38]:
ds[ds.notnull()]

부산     6841928.0
서울    19535794.0
인천     5522486.0
dtype: float64

In [39]:
print(pd.isnull(ds))

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool


In [40]:
pd.isnull(ds)

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [41]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [42]:
ds[pd.isnull(ds)]

대구   NaN
대전   NaN
dtype: float64

In [43]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

#### 데이터 추가

In [44]:
ds["울산"] = 1129254
ds

대구           NaN
대전           NaN
부산     6841928.0
서울    19535794.0
인천     5522486.0
울산     1129254.0
dtype: float64

#### 데이터 수정

In [45]:
ds["대구"] = 2466052
ds

대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
인천     5522486.0
울산     1129254.0
dtype: float64

#### 데이터 삭제

In [46]:
del ds["인천"]
ds

대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
울산     1129254.0
dtype: float64

#### 시리즈 값과 인덱스 이름 지정
- `series.name` : Series 데이터의 이름
- `series.index.name` : Series 인덱스의 이름

In [47]:
ds.name='인구'          #series.name : Series 데이터의 이름
ds

대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
울산     1129254.0
Name: 인구, dtype: float64

In [48]:
ds.index.name = '지역'      #series.index.name : Series 인덱스의 이름
ds

지역
대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
울산     1129254.0
Name: 인구, dtype: float64

In [49]:
ds["인천"] = 2890451            #인덱스가 없으면 추가
ds["제주"] = 506580
ds

지역
대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
울산     1129254.0
인천     2890451.0
제주      506580.0
Name: 인구, dtype: float64

In [50]:
ds.head()       #처음부터 5행 표시

지역
대구     2466052.0
대전           NaN
부산     6841928.0
서울    19535794.0
울산     1129254.0
Name: 인구, dtype: float64

In [51]:
ds.tail()       #마지막부터 5행 표시

지역
부산     6841928.0
서울    19535794.0
울산     1129254.0
인천     2890451.0
제주      506580.0
Name: 인구, dtype: float64

#### 3. 스칼라 값에서 시리즈 객체 생성
- 레이블 표시를 위한 인덱스를 입력

In [52]:
pd.Series(7., index=['a', 'b', 'c'])        #dtype 실수 (7.)

a    7.0
b    7.0
c    7.0
dtype: float64

In [53]:
pd.Series(7, index=['a', 'b', 'c'])         #dtype 정수

a    7
b    7
c    7
dtype: int64

#### 4. 튜플 값에서 시리즈 객체 생성
- 레이블 표시를 위한 인덱스를 입력

In [54]:
s = pd.Series((9904312, 3448737, 2890451, 2466052),
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64