# Series

In [3]:
import numpy as np
import pandas as pd
#pd.Series?

## 1. 시리즈 데이터의 생성

In [10]:
# list로부터 생성가능
numbers=pd.Series([4,7,-5])
print(numbers) #데이터의 형태가 출력됨에 유의하라

0    4
1    7
2   -5
dtype: int64


In [11]:
# 문자열이 담겨있는 리스트로부터도 생성 가능
animals=pd.Series(['cat','lion','tiger'])
print(animals) #데이터의 형태가 object로 바뀌어 있음에 유의하라

0      cat
1     lion
2    tiger
dtype: object


In [12]:
vector=np.ones(3) #Numpy array로부터도 생성 가능하다.
mySeries=pd.Series(vector)
print(mySeries)

0    1.0
1    1.0
2    1.0
dtype: float64


## 2. 결측치 (Missing Value, Nan)

In [34]:
# 아무것도 없음을 의미하는 또다른 종류의 값
# 실무에서 데이터 분석을 할 경우에는 결측치가 존재하는 결측치(missing value)가 있는 경우가 상당히 많다.
# 파이썬에서 아무값도 들어있지 않음을 나타내는 특별한 값이 존재하는데, None이다.
None

In [33]:
# None값이 섞여있는 리스트로부터 시리즈를 만들면 다음과 같이 NaN 이라는 값이 나온다.
# NaN은 Not a Number의 약자이다. 
# 숫자를 다루는 데이터에서 결측치를 나타낼때 주로 NaN이 사용되며, 
# 다른 값과 섞여서 연산에 사용될때 계산을 방해하지 않기 위한 용도로 사용된다.
numbers=pd.Series([4,7,None])
print(numbers)

0    4.0
1    7.0
2    NaN
dtype: float64


In [17]:
mySeries=pd.Series(['cat','lion',None])
mySeries

0     cat
1    lion
2    None
dtype: object

In [39]:
# 주의점: NaN은 None과 다르다.
# 결측치인 NaN값을 골라내어 적절한 처리를 해야하는 경우가 많이 있다. 
# 주의해야할 점은 NaN은 비교연산자로 걸러낼 수 없다는 점이다. 다음 예시를 살펴보자.

In [40]:
np.nan

nan

In [36]:
np.nan==None

False

In [37]:
np.nan==np.nan

False

In [38]:
np.isnan(np.nan)

True

## 3. 시리즈의 인덱스(Index )

In [23]:
numbers=pd.Series([4,7,None])
numbers

0    4.0
1    7.0
2    NaN
dtype: float64

In [26]:
numbers.index

RangeIndex(start=0, stop=3, step=1)

In [24]:
for i in numbers.index:
    print(i)

0
1
2


In [18]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [25]:
s.index

Index(['Archery', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [27]:
s = pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'America', 'Canada'])
s

India      Tiger
America     Bear
Canada     Moose
dtype: object

## 4. 질의하기 (Querying)

In [42]:
# query: 질의
# 시리즈 데이터에 질문을 날려 내가 원하는 데이터를 골라내는 행위를 말한다.
# 효과적으로 데이터를 찾아나가는데 꼭 필요하다.
# 인덱스를 제공한 이유: 이를 활용하여 효율적으로 데이터를 추려내라는 것이다.

In [41]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

* 인덱스 값을 사용한 골라내기

In [43]:
s['Archery']

'Bhutan'

In [44]:
s[['Archery','Sumo']]

Archery    Bhutan
Sumo        Japan
dtype: object

In [45]:
s[['Jujisu','Sumo']]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self.loc[key]


Jujisu      NaN
Sumo      Japan
dtype: object

* 숫자를 활용한 골라내기

In [46]:
s.iloc[0]

'Bhutan'

In [47]:
s.iloc[0:3]

Archery      Bhutan
Golf       Scotland
Sumo          Japan
dtype: object

In [48]:
s.iloc[[1,2]]

Golf    Scotland
Sumo       Japan
dtype: object

* 조건부 쿼링

In [54]:
x=pd.Series([15,21,6,28,27])
print(x)

0    15
1    21
2     6
3    28
4    27
dtype: int64


In [55]:
x<10

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [56]:
x[x<10]

2    6
dtype: int64

In [57]:
x==21

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [58]:
x[x==21]

1    21
dtype: int64

## 5. 시리즈 연산

In [62]:
x=pd.Series([0,2,4,6,8])
y=pd.Series([1,3,5,7,9])

In [63]:
x+3

0     3
1     5
2     7
3     9
4    11
dtype: int64

In [64]:
x*3

0     0
1     6
2    12
3    18
4    24
dtype: int64

In [65]:
x+y

0     1
1     5
2     9
3    13
4    17
dtype: int64

## 6. 시리즈 합치기

In [1]:
s = pd.Series([1, 2, 3])
s.loc['Animal'] = 'Bears'
s

NameError: name 'pd' is not defined