### Pandas = Panel Datas 
= Series나 table 형태로 데이터를 나타낼 수 있다. 이러한 데이터를 다루기 위한 클래스를 제공하는 패키지  
### Series class
= NumPy에서 제공하는 1차원 배열과 그 모양이 비슷하다. 하지만 배열과 다르게 index를 추가하여 index 와 value를 가지는 배열을 말한다.  
- Series 객체 생성시 첫 인수로 data, 두 번째 인수로 idnex를 넣는다. 
- data값으로 iterable,배열,scalar value, dict(key와 index를 동일하게 사용하거나 생략)를 사용할 수 있다. 
- index는 data와 length가 동일해야한다.
- index는 hashable한 type만 올 수 있다.

In [5]:
import pandas as pd
series = pd.Series(['one','two','three',"four","five","six","seven",'eight','nine','ten'],index=range(1,11))
print(series)

1       one
2       two
3     three
4      four
5      five
6       six
7     seven
8     eight
9      nine
10      ten
dtype: object


In [12]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
print(s,end="\n\n")
print(s.index)
print(s.values,end='\n\n')
s.name = "인구"
s.index.name = "도시"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


### dict로 Series생성하기

In [19]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d) # 또는 ser = pd.Series(data=d,index=d.keys())
print(ser)
ser = pd.Series(data=d,index=['x','y','z']) 
# index로 주어진 값의 key값에 대응하는 value값을 주기 때문에 없는값이라서 NaN을 넣어준다.
print(ser)

a    1
b    2
c    3
dtype: int64
x   NaN
y   NaN
z   NaN
dtype: float64


### Series index를 속성처럼 활용하기
- index 값이 영문 문자열인 경우에는 index label이 속성인것처럼 마침표(.)를 활용하여 해당 index값에 접근 가능

In [33]:
ser.x

nan

### Series의 특징
- 딕셔너리 자료형과 비슷한 특징을 가짐
- in연산가능
- items()메서드를 사용해 각 요소의 key,value에 접근 가능
- 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 
  만약 순서를 가지도록 하기 위해서는 Series선언시에 index에서 리스트로 순서를 지정해주어야한다.

In [38]:
print("서울" in s)
print("대전" in s)
for k,v in s.items():
    print(k,":",v)

True
False
서울 : 9904312
부산 : 3448737
인천 : 2890451
대구 : 2466052


### indexing + slicing

In [39]:
print(s[0], s[1], s['인천'],end="\n\n")
print(s[[0,3,1]],end="\n\n")
print(s[1:2],end="\n\n") # 끝값 [2]포함하지 않는다.
print(s['부산':'대구'],end="\n\n") # 끝값(대구)도 포함한다.
print(s[(250e4 < s) & (s < 500e4)],end="\n\n")  # 인구가 250만 초과, 500만 미만인 경우

9904312 3448737 2890451

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

도시
부산    3448737
Name: 인구, dtype: int64

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64



### 시리즈 연산

- 다만 values에만 연산이 적용되고 index는 변하지 않는다.
- 시리즈끼리 연산을 하는 경우 인덱스가 같은 데이터에 대해서만 차이를 구한다.


In [58]:
print(s/10000,end ='\n\n')
sd = pd.Series([55546,272830,258416,1490158],index = ['부산','서울','인천','대전'])
ds = s-sd
print(ds,end ='\n\n')
print(ds.notnull(),end ='\n\n') # NaN값에 대한 여부를 확인가능
print(ds[ds.notnull()],end ='\n\n')#notnull()응용
# NaN 값을 갖기 위해선 자료형이 float형이어야 해서 int끼리 연산해도 float형으로 저장된다.

도시
서울    990.4312
부산    344.8737
인천    289.0451
대구    246.6052
Name: 인구, dtype: float64

대구          NaN
대전          NaN
부산    3393191.0
서울    9631482.0
인천    2632035.0
dtype: float64

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

부산    3393191.0
서울    9631482.0
인천    2632035.0
dtype: float64



In [59]:
print(ds)
del ds['대구']
del ds['대전']
ds['부산'] = 0
print(ds)

대구          NaN
대전          NaN
부산    3393191.0
서울    9631482.0
인천    2632035.0
dtype: float64
부산          0.0
서울    9631482.0
인천    2632035.0
dtype: float64
