# 판다스
> 판다스 데이터 분석 \
> 판다스의 행렬은 순서가 열 --> 행이다 (값 + 행)\
> 데이터 프레임상태(시리즈의 모임)로 데이터를 읽는다(빠르다) \
> 한번에 큰 파일을 읽기 좋다

# Pandas - Series
> 시리즈 = 값(value) + 행(index)


In [30]:
import numpy as np
import pandas as pd
# 넘파이가 없어도 판다스는 돌아간다

## 시리즈 생성
> 인자값으로 배열, 튜플, 넘파이배열 등 을 넣을수 있다 \
> 값만 넣어도 된다

In [31]:
s= pd.Series([9904312, 3448737, 2890451, 2466052],
             index=['서울', '부산', '인천', '대구'], dtype = np.int32)
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int32

In [32]:
# 시리즈의 인덱스
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [33]:
#시리즈의 이름
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int32

## 시리즈의 연산

In [34]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

> 데이터 타입이 바뀌었다.(시리즈의 데이터값은 numpy이기 떄문)

## 시리즈 인덱싱

In [35]:
s[1], s['부산'], s.부산

(3448737, 3448737, 3448737)

In [36]:
s[[0, 3, 1]]
# fancy indexing
## 리스트로 인덱싱 가능하다.(2차원 값으로 나온다)

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int32

In [37]:
# slicing
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int32

In [38]:
# 문자 인덱스로 슬라이싱시 마지막 인덱스도 포함됨
s['부산' : '대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int32

In [39]:
#필터링
s[(250e4 < s) & (s < 500e4)] # a < x < b 가 되지않고 and 써야한다. 250만 < s < 500만

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int32

In [40]:
s[(s < 250e4) | (s > 4e6)] ## logical or | , logical not은 안된다. and, or만

도시
서울    9904312
대구    2466052
Name: 인구, dtype: int32

## 시리즈와 딕셔너리

In [41]:
# 딕셔너리의 연산 in 이 가능하다
'서울' in s

True

In [42]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
# 딕셔너리 객체에서 시리즈 만들수 있다
'서울' in s2 , s2
#딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다.

(True,
 서울    9631482
 부산    3393191
 인천    2632035
 대전    1490158
 dtype: int64)

## 인덱스 기반 연산

In [43]:
ds = s - s2
ds
#키값 이 같으면 데이터 값을 빼고 없다면 NaN

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [44]:
s.values - s2.values # 키 값에 맞게 빼는게 아닌 값끼리만

array([272830,  55546, 258416, 975894], dtype=int64)

In [45]:
# 인구증가율
rs = (s - s2) / s2 * 100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [46]:
# NaN 값 제외하는법
rs = rs[rs.notnull()]
print(rs)
print(rs.notnull()) ## rs.notnull() 은 bool 형태로 반환

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64
부산    True
서울    True
인천    True
dtype: bool


## 데이터의 갱신, 추가, 삭제

In [47]:
# 갱신 upadte round 써서 소수점자리 조절가능
rs['부산'] = 1.63
print(rs)
print(round(rs,1))

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64
부산    1.6
서울    2.8
인천    9.8
dtype: float64


In [48]:
# 추가 add
rs['용인'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
용인    1.410000
dtype: float64

In [49]:
# 삭제 del (딕셔너리와 같다)
del rs['서울']
rs

부산    1.630000
인천    9.818107
용인    1.410000
dtype: float64