## 1. Series

-   series data의 조건
    -   1. 1차원이다
    -   2. numpy array
    -   3. data type이 동일해야(numpy의 특징)

In [7]:
import numpy as np
import pandas as pd

- Series 생성

In [129]:
# index값 지정
s = pd.Series([9904312, 3348737, 2890451,2466052],
              index=["서울","부산", "인천","대구"])
s

서울    9904312
부산    3348737
인천    2890451
대구    2466052
dtype: int64

In [6]:
type(s)

pandas.core.series.Series

In [130]:
# index값 미지정 : 0, 1, 2, ..
pd.Series(np.arange(10, 15))

0    10
1    11
2    12
3    13
4    14
dtype: int32

In [12]:
# Series의 인덱스값 출력
s.index, type(s.index)  # type은 index

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 pandas.core.indexes.base.Index)

In [131]:
# Series의 value값 출력
s.values, type(s.values)    # type은 numpy.ndarray

(array([9904312, 3348737, 2890451, 2466052], dtype=int64), numpy.ndarray)

In [13]:
s.name = '인구'
s.index.name = '도시'
s

도시
서울    9904312
부산    3348737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- 연산(Operation)

In [15]:
s / 10000000    # data가 numpy라 연산 가능

도시
서울    0.990431
부산    0.334874
인천    0.289045
대구    0.246605
Name: 인구, dtype: float64

- 인덱싱 indexing
    - 3가지 형태로 가능

In [26]:
s['부산'], s[1], s.부산 # 결과가  scalar 값으로 나옴

(3348737, 3348737, 2466052, 2466052, 2466052)

In [28]:
s["대구"], s[3], s[-1], s.대구

(2466052, 2466052, 2466052, 2466052)

- slicing : [[a, b]]

In [18]:
s[[0, 1]]   # 결과가 series 값으로 나옴

도시
서울    9904312
부산    3348737
Name: 인구, dtype: int64

In [20]:
s[['서울', '부산']]

도시
서울    9904312
부산    3348737
Name: 인구, dtype: int64

- 조건식이 맞아도 Series 출력 가능
    - 연산: [()]

In [21]:
s[(s > 2500000) & (s < 5000000)]    # 250만 초과 500만 미만

도시
부산    3348737
인천    2890451
Name: 인구, dtype: int64

In [22]:
s[s> 5000000]

도시
서울    9904312
Name: 인구, dtype: int64

- 슬라이싱

In [23]:
# 숫자 인덱스로 하는 슬라이싱은 넘파이와 동일
s[:2]

도시
서울    9904312
부산    3348737
Name: 인구, dtype: int64

In [24]:
# 문자열 인덱스로 하는 경우에는 :뒤 인덱스를 포함
s['서울':'인천']

도시
서울    9904312
부산    3348737
인천    2890451
Name: 인구, dtype: int64

- Series와 Dictionary

In [29]:
'서울' in s

True

In [32]:
for k, v in s.items():
    print(f'{k}: {v}')

서울: 9904312
부산: 3348737
인천: 2890451
대구: 2466052


In [33]:
# 딕셔너리 -> 시리즈로 변환
d = {"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158}

s2 = pd.Series(d)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [34]:
# 순서를 보장하려면 index값 별도 성절해야 함
s2 = pd.Series(d, index=['서울','부산','인천','대전'])
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

- 인덱스 기반 연산

In [35]:
ds = s - s2
ds
# 결과값이 실수형으로 바뀜

대구         NaN
대전         NaN
부산    -44454.0
서울    272830.0
인천    258416.0
dtype: float64

In [36]:
# x자주x
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [37]:
# x자주x
ds[ds.notnull()]

부산    -44454.0
서울    272830.0
인천    258416.0
dtype: float64

In [39]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산   -1.310094
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신(update), 삭제, 추가
-   *   삭제, 추가는 ['문자열'] 형태로만 가능

In [46]:
rs['부산'] = 1.63
rs[1] = 2.83
rs['인천'] = 9.82
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [49]:
del rs['인천']  # rs.인천, rs[2] 형태는 불가
rs

부산    1.63
서울    2.83
dtype: float64

In [50]:
rs['광주'] = 1.51   # rs.광주, rs[n] 형태는 불가
rs

부산    1.63
서울    2.83
광주    1.51
dtype: float64

````{admonition} 연습 문제 4.1.1

(1) 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.


(2) 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

````

In [52]:
# 1)    pd.Series(np.arange(10, 15)) 형태
s1 = pd.Series(np.arange(11, 15), index='a b c d e')
s2 = pd.Series(np.arange(11, 15), index='a b c d e')
s1 + s2

AttributeError: module 'pandas' has no attribute 'series'

- 중요한 method

In [53]:
dice = pd.Series(np.random.randint(1, 7, 10))
dice

0    6
1    4
2    2
3    1
4    1
5    4
6    1
7    4
8    6
9    2
dtype: int32

In [54]:
# element의 갯수
dice.count()

10

In [55]:
# unique :고유한 값
dice.unique()

array([6, 4, 2, 1])

In [57]:
# unique 갯수
dice.nunique()

4

In [59]:
# unique 값 각각의 갯수
dice.value_counts()

4    3
1    3
6    2
2    2
Name: count, dtype: int64

In [60]:
np.unique(dice.values, return_counts=True)

(array([1, 2, 4, 6]), array([3, 2, 3, 2], dtype=int64))

In [61]:
# 최소/ 최대/ 합계/ 평균
dice.min(), dice.max(), dice.sum(), dice.mean()

(1, 6, 31, 3.1)

In [62]:
# 요약 기술통계
dice.describe()

count    10.000000
mean      3.100000
std       1.969207
min       1.000000
25%       1.250000
50%       3.000000
75%       4.000000
max       6.000000
dtype: float64

In [63]:
# sort
dice.sort_values()

3    1
4    1
6    1
2    2
9    2
1    4
5    4
7    4
0    6
8    6
dtype: int32

In [64]:
# 데이터 기준 오름차순
s.sort_values()

도시
대구    2466052
인천    2890451
부산    3348737
서울    9904312
Name: 인구, dtype: int64

In [65]:
# 데이터 기준 내림차순
s.sort_values(ascending=False)

도시
서울    9904312
부산    3348737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [66]:
# 인덱스 기준 오름차순
s.sort_index()

도시
대구    2466052
부산    3348737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

In [67]:
# 인덱스 기준 내림차순
s.sort_index(ascending=False)

도시
인천    2890451
서울    9904312
부산    3348737
대구    2466052
Name: 인구, dtype: int64

In [68]:
s

도시
서울    9904312
부산    3348737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [70]:
# inplace=True로 설정 -> 자기파괴적 메소드가 됨
s.sort_index(inplace=True)
s

도시
대구    2466052
부산    3348737
서울    9904312
인천    2890451
Name: 인구, dtype: int64

- ### 결측치(Na, NaN, Null) 처리
-   *   결측치 확인하기
-   *   결측치 처리하기


In [127]:
ds

대구         0
대전         0
부산    -44454
서울    272830
인천    258416
dtype: int32

In [128]:
ds.isna() , ds.isnull()    # notnull과 반대.

(대구    False
 대전    False
 부산    False
 서울    False
 인천    False
 dtype: bool,
 대구    False
 대전    False
 부산    False
 서울    False
 인천    False
 dtype: bool)

In [73]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [124]:
# isna sum으로 결축치 확인. 즉,  if sum != 0: 결축치가 있다.
ds.isna().sum()

0

In [75]:
import seaborn as sns   # 단축어 sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [76]:
survived = titanic['survived']
age = titanic['age']

In [84]:
survived.isna().sum()   # 결측치 0
age.isna().sum()    # 결측치 177
age.notnull().sum()

714

In [82]:
survived.count()        # 총 데이터 - 결측치

891

In [90]:
# 결측치 제거
ds.dropna() #제거안됨
ds.dropna(inplace=True) # 제거됨/ 파괴적
ds

부산    -44454.0
서울    272830.0
인천    258416.0
dtype: float64

In [106]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산    -44454.0
서울    272830.0
인천    258416.0
dtype: float64

In [119]:
# 결측치를 중앙값으로 대체
ds.fillna(ds.median())                  # 비파괴적
ds.fillna(ds.median(), inplace=True)    # 파괴적
# ds

In [117]:
# 결측치를 평균값으로 대체
ds.fillna(ds.mean())                 # 비파괴적
ds.fillna(ds.mean(), inplace=True)   # 파괴적
ds  

대구         0.0
대전         0.0
부산    -44454.0
서울    272830.0
인천    258416.0
dtype: float64

In [121]:
# 결측치를 0으로, data type을 int로 변경
ds = s -s2
ds = ds.fillna(0).astype(int)
ds

대구         0
대전         0
부산    -44454
서울    272830
인천    258416
dtype: int32