In [7]:
import pandas as pd
import numpy as np

In [16]:
sr = pd.Series([10,200,30,40],index=['aa','cc','dd','bb'])
sr

aa     10
cc    200
dd     30
bb     40
dtype: int64

### 데이터 추가

In [3]:
# 'ee' 인덱스가 없으면 추가되고 있으면 수정된다.
sr['ee'] = 50
sr

aa    10
bb    20
cc    30
dd    40
ee    50
dtype: int64

In [8]:
# append를 하게되면 새로운 시리즈 객체를 반환한다. 그래서 시리즈 객체를 새로 받아 줘야 한다.
# 인덱스를 부여하지 않으면 zero based를 기준으로 한다.
sr = sr.append(pd.Series([1,2,3],index = ['ff','gg','hh']))
sr

aa    10
bb    20
cc    30
dd    40
ff     1
gg     2
hh     3
dtype: int64

### 데이터 삭제

In [12]:
# 기존 시리즈의 객체에 overwirte하는 개념으로 데이터를 삭제한다.
sr = sr[sr!=20] # 20이 삭제됨
sr

aa    10
cc    30
dd    40
dtype: int64

In [20]:
# 멤버함수를 통해 삭제하는 방법 drop 여기도 새로운 sr 객체로 반환하여 받자.
# sr = sr.drop('aa') # => 인덱스를 통한 삭제
# 시리즈 자체의 내부 value를 직접 삭제해버리려면 inplace 씀 => 새롭게 안받아도 됨
sr.drop('aa',inplace=True)
sr

bb    20
cc    30
dd    40
dtype: int64

In [10]:
# 여러개 인덱스를 삭제 할 경우 리스트로 인자를 준다.
sr.drop(['aa','cc'],inplace=True)
sr

bb    20
dd    40
dtype: int64

In [15]:
# del을 이용하여 삭제하는 경우
del(sr['aa']) # del(sr['aa':'cc'])
sr

bb    20
cc    30
dd    40
dtype: int64

### 데이터정렬

In [22]:
# sort는 인덱스 기준으로 할 수 있다.(sort_index(ascending=True)) => 오름차순 정렬
#                                   (sort_index(ascending=False)) => 내림차순 정렬
# sr.sort_index(ascending=False)

# sort는 값 기준으로 할 수 있다.(sort_values(ascending=True)) => 오름차순 정렬
#                               (sort_values(ascending=False)) => 내림차순 정렬
sr.sort_values(ascending=False)

cc    200
bb     40
dd     30
aa     10
dtype: int64

### 데이터 검색
* 숫자일 경우는 관계 연산자를 이용한다.(위에 했음)
* boolean 값은 항상 인덱스로 들어갈 수 있다.
* 문자일 경우는 contains(패턴매칭)를 이용하여 검색한다.

In [34]:
sr1 = pd.Series(['applei','kixi','banana','apply'])
sr1.index = ['ab','cd','ef','gh']
sr1

ab    applei
cd      kixi
ef    banana
gh     apply
dtype: object

In [27]:
# str.contains('keyword') => 문자열일 경우 이렇게 검색을 한다.
sr1[sr1.str.contains('app')]

ab    apple
gh    apply
dtype: object

In [35]:
# 정규식패턴을 이용하여 검색하겠다. => # str.contains('keyword',regex = True) 
# 정규식 패턴 중 [abc]d 라고 하면 ad bd cd 가 들어간 문자열을 다 찾겠다.
sr1[sr1.str.contains('[vwx]i',regex=True)]
# 정규식 패턴 중 [a-z]i 라고 하면 ai bi ci di....zi까지 다 찾아주겠다.
sr1[sr1.str.contains('[a-z]i',regex=True)]

ab    applei
cd      kixi
dtype: object

In [50]:
sr2 = pd.Series(['김철수','이순신','이이','이황','김이','박김이'])
sr2

0    김철수
1    이순신
2     이이
3     이황
4     김이
5    박김이
dtype: object

In [51]:
# .contains('^김',regex=True)] => 김으로 시작하는 것만 찾아라 (^ => 시작을 의미함)
sr2[sr2.str.contains('^김',regex=True)] # 갂이

0    김철수
4     김이
dtype: object

In [45]:
# str.contains('[김이]이',regex=True)] => 김이 혹은 이이 데이터 추출
# sr2[sr2.str.contains('이')]
# sr2[sr2.str.contains('[김이]이',regex=True)]

# 정규식 패턴 중 str.contains('[가-힣]이',regex=True)] => 한글 아무거나 앞자리 + 이
sr2[sr2.str.contains('[가-힣]이',regex=True)] # 갂이

2    이이
4    김이
dtype: object

In [46]:
sr3 = pd.Series(['11-22','111-222','22-33','333-444'])
sr3

0      11-22
1    111-222
2      22-33
3    333-444
dtype: object

In [52]:
# .contains('\d',regex=True) => 숫자 범위는 [0-9]
sr3[sr3.str.contains('\d{2}-\d{2}',regex=True)] #[0-9]

# ^\d{2}-\d{2} 무조건 두자리숫자-뒤에 숫자 이런 형태를 찾아라(반복)
sr3[sr3.str.contains('^\d{2}-\d{2}',regex=True)] # 숫자 두개로 시작하고 다시 숫자 2개

0    11-22
2    22-33
dtype: object

In [54]:
sr1

ab    applei
cd      kixi
ef    banana
gh     apply
dtype: object

In [56]:
# sr1의 인덱스에 a가 포함된 모든것을 찾아라
sr1[sr1.index.str.contains('a')]

ab    applei
dtype: object