## Pandas 

In [1]:
import pandas as pd
import numpy as np

## series 시작
- pandas는 series와 dataFrame이라는 구조를 이용함
- series와 dataFrame는 앞서 언급했던 numpy의 1차원 / 2차원 array와 유사
- series에서 받을 수 있는 데이터는 리스트, 튜블, 딕셔너리가 가능
- 딕셔너리는 key:value 중에서 key을 index로 사용하고, 나머지 리스트나 튜플은 index 이름을 붙여주지 않으면 0~n을 통해서 접근

In [2]:
# 1차원 데이터
myList = [10, 20, 30, 40]
t = (10, 20, 30, 40)
d = {'aa' : 10, 'bb' : 20, 'cc' : 30}

sr1 = pd.Series(myList, index=['Lim', 'Kang', 'Lee', 'Shin'], dtype=np.int32, name='kor')

print(sr1)

sr2 = pd.Series(t)
print(sr2)

sr3 = pd.Series(d, dtype=np.float32)
print(sr3)

Lim     10
Kang    20
Lee     30
Shin    40
Name: kor, dtype: int32
0    10
1    20
2    30
3    40
dtype: int64
aa    10.0
bb    20.0
cc    30.0
dtype: float32


## series 속성
series의 여러 속성을 확인함으로써,데이터 분석할 때 중간중간 본인 코딩이 잘 되고 있는지 확인 가능

In [3]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr)
print(sr.dtype) # 데이터타입
print(sr.ndim) # 차원
print(sr.shape) 
print(sr.size) # 전체 데이터 개수
print(sr.name)
print(sr.index)
print(sr.values)

aa    10
bb    20
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
int64
1
(5,)
5
국어점수
Index(['aa', 'bb', 'cc', 'dd', 'ee'], dtype='object')
[10 20 30 40 50]


## series indexing #1
기본적인 방법은 파이썬하고 비슷

In [4]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr[0])
print(sr[-1])
print(sr['cc'])
print(sr[[0,2]])
print(sr[['cc','dd']])
print(sr[1:3])
print(sr['aa':'cc'])

10
50
30
aa    10
cc    30
Name: 국어점수, dtype: int64
cc    30
dd    40
Name: 국어점수, dtype: int64
bb    20
cc    30
Name: 국어점수, dtype: int64
aa    10
bb    20
cc    30
Name: 국어점수, dtype: int64


## series indexing #2
- iloc: integer location의 약어. 그냥 [ ]으로 접근하는 것과 비슷. 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출. 차이점은 다음 예에서
- loc: 칼럼명을 직접 적거나 특정 조건식을 사용으로써 사람한테 좀 더 직관적


In [5]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr.iloc[0])
print(sr[0])
print(sr.iloc[-1])
print(sr.iloc[2:])
print("--------------")
print(sr.loc['aa']) # loc는 키에 해당되는 것 사용, loc[0] -> error
print(sr.loc['dd':])
print(sr.loc['bb':'dd'])


10
10
50
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
--------------
10
dd    40
ee    50
Name: 국어점수, dtype: int64
bb    20
cc    30
dd    40
Name: 국어점수, dtype: int64


## series indexing #3
- loc 또는 iloc을 반드시 사용해야 할 때 -> 인덱스가 숫자인 경우 (중요!)
- 결국 [ ] 말고, 될 수 있으면 loc, iloc을 사용

In [6]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr[[True, False, False, True, True]])
print("---------------")
sr.index = [2, 3, 4, 5, 6]
print(sr)
print("---------------")
# print(sr[0]) # error
print(sr[2]) # 부여된 인덱스
print(sr.iloc[0])
print(sr.iloc[0:2])

aa    10
dd    40
ee    50
Name: 국어점수, dtype: int64
---------------
2    10
3    20
4    30
5    40
6    50
Name: 국어점수, dtype: int64
---------------
10
10
2    10
3    20
Name: 국어점수, dtype: int64


## series 산술관리논리
부등호, == 등 모두 사용가능

In [7]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr + 1)
print(sr * 2)
print(sr[sr > 30])
print(sr[(sr == 30) | (sr == 40)])
print(sr[~((sr >=20) & (sr <= 40))])

aa    11
bb    21
cc    31
dd    41
ee    51
Name: 국어점수, dtype: int64
aa     20
bb     40
cc     60
dd     80
ee    100
Name: 국어점수, dtype: int64
dd    40
ee    50
Name: 국어점수, dtype: int64
cc    30
dd    40
Name: 국어점수, dtype: int64
aa    10
ee    50
Name: 국어점수, dtype: int64


## series isin( ), between( )
- isin( ~ ): ~가 is(즉, 있느냐?)
- between(A, B): A~B사이

In [8]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr[sr.isin([20, 40])])
print("-------------------")
print(sr[sr.isin([60])]) # 없어서 안뜸
print("-------------------")
print(sr[~(sr.isin([20, 40]))])
print(sr[sr.between(20, 40)])
print(sr[sr.index.isin(['aa', 'cc'])])
print(sr[sr.index.isin(['aa', 'gg'])])

bb    20
dd    40
Name: 국어점수, dtype: int64
-------------------
Series([], Name: 국어점수, dtype: int64)
-------------------
aa    10
cc    30
ee    50
Name: 국어점수, dtype: int64
bb    20
cc    30
dd    40
Name: 국어점수, dtype: int64
aa    10
cc    30
Name: 국어점수, dtype: int64
aa    10
Name: 국어점수, dtype: int64


## series 추가, 수정 #1

In [9]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

sr['aa'] =100
sr.loc['aa'] = 200
sr.iloc[0] = 300

sr.iloc[1:3] = [1,2]
sr['bb':'cc'] = [3,4]
sr.loc['bb':'cc'] = [5,6]

print(sr)

aa    300
bb      5
cc      6
dd     40
ee     50
Name: 국어점수, dtype: int64


## series 추가, 수정 #2
- append는 지금은 동작하는데, 추후 없어질 지도 모름
- FutureWarning: The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead. concat는 나중에
- append는 L:9처럼 하면 추가가 안됨. L:12처럼 자기 자신이나 다른 변수로 받아야 함

In [10]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

sr.loc['ff'] = 70 # 있으면 수정 없으면 추가
print(sr)

sr.append(pd.Series([80, 90, 100], index=['gg', 'hh', 'ii']))
print(sr)

sr = sr.append(pd.Series([80, 90, 100], index=['gg', 'hh', 'ii']))
print(sr)


aa    10
bb    20
cc    30
dd    40
ee    50
ff    70
Name: 국어점수, dtype: int64
aa    10
bb    20
cc    30
dd    40
ee    50
ff    70
Name: 국어점수, dtype: int64
aa     10
bb     20
cc     30
dd     40
ee     50
ff     70
gg     80
hh     90
ii    100
dtype: int64


  sr.append(pd.Series([80, 90, 100], index=['gg', 'hh', 'ii']))
  sr = sr.append(pd.Series([80, 90, 100], index=['gg', 'hh', 'ii']))


## series 삭제
- sr.drop(부여된 인덱스)
- sr = sr.drop(['aa','cc']) -> 이렇게 해줘야만 sr이 바뀜
- inplace=True 적용하면 sr로 안받아도 됨 (많이 사용)

In [11]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

sr.drop(['aa', 'cc'])
print(sr)

# sr = sr.drop(['aa', 'cc']) # 이렇게 해줘야만 sr이 바뀜 하지만 inplace 적용하면 sr로 안받아도됨

sr.drop(['aa', 'cc'], inplace = True)
print(sr)

sr.drop(sr[sr>=25].index, inplace = True)
print(sr)

aa    10
bb    20
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
bb    20
dd    40
ee    50
Name: 국어점수, dtype: int64
bb    20
Name: 국어점수, dtype: int64


## series 정렬
- inplace=True 적용하면 sr로 안받아도 됨
- ascending=0하고 ascending=False는 동일한데, 후자를 추천. 파이참에서 후자로 쓰라고 warning

In [12]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

sr.iloc[0] = 100
print(sr)

sr.sort_values(ascending=True, inplace=True)
# sr.sort_values(ascending=False, inplace=True)
print(sr)

sr.sort_index(ascending=0, inplace=True)
print(sr)


aa    100
bb     20
cc     30
dd     40
ee     50
Name: 국어점수, dtype: int64
bb     20
cc     30
dd     40
ee     50
aa    100
Name: 국어점수, dtype: int64
ee     50
dd     40
cc     30
bb     20
aa    100
Name: 국어점수, dtype: int64


## series 문자열 데이터 검색 #1
- 문자 찾을 때는 정규식을 많이 사용함.
- 이번기회에 간단한 정규식은 알아두면 유용함

In [13]:
sr = pd.Series(['홍길동', '이순신', '김철수', '김순이', '이홍김'])
sr.index = ['aa', 'bb', 'cc', 'dd', 'ee']

print(sr.str.contains('김'))
print(sr[sr.str.contains('^김')]) # 정규식: '김'으로 시작
print(sr[sr.str.contains('김$')]) # '김'으로 끝
print(sr[sr.str.contains('[홍이]')]) # []:문자의 집합 중하나 홍 OR 이
print(sr[sr.str.contains('[홍이]순')]) # 홍순 or 이순
print(sr[sr.str.contains('길동|순이')]) # or 

aa    False
bb    False
cc     True
dd     True
ee     True
dtype: bool
cc    김철수
dd    김순이
dtype: object
ee    이홍김
dtype: object
aa    홍길동
bb    이순신
dd    김순이
ee    이홍김
dtype: object
bb    이순신
dtype: object
aa    홍길동
dd    김순이
dtype: object


## series 문자열 데이터 검색 #2
 regex=True는 안써도 되는데, 쓰지 않으면 warning (의미: regex.replace → regex 클래스 안에 replace 메서드)

In [14]:
sr = pd.Series(['홍길동', '이순신', '김철수', '김순이', '이홍김'])
sr.index = ['aa', 'bb', 'cc', 'dd', 'ee']

print(sr.str.replace('김', '황', regex=True))
print(sr.str.replace('^김', '황', regex=True))
print(sr.str.replace('김$', '황', regex=True))
print(sr.str.replace('김[철이]', '황', regex=True))


aa    홍길동
bb    이순신
cc    황철수
dd    황순이
ee    이홍황
dtype: object
aa    홍길동
bb    이순신
cc    황철수
dd    황순이
ee    이홍김
dtype: object
aa    홍길동
bb    이순신
cc    김철수
dd    김순이
ee    이홍황
dtype: object
aa    홍길동
bb    이순신
cc     황수
dd    김순이
ee    이홍김
dtype: object


## series 통계 #1

In [15]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr)
print('-------------')
print(sr.idxmax()) # numpy에서는 argmax()이고 pandas 에서는 idxmax()
print(sr[sr <=45].max()) # 점수가 45 이하인 데이터 중 가장 큰 값 
print('-------------') 
print(sr.head(2)) # 앞에서 n개
print(sr.tail(2)) # 뒤에서 n개

aa    10
bb    20
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
-------------
ee
40
-------------
aa    10
bb    20
Name: 국어점수, dtype: int64
dd    40
ee    50
Name: 국어점수, dtype: int64


## series 통계 #2

In [16]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

sr.loc['cc'] = 40
print(sr)
print('---------------')
print(sr.nlargest(2)) # top 을 구해주는 함수 -> 역정렬하고 2개만 가지고옴
print(sr.nlargest(2, keep='last')) # 마지막만
print(sr.nlargest(2, keep='all')) # 같은게 있으면 모두 
print(sr.nsmallest(2))
print(sr.sum())
print(sr.mean())

aa    10
bb    20
cc    40
dd    40
ee    50
Name: 국어점수, dtype: int64
---------------
ee    50
cc    40
Name: 국어점수, dtype: int64
ee    50
dd    40
Name: 국어점수, dtype: int64
ee    50
cc    40
dd    40
Name: 국어점수, dtype: int64
aa    10
bb    20
Name: 국어점수, dtype: int64
160
32.0


## series 통계 #3

In [17]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성
sr.loc['cc'] = 40
print(sr)
print('------------')
print(sr.std())
print(sr.median())
print(sr.quantile([0.25,0.5,0.75]))
print('-------------')
print(sr.unique())
print(sr.value_counts())

aa    10
bb    20
cc    40
dd    40
ee    50
Name: 국어점수, dtype: int64
------------
16.431676725154983
40.0
0.25    20.0
0.50    40.0
0.75    40.0
Name: 국어점수, dtype: float64
-------------
[10 20 40 50]
40    2
10    1
20    1
50    1
Name: 국어점수, dtype: int64


## series 통계 #4
- lambda 입력변수:리턴값
- 원래 방식으로 하려면 def를 이용해서 user-define함수로 만들고 return해야 함
- lambda는, 짧은 기능일 경우(예, 단순 사칙연산, 문자열 추출 등)에 길고 복잡하지 않다는 장점
- 물론 복잡하면 기존 def가 더 좋음

In [18]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성
sr.loc['cc'] = 40
print(sr)
print('------------')
print(sr.apply(lambda v: v+1 if v>30 else v+2))
print(sr.apply(lambda v: '합격' if v >=40 else '불합격'))

aa    10
bb    20
cc    40
dd    40
ee    50
Name: 국어점수, dtype: int64
------------
aa    12
bb    22
cc    41
dd    41
ee    51
Name: 국어점수, dtype: int64
aa    불합격
bb    불합격
cc     합격
dd     합격
ee     합격
Name: 국어점수, dtype: object


## series 통계 #5
- cut: 범위 나누기. 예) 9.96 < aa <= 18.0, 18.0 < bb <= 26.0, ...
- ( : 불포함 ] : 포함
- 0.5%정도 더 연장시켜서 구간을 나눔

In [19]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성

print(sr)
print('------------')
print(pd.cut(sr,5))
print(pd.cut(sr,5,right=False))
print(pd.cut(sr,5).value_counts())

aa    10
bb    20
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
------------
aa    (9.96, 18.0]
bb    (18.0, 26.0]
cc    (26.0, 34.0]
dd    (34.0, 42.0]
ee    (42.0, 50.0]
Name: 국어점수, dtype: category
Categories (5, interval[float64, right]): [(9.96, 18.0] < (18.0, 26.0] < (26.0, 34.0] < (34.0, 42.0] < (42.0, 50.0]]
aa     [10.0, 18.0)
bb     [18.0, 26.0)
cc     [26.0, 34.0)
dd     [34.0, 42.0)
ee    [42.0, 50.04)
Name: 국어점수, dtype: category
Categories (5, interval[float64, left]): [[10.0, 18.0) < [18.0, 26.0) < [26.0, 34.0) < [34.0, 42.0) < [42.0, 50.04)]
(9.96, 18.0]    1
(18.0, 26.0]    1
(26.0, 34.0]    1
(34.0, 42.0]    1
(42.0, 50.0]    1
Name: 국어점수, dtype: int64


In [20]:
data = {'aa' : 10, 'bb' : 20, 'cc' : 30, 'dd' : 40, 'ee' : 50}
sr = pd.Series(data, name='국어점수') # 시리즈 생성
print(sr)
print('-----------')
print(pd.cut(sr, [0,20,40,60]))
print(pd.cut(sr, [0,20,40,60]).value_counts)
print(pd.cut(sr, [0,20,40,60], labels=['C','B','A']))

for i in range(2,4):
    print(i)
    
print(3/3)

aa    10
bb    20
cc    30
dd    40
ee    50
Name: 국어점수, dtype: int64
-----------
aa     (0, 20]
bb     (0, 20]
cc    (20, 40]
dd    (20, 40]
ee    (40, 60]
Name: 국어점수, dtype: category
Categories (3, interval[int64, right]): [(0, 20] < (20, 40] < (40, 60]]
<bound method IndexOpsMixin.value_counts of aa     (0, 20]
bb     (0, 20]
cc    (20, 40]
dd    (20, 40]
ee    (40, 60]
Name: 국어점수, dtype: category
Categories (3, interval[int64, right]): [(0, 20] < (20, 40] < (40, 60]]>
aa    C
bb    C
cc    B
dd    B
ee    A
Name: 국어점수, dtype: category
Categories (3, object): ['C' < 'B' < 'A']
2
3
1.0


## 연습문제 #1
다음 salary의 세금 3.3%를 제한 실수령액

In [21]:
salary = pd.Series([1000,2000,3000,4000])
print(salary*(1-0.033))

0     967.0
1    1934.0
2    2901.0
3    3868.0
dtype: float64


## 연습문제 #1
아래 12개를 구하는 프로그램 작성

In [22]:
sr = pd.Series([90, 90, 55, 60, 76 ,80, 76, 88, 30, 25], name="국어점수")
sr.index = ['홍길동' ,'이순신', '임꺽정', '정난정', '이이', '이황', '정도전', '임석현1' ,'임석현2', '임석현3']

print(sr)
print("-------------")

# 가장 큰 점수
print(sr.max())

# 큰 점수 이름
# print(sr.idxmax())
print(sr.nlargest(2,keep='all').index)

# 점수 80점 이상
print(sr[sr>=80])

# 점수 50 이상 80 이하 
print(sr[(sr>=50) & (sr<=80)])

# 이름이 임으로 시작하는 데이터
print(sr.loc[sr.index.str.contains('^임')])

# 점수의 평균 값
print(sr.mean())

# 점수의 총합 
print(sr.sum())

# 점수의 표준편차
print(sr.std())

# 40 이하 데이터 삭제
print(sr.drop(sr[sr<=40].index))

# 50 이상 가산점 10% 50 미만 20%
print(sr.apply(lambda v: v+(v * 0.1) if v >=50 else v+(v * 0.2)))

# 점수 top 5
print(sr.nlargest(5))

# 점수 범위 설정 후 ,개수
print(pd.cut(sr, [0,50,70,100]).value_counts())

홍길동     90
이순신     90
임꺽정     55
정난정     60
이이      76
이황      80
정도전     76
임석현1    88
임석현2    30
임석현3    25
Name: 국어점수, dtype: int64
-------------
90
Index(['홍길동', '이순신'], dtype='object')
홍길동     90
이순신     90
이황      80
임석현1    88
Name: 국어점수, dtype: int64
임꺽정    55
정난정    60
이이     76
이황     80
정도전    76
Name: 국어점수, dtype: int64
임꺽정     55
임석현1    88
임석현2    30
임석현3    25
Name: 국어점수, dtype: int64
67.0
670
23.935097428021656
홍길동     90
이순신     90
임꺽정     55
정난정     60
이이      76
이황      80
정도전     76
임석현1    88
Name: 국어점수, dtype: int64
홍길동     99.0
이순신     99.0
임꺽정     60.5
정난정     66.0
이이      83.6
이황      88.0
정도전     83.6
임석현1    96.8
임석현2    36.0
임석현3    30.0
Name: 국어점수, dtype: float64
홍길동     90
이순신     90
임석현1    88
이황      80
이이      76
Name: 국어점수, dtype: int64
(70, 100]    6
(0, 50]      2
(50, 70]     2
Name: 국어점수, dtype: int64
