### 1. Pandas 시작하기

분석을 하기 전에는 아래와 같은 과정을 거친다

> 데이터 수집 -> 데이터 전처리 -> 데이터 (통계)분석 > 데이터 시각화

데이터는 보통 **txt,csv,excel,xml,json,html** 등의 형태가 있다. 이러한 데이터를 가지고 전처리와 분석을 하는 역할을 해주는게 Pandas라고 생각하면 된다.

---

#### 1.1 Pandas 데이터 타입

Pandas에서는 크게 2가지 데이터 타입이 존재한다.
- **1차원 데이터 : Series**
- 2차원 데이터 : DataFrame

In [3]:
import numpy as np # pandas가 numpy를 이용하므로 항상 같이 import해주자
import pandas as pd

In [4]:
myList = [10,20,30,40] # list - 1차원
d = { 'aa':10, 'bb':20, 'cc':30 } # dict - 1차원
t = (10,20,30,40) # tuple - 1차원

In [5]:
myList1 = [(10,20),(30,40),(50,60)] # 2차원
myList2 = [[10,20],[30,40],[50,60]] # 2차원
d1 = [{'aa':10,'bb':20},{'cc':30,'dd':40}] #2차원
d2 = {'kor':[10,20,30],'eng':[40,50,60]} # 2차원

---

##### 1.1.1 1차원 데이터

→ **series**를 이용한다.

In [6]:
sr = pd.Series([10,20,30,40],dtype=np.int32) # dtype의 기본은 int64
sr # 앞에는 인덱스 뒤에는 값이 출력된다

0    10
1    20
2    30
3    40
dtype: int32

In [7]:
sr = pd.Series([10,20,30,40],index = ['aa','bb','cc','dd']) #index의 기본은 0,1,2...
sr

aa    10
bb    20
cc    30
dd    40
dtype: int64

In [8]:
sr = pd.Series({'aa':10,'bb':20,'cc':30})
sr

aa    10
bb    20
cc    30
dtype: int64

Series 객체의 속성에 대해서 알아보자!  
그 중에서 속성, 인덱스 슬라이싱, 메소드를 자세하게 알아보자

In [9]:
sr = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])
sr

aa    10
bb    20
cc    30
dd    40
dtype: int64

In [10]:
sr.ndim # 차원

1

In [11]:
sr.shape # 4행...리턴은 행렬인 tuple이 나온다

(4,)

In [12]:
sr.size # 전체 데이터의 갯수가 나온다

4

In [13]:
sr.index # series의 index만 list로 추출

Index(['aa', 'bb', 'cc', 'dd'], dtype='object')

In [14]:
sr.values # 값만 나오게 하자

array([10, 20, 30, 40])

---

index slicing에 대해서 알아보자!!  

In [15]:
print(sr[0])
print(sr[-1]) # python의 기본 자료형인 list와 같이

10
40


In [16]:
print(sr['aa'])
print(sr['cc'])

10
30


series에서는 slicing의 결과값이 series 객체로 리턴된다.

In [17]:
print(sr[1:4]) # a는 출력하지 않는다

bb    20
cc    30
dd    40
dtype: int64


In [18]:
sr['aa':'cc'] # 부여된 index에서는 'cc'가 포함된다

aa    10
bb    20
cc    30
dtype: int64

In [19]:
print(sr.iloc[0]) # == sr[0] ... 0번째 위치 
# sr.iloc['aa'] => Error
print(sr.loc['aa']) # 반드시 부여된 index를 써야한다

10
10


iloc : index에서 반드시 Zero Base index를 주어야한다. 즉, 아무것도 부여 안되면 default로 부여되는 index  
loc : 부여된 index를 써야한다  

그럼 왜 따로 iloc,loc을 쓸까?

In [20]:
sr = pd.Series([10,20,30,40],index = [0,1,2,3])
# print(sr[-1]) ERROR!! -> 부여된 index에서 -1가 없기 때문에 Error가 생긴다
sr.iloc[-1] # zerobase로 찾으라고 명시하면 찾을 수 있다

40

위와 같은 경우 때문에 iloc과 loc을 구분해서 사용한다

---

Series 객체를 사용할때 Method에 대해서 알아보자

In [21]:
sr = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])

In [22]:
sr.aa # index가 string인 경우 이렇게 속성처럼 사용할 수 있다. 하지만 조심해야한다.
# 그래서 확실하게 하고 싶으면 sr['aa']로 하자! 

10

In [23]:
sr+2 # list에서는 안되는 문법
# Series에서는 개별 데이터에 대해서 더해준다

aa    12
bb    22
cc    32
dd    42
dtype: int64

In [24]:
sr*2

aa    20
bb    40
cc    60
dd    80
dtype: int64

In [25]:
sr1 = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])
sr2 = pd.Series([1,2,3,4], index=['aa','bb','cc','dd'])

In [26]:
sr1*sr2 # 각 행열의 개별 데이터끼리 곱한 값이 나온다

aa     10
bb     40
cc     90
dd    160
dtype: int64

여기서 잠깐 문제!
> Q. 각각 연봉 데이터에 대해서 세금 **3.3퍼센트를 제외한 실수령액**을 구하시오

In [27]:
salary = pd.Series([1000,2000,3000,4000])
salary*0.967

0     967.0
1    1934.0
2    2901.0
3    3868.0
dtype: float64

---

list에는 없고 Series에서만 있는 **Boolean indexing** 방법에 대해서 알아보자

In [28]:
sr[[False,False,True,True]] # True인 것에 대해서만 출력되는 것을 알 수 있다

cc    30
dd    40
dtype: int64

---

Series에서는 **관계 연산자**도 쓸 수 있다.  
그럼 만족하는 데이터에 대해서 True,False를 출력한다.

In [29]:
sr > 20

aa    False
bb    False
cc     True
dd     True
dtype: bool

In [30]:
sr[sr > 20] # 결국 이건 sr [ [False,False,True,True] ] 와 동일한 표현이다

cc    30
dd    40
dtype: int64

Pandas에서 **논리 연산자**를 and,or,not를 쓰지 않는다! 주의하자!  
> and → **`&`**  
> or → **`|`**  
> not → **`~`**

In [31]:
sr[ sr == 20 ]

bb    20
dtype: int64

In [32]:
# and 를 쓸때
sr[ (sr>10) & (sr<40) ] # (괄호)를 잊지말자..연산자 우선순위때문에

bb    20
cc    30
dtype: int64

In [33]:
# or 를 쓸때
sr[ (sr == 20) | (sr == 40) ] # (괄호)를 잊지말자..연산자 우선순위때문에

bb    20
dd    40
dtype: int64

In [34]:
# not 을 쓸때
sr[ ~(sr==20)]

aa    10
cc    30
dd    40
dtype: int64

---

**멤버함수**에 대해서 알아보자

> isin함수

In [35]:
sr[sr.isin([10,20])] # sr[(sr==10)&(sr==20)] 과 동일하다

aa    10
bb    20
dtype: int64

In [36]:
sr.index.isin(['aa','bb','cc'])

array([ True,  True,  True, False])

---

데이터의 **추가 / 수정 / 삭제 / 검색 / 정렬**에 대해서 알아보자

In [37]:
sr = pd.Series([10,20,30,40],index = ['aa','bb','cc','dd']) #index의 기본은 0,1,2...

In [38]:
# 데이터의 수정
sr[0] = 100 # sr['aa']=100, sr.iloc[0], sr.loc['aa']=100 모두 같은 표현!!
sr

aa    100
bb     20
cc     30
dd     40
dtype: int64

In [39]:
sr[1:3] = 1
sr

aa    100
bb      1
cc      1
dd     40
dtype: int64

In [40]:
sr

aa    100
bb      1
cc      1
dd     40
dtype: int64

In [41]:
sr[1] = sr[1]+100
sr

aa    100
bb    101
cc      1
dd     40
dtype: int64

In [42]:
sr[1:3] = sr[1:3]+1
sr # 2,3번째줄 숫자 증가

aa    100
bb    102
cc      2
dd     40
dtype: int64

In [43]:
sr[sr>20] += 1
sr

aa    101
bb    103
cc      2
dd     41
dtype: int64

In [44]:
# 데이터의 추가
sr['ee'] = 50 # 단순히 이렇게 할때, index가 있으면 수정되고 없으면 데이터가 추가된다
sr

aa    101
bb    103
cc      2
dd     41
ee     50
dtype: int64

In [45]:
sr = sr.append(pd.Series({'ff':60})) # return 을 받아줘야한다
sr = sr.append(pd.Series([1,2,3],index=['fwe','wef','sdf']))
sr

aa     101
bb     103
cc       2
dd      41
ee      50
ff      60
fwe      1
wef      2
sdf      3
dtype: int64

In [46]:
# 데이터의 삭제
sr = sr[ sr!=20 ] # overwrite하는거임 사실
sr

aa     101
bb     103
cc       2
dd      41
ee      50
ff      60
fwe      1
wef      2
sdf      3
dtype: int64

In [47]:
sr = sr.drop( ['aa'] ) # 멤버함수에 의한 삭제 -> index를 이용한 삭제임 마찬가지로 삭제한 객체를 리턴하므로 받아야한다
sr

bb     103
cc       2
dd      41
ee      50
ff      60
fwe      1
wef      2
sdf      3
dtype: int64

In [49]:
sr = pd.Series([10,20,30,40],index = ['aa','bb','cc','dd'])
sr.drop('aa', inplace=True) # inplace 옵션 쓰면 Series 자체가 삭제 됨
sr

bb    20
cc    30
dd    40
dtype: int64

In [50]:
sr.drop(['bb','cc'], inplace=True) # inplace 옵션 쓰면 Series 자체가 삭제 됨
sr

dd    40
dtype: int64

In [52]:
sr = pd.Series([10,20,30,40],index = ['aa','bb','cc','dd'])
del (sr['aa'])
sr

bb    20
cc    30
dd    40
dtype: int64

In [55]:
# 데이터의 정렬
sr = pd.Series([100,2,320,40],index = ['dd','cc','bb','aa'])
sr

dd    100
cc      2
bb    320
aa     40
dtype: int64

In [57]:
# 인덱스 순서로 정렬해라, ascending의 값에 따라서 오름차순(True), 내림차순(False) 달라짐
sr.sort_index(ascending=False)

dd    100
cc      2
bb    320
aa     40
dtype: int64

In [59]:
# 값의 크기 순으로 정렬
sr.sort_values(ascending=True)

cc      2
aa     40
dd    100
bb    320
dtype: int64

In [81]:
# 데이터의 검색
sr1 = pd.Series(['apple','better','amazon','kiwi','samsung','apply','lga'],
               index = ['ab','cd','ef','gh','ij','kl','mn'])
sr1

ab      apple
cd     better
ef     amazon
gh       kiwi
ij    samsung
kl      apply
mn        lga
dtype: object

In [82]:
sr1[sr1.str.contains('apple')]

ab    apple
dtype: object

In [83]:
sr1[sr1.str.contains('app')] # app이 들어간 부분 검색도 가능하다

ab    apple
kl    apply
dtype: object

In [84]:
sr1[sr1.str.contains('[vwx]i',regex=True)] # 정규식 패턴을 사용하겠다고 표시

gh    kiwi
dtype: object

**[vwx]i** : vi, wi, xi를 찾아주겠다는 정규 표현식
그래서 결과가 **kiwi**가 나온거임

In [85]:
sr1[sr1.str.contains('[a-z]a',regex=True)]

ef     amazon
ij    samsung
mn        lga
dtype: object

lga 가 나오는 이유는 **~a** 라는 패턴이기 때문임

In [109]:
sr2 = pd.Series(['김철수','이순신','이이',
                 '홍길동','파이썬','이황',
                 '알고리즘','삼성','청년취업',
                 '아카데미','김이','고종','쀍이',
                 '박김이'])
sr2

0      김철수
1      이순신
2       이이
3      홍길동
4      파이썬
5       이황
6     알고리즘
7       삼성
8     청년취업
9     아카데미
10      김이
11      고종
12      쀍이
13     박김이
dtype: object

In [90]:
sr2[sr2.str.contains('이')]

1     이순신
2      이이
4     파이썬
5      이황
10     김이
dtype: object

In [95]:
sr2[sr2.str.contains('[김이]이', regex=True)]

2     이이
10    김이
dtype: object

In [99]:
sr2[sr2.str.contains('[가-힣]이', regex=True)]

2      이이
4     파이썬
10     김이
12     쀍이
dtype: object

In [100]:
sr3 = pd.Series(['11-22','22-33','333-444'])
sr3

0      11-22
1      22-33
2    333-444
dtype: object

In [107]:
i = sr3.str.contains('\d',regex=True) # %d == 0-9 랑 같은 표현임
sr3[i]

0      11-22
1      22-33
2    333-444
dtype: object

In [108]:
i = sr3.str.contains('^\d{2}-\d{2}',regex=True) # ^ : 시작하는거
sr3[i]

0    11-22
1    22-33
dtype: object

In [112]:
i = sr2.str.contains('^김') # 김으로 시작하는거 찾아봐라
sr2[i]

0     김철수
10     김이
dtype: object

In [117]:
sr = pd.Series([100,2,320,40],index = ['dd','cc','bb','aa'])
sr

dd    100
cc      2
bb    320
aa     40
dtype: int64

In [114]:
sr.apply(lambda n : n+2) # 각각 개별 데이터에 2를 더하는것

dd    102
cc      4
bb    322
aa     42
dtype: int64

In [118]:
sr.apply(lambda n : n+1 if n>=100 else n+2)

dd    101
cc      4
bb    321
aa     42
dtype: int64

In [139]:
print('max : ',sr.max()) # max값
print('min : ',sr.min()) # min값
print('sum : ',sr.sum()) # 전체의 합'
print('avg : ',sr.mean()) # 평균값
print('median : ', sr.median()) # 중앙값 -> 데이터 중에서 이상한 데이터 있을 수 있는데 10,20,30,10000 이렇게 되면 평균이 의미가 없어진다
print('idxmin : ',sr.idxmin())
print('std : ',sr.std()) # 표준편차
print('50퍼에 해당하는 값 : ',sr.quantile(0.5)) # median과 같은 값이 나옴
print('25퍼에 해당하는 값, 50퍼에 해당하는 값, 75퍼에 해당하는 값 : \n',sr.quantile([0.25,0.5,0.75]))

max :  320
min :  2
sum :  462
avg :  115.5
median :  70.0
idxmin :  cc
std :  142.1771195844582
50퍼에 해당하는 값 :  70.0
25퍼에 해당하는 값, 50퍼에 해당하는 값, 75퍼에 해당하는 값 : 
 0.25     30.5
0.50     70.0
0.75    155.0
dtype: float64


In [142]:
for i,v in sr.items(): # items는 tuple로 반환한 걸 i,v로 나눠줌
    print(i,v)

dd 100
cc 2
bb 320
aa 40
