### 1. Pandas 시작하기

분석을 하기 전에는 아래와 같은 과정을 거친다

> 데이터 수집 -> 데이터 전처리 -> 데이터 (통계)분석 ( 시각화 )

데이터는 보통 **txt,csv,excel,xml,json,html** 등의 형태가 있다. 이러한 데이터를 가지고 전처리와 분석을 하는 역할을 해주는게 Pandas라고 생각하면 된다.

---

#### 1.1 Pandas 데이터 타입

Pandas에서는 크게 2가지 데이터 타입이 존재한다.
- 1차원 데이터 : Series
- 2차원 데이터 : DataFrame

In [3]:
import numpy as np # pandas가 numpy를 이용하므로 항상 같이 import해주자
import pandas as pd

In [7]:
myList = [10,20,30,40] # list - 1차원
d = { 'aa':10, 'bb':20, 'cc':30 } # dict - 1차원
t = (10,20,30,40) # tuple - 1차원

In [8]:
myList1 = [(10,20),(30,40),(50,60)] # 2차원
myList2 = [[10,20],[30,40],[50,60]] # 2차원
d1 = [{'aa':10,'bb':20},{'cc':30,'dd':40}] #2차원
d2 = {'kor':[10,20,30],'eng':[40,50,60]} # 2차원

---

##### 1.1.1 1차원 데이터

→ **series**를 이용한다.

In [10]:
sr = pd.Series([10,20,30,40],dtype=np.int32) # dtype의 기본은 int64
sr # 앞에는 인덱스 뒤에는 값이 출력된다

0    10
1    20
2    30
3    40
dtype: int32

In [12]:
sr = pd.Series([10,20,30,40],index = ['aa','bb','cc','dd']) #index의 기본은 0,1,2...
sr

aa    10
bb    20
cc    30
dd    40
dtype: int64

In [14]:
sr = pd.Series({'aa':10,'bb':20,'cc':30})
sr

aa    10
bb    20
cc    30
dtype: int64

Series 객체의 속성에 대해서 알아보자!  
그 중에서 속성, 인덱스 슬라이싱, 메소드를 자세하게 알아보자

In [15]:
sr = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])
sr

aa    10
bb    20
cc    30
dd    40
dtype: int64

In [18]:
sr.ndim # 차원

1

In [19]:
sr.shape # 4행...리턴은 행렬인 tuple이 나온다

(4,)

In [20]:
sr.size # 전체 데이터의 갯수가 나온다

4

In [21]:
sr.index # series의 index만 list로 추출

Index(['aa', 'bb', 'cc', 'dd'], dtype='object')

In [23]:
sr.values # 값만 나오게 하자

array([10, 20, 30, 40])

index slicing에 대해서 알아보자!!  

In [30]:
print(sr[0])
print(sr[-1]) # python의 기본 자료형인 list와 같이

10
40


In [29]:
print(sr['aa'])
print(sr['cc'])

10
30


series에서는 slicing의 결과값이 series 객체로 리턴된다.

In [33]:
print(sr[1:4]) # a는 출력하지 않는다

bb    20
cc    30
dd    40
dtype: int64


In [35]:
sr['aa':'cc'] # 부여된 index에서는 'cc'가 포함된다

aa    10
bb    20
cc    30
dtype: int64

In [39]:
print(sr.iloc[0]) # == sr[0] ... 0번째 위치 
# sr.iloc['aa'] => Error
print(sr.loc['aa']) # 반드시 부여된 index를 써야한다

10
10


iloc : index에서 반드시 Zero Base index를 주어야한다. 즉, 아무것도 부여 안되면 default로 부여되는 index  
loc : 부여된 index를 써야한다  

그럼 왜 따로 iloc,loc을 쓸까?

In [43]:
sr = pd.Series([10,20,30,40],index = [0,1,2,3])
# print(sr[-1]) ERROR!! -> 부여된 index에서 -1가 없기 때문에 Error가 생긴다
sr.iloc[-1] # zerobase로 찾으라고 명시하면 찾을 수 있다

40

위와 같은 경우 때문에 iloc과 loc을 구분해서 사용한다

Series 객체를 사용할때 Method에 대해서 알아보자

In [45]:
sr = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])

In [47]:
sr.aa # index가 string인 경우 이렇게 속성처럼 사용할 수 있다. 하지만 조심해야한다.
# 그래서 확실하게 하고 싶으면 sr['aa']로 하자! 

10

In [49]:
sr+2 # list에서는 안되는 문법
# Series에서는 개별 데이터에 대해서 더해준다

aa    12
bb    22
cc    32
dd    42
dtype: int64

In [50]:
sr*2

aa    20
bb    40
cc    60
dd    80
dtype: int64

In [51]:
sr1 = pd.Series([10,20,30,40], index=['aa','bb','cc','dd'])
sr2 = pd.Series([1,2,3,4], index=['aa','bb','cc','dd'])

In [53]:
sr1*sr2 # 각 행열의 개별 데이터끼리 곱한 값이 나온다

aa     10
bb     40
cc     90
dd    160
dtype: int64

여기서 잠깐 문제!
> Q. 각각 연봉 데이터에 대해서 세금 **3.3퍼센트를 제외한 실수령액**을 구하시오

In [54]:
salary = pd.Series([1000,2000,3000,4000])
salary*0.967

0     967.0
1    1934.0
2    2901.0
3    3868.0
dtype: float64

list에는 없고 Series에서만 있는 **Boolean indexing** 방법에 대해서 알아보자

In [58]:
sr[[False,False,True,True]] # True인 것에 대해서만 출력되는 것을 알 수 있다

cc    30
dd    40
dtype: int64

Series에서는 **관계 연산자**도 쓸 수 있다.  
그럼 만족하는 데이터에 대해서 True,False를 출력한다.

In [59]:
sr > 20

aa    False
bb    False
cc     True
dd     True
dtype: bool

In [60]:
sr[sr > 20] # 결국 이건 sr [ [False,False,True,True] ] 와 동일한 표현이다

cc    30
dd    40
dtype: int64