## 1. Pandas란?
- Pandas는 구조화된 데이터의 처리를 지원하는 Python 라이브러리이며, Python 계의 Excel이라 할 수 있다.
- 고성능 Array 계산 라이브러리인 Numpy와 통합하여, 강력한 "스프레드시트"처리 기능을 제공한다.
- indexing, 연산용 함수, 전처리함수 등을 제공한다.

예시로, 한 데이터셋을 pandas로 불러와 출력해보도록 한다.

In [1]:
import pandas as pd # pandas의 별명을 pd로 지정한다.

data_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"
data = pd.read_csv(data_url, sep = '\s+', header = None)
# csv타입 데이터를 로드, 구분하는 구분자(Seperator)는 빈 공간으로 지정, Column은 없음.
data.head()#처음 5줄만 로드

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


이렇게 출력된 것을 Dataframe이라고 부르며, data table 전체를 포함하는 object이다. 

<hr>

## 2. Pandas Series

### 2.1 Series 출력
간단하게 dataframe을 만들어 출력해본다.

In [2]:
from pandas import Series

data_list = [1,3,5,7,9]
example_obj = Series(data = data_list)
example_obj

0    1
1    3
2    5
3    7
4    9
dtype: int64

이렇게 [0,1,2,3,4] 처럼 순서를 지정하는 칼럼을 Index라고 부르며, 데이터값인 [1,3,5,7,9]를 Data라고 부른다. dtype은 데이터의 데이터타입을 말하며, 위의 dataframe은 int64인 정수형으로 구성되어 있다.

### 2.2 Series default값 변경
데이터의 자료형이나 데이터타입은 아래와 같이 직접 지정해줘서 변경할 수도 있다.<br>
위의 예시는 데이터 자료형과 데이터타입이 list와 int64였다면, 아래 예시는 dictionary와 float32이다.

In [3]:
import numpy as np

data_dict = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
    'e':5
}

example_obj = Series(data = data_dict, dtype = np.float32, name = 'example_data')

example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

### 2.3 Series index값에 접근

In [4]:
example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

In [5]:
example_obj['a']

1.0

### 2.4 Series index에 값 할당

In [6]:
example_obj['a'] = 3.0
example_obj

a    3.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: example_data, dtype: float32

### 2.5 data 값만 받기 or index 값만 받기

In [7]:
# data 값만 받기
example_obj.values

array([3., 2., 3., 4., 5.], dtype=float32)

In [8]:
# index 값만 받기
example_obj.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

### 2.6 이름 수정

In [9]:
example_obj.name = "Number" # Series 이름 수정
example_obj.index.name = "Alphabet" # Index 이름 수정
example_obj

Alphabet
a    3.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: Number, dtype: float32

### 2.7 index 값을 기준으로 Series 생성

In [10]:
data_dict = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
    'e':5
}
indexes = ['a','b','c','d','e','f','g','h']
example_obj = Series(data_dict, index = indexes)

example_obj

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
g    NaN
h    NaN
dtype: float64

<hr>

## 3. Pandas DataFrame
DataFrame은 여러 개의 Series가 모여서 생성된 Data Table로, 기본적으로 2차원이다.

In [11]:
raw_data = {
    'first_name' : ['Jason','Molly','Tina','Jake','Amy'],
    'last_name' : ['Miller','Jacobson','All','Miner','Cooze'],
    'age':[42,52,36,24,73],
    'city' : ['San Francisco','Baltimore','Miami','Douglas','Boston']
}

df = pd.DataFrame(raw_data, columns = ['first_name','last_name','age','city'])
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,All,36,Miami
3,Jake,Miner,24,Douglas
4,Amy,Cooze,73,Boston


In [12]:
# Column 선택
pd.DataFrame(raw_data, columns = ['age', 'city'])

Unnamed: 0,age,city
0,42,San Francisco
1,52,Baltimore
2,36,Miami
3,24,Douglas
4,73,Boston


In [13]:
# 새로운 칼럼 선택
pd.DataFrame(raw_data, columns = ['first_name','last_name','age','city','debt'])

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,All,36,Miami,
3,Jake,Miner,24,Douglas,
4,Amy,Cooze,73,Boston,


In [14]:
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,All,36,Miami
3,Jake,Miner,24,Douglas
4,Amy,Cooze,73,Boston


In [15]:
#특정 칼럼 선택
df.first_name

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [16]:
df['first_name']

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [17]:
#특정 열 선택
df.loc[0]

first_name            Jason
last_name            Miller
age                      42
city          San Francisco
Name: 0, dtype: object

In [18]:
df.iloc[0]

first_name            Jason
last_name            Miller
age                      42
city          San Francisco
Name: 0, dtype: object

특정 열을 선택하는 방법은 `loc`과 `iloc`이 있다.
- loc : index의 이름
- iloc : index number

In [19]:
s = pd.Series(np.nan, index = [10,9,8,1,2,3,4,5])

In [20]:
s.loc[:3]

10   NaN
9    NaN
8    NaN
1    NaN
2    NaN
3    NaN
dtype: float64

이렇게 `loc`을 사용하면 index의 real number가 3인 열까지 출력된다.

In [21]:
s.iloc[:3]

10   NaN
9    NaN
8    NaN
dtype: float64

이렇게 `iloc`을 사용하면 3번째 index까지 출력된다.

In [22]:
# 칼럼에 새로운 데이터 할당
df['debt'] = df['age'] > 40
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,True
1,Molly,Jacobson,52,Baltimore,True
2,Tina,All,36,Miami,False
3,Jake,Miner,24,Douglas,False
4,Amy,Cooze,73,Boston,True


In [23]:
# 칼럼 삭제
del df['debt']
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,All,36,Miami
3,Jake,Miner,24,Douglas
4,Amy,Cooze,73,Boston
