## Pandas

> - 구조화된 데이터의 처리를 지원하는 Python 라이브러리
> - panel data -> pandas
> - 고성능 array 계산 라이브러리인 numpy와 통합하여, 강력한 `스프레드시트` 처리 기능을 제공 
> - 인덱싱, 연산용함수, 전처리 함수 등을 제공함
> - 데이터 처리 및 통계분석을 위해 사용

In [1]:
import pandas as pd
import numpy as np

data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' #Data URL
df_data = pd.read_csv(data_url, sep='\s+', header = None)

df_data.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6


In [2]:
df_data.columns = ['CRIM','ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO' ,'B', 'LSTAT', 'MEDV'] 
# Column Header 이름 지정
df_data.head(2)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6


### Series

> - DataFrame 중 하나의 Column에 해당하는 데이터의 모음 Object
> - Subclass of numpy.ndarray
> - Data : any type
> - Index labels need not be ordered
> - Duplicates are possible

In [3]:
data = pd.Series(data=[1,2,3,4],
                 index=['a','b','c','d'],
                 dtype='float32')
print(type(data.values))
data

<class 'numpy.ndarray'>


a    1.0
b    2.0
c    3.0
d    4.0
dtype: float32

### DataFrame

> - Data Table 전체를 포함하는 Object
> - 각 column의 값은 다를 수 있다.
> - Size 조정 가능하다.

In [4]:
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
            'age': [42, 52, 36, 24, 73],
            'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df.head(3)

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami


> - loc : index location
> - iloc : index position

#### Dataframe handling

> - #### Column 삭제
> - ```Python
    del data["column"]
    data.drop["column", axis=1]
    ```
    
#### Lambda, Map, Apply

#### 1) map for series

In [5]:
s1 = pd.Series(np.arange(3))
s1.map(lambda x: x**2)

0    0
1    1
2    4
dtype: int64

In [6]:
z = {1: 'A', 2: 'B', 3: 'C'} # dict type으로 데이터 교체
s1.map(z)

0    NaN
1      A
2      B
dtype: object

#### replace function

> - Map 함수의 기능중 데이터 변환 기능만 담당
> - 데이터 변환시 많이 사용하는 함수

In [7]:
s1.replace(
    {0: "zero", 1: "one"}
)

0    zero
1     one
2       2
dtype: object

#### 2) apply for dataframe

> - map과 달리, series 전체(column)에 해당 함수를 적용
> - 입력 값이 series 데이터로 입력 받아 handling 가능
> - 내장 연산 함수를 사용할 때도 똑같은 효과를 거둘 수 있음
> - mean, std 등 사용가능

#### 3) applymap for dataframe

> - series 단위가 아닌 element 단위로 함수를 적용함
> - series 단위에 apply를 적용시킬 때와 같은 효과

### Pandas built-in functions

> - **`describe`** : Numeric type 데이터의 요약 정보를 보여줌
> - **`unique`** : series data의 유일한 값을 list로 반환
> - **`isnull`** : column 또는 row 값의 NaN(null) 값의 index를 반환

> - **Tip** : 화면에 dataframe 다 볼 수 있게 설정하는 방법
    - `pd.options.display.max_row = 1000`