# Pandas
* https://pandas.pydata.org/
* Python Data Analysis Library
* R의 data.frame을 본 떠서 설계한 DataFrame 기반
* 고성능  NumPy 기반
* 간편한 데이타 구조 및 분석 도구
* SQL 처럼 테이블에 쿼리, 조인 수행
* 각 열의 타입이 다르거나 문자 허용
* NumPy + Dict
    * Record + Column
    * 2차원 관계형 DBMS 테이블 처럼 사용
    * Series, DataFrame
![](https://www.bedrockdata.com/hs-fs/hubfs/pandas-logo.png?width=263&name=pandas-logo.png)

## Module Import

In [4]:
import pandas as pd

## Pandas Data Structure
* Series :  1D
* DataFrame : 2D
* Panel : 3D

## Series
* 일련의 객체를 담을 수 있는 1차원 배열 자료구조
* Index로 요소 접근
    * Integer Index
    * Label Index
* 주요 속성
    * values
    * index

### 리스트로 시리즈 생성
* default integer index 

In [3]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

### 리스트와 인덱스로 생성

In [7]:
obj2 = pd.Series([4,7,-5,3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

### Dictionary로 Series 생성
* Key : index
* value : value

In [22]:
obj3 = pd.Series({"lee": 27, "kim": 25, "park": 30, "choi": 19})
obj3

lee     27
kim     25
park    30
choi    19
dtype: int64

In [24]:
print(obj3.index)
print(obj3.values)

Index(['lee', 'kim', 'park', 'choi'], dtype='object')
[27 25 30 19]


### 인덱스로 데이타 선택
* 하나의 요소 선택 : 인덱스 1개
    * `data[1]`, `data['a']
* 여러 요소 선택 : 인덱스이 배열
    *  `data[['a', 'b']]
* bool indexing
    * `data[data>2]`

In [9]:
print(obj[2], obj2[2], obj2['a'])

-5 -5 -5


In [14]:
obj[[1,3]]

1    7
3    3
dtype: int64

In [12]:
obj2[['a', 'b']]

a   -5
b    7
dtype: int64

In [21]:
obj2[obj2>2]

d    4
b    7
c    3
dtype: int64

## DataFrame
* 엑셀 스프레드 시트 형식의 자료 구조
* 여러개의 컬럼
* row와 column에 대한 색인
    * 색인(Index)의 모양이 같은 Series를 담고 있는 파이썬 dictionary
* columns : 컬럼의 순서 지정

## Series로 생성

In [6]:
name = pd.Series(['Lee', 'Kim', 'Park'])
age = pd.Series([27,24,15])
friends = pd.DataFrame({'name':name, 'age': age})
friends

Unnamed: 0,name,age
0,Lee,27
1,Kim,24
2,Park,15


### columns, 순서 재배치

In [9]:
friends2 = pd.DataFrame({'name':name, 'age':age}, columns=['age', 'name'])
friends2

Unnamed: 0,age,name
0,27,Lee
1,24,Kim
2,15,Park


### 인덱스 추가

### 딕셔너리로 생성

In [10]:
df = pd.DataFrame({})
df

In [11]:
df = pd.DataFrame({'name':['Lee', 'Kim', 'Park'],
                   'age': [27, 24, 15]})
df

Unnamed: 0,name,age
0,Lee,27
1,Kim,24
2,Park,15


In [13]:
df =  pd.DataFrame({'name':['Lee', 'Kim', 'Park'],
                   'age': [27, 24, 15]},
                  index=['one', 'two', 'three'])
df

Unnamed: 0,name,age
one,Lee,27
two,Kim,24
three,Park,15


### 컬럼으로 접근

In [14]:
print(friends['name'], friends['age'])

0     Lee
1     Kim
2    Park
Name: name, dtype: object 0    27
1    24
2    15
Name: age, dtype: int64


### 인덱스로 접근
* ix[n] : deprecated
* iloc[n] : 인덱스 순번으로 접근 
* loc[label] : 인덱스 레이블로 접근

In [19]:
df.ix[0]


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


name    Lee
age      27
Name: one, dtype: object

In [27]:
df.iloc[1]

name    Kim
age      24
Name: two, dtype: object

In [26]:
df.loc['two']

name    Kim
age      24
Name: two, dtype: object

### 컬럼 추가

In [28]:
friends['job'] = 'student'
friends

Unnamed: 0,name,age,job
0,Lee,27,student
1,Kim,24,student
2,Park,15,student


### 연산과 함께 컬럼 추가

In [None]:
friends['adult'] = friends['age'] > 19

In [None]:
friends

In [None]:
friends.loc[friends['age'] > 19]