# Pandas: 자료구조 - Series, DataFrame

### Pandas Documentation

[Tutorials](http://pandas.pydata.org/pandas-docs/stable/tutorials.html)

- [10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
<br><br>
- [Cookbook](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)
<br><br>
- [Cheat sheet](http://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)


### Pandas
- 고수준의 빠르고 쉬운 데이터 분석 도구 포함
- NumPy 기반에서 개발

### DataFrame 구조

<img src="http://bookdata.readthedocs.io/en/latest/_images/base_01_pandas_5_0.png">

### 열거형 자료형
- 순서가 중요한 데이터 타입
- Python의 리스트 (list)
- Numpy의 array

### 인덱스 기준 자료형
- Index를 기준으로 계산
- Python의 사전형 (dict)
- Pandas의 Series, DataFrame

---

# 1. pandas 자료 구조

### 1.1 Series

- Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
- 색인을 "자동으로" 제공한다

In [None]:
import numpy as np
import pandas as pd

In [None]:
# Series 생성
sr = pd.Series([4, 7, -5, 3])
sr

In [None]:
# 색인 지정
sr2 = pd.Series([4, 7, -5, 3], index=['a', 'a', 'c', 'd'])
sr2

In [None]:
# 색인으로 value에 접근: 색인은 중복 가능
sr2['a']

In [None]:
sr2[['c', 'd']]

In [None]:
# Broadcasting 연산
sr2 * 2

### 1.2 DataFrame

- 표 같은 스프레드시트 형식의 자료 구조
- 각 컬럼은 서로 임의의 데이터  형식(숫자, 문자열, 불리언)을 담을 수 있다

#### DataFrame 객체 생성

In [None]:
# 사전으로부터 데이터프레임 생성
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002],
        'pop'  : [1.5, 1.7, 3.6, 2.4, 2.9]}

In [None]:
df = pd.DataFrame(data)
df

In [None]:
# 인덱스 지정
df2 = pd.DataFrame(data, columns=['year', 'state', 'pop'],
                   index=['one', 'two', 'three', 'four', 'five'])
df2

In [None]:
df2.columns

In [None]:
df2.index

In [None]:
# 컬럼(열) 명으로 얻는 방법
df2['state']

In [None]:
# 여러 컬럼(열) 명으로 얻는 방법
df2[['year','state']]

In [None]:
df2.loc[['one','two'], ['year','state']]

#### File 읽기

In [None]:
df3 = pd.read_csv('data/iris.csv') 
df3

In [None]:
df3.loc[0:5, ['sepal.length','petal.length','variety']]

---

In [None]:
# End of file