# pandas 활용 기초

:효과적인 데이터 분석을 위한 고수준의 자료구조와 데이터 분석도구를 제공하는 모듈

- pandas의 Series는 1차원 데이터를 다루는 데 효과적인 자료구조이며
- pandas의 DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 자료구조이다.

## 1. Series
### 1.1 파이썬 리스트, 튜플, 딕셔너리

### List 형태

In [2]:
mystock = ['kakao', 'naver']
mystock[0]


'kakao'

In [5]:
mystock[1]

'naver'

#### List 자료구조는 반복문을 통해 데이터에 접근 가능

In [6]:
for stock in mystock:
    print(stock)

kakao
naver


####  List 자료구조에서 insert, append, index 등 다양한 메서드 제공

#### ()의 튜플형태와 보다 속도는 느리지만 수정이 가능

#### {}의 딕셔너리 형태

In [8]:
Gender = {'Male':0, 'Female':1}
Gender['Male']

0

### 1.2 Series 기초

#### 리스트와 튜플 등도 같은 1차원 데이터 인데 왜 Series라는 자료구조를 따로 구분해 놓았을까?

In [9]:
import pandas as pd

In [10]:
kakao = pd.Series([92600, 92400, 92100, 94300, 92300])
kakao

0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64

#### Series객체를 생성 할 떄 인덱스를 지정하지 않는 다면 기본적으로 0부터 할당

- 인덱스가 지정되는 것. 일반 1차원 자료구조와 다른 점

- 인덱스를 날짜와 같은 값으로도 할당이 가능해 

In [11]:
kakao2 = pd.Series([92600, 92400, 92100, 94300, 92300], index = ['2016-02-19','2016-02-18','2016-02-17','2016-02-16','2016-02-15'])
kakao2

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64

In [13]:
kakao2['2016-02-16']

94300

- 여기서 인덱스 값은 .index로, 할당된 값은 .values로 접근 가능하다.

In [16]:
for date in kakao2.index:
    print(date)

2016-02-19
2016-02-18
2016-02-17
2016-02-16
2016-02-15


In [22]:
for turnover in kakao2.values:
    print(turnover)

92600
92400
92100
94300
92300


- 연산을 할 때 같은 인덱스를 갖는 값끼리 연산

In [19]:
mine = pd.Series([10,20,30], index = ['naver', 'sk', 'kt'])
friend = pd.Series([10,30,20], index = ['kt','naver','sk'])


In [21]:
merge = mine + friend
merge


kt       40
naver    40
sk       40
dtype: int64

## 2. DataFrame

- Series가 1차원 형태의 자료구조라면 DataFrame은 행과 열을 갖는 2차원 형태의 자료구조이다.

### 2.1 DataFrame 생성

* DataFrame 생성하는 첫번째 방법
 1. 딕셔너리 형태의 데이터를 DataFrame 형태로 변환

In [27]:
data = {'col0':[1,2,3,4],'col1':[10,20,30,40],'col2':[100,200,300,400]}
data['col0']

[1, 2, 3, 4]

In [28]:
df = pd.DataFrame(data)
df

Unnamed: 0,col0,col1,col2
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400


* Row 방향은 0부터 정수값으로 자동 할당
* 여러개의 Series가 모여 DataFrame을 구성

In [33]:
df2 = pd.DataFrame(data, columns = ['col0','col1','col2'], index = ['2016-02-19','2016-02-18','2016-02-17','2016-02-16'])
df2

Unnamed: 0,col0,col1,col2
2016-02-19,1,10,100
2016-02-18,2,20,200
2016-02-17,3,30,300
2016-02-16,4,40,400


### 2.2 DataFrame 칼럼, 로우 선택

* 인덱스 값 인덱싱을 통한 'Row' 선택

In [37]:
row_extract = df2.loc['2016-02-17']
row_extract

col0      3
col1     30
col2    300
Name: 2016-02-17, dtype: int64

In [40]:
col_extract = df2['col0']
col_extract

2016-02-19    1
2016-02-18    2
2016-02-17    3
2016-02-16    4
Name: col0, dtype: int64

- row 선택을 위해선 loc
- column 선택을 위해선 칼럼이름 [''] 지정

In [41]:
df2.columns

Index(['col0', 'col1', 'col2'], dtype='object')

In [42]:
df2.index

Index(['2016-02-19', '2016-02-18', '2016-02-17', '2016-02-16'], dtype='object')

DataFrame은 컬럼과 인덱스로 구성