# Pandas

- 사람이 많이 접하는 데이터는 엑셀 같은 형태의 데이터이다.
- Series는 1차원 데이터를 다루는 데 효과적이다
- DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 객체이다.
- 엑셀과 거의 비슷하게 row와 column으로 이뤄진 데이터 객체를 만들 수 있도록 해준다.

## pandas 자료구조 

#### pandas import

```python
# pandas 자료 형태의 기반은 array 로 구현되어있다. 같이 import 해주어야 한다
import numpy as np
import pandas as pd 
```

### Series

- 1차원 배열 같은 구조이다.
- 간단하게 엑셀에서 한개의 칼럼(열)만 달랑 있는 경우를 생각하면 된다

#### series 생성

- 일반적으로 리스트를 넣는다 
- Dictionary 를 넣어주면 key 값들로 index 를 구성한다.
- index 를 지정해줄 수 있다. index 값으로 접근 가능

```python
temp= pd.Series([ 4,  7, -5,  3])
#print
#0    4
#1    7
#2   -5
#3    3
#dtype: int64
temp2=pd.Series ((2,3,4,6) ,dtype=int,index=('a','b','c','d'))
#print
#a    2
#b    3
#c    4
#d    6
#dtype: int64
print(temp[0])	#print	4
print(temp2[d])	#print	6
```

#### Series.values 함수

- Pandas 로 만든 자로구조의 values 값만 확인해서 ndarray 값으로 리턴해준다.

#### Series.index 함수

- Pandas 로 만든 자로구조의 index 값만 확인해서 pandas 객체로 리턴해준다.
- Pandas 객체지만 리스트처럼 indexing 가능하다.

```python
temp.values
#print array([ 4,  7, -5,  3])
temp2.index
#print Index(['a', 'b', 'c', 'd'], dtype='object')
```

### DataFrame

- 드디어 엑셀 처럼 생긴 자료형태이다
- 각 열은 다른 데이터형태를 가질 수 있다. (각각 다른 series 이니까..)
- 한 칼럼씩 내부적으로 보면 series 를 모아서 만들어져 있다.

#### DataFrame 생성

```python
raw_data = {'col0': [1, 2, 3, 4],
            'col1': [10, 20, 30, 40],
            'col2': [100, 200, 300, 400]}

df = pd.DataFrame(raw_data)
#print 	
#	col0 col1 col2
#0	1	 10	  100
#1	2	 20	  200
#2	3	 30	  300
#3	4	 40	  400
```

#### DataFrame .values 함수

#### DataFrame .index 함수

- series 와 동일

#### DataFrame.columns 함수

- 칼럼을 인덱스 배열로 반환해준다.

```python
df.columns
#print Index(['col0', 'col1', 'col2'], dtype='object')
```

#### 요소삭제

- del -> 기존 데이터 원본을 건드림 조심해서 쓰는게 좋음
- drop -> 데이터 복사를 해서 불필요한 오버헤드가 있을 수 있지만 안정성이 높다.

```python
temp_frame=df.drop('col1',axis=1) # 반환형이기 때문에 받아줄 변수 필요
#print
#	col1  col2
#0	10	  100
#1	20	  200
#2	30	  300
#3	40	  400
del df["col0"]
#print
#	col1  col2
#0	10	  100
#1	20	  200
#2	30	  300
#3	40	  400
```

### 산술연산 데이터 정렬

index가 다른 두 객체간의 산술연산이 가능

pdA + pdB

겹치는 index가 없을 때는 데이터는 NA 값이 됨

겹치는 index가 없을 때 NA 값이 아니라 그대로 있는 값만 반환하고 싶다면, fill_value 파라미터에 값을 0으로 주면 된다

```python
df3=df1+df2 #연산자 이용
df4=df1.add(df2, fill_value=0)  #매서드(함수) 이용
```

### df.apply() 함수

- 간단하게 다양한 접근을 하기위해 함수를 적용 시킬때 사용
- 더 많은 조건을 걸때 사용한다고 생각하자.
- lambda는 함수를 딱 한 줄만으로 만들게 해준는 거라고 생각.

위의 선언된 객체로 테스트

```python
df['col3']=df['col2'].apply(lambda x : int(x+100) )
#print
#	col1  col2	col2
#0	10	  100	200
#1	20	  200	300
#2	30	  300	400
#3	40	  400	500
```

#### 파일 입출력

![image.png](attachment:image.png)

- [pandas 0.23.4 documentation](https://pandas.pydata.org/pandas-docs/stable/index.html) 참조