In [None]:
import pandas as pd

# 3.Pandas

## 3.1 Series

Numpy와 유사하나 index를 가지고 있음

### 생성

```python
series = pd.Series(
  [90, 85, 80, 75, 70]
  ) # 인덱스를 지정하지 않으면 0부터 시작

series = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )
```

### 추가, 변경, 삭제
기존 딕셔너리의 추가, 변경, 삭제와 동일 <br>
<br>

추가
```python
series['한국사'] = 100
```
<br>

변경
```python
series['국'] = 100
series.국 = 100
```
<br>

삭제
```python
del series['국']
```




### name
name 속성을 이용하여 series와 index에 이름 부여 가능

```python
series.name = '성적'
series.index.name = '과목'
```

### indexing

```python
series[0], series['국']    # 특정 인덱스 번호 혹은 이름 지정
series.국

series[[0, 2, 1]]         # 인덱스 순서를 원하는 순서대로 변경하여 출력
series[['국', '수', '영']]  # 인덱스 순서를 원하는 순서대로 변경하여 출력

series[0:3]            # 슬라이싱
series['국어':'수학']    # 슬라이싱, 끝 점 포함
```

### series 연산

series끼리 연산 진행 가능 <br>
다만, series 연산은 동일 index끼리 연산이므로 index 정보가 다르면 연산 불가 <br>
<br>

```python
series1 = pd.Series(
  [90, 85, 80, 75, 70],
  index=['국', '영', '수', '사', '과']
  )

series2 = pd.Series(
  [95, 80, 70, 80, 95],
  index=['국', '영', '수', '사', '과']
  )
```

## 3.2 DataFrame

Series가 1d 행렬에 index를 추가한 것과 같이 <br>
DataFrame은 2d 행렬에 index와 column을 추가한 것 <br>
혹은 여러 Series의 합 <br>


### 3.2.1 판다스 기초

#### 생성

딕셔너리 기반
```python
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 80, 70, 80, 95],
    '학생3': [85, 95, 90, 70, 85],
}
index = ['국', '영', '수', '사', '과']
df = pd.DataFrame(data, index=index)
df
```
<br>
<br>

배열 기반
```python
data = [
  [90, 95, 85],
  [85, 80, 95],
  [80, 70, 90],
  [75, 80, 70],
  [70, 95, 85]
]

index = ['국', '영', '수', '사', '과']
columns = ['학생1', '학생2', '학생3']
df = pd.DataFrame(data, index=index, columns=columns)
```

#### 추가, 변경, 삭제
**추가** <br>
DataFrame의 추가는 기본적으로 열 단위 추가

```python
# 현재 row는 국, 영, 수, 사, 과의 5개 정보인데 1개 정보만 추가하게 되면, 이 값을 전체에 복사
# 즉, 모든 row 값을 90으로 채움
df['학생4'] = 90

# 만약 2개 이상의 값을 넣고 싶으면 배열을 이용하여 넣어야 함
# 이 경우 row수와 일치하지 않으면 에러 발생
df['학생4'] = [90, 80]     # 에러
df['학생4'] = [90, 80, 70, 60, 50] 
```
<br>

**변경** <br>
데이터프레임.컬럼.인덱스 = 변경값 <br>
기존 컬럼이 존재하면 생성과 유사하게 동작
```python
df.학생3.국 = 100
df['학생3'] = 100    # df.학생3 = 100
df['학생3'] = [100, 99, 98, 97, 96]    # df.학생3 = [100, 99, 98, 97, 96]
```



**삭제**
```python
del df['학생4']
df.drop(columns='학생4')
```


#### name

Series에서와 마찬가지로 이름을 지정할 수 있음 <br>
다만, DataFrame은 2차원이므로 index와 column 모두에 이름 지정 가능 <br>

```python
df.index.name = '과목'
df.columns.name = '학생'
```

#### column 이름 변경
dataframe의 column 정보는 df.columns에 저장 <br>
여기에 저장된 값을 다른 값으로 입력하면 변경 가능 <br>
단, 열 전체 정보를 입력해야 함 (열 개수와 입력 값이 일치하지 않으면 에러) <br>
개별 column 이름을 변경하고 싶으면 rename 사용
<br>

```python
df.columns
df.columns = '학생4'    # 에러
df.columns = ['학생4']  # 에러
df.rename(columns={'학생1': '학생4'})
df.columns = ['학생4', '학생5', '학생6']
```

#### indexing
**column** <br>
```python
df['학생1']           # Series 반환
df[['학생1']]         # DataFrame 반환
df[['학생1', '학생2']] # 다수의 컬럼 선택
```
<br>

**row** <br>
항상 슬라이싱(:) 사용
```python
df[:1]
df[1:3]
df['국':'수']
```

### 3.2.2 데이터 입출력


#### 입력
pd.read_csv를 통하여 csv 데이터를 읽음

```python
pd.read_csv(파일경로)
```
<br>

read_csv 내에는 다양한 옵션 존재
- use_cols: csv 컬럼에서 특정 컬럼만을 읽음
- names: 읽어 들인 데이터의 열 이름 변경 가능
- index_col: 입력하는 파일 내의 특정 column을 index로 설정 가능
- sep: csv의 데이터 구분은 ",", 하지만 데이터 구분자가 다른 경우 (\t) 이러한 구분자를 sep을 통해 지정할 수 있음
- skiprows: 읽어들인 데이터 중 필요 없는 row를 제거할 수 있음
- na_values: 값 중 na_values에 지정한 값은 읽을 때 na 처리

#### 출력
pd.to_csv를 통하여 csv 데이터를 출력

```python
pd.to_csv(파일경로)
```
<br>

to_csv 내에는 다양한 옵션 존재

- encoding: encoding을 지정하지 않고 출력 시 excel에서 한글이 깨지는 경우가 존재. 이 경우 utf-8-sig를 사용하면 해결 가능. <br> cp949, euc-kr등의 옵션도 존재
- sep: 입력 때와 마찬가지로 구분자를 지정해줄 수 있음
- na_rep: 입력 때와 마찬가지로 특정 값을 na로 처리하여 저장할 수 있음
- index: index를 출력할지 유무. True, False
- headers: column을 출력할지 유무. True, False
