In [1]:
import numpy as np
import pandas as pd

## Pandas 개요

- pandas는 데이터처리와 분석을 위한 파이썬 라이브러리
- R의 dataframe을 본떠서 설계한 DataFrame 데이터 구조를 기반으로 한다.  
- pandas는 엑셀의 스프레드시트와 비슷한 테이블제공(파이썬계의 엑셀)
- pandas에는 Series와 DataFrame이라는 두 종류의 자료구조가 있다.
- Series는 1차원 데이터를 다루는 데 효과적인 자료구조이다.
- DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 자료구조이다.


## Pandas 주요기능

- 자유로운 데이터 변환
- 엑셀처럼 활용도가 높은 DataFrame 객체
- pivot table과 같이 데이터 구조에 대한 변환
- 날짜형 데이터(시계열)
- 다양한 필터링
- 누락된 데이터의 처리 기능 


## Pandas 튜토리얼

- https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

In [32]:
pd.__version__

'0.24.2'

## Series 생성하기

- 시리즈 = Numpy배열(값) + 인덱스
- 1차원의 인덱스가 부여된 배열 (인덱스는 숫자 or 문자열 가능)
- SeriesVar = pd.Series(List)
- SeriesVar = pd.Series(Dictionary)
- 판다스와 파이썬 자료형 비교
   - object - string
   - int64 - int
   - float64 - float

In [3]:
s1 = pd.Series([12,30,100,33,25])
s1

0     12
1     30
2    100
3     33
4     25
dtype: int64

In [4]:
s2 = pd.Series(['레드벨벳','방탄소년단','트와이스','워너원'])
s2

0     레드벨벳
1    방탄소년단
2     트와이스
3      워너원
dtype: object

In [5]:
myList = [45.0,5.5, 21.3]
s3 = pd.Series(myList)
s3

0    45.0
1     5.5
2    21.3
dtype: float64

In [7]:
s4 = pd.Series({'a':'apple','b':'banana','c':'cat'})
s4

a     apple
b    banana
c       cat
dtype: object

### 값, 인덱스, 데이터형 추출

- seriesVar.values
- seriesVar.index
- seriesVar.dtype

In [13]:
print(type(s1), s1.values, s1.index, s1.dtype)
print(type(s4), s4.values, s4.index, s4.dtype)

<class 'pandas.core.series.Series'> [ 12  30 100  33  25] RangeIndex(start=0, stop=5, step=1) int64
<class 'pandas.core.series.Series'> ['apple' 'banana' 'cat'] Index(['a', 'b', 'c'], dtype='object') object


### 시리즈 생성시 인덱스 정의하기

- SeriesVar = pd.Series(데이타리스트, index=인덱스리스트)
- SeriesVar.index = 인덱스리스트

In [15]:
s5 = pd.Series([1,3,50,100, 20], index=['a','b','c','d','e'])
s5

a      1
b      3
c     50
d    100
e     20
dtype: int64

In [16]:
print(type(s5), s5.values, s5.index, s5.dtype)

<class 'pandas.core.series.Series'> [  1   3  50 100  20] Index(['a', 'b', 'c', 'd', 'e'], dtype='object') int64


In [20]:
# 인덱스 재정의 
s5.index = ['aa', 'bb', 'cc', 'dd', 'ee']
s5

aa      1
bb      3
cc     50
dd    100
ee     20
dtype: int64

### index.name, name으로 인덱스이름과 시리즈이름 정의하기

- sVar.index.name : 인덱스이름 
- sVar.name : 시리즈 이름

In [21]:
s5.index.name = 'indexName'
s5.name = 'Series s5'
s5

indexName
aa      1
bb      3
cc     50
dd    100
ee     20
Name: Series s5, dtype: int64

## 퀴즈

```python
과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사 성적표, dtype: int64
평균  79.0
```

In [25]:
grade = pd.Series([90,80,100,55,70])
grade.index = ['국어','수학','영어','과학','역사']
grade.name = '중간고사 성적표'
grade.index.name = '과목'
print(grade)
print('평균 ', grade.mean())

과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사 성적표, dtype: int64
평균  79.0


## 시리즈 인덱싱

In [26]:
s6 = pd.Series({'홍길동':23, '신데렐라':18, '백설공주':25})
s6

홍길동     23
신데렐라    18
백설공주    25
dtype: int64

In [27]:
# 인덱스 이름으로 호출
s6['홍길동']

23

In [31]:
# 숫자 인덱스로 호출 
print(s6[0], s6[1], s6[2], s6[-1])

23 18 25 25
