# 판다스 Pandas

In [1]:
import numpy as np
import pandas as pd

## 시리즈 Series

```
리스트와 딕셔너리 두가지의 장점을 섞어 놓은듯한 자료구조
리스트나 튜플처럼 숫자인덱싱
슬라이싱 기능
딕셔너리처럼 키로 접근 가능, 키인덱싱

pd.Series(data = 리스트/튜플/넘파이배열/딕션, index = 인덱스리스트)
```

In [2]:
# 딕셔너리 ==>> 시리즈
mydict = {'a' : 1, 'b':2, 'c':3, 'd':4, 'e':5}
s1 = pd.Series(mydict) # s1 = pd.Series(data=mydict)도 가능
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [3]:
# 타입, 길이 확인하기
type(s1), len(s1)

(pandas.core.series.Series, 5)

In [4]:
# 인덱싱
s1['a'], s1[0]

(1, 1)

In [6]:
print(s1[:3]) # 3행까지의 출력
print(s1['a':'c']) # a부터 c까지의 출력
print(s1[::2]) # 2씩 건너서 춫력
print(s1[::-1]) # 역순으로 출력
print(s1[[0,3]]) # 0,3인덱스에 맞는 값 출력

a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
c    3
e    5
dtype: int64
e    5
d    4
c    3
b    2
a    1
dtype: int64
a    1
d    4
dtype: int64


In [7]:
# 넘파이 배열 => 시리즈
matrix = np.arange(10, 0, -1)
matrix

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

In [9]:
# 딕셔너리는 키 값이 인덱스가 되었지만 시리즈형태는 숫자가 행의 인덱스
s2 = pd.Series(matrix)
s2

0    10
1     9
2     8
3     7
4     6
5     5
6     4
7     3
8     2
9     1
dtype: int32

In [10]:
s2[0], s2[0:5]

(10,
 0    10
 1     9
 2     8
 3     7
 4     6
 dtype: int32)

In [11]:
# 합계는 np.sum()함수
# 평균은 np.mean()함수
# 중앙값은 np.median()함수
# 최솟값은 np.min()함수
# 최대값은 np.max()함수
np.sum(s2), np.mean(s2), np.median(s2), np.min(s2), np.max(s2)

(55, 5.5, 5.5, 1, 10)

In [12]:
# 튜플 -> 시리즈 
# 시리즈의 데이터형은 혼합형이 가능하다.
# 전체 type을 찍어보면 object로 찍힌다.
myTuple = ('가', '나', True, 100, 3.14)
myTuple

('가', '나', True, 100, 3.14)

In [14]:
s3 = pd.Series(myTuple)
s3

0       가
1       나
2    True
3     100
4    3.14
dtype: object

## 시리즈 속성
```
dtype : 데이터형 확인
values : 값만 넘파이배열 형태로 출력
index : 시리즈의 인덱스값만 리스트 형태로 출력
```

In [15]:
# values는 안에 있는 값만 찍어주는 것
s3.dtype, s3.values, s3.index

(dtype('O'),
 array(['가', '나', True, 100, 3.14], dtype=object),
 RangeIndex(start=0, stop=5, step=1))

In [17]:
type(s3.values)

numpy.ndarray

In [18]:
s1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

## 인덱스 이름, 시리즈 이름 지정하기
- 시리즈명.index.name = 인덱스이름
- 시리즈명.name = 시리즈이름
- 시리즈명.index = 리스트

In [19]:
#제목이 하단에 지정된다.
sdata = {"Charles": 35000, "Julia": 71000, "Hayoung": 16000, "Sangjae" :5000}
s4 = pd.Series(sdata, name = "보너스")
s4

Charles    35000
Julia      71000
Hayoung    16000
Sangjae     5000
Name: 보너스, dtype: int64

In [20]:
# 인덱스 이름은 밖에서 지정가능
s4.index.name = '회원'
s4

회원
Charles    35000
Julia      71000
Hayoung    16000
Sangjae     5000
Name: 보너스, dtype: int64

In [21]:
s4.name = '상여금'
s4

회원
Charles    35000
Julia      71000
Hayoung    16000
Sangjae     5000
Name: 상여금, dtype: int64

In [22]:
# 리스트 -> 시리즈
# 인덱스명은 별도 설정
myList = ['라면', '짜장면', '짬뽕', '로제떡볶이']
s5 = pd.Series(myList, index=['메뉴1', '메뉴2', '메뉴3', '메뉴4'])
s5

메뉴1       라면
메뉴2      짜장면
메뉴3       짬뽕
메뉴4    로제떡볶이
dtype: object

In [23]:
s5['메뉴3'], s5[2]

('짬뽕', '짬뽕')

In [26]:
# quizd의 Key값 + quiz1의 데이터로 리스트를 생성하고 평균값 구하기
quizd = {'a': 'apart', 'b': 'banana', 'c': 'cat'} #1)
quiz1 = ['아파트', '바나나', '고양이'] #2)
quizd.keys(), type(quizd.keys()), list(quizd.keys())

(dict_keys(['a', 'b', 'c']), dict_keys, ['a', 'b', 'c'])

In [31]:
quiz2 = {'국어': 90, '수학': 80, '영어':100, '과학':55, '역사': 70}

quiz2=pd.Series(quiz2, name = "중간고사 성적표")
quiz2.index.name = '과목'
quiz2

과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사 성적표, dtype: int64