# 판다스(Pandas) 란?
- 데이터 처리와 분석을 위한 파이썬 라이브러리
- 파이썬계의 엑셀
- import pandas as pd



# Pandas의 자료구조
- 시리즈(Series) : 리스트와 딕셔너리 두가지의 장점을 섞어놓은 듯한 자료구조
- 데이터프레임(DataFrame) : Row와 Column으로 이뤄진 2차원 형태의 자료구조, 시리즈의 결합체

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.__version__

'0.24.2'

# Series 만들기
- 시리즈란
```
인덱스와 값이 자동으로 생성되는 데이터 단위
넘파이 배열에서 인덱스가 추가된 형태
시리즈의 집합체는? => 데이타셋
```

- 1차원 배열
- 시리즈이름 = pd.Series([리스트])
- 시리즈이름 = pd.Series([딕셔너리])
- 시리즈이름 = pd.Series(넘파이배열 np.arange() 등)

## 정수 리스트로 시리즈 생성

In [3]:
s1 = pd.Series([1,-5,8,9,10])
s1

0     1
1    -5
2     8
3     9
4    10
dtype: int64

In [4]:
s2 = pd.Series(['도','레','미'])
s2

0    도
1    레
2    미
dtype: object

In [5]:
type(s2)

pandas.core.series.Series

# 딕셔너리로 시리즈 생성 

In [6]:
myDict = {'a': 'banana', 'b ': 'apple'}
mySeries = pd.Series(myDict)
mySeries

a     banana
b      apple
dtype: object

In [7]:
mySeries['a']

'banana'

In [8]:
mySeries.a

'banana'

In [14]:
s3 = pd.Series(np.arange(2,21,2))
s3

0     2
1     4
2     6
3     8
4    10
5    12
6    14
7    16
8    18
9    20
dtype: int32

In [15]:
s3[0]

2

# Series의 index, values, dtype 속성
- 시리즈의이름.index : 인덱스
- 시리즈의이름.values : 값 = > 넘파이 배열 형태로 표시
- 시리즈의이름.dtype : 데이터형
 

In [17]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [18]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [19]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [20]:
obj.dtype

dtype('int64')

In [21]:
type(obj.index)

pandas.core.indexes.range.RangeIndex

In [22]:
obj.size

4

In [23]:
obj.shape

(4,)

# Series의 인덱스 지정하기
- 시리즈 이름 = pd.Series(리스트/딕셔너리/넘파이배열,index=[인덱스 리스트])

In [25]:
fruitSeries = pd.Series([100,200,400],index=['수박','토마토','바나나'])
fruitSeries

수박     100
토마토    200
바나나    400
dtype: int64

In [26]:
fruitSeries.index

Index(['수박', '토마토', '바나나'], dtype='object')

In [27]:
fruitSeries.index[0]

'수박'

In [28]:
fruitSeries.values

array([100, 200, 400], dtype=int64)

In [29]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [31]:
# 인덱스 재설정
obj.index =['d','b','a','c']
obj

d    4
b    7
a   -5
c    3
dtype: int64

In [33]:
sdata = {'a': 1000, 'b' : 2000}
obj = pd.Series(sdata)
obj

a    1000
b    2000
dtype: int64

In [34]:
obj.index

Index(['a', 'b'], dtype='object')

In [35]:
obj.index[1]

'b'

# 시리즈 이름과 인덱스 이름의 대표 이름 설정하기
- 시리즈이름.name = 이름
- 시리즈이름.index.name = 인덱스이름

In [36]:
sdata = {'a': 1000, 'b' : 2000, 'c' : 3000}
obj = pd.Series(sdata)
obj

a    1000
b    2000
c    3000
dtype: int64

In [37]:
obj.name = 'a'
obj.index.name = 'Names'
obj

Names
a    1000
b    2000
c    3000
Name: a, dtype: int64

# 퀴즈

In [38]:
grade = {'국어': 90, '수학':80, '영어':100, '과학':55, '역사':70}
obj = pd.Series(grade)
obj

국어     90
수학     80
영어    100
과학     55
역사     70
dtype: int64

In [40]:
obj.name = '중간고사 성적표'
obj.index.name = '과목'
obj

과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사 성적표, dtype: int64

In [45]:
obj.values.mean()

79.0

In [51]:
num = np.random.randint(100,201,size = 7)
num

array([188, 131, 199, 192, 148, 106, 136])

In [52]:
obj = pd.Series(num)
obj

0    188
1    131
2    199
3    192
4    148
5    106
6    136
dtype: int32

In [54]:
obj.index =['one','two','three','four','five','six','seven']
obj

one      188
two      131
three    199
four     192
five     148
six      106
seven    136
dtype: int32

In [66]:
obj.name = '[ 100 - 201 Random Num Series]'
obj.index.name = 'index'
print(obj)
print('Total : ',obj.sum())
print('Average : %.3f '% obj.mean())

index
one      188
two      131
three    199
four     192
five     148
six      106
seven    136
Name: [ 100 - 201 Random Num Series], dtype: int32
Total :  1100
Average : 157.143 


In [57]:
obj.values.sum()

1100

In [61]:
np.set_printoptions(precision=3)
obj.values.mean()

157.14285714285714