# Pandas

* NumPy를 내부적으로 활용 가능 (NumPy의 특징을 그대로 가짐)
* 데이터 분석에 특화된 데이터 구조 제공 
* 다양한 데이터 분석 함수 제공 
* 데이터베이스에 쉽게 연결 가능 

### Pandas의 주요 구성 요소 
* DataFrame
* Series
* Index 


In [1]:
#pandas install (as pd -> pd라고 간단하게 부르겠다)
import pandas as pd
import numpy as np

### Series data 생성 

In [3]:
a = pd.Series([1,2,3,4])
print(a)

b = pd.Series([1,2,3,4], index=['a','b','c','d'])
print(b)

0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


In [4]:
#type 확인
print(type(a))
print(type(b))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


#Series 속성
* index 
* values

In [5]:
print(a.index)
print(a.values)
print(b.index)
print(b.values)

RangeIndex(start=0, stop=4, step=1)
[1 2 3 4]
Index(['a', 'b', 'c', 'd'], dtype='object')
[1 2 3 4]


### 인덱싱 & 슬라이싱 
* Series의 index 번호와 index 명으로 접근 가능

In [6]:
#인덱싱
print(b['b'])
print(b[1])

#떨어진 두 개 이상의 값 인덱싱
print(b[['a','c']])
print(b[[1,3]])

2
2
a    1
c    3
dtype: int64
b    2
d    4
dtype: int64


In [7]:
#슬라이싱
print(b[0:2])
print(b[:-1])
print(b[-2:])
print(b['a':'c'])

#값 바꾸기
b['a':'c']=100
print(b)

a    1
b    2
dtype: int64
a    1
b    2
c    3
dtype: int64
c    3
d    4
dtype: int64
a    1
b    2
c    3
dtype: int64
a    100
b    100
c    100
d      4
dtype: int64


### Series 값 변경
* 추가 및 업데이트 -> 인덱스 사용
* 삭제: drop 함수 사용

In [8]:
print(a)

0    1
1    2
2    3
3    4
dtype: int64


In [9]:
#값 업데이트
a[2]=500
print(a)

0      1
1      2
2    500
3      4
dtype: int64


In [10]:
#값 추가
a[4]=100
print(a)

0      1
1      2
2    500
3      4
4    100
dtype: int64


In [18]:
#값 삭제
a.drop(3)

0      1
1      2
2    500
dtype: int64

* Series 함수
> Series size, shape, unique, count, value_counts 함수 

* size: 개수 반환
* shap: tuple 형태로 shape 반환
* unique: 유일한 값만 ndarray로 반환
* mean: NaN을 제외한 평균
* value_counts: NaN을 제외하고 각 값들의 빈도를 반환 


In [19]:
s = pd.Series([1,1,2,2,2,3,3,5,6,7,None])
print(s)

0     1.0
1     1.0
2     2.0
3     2.0
4     2.0
5     3.0
6     3.0
7     5.0
8     6.0
9     7.0
10    NaN
dtype: float64


In [21]:
print("len: ",len(s))
print("size: ",s.size)
print("shape: ", s.shape )
print("unique: ", s.unique)

len:  11
size:  11
shape:  (11,)
unique:  <bound method Series.unique of 0     1.0
1     1.0
2     2.0
3     2.0
4     2.0
5     3.0
6     3.0
7     5.0
8     6.0
9     7.0
10    NaN
dtype: float64>


In [22]:
print(s.count)

<bound method Series.count of 0     1.0
1     1.0
2     2.0
3     2.0
4     2.0
5     3.0
6     3.0
7     5.0
8     6.0
9     7.0
10    NaN
dtype: float64>


In [24]:
s.value_counts()

2.0    3
1.0    2
3.0    2
5.0    1
6.0    1
7.0    1
Name: count, dtype: int64