# NumPy, pandas, matplotlib 패키지 개괄

* **NumPy** :
    * 클래스 : **ndarray**(n-dimensional array)
    * 배열(array) 또는 행렬(matrix)과 같은 숫자형 데이터들을 빠르게 연산함
* **pandas** :
    * 클래스 : **Series**(1차원 데이터), **DataFrame**(2차원 데이터)
    * **표(table)** 와 같은 형태의 데이터를 분석, 정제, 조작하는 기능
* **matplotlib** :
    * **시각화(visualization)**

In [1]:
import pandas as pd

In [2]:
# pandas 패키지 버전 확인
pd.__version__

'1.1.3'

# pandas.Series
* **pandas.Series** : 1가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* One-dimensional ndarray with axis labels

In [3]:
s = pd.Series([1, 3, -5, 7])
print(s)

0    1
1    3
2   -5
3    7
dtype: int64


In [4]:
print(type(s)) #pd.Series의 타입(클래스) 보기

<class 'pandas.core.series.Series'>


In [5]:
print(s.index) # pd.Series의 인덱스

RangeIndex(start=0, stop=4, step=1)


In [6]:
# Series.values : 저장된 값들(ndarray 형식으로 나타난다)
print(s.values)

[ 1  3 -5  7]


## indexing
* Series의 원소 접근 : 인덱스 사용
* indexing, slicing...

In [8]:
print(s)

0    1
1    3
2   -5
3    7
dtype: int64


In [9]:
# pd.Series 객체인 s의 0번 인덱스의 원소를 출력
print(s[0])

1


In [10]:
# pd.Series는 마이너스 인덱싱이 불가능하다.
# 예> s[-1]은 에러 발생함

In [11]:
# Slicing
print(s[:3])

0    1
1    3
2   -5
dtype: int64


In [12]:
print(s[2:])

2   -5
3    7
dtype: int64


## fancy indexing
* list, array와 같은 객체로 indexing함

In [13]:
print(s[[0,2]])

0    1
2   -5
dtype: int64


## boolean indexing
* boolean들의 list(또는 array, Series)로 indexing

In [14]:
print(s[[True, True, False, False]])

0    1
1    3
dtype: int64


In [15]:
print(s > 0)

0     True
1     True
2    False
3     True
dtype: bool


In [16]:
print(s[s > 0])

0    1
1    3
3    7
dtype: int64


## loc vs iloc
* **`Series.loc[label]`** : label-base location(index)
* **`Series.iloc[integer]`** : integer-base location(index)

In [18]:
s = pd.Series(data = [1, 3, -5, 7],
              index = ['a', 'b', 'c', 'd'])
print(s)

a    1
b    3
c   -5
d    7
dtype: int64


In [19]:
print(s['a'], s[0])

1 1


In [20]:
print(s['b'], s[1])

3 3


### .loc
* label-base location(index)

In [21]:
s.loc['a']
# s.loc[0] : Error 발생

1

In [23]:
s.loc['b']

3

### iloc
* integer-base location(index)

In [24]:
s.iloc[0]

1

In [25]:
s.iloc[1]

3

### slicing에서 loc와 iloc의 차이

In [26]:
# label-based(loc)는 s.loc['a']와 s.loc['c']가 모두 포함됨
s.loc['a':'c']

a    1
b    3
c   -5
dtype: int64

In [27]:
# integer-based(iloc)는 s.iloc[2]가 포함되지 않음
s.iloc[0:2]

a    1
b    3
dtype: int64

In [29]:
s = pd.Series([1, 3, 5, 7, 9])
print(s)

0    1
1    3
2    5
3    7
4    9
dtype: int64


In [30]:
print(s.loc[1:3])

1    3
2    5
3    7
dtype: int64


In [31]:
print(s.iloc[1:3])

1    3
2    5
dtype: int64


In [32]:
print(s.loc[4], s.iloc[4], s.iloc[-1])

9 9 9


In [34]:
city_pop = {'서울' : 10_000_000, '경기' : 15_000_000, '인천' : 1_000_000}
print(city_pop)

{'서울': 10000000, '경기': 15000000, '인천': 1000000}


In [36]:
s = pd.Series(data = city_pop)
print(s)

서울    10000000
경기    15000000
인천     1000000
dtype: int64


In [37]:
# loc 사용한 fancy indexing
print(s.loc[['경기', '서울']])

경기    15000000
서울    10000000
dtype: int64


In [39]:
# iloc 사용한 fancy indexing
print(s.iloc[[1, 0]])

경기    15000000
서울    10000000
dtype: int64
