# 1. Series Data type

- Numpy's ndarray + 숫자가 아닌 다른 type의 index (E.g. 문자열)

In [4]:
import pandas as pd

In [5]:
a = pd.Series([1,2,3,4])
a
# default index

0    1
1    2
2    3
3    4
dtype: int64

In [8]:
# 1. 인덱스 리스트 지정
s2 = pd.Series(
    [1,2,3,4],
    index = ['a','b','c','d']
)
s2

a    1
b    2
c    3
d    4
dtype: int64

In [10]:
# 2. dict 자료형 변환
s2 = pd.Series(
    {'a':1,'b':2,'c':3,'d':4}
)
s2

a    1
b    2
c    3
d    4
dtype: int64

## 1.1. nan과 관련된 함수

In [11]:
import numpy as np

In [12]:
np.nan

nan

In [14]:
s = pd.Series([10,0,1,1,2,3,4,5,6,np.nan])
s

0    10.0
1     0.0
2     1.0
3     1.0
4     2.0
5     3.0
6     4.0
7     5.0
8     6.0
9     NaN
dtype: float64

In [15]:
len(s)

10

In [18]:
s.count()
# NaN이 아닌 값

9

In [20]:
s.unique()
# unique한 값 (python set)

array([10.,  0.,  1.,  2.,  3.,  4.,  5.,  6., nan])

In [21]:
s.value_counts()
# 각 값의 개수

1.0     2
0.0     1
6.0     1
4.0     1
2.0     1
10.0    1
5.0     1
3.0     1
dtype: int64

## 1.2. Index label을 기준으로 Series간에 operation이 일어남

In [22]:
s3 = pd.Series([1,2,3,4], index=['a','b','c','d'])
s4 = pd.Series([4,3,2,1], index=['d','c','b','a'])

In [24]:
s3

a    1
b    2
c    3
d    4
dtype: int64

In [25]:
s4

d    4
c    3
b    2
a    1
dtype: int64

In [27]:
s3 + s4
# index를 기준으로 연산이 이루어짐

a    2
b    4
c    6
d    8
dtype: int64

# 2. DataFrame Data type

- 다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형
  - Series의 dict 형태라고 보면 됨
    - {'컬럼명1' : Series1, '컬럼명2' : Series2}
    - 각 Series는 DataFrame의 column을 이룬다.
    - 당연히 DataFrame을 이루는 Series간의 index는 서로 다 같음 (동일 index 사용)

## 2.1. DataFrame을 만드는 다양한 방법들

In [28]:
s1 = np.arange(1, 6, 1)
s2 = np.arange(6, 11, 1)
s1, s2

(array([1, 2, 3, 4, 5]), array([ 6,  7,  8,  9, 10]))

In [30]:
# 0. Dictinary Data (value에 iterable한 object는 모두 가능)

df = pd.DataFrame({'c1':s1,'c2':s2})
df

Unnamed: 0,c1,c2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [31]:
# 1. 2차원 Data. 각 원소가 행을 이루게 됨.

pd.DataFrame(
    [
        [10,11],[10,12]
    ]
)

pd.DataFrame(
    np.array(
        [
            [10,11],[10,11]
        ]
    )
)

Unnamed: 0,0,1
0,10,11
1,10,11


In [33]:
# 2, Series Data

pd.DataFrame(
    [
        pd.Series(np.arange(10,15)),
        pd.Series(np.arange(15,20))
    ]
)

Unnamed: 0,0,1,2,3,4
0,10,11,12,13,14
1,15,16,17,18,19


In [35]:
# 3. Column and Index

pd.DataFrame(
    np.array(
        [
            [10,11],[10,11]
        ]
    ),
    columns= ['a','b'],
    index = ['r1','r2']
)

Unnamed: 0,a,b
r1,10,11
r2,10,11


## 2.2. DataFrame 생성 시 Series간의 Index 기준으로 자동 정렬

In [45]:
s1 = pd.Series(np.arange(1,6,1))
s2 = pd.Series(np.arange(6,11,1))
s3 = pd.Series(np.arange(12,15), index=[1,2,10])

df = pd.DataFrame({'c1':s1,'c2':s2,'c3':s3})
df

Unnamed: 0,c1,c2,c3
0,1.0,6.0,
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,9.0,
4,5.0,10.0,
10,,,14.0


## 2.3. DataFrame에 새로운 Column 추가하기

In [46]:
df['c4'] = pd.Series([1,2,3,4], index = [0,1,2,10])
df

Unnamed: 0,c1,c2,c3,c4
0,1.0,6.0,,1.0
1,2.0,7.0,12.0,2.0
2,3.0,8.0,13.0,3.0
3,4.0,9.0,,
4,5.0,10.0,,
10,,,14.0,4.0
