# Pandas

## Type

1. Series
2. DataFrame

### 1. Series Data Type

In [1]:
import pandas as pd

In [2]:
series = pd.Series([1, 2, 3, 4])

series

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
series = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

series

a    1
b    2
c    3
d    4
dtype: int64

In [4]:
series.head() # 상위 N개 데이터 (기본값: 5)

a    1
b    2
c    3
d    4
dtype: int64

In [5]:
series = pd.Series({'a': 97, 'b': 98, 'c': 99})

series

a    97
b    98
c    99
dtype: int64

In [6]:
import numpy as np

In [12]:
series = pd.Series([0, 0, 1, 2, 3, 4, 5, 6, np.nan])

print('length:', len(series))
print('count:', series.count()) # NaN은 카운트되지 않음

# 데이터셋에 NaN이 들어가 있으면 dtype은 float64로 할당된다.
print(series)

length: 9
count: 8
0    0.0
1    0.0
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    6.0
8    NaN
dtype: float64


In [13]:
# like set() - NaN을 포함한다.
series.unique()

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6., nan])

In [14]:
# key - data value / value - counts
# output: Series - NaN은 제외된다.
series.value_counts()

0.0    2
1.0    1
2.0    1
3.0    1
4.0    1
5.0    1
6.0    1
dtype: int64

In [16]:
# index를 기준으로 두 개의 Series가 연산이 이루어진다.
seriesA = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
seriesB = pd.Series([4, 3, 2, 1], index=['d', 'c', 'b', 'a'])

seriesA + seriesB

a    2
b    4
c    6
d    8
dtype: int64

### 2. DataFrame

다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형

이는 dictionary 형태와 유사하다.
- `{ 'colA': SeriesA, 'colB': SeriesB }`
- 각 Series는 DataFrame의 column을 이룸
- DataFrame을 이루는 Series간의 index는 동일함

In [19]:
seriesA = np.arange(1, 6, 1)
seriesB = np.arange(6, 11, 1)

seriesA, seriesB

(array([1, 2, 3, 4, 5]), array([ 6,  7,  8,  9, 10]))

In [21]:
pd.DataFrame({'colA': seriesA, 'colB': seriesB})

Unnamed: 0,colA,colB
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [22]:
pd.DataFrame([[1, 2, 3], [4, 5, 6]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [23]:
pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [32]:
pd.DataFrame([
    pd.Series(np.arange(1, 6)),
    pd.Series(np.arange(6, 11)),
    pd.Series(np.arange(11, 16))
])

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15


In [31]:
pd.DataFrame([
    np.arange(1, 6),
    np.arange(6, 11),
    np.arange(11, 16)
])

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15


In [36]:
pd.DataFrame(
    [[1, 2, 3], [4, 5, 6]],
    columns=['colA', 'colB', 'colC'],
    index=['a', 'b']
)

Unnamed: 0,colA,colB,colC
a,1,2,3
b,4,5,6


In [38]:
# value는 항상 iterable instance를 넘겨야 한다.
pd.DataFrame({'c1': [0], 'c2': [1]})

Unnamed: 0,c1,c2
0,0,1


In [39]:
seriesA = pd.Series(np.arange(1, 6, 1), index=['a', 'b', 'c', 'd', 'e'])
seriesB = pd.Series(np.arange(6, 11, 1), index=['c', 'd', 'e', 'f', 'g'])

pd.DataFrame({'colA': seriesA, 'colB': seriesB})

Unnamed: 0,colA,colB
a,1.0,
b,2.0,
c,3.0,6.0
d,4.0,7.0
e,5.0,8.0
f,,9.0
g,,10.0


In [48]:
seriesA = pd.Series(np.arange(1, 6, 1))
seriesB = pd.Series(np.arange(6, 11, 1))
seriesC = pd.Series(np.arange(11, 16), index=[0, 1, 2, 5, 6])

df = pd.DataFrame({'colA': seriesA, 'colB': seriesB, 'colC': seriesC})

df

Unnamed: 0,colA,colB,colC
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,9.0,
4,5.0,10.0,
5,,,14.0
6,,,15.0


In [51]:
# 새로운 컬럼 추가
df['colD'] = pd.Series([11, 12, 13, 14], index=[0, 2, 4, 6])

df

Unnamed: 0,colA,colB,colC,colD
0,1.0,6.0,11.0,11.0
1,2.0,7.0,12.0,
2,3.0,8.0,13.0,12.0
3,4.0,9.0,,
4,5.0,10.0,,13.0
5,,,14.0,
6,,,15.0,14.0
