# Pandas


In [1]:
import pandas as pd

# Series

1차원 배열 자료형으로, **인덱스와 값의 쌍**으로 구성되어있다.  

> 정의 방식: 딕셔너리를 이용하거나, 리스트를 이용한 후 인덱스를 부여한다.  
  인덱스를 정의하는 경우보다는 리스트를 이용하는 경우가 더 많다.  
`
pd.Series({"a": 1, "b": 2, "c":3, "d":4})
pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
`

여기의 데이터는 ndarray로, Series는 ndarray에 인덱스가 부여된 형태의 데이터이다.  
Series에도 유니버설 함수와 브로드캐스팅 등이 적용된다.  


## Series 

### 시리즈 만들기

In [2]:
# 딕셔너리 구조 이용 

S = pd.Series({"a": 1, "b": 2, "c":3, "d":4})
S

a    1
b    2
c    3
d    4
dtype: int64

In [3]:
# 리스트와 인덱스 리스트 이용

S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S

a    1
b    2
c    3
d    4
dtype: int64

In [9]:
# 리스트를 이용하면 위치인덱스를 이용하여 자동적으로 0부터 인덱스가 부여됨

S = pd.Series([1, 2, 3, 4])
S

0    1
1    2
2    3
3    4
dtype: int64

### Series.values

Series에는 `values`라는 어트리뷰트가 있다.  
S라는 Series에 포함된 데이터(ndarray)를 볼 수 있다.  


In [5]:
S.values

array([1, 2, 3, 4])

In [6]:
type(S.values)

numpy.ndarray

### Series.index

인덱스를 확인할 수 있다.

In [8]:
S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S.index

Index(['a', 'b', 'c', 'd'], dtype='object')

### Series에 유니버설 함수와 브로드캐스팅

`S`는 시리즈여서 제곱이라는 개념이 적용이 되지 않을 것 같지만 유니버설 함수가 적용된다

In [10]:
S ** 2 # 유니버설 함수와 브로드캐스팅이 적용됨

0     1
1     4
2     9
3    16
dtype: int64

# DataFrame

데이터프레임은 2차원 배열 자료형으로 값, 행 인덱스, 열 인덱스로 구성되어 있다.

> 정의: 딕셔너리를 이용하거나, 데이터-컬럼-인덱스를 따로 정의함.
`
pd.DataFrame({"col1": [1, 2, 3, 4],
                  "col2": [5, 6, 7, 8]}, 
                  index = ['a', 'b', 'c', 'd'])
pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
`

기존에 있는 데이터를 그대로 가져와서 쓰기위해 쓰는 경우가 더 많기 때문에, 딕셔너리를 이용하는 경우가 더 많다.

DataFrame은 ndarray에 행과 열 인덱스가 부여된 형태의 데이터이다.  
즉, DataFrame은 하나 이상의 Series의 집합이라고 볼 수 있다.  


## DataFrame 만들기

In [11]:
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                  "col2": [5, 6, 7, 8]}, 
                  index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,col1,col2
a,1,5
b,2,6
c,3,7
d,4,8


In [12]:
df = pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


## DataFrame.values
값에 접근하기

한 행의 값들이 리스트로 묶이고, 여러 행이 리스트로 묶여 array가 된다. 

In [13]:
df.values

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [14]:
type(df.values)

numpy.ndarray

## index, columns

In [15]:
# 행 인덱스 출력

df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [17]:
# 열 인덱스(컬럼들) 출력: 자주 쓰임

df.columns

Index(['Col1', 'Col2'], dtype='object')

In [19]:
# 한 열의 타입: 판다스 시리즈

type(df['Col1'])

pandas.core.series.Series