# Pandas

- https://pandas.pydata.org/

- Pandas는 파이썬을 이용한 데이터 분석을 수행하는데 사용되는 가장 대표적인 라이브러리이다.
- R의 DataFrame을 파이썬 버전으로 만든 라이브러리라 생각해도 된다.
- Pandas는 NumPy를 기반으로 작성된 라이브러리이다.
- Pandas는 NumPy의 ndarray객체를 이용한 배열처럼 동일 차료형만으로 1/2차원 배열을 생성하는 것이 아니고 다양한 자료형을 저장할 수 있는 1/2차원 배열을 제공한다.
- Pandas에서 1차원 배열은 Series 객체를 이용하여 생성하고, 2차원 배열은 DataFrame을 이용하여 생성한다.

#### Pandas import

In [33]:
import pandas as pd
import numpy as np

### Series 객체

- **1차원 형태**의 배열을 생성하는 객체

series 객체 생성

In [3]:
s = pd.Series( [ 10, 20, 30 ,40, 50 ] )      
s

0    10
1    20
2    30
3    40
4    50
dtype: int64

- 값 옆에 자동으로 인덱스가 부여됨 

#### Series 객체 기본 속성

In [7]:
s.index   # series객체란 판다스 시리즈로 만든 객체

RangeIndex(start=0, stop=5, step=1)

In [8]:
s.values

array([10, 20, 30, 40, 50], dtype=int64)

In [17]:
s = pd.Series( [ 'a', 'b', 'c', 1, 2, 3 ] )
s                     

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

- series는 요소값이 달라도 사용 가능 / 동일하지 않아도 됨(넘파이는 동일해야함) - object란 그냥 객체라는 뜻( 문자, 숫자도 아닌 그냥 객체) 

In [47]:
value = [ 1, 2, 3, 4, 5 ]
index = [ '짱' ,'돌짱', '하나졸개', '둘졸개', '셋졸개' ]
s = pd.Series( value, index )     #   s = pd.Series( value, index = index )도 같음 
s

짱       1
돌짱      2
하나졸개    3
둘졸개     4
셋졸개     5
dtype: int64

In [25]:
s.index

Index(['짱', '돌짱', '하나졸개', '둘졸개', '셋졸개'], dtype='object')

In [26]:
s.values

array([1, 2, 3, 4, 5], dtype=int64)

In [27]:
d = { '국어': 50, '영어': 50, '수학': 50 }
s = pd.Series( d )
s

국어    50
영어    50
수학    50
dtype: int64

In [28]:
s.index

Index(['국어', '영어', '수학'], dtype='object')

In [30]:
s.values

array([50, 50, 50], dtype=int64)

In [34]:
s = pd.Series( [ np.nan, 10, 30 ] )    # nan는 결측치
s

0     NaN
1    10.0
2    30.0
dtype: float64

In [35]:
s. index

RangeIndex(start=0, stop=3, step=1)

In [36]:
s.values

array([nan, 10., 30.])

In [50]:
index_date = [ '2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04' ]
values = [ 200, 195, np.nan, 205 ]
s = pd.Series( values, index = index_date )
s

2020-06-01    200.0
2020-06-02    195.0
2020-06-03      NaN
2020-06-04    205.0
dtype: float64

In [42]:
s.index

Index(['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04'], dtype='object')

In [43]:
s.values

array([200., 195.,  nan, 205.])

In [54]:
pd.date_range(start = '2020-06-18', periods = 7)

DatetimeIndex(['2020-06-18', '2020-06-19', '2020-06-20', '2020-06-21',
               '2020-06-22', '2020-06-23', '2020-06-24'],
              dtype='datetime64[ns]', freq='D')

#### Series 객체 요소 지정

In [56]:
values = [ 10, 20, 30, 40, 50, 60 ]
indexs = [ 'a', 'b', 'c', 'd', 'e', 'f' ]
s = pd.Series( values, index = indexs )
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [57]:
 s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [58]:
s.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [59]:
s[ 0 ]      # 인덱스를 'a'로 부여하더라도 기존 숫자 인덱스는 사용 가능하다.

10

In [61]:
s[ 'a' ]

10

In [62]:
s[ [ 0, 2 ] ]

a    10
c    30
dtype: int64

In [64]:
s[ [ 'a', 'c' ] ]

a    10
c    30
dtype: int64

In [65]:
s[ 1:3 ]

b    20
c    30
dtype: int64

In [66]:
s[ 'b':'d' ]

b    20
c    30
d    40
dtype: int64

## DataFrame 

- DataFrame은 2차원 배열 구조이다.
- DataFrame은 Series객체가 하나의 열을 구성하는 형태이다.
- R의 DataFrame과 같은 구조를 갖는다.


### DataFrame 생성

In [67]:
d = pd.DataFrame( [ [ 1, 2, 3 ], [ 4, 5, 6 ], [ 7, 8, 9 ] ] )
d

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [68]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [71]:
d.columns

RangeIndex(start=0, stop=3, step=1)

In [70]:
d.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]], dtype=int64)

In [73]:
values = np.array( [ [ 10, 20, 30 ], [ 40, 50, 60 ], [ 70, 80,90 ] ] )
columns = [ 'A', 'B', 'C' ]
d = pd.DataFrame( values, columns = columns )
d

Unnamed: 0,A,B,C
0,10,20,30
1,40,50,60
2,70,80,90


In [74]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [75]:
d.columns

Index(['A', 'B', 'C'], dtype='object')

In [76]:
d.values

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [78]:
d_list = { '이름' : [ 'hong', 'kim', 'lee' ],
           '국어' : [ 50, 90, 70 ],
           '영어' : [ 50, 90, 70 ],
           '수학' : [ 50, 90, 70 ] }
d = pd.DataFrame( d_list )
d

Unnamed: 0,이름,국어,영어,수학
0,hong,50,50,50
1,kim,90,90,90
2,lee,70,70,70


In [79]:
d.index

RangeIndex(start=0, stop=3, step=1)

In [80]:
d.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [81]:
d.values

array([['hong', 50, 50, 50],
       ['kim', 90, 90, 90],
       ['lee', 70, 70, 70]], dtype=object)

In [83]:
# 밑에껀 보류

In [82]:
names = pd.Series( [ 'hong', 'kim', 'lee' ] )
koreans = pd.Series( [ 50, 50, 70 ] )
englishs = pd.Series( [ 50, 50, 70 ] )
maths = pd.Series( [ 50, 50, 70 ] )
col_list = pd.Series( [ 'names', 'kor', 'eng', 'math' ] )
d = pd.DataFrame( [ names, koreans, englishs, math ],
                columns = col_list)
d

NameError: name 'math' is not defined

In [85]:
data = np.array( [ [ 10, 20, 30, 40 ], [ 100, 200, 300, 400 ] ] )
index_list = pd.date_range( '2020-06-15', periods = 2 )
col_list = [ 'A', 'B', 'C', 'D' ]
d = pd.DataFrame( data, index = index_list, columns = col_list )
d

Unnamed: 0,A,B,C,D
2020-06-15,10,20,30,40
2020-06-16,100,200,300,400


In [86]:
d.index

DatetimeIndex(['2020-06-15', '2020-06-16'], dtype='datetime64[ns]', freq='D')

In [87]:
d.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [88]:
d.values

array([[ 10,  20,  30,  40],
       [100, 200, 300, 400]])