# Pandas

In [1]:
!conda list pandas

# packages in environment at C:\projects\Anaconda3:
#
# Name                    Version                   Build  Channel
pandas                    1.1.3            py38ha925a31_0  


In [4]:
import numpy as np # NumPy
import pandas as pd # Pandas

# IPython( jupyter notebook ) 디스플레이 설정 변경
# 출력할 열의 개수 한도 설정
pd.set_option('display.max_columns', 20)
# 출력할 열의 너비 설정
pd.set_option('display.max_colwidth', 20)
# 유니코드 사용 너비 조정
pd.set_option('display.unicode.east_asian_width',True)

# 경고 메세지 출력 방지
import warnings
warnings.filterwarnings('ignore')

![pandas_dataobject.png](attachment:pandas_dataobject.png)

# Series
## Series 객체 생성
### list를 이용한  Series 객체 생성
- 값이 위치값인 인덱스(index)는 따로 지정하지 않으면 0부터 1씩 증가하는 정수 인덱스를 사용한다.

In [19]:
#pd.Series() -> Series 객체 (클래스) 생성자
s = pd.Series([1,2,3,np.nan,6,8]) # np.nan = 결측치(값이 없다.)
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

### Series 객체 속성

In [20]:
type(s)

pandas.core.series.Series

In [21]:
s.index # 인덱스 내용

RangeIndex(start=0, stop=6, step=1)

In [22]:
type(s.index)

pandas.core.indexes.range.RangeIndex

In [11]:
s.values # 값( value )

array([ 1.,  2.,  3., nan,  6.,  8.])

In [12]:
type(s.values) # NumPy 배열

numpy.ndarray

### dict를 이용한  Series 객체 생성

In [23]:
s = pd.Series({'a':1,'b':2,'c':3})
s

a    1
b    2
c    3
dtype: int64

In [24]:
type(s)

pandas.core.series.Series

In [25]:
s.index # dict의 key가 인덱스  object = 문자열

Index(['a', 'b', 'c'], dtype='object')

In [26]:
type(s.index)

pandas.core.indexes.base.Index

In [27]:
s.values

array([1, 2, 3], dtype=int64)

In [28]:
type(s.values)

numpy.ndarray

### tuple을 이용한 Series 객체 생성

In [29]:
s = pd.Series(('hong','2015-01-01','male',True))
s

0          hong
1    2015-01-01
2          male
3          True
dtype: object

In [30]:
type(s)

pandas.core.series.Series

In [31]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [32]:
type(s.index)

pandas.core.indexes.range.RangeIndex

In [35]:
s.values # numpy 는 동일 자료형을 사용하기 때문에 True가 문자열로 인식된다.

array(['hong', '2015-01-01', 'male', True], dtype=object)

In [36]:
type(s.values)

numpy.ndarray

###  Series 객체 생성시 index 부여

In [51]:
s = pd.Series(data = ('hong','2015-01-01','male',True),
             index=['이름','생년월일','성별','학생유무'])
s

이름              hong
생년월일    2015-01-01
성별              male
학생유무          True
dtype: object

In [52]:
s.index

Index(['이름', '생년월일', '성별', '학생유무'], dtype='object')

In [53]:
s.values

array(['hong', '2015-01-01', 'male', True], dtype=object)

### API (Application Programming Interface ) : 프로그램 간에 연결을 위해 사용하는 함수 집합

In [54]:
s = pd.Series() # 기본적인 default 파라미터가 있기 때문에 생성 가능하다.
s

Series([], dtype: float64)

### Series 객체 indexing / slicing

In [55]:
s = pd.Series(data = ('hong','2015-01-01','male',True),
             index=['이름','생년월일','성별','학생유무'])
s

이름              hong
생년월일    2015-01-01
성별              male
학생유무          True
dtype: object

In [56]:
s[0] # 정수 인덱스를 이용한 indexing -> scalar(값)

'hong'

In [57]:
s[2]

'male'

In [58]:
s['이름'] # 사용자 정의 인덱스를 이용한 indexing

'hong'

In [59]:
s['생년월일']

'2015-01-01'

In [60]:
s[[0,2]] # 정수 인덱스 배열을 이용한 indexing -> Series 객체

이름    hong
성별    male
dtype: object

In [61]:
s[['이름','성별']] # 사용자 정의 인덱스 배열을 이용한 indexing

이름    hong
성별    male
dtype: object

### Series 객체 slicing

In [62]:
s[0:2] # 정수 인덱스를 이용한 slicing -> 마지막 범위 미포함

이름              hong
생년월일    2015-01-01
dtype: object

In [64]:
s['이름':'성별'] # 사용자 정의 인덱스를 이용한 slicing -> 마지막 범위 포함

이름              hong
생년월일    2015-01-01
성별              male
dtype: object

## DataFrame
### DataFrame 생성

In [65]:
d = { 'a':[1,2,3,4,5],
     'b':[10,20,30,40,50],
     'c':[100,200,300,400,500]}
df = pd.DataFrame(d)
df

Unnamed: 0,a,b,c
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


### DataFrame 속성

In [66]:
type(df)

pandas.core.frame.DataFrame

In [67]:
df.index # 행( 데이터 ) 인덱스

RangeIndex(start=0, stop=5, step=1)

In [68]:
df.columns # 열( 변수 ) 이름

Index(['a', 'b', 'c'], dtype='object')

In [69]:
df.values # 원소

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400],
       [  5,  50, 500]], dtype=int64)

In [71]:
type(df.index)

pandas.core.indexes.range.RangeIndex

In [73]:
type(df.columns)

pandas.core.indexes.base.Index

In [74]:
type(df.values)

numpy.ndarray

###  열 인덱스 / 행 이름 지정

In [76]:
l = [[15, '남','hong'],[17,'여','kim']]
il = ['one','two']
cl = ['나이','성별','이름']

df = pd.DataFrame(l,index = il, columns = cl)
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [77]:
df.index

Index(['one', 'two'], dtype='object')

In [78]:
df.columns

Index(['나이', '성별', '이름'], dtype='object')

In [79]:
df.values

array([[15, '남', 'hong'],
       [17, '여', 'kim']], dtype=object)

In [80]:
df.dtypes

나이     int64
성별    object
이름    object
dtype: object

In [81]:
a = np.array(l)
df = pd.DataFrame(a, index = il, columns = cl)
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim
