## Pandas : 데이터분석 라이브러리 패키지
### 지원하는 자료구조 3가지
    1차원 : Series
        - 데이터 종류 : 배열, 리스트, 시퀀스 데이터
        - 디폴트 index : 0, 1, 2...
            - 리스트 -> Series 변경
        - 별도의 index 지정 가능
            - 딕셔너리 -> Series 변경
            - 리스트 -> Series 변경 + index 파라미터 추가
        - 파라미터
            - 데이터
            - index : index 레이블 지정
            - name : 이름 짓기
    2차원 : DataFrame
        - 데이터 종류 : 배열, 리스트, 딕셔너리, Series
        - 행, 열 존재
        - 파라미터
            - 데이터
            - index : index 레이블 지정
            - columns : 열 순서 지정
            - dtype으로 열 이름, 각 열의 dtype 같이 지정 가능        
    3차원 : Panel

In [1]:
import pandas as pd

In [2]:
# 1차원 : Series 만들기

# 1. 디폴트 index
data = [1, 3, 5, 7, 9]
s = pd.Series(data)
print(s)

# 2. 별도의 index
# 딕셔너리 -> Series 변경
data = {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}
s = pd.Series(data)
print(s)

# 리스트 -> Series 변경 + index 파라미터 추가
data = [10, 20, 30, 40, 50]
s = pd.Series(data,
             index = ['a', 'b', 'c', 'd', 'e'])
print(s)

0    1
1    3
2    5
3    7
4    9
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64
a    10
b    20
c    30
d    40
e    50
dtype: int64


In [3]:
# 특징
# index 출력 가능
print(s.index)

# index, 지정 라벨로 접근 가능 : index, key, .get('key')
print(s[0:3])
print(s['d'])
print(s.get('e'))

# 산술 계산 가능
print(s*2)
print(s+s)
print(s-s)
print(s*s)
print(s/s)
import numpy as np
print(np.exp(s))

# 이름을 지어줄 수 있다.
s = pd.Series(data,
             index=['a', 'b', 'c', 'd', 'e'],
             name="alphabet")
print(s)
print(s.name)  # 이름을 지어줌
print(s.rename('ALPHABET'))  # 이름 변경 
print(s)  # 원본 데이터는 변하지 않음

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
a    10
b    20
c    30
dtype: int64
40
50
a     20
b     40
c     60
d     80
e    100
dtype: int64
a     20
b     40
c     60
d     80
e    100
dtype: int64
a    0
b    0
c    0
d    0
e    0
dtype: int64
a     100
b     400
c     900
d    1600
e    2500
dtype: int64
a    1.0
b    1.0
c    1.0
d    1.0
e    1.0
dtype: float64
a    2.202647e+04
b    4.851652e+08
c    1.068647e+13
d    2.353853e+17
e    5.184706e+21
dtype: float64
a    10
b    20
c    30
d    40
e    50
Name: alphabet, dtype: int64
alphabet
a    10
b    20
c    30
d    40
e    50
Name: ALPHABET, dtype: int64
a    10
b    20
c    30
d    40
e    50
Name: alphabet, dtype: int64


In [4]:
# 2차원 DataFrame 만들기

# 기본 index 사용
import pandas as pd
# 딕셔너리 -> DataFrame
data = {'year' : [2018, 2019, 2020], 'rate' : [1.8, 2.7, 3.9]}
df = pd.DataFrame(data)
display(df)

# Series + Series -> DataFrame
s1 = pd.Series([0, 1, 2, 3],
              index = ['a', 'b', 'c', 'd'])
s2 = pd.Series([10, 11, 12, 13],
              index = ['a', 'b', 'c', 'd'])
dict1 = {'ONE' : s1, 'TWO' : s2}
df = pd.DataFrame(dict1)
display(df)

# Series + Series -> DataFrame
df = pd.DataFrame.from_dict(dict1)
display(df)

# index 레이블 변경
arr1 = np.arange(6).reshape(2, 3)
df = pd.DataFrame(arr1,
                 index=['new', 'index'])
display(df)

# column dtype 지정
arr1 = np.zeros((2,),
               dtype = [('int 4byte', 'i4'), ('float 4byte', 'f4'), ('string', 'a10')])
df = pd.DataFrame(arr1)
display(df)
arr1[:] = [(1, 2.0, 'apple'), (3, 4.0, 'banana')]
df = pd.DataFrame(arr1)
display(df)

# 내가 원하는 column 순서대로 배열
df = pd.DataFrame(arr1,
                 columns = ['string', 'float 4byte', 'int 4byte'])
display(df)

# column 하나를 index로 바꿔 사용하기
df = pd.DataFrame.from_records(arr1,
                 index = 'int 4byte')
display(df)

Unnamed: 0,year,rate
0,2018,1.8
1,2019,2.7
2,2020,3.9


Unnamed: 0,ONE,TWO
a,0,10
b,1,11
c,2,12
d,3,13


Unnamed: 0,ONE,TWO
a,0,10
b,1,11
c,2,12
d,3,13


Unnamed: 0,0,1,2
new,0,1,2
index,3,4,5


Unnamed: 0,int 4byte,float 4byte,string
0,0,0.0,b''
1,0,0.0,b''


Unnamed: 0,int 4byte,float 4byte,string
0,1,2.0,b'apple'
1,3,4.0,b'banana'


Unnamed: 0,string,float 4byte,int 4byte
0,b'apple',2.0,1
1,b'banana',4.0,3


Unnamed: 0_level_0,float 4byte,string
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2.0,b'apple'
3,4.0,b'banana'


In [5]:
# column 추가
# 1. 맨 뒤에 추가 : df[새로운 열 이름] = [새로운 데이터들]
display(df)
df['new1'] = ['d1', 'd2']
display(df)

# 2. 원하는 위치에 추가 : df.insert(열 위치, 새로운 열이름, [새로운 데이터들])
# 음수 위치 안됨.
df.insert(0, 'new2', ['d3', 'd4'])
display(df)


# column 삭제
# 1. del df[열 이름]
del df['float 4byte']
display(df)
# 2. df.pop(열 이름)
df.pop('string')
display(df)

Unnamed: 0_level_0,float 4byte,string
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2.0,b'apple'
3,4.0,b'banana'


Unnamed: 0_level_0,float 4byte,string,new1
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2.0,b'apple',d1
3,4.0,b'banana',d2


Unnamed: 0_level_0,new2,float 4byte,string,new1
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,d3,2.0,b'apple',d1
3,d4,4.0,b'banana',d2


Unnamed: 0_level_0,new2,string,new1
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,d3,b'apple',d1
3,d4,b'banana',d2


Unnamed: 0_level_0,new2,new1
int 4byte,Unnamed: 1_level_1,Unnamed: 2_level_1
1,d3,d1
3,d4,d2


In [6]:
# 특징
# index, columns 출력 가능
print(df.index)
print(df.columns)

Int64Index([1, 3], dtype='int64', name='int 4byte')
Index(['new2', 'new1'], dtype='object')
