## pandas

In [2]:
import pandas as pd



### 데이터 구조

- 시리즈(Series)
- 데이터프레임(DataFrame)
- 패널(Panel)


#### 시리즈

1차원 배열(리스트?)의 각 값에 대응하는 인덱스(index)를 부여할 수 있는 구조

In [3]:
sr = pd.Series([1, 3, 5, 7, 9], 
                index=['a', 'b', 'c', 'd', 'e'])

print( sr)

a    1
b    3
c    5
d    7
e    9
dtype: int64


In [None]:
print( f"첫번째 원소의 값 : {sr[0]}")       # 현재 출력 가능하나 향후 위치값으로 접근하는 것은 deprecate 할 예정
print( f"인덱스 a의 값 : {sr['a']}")

첫번째 원소의 값 : 1
인덱스 a의 값 : 1


  print( f"첫번째 원소의 값 : {sr[0]}")


In [None]:
# .items() 를 이용해서 인덱스와 값 추출
for index, value in sr.items():
    print( f"index : {index}, value : {value}")

index : a, value : 1
index : b, value : 3
index : c, value : 5
index : d, value : 7
index : e, value : 9


In [8]:
# .values 와 .index 로 값과 인덱스 추출
print( f"values : {sr.values}\nindex : {sr.index}" )

values : [1 3 5 7 9]
index : Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


#### 데이터프레임

- 2차원 리스트를 행과 열로 구성
- index와 column으로 구성
    - 1차원 리스트를 행으로 결합 (기본값)

In [3]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = range(1, 4)
columns = ['col1', 'col2', 'col3']

df = pd.DataFrame(values, index=index, columns=columns)
print( df )

   col1  col2  col3
1     1     2     3
2     4     5     6
3     7     8     9


In [None]:
# 마찬가지로 .items() 를 이용해서 접근
# 이때 열을 통째로 전달
for column_name, column in df.items():
    print( f"column name : {column_name},\ncolumn data : \n{column}\n" )

column name : col1,
column data : 
1    1
2    4
3    7
Name: col1, dtype: int64

column name : col2,
column data : 
1    2
2    5
3    8
Name: col2, dtype: int64

column name : col3,
column data : 
1    3
2    6
3    9
Name: col3, dtype: int64



In [None]:
# .iterrows() 를 이용하여 행 단위로 접근
for r, c in df.iterrows():
    print( f"row index : {r}, row data : \n{c}\n" )

row index : 1, row data : 
col1    1
col2    2
col3    3
Name: 1, dtype: int64

row index : 2, row data : 
col1    4
col2    5
col3    6
Name: 2, dtype: int64

row index : 3, row data : 
col1    7
col2    8
col3    9
Name: 3, dtype: int64



In [None]:
# values, index와 columns 를 사용해 각각을 가져올 수 있음
print( f"DataFrame values : \n{df.values}\n")
print( f"DataFrame index : \n{df.index}\n")
print( f"DataFrame columns : \n{df.columns}\n")

DataFrame values : 
[[1 2 3]
 [4 5 6]
 [7 8 9]]

DataFrame index : 
RangeIndex(start=1, stop=4, step=1)

DataFrame columns : 
Index(['col1', 'col2', 'col3'], dtype='object')



In [None]:
# dictionary 는 바로 데이터프레임으로 변형 가능
# 이때 키에 값이 리스트로 존재하고 모든 키들의 리스트의 크기는 동일(broadcasting 불가)
# key 별로 컬럼 생성
data = {'col1': ["1", "2", "3", "4"],
        'col2': [5, 6, 7, 8],
        'col3': [9, 10, 11, 12]}
df = pd.DataFrame(data)
print( df )

  col1  col2  col3
0    1     5     9
1    2     6    10
2    3     7    11
3    4     8    12


In [4]:
# 데이터프레임 탐색
df.head()

Unnamed: 0,col1,col2,col3
1,1,2,3
2,4,5,6
3,7,8,9


In [5]:
df.tail(2)

Unnamed: 0,col1,col2,col3
2,4,5,6
3,7,8,9


In [6]:
df["col1"]

1    1
2    4
3    7
Name: col1, dtype: int64

## Numpy

In [7]:
import numpy as np

In [10]:
# 1차원 배열 생성
v1 = np.array([1, 2, 3, 4, 5])
print( f"1차원 배열 : {v1}, \nshape : {v1.shape}")

1차원 배열 : [1 2 3 4 5], 
shape : (5,)


In [11]:
# 2차원 배열 생성
v2 = np.array([[1, 2, 3], [4, 5, 6]])
print( f"2차원 배열 : {v2}, \nshape : {v2.shape}")

2차원 배열 : [[1 2 3]
 [4 5 6]], 
shape : (2, 3)


In [12]:
# 다차원 배열 생성
v3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print( f"다차원 배열 : {v3}, \nshape : {v3.shape}")

다차원 배열 : [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]], 
shape : (2, 2, 3)
