## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체.
- 시리즈 인덱스는 데이터값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
 * Series(변환, 인덱스 구조, 원소 선택)
 * DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경. 전치 등)

In [46]:
# 딕셔너리를 시리즈로 변환

import pandas as pd

dic_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dic_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64

In [2]:
# 리스트를 시리즈로 변환

list_data = ['2019-10-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data, index=['a', 'b', 'c', 'd', 'e'])
print(sr, type(sr))

a    2019-10-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [3]:
idx = sr.index
print(idx, '\n')
val = sr.values
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 

['2019-10-02' 3.14 'ABC' 100 True]


In [4]:
# 튜플을 시리즈로 변환

tup_data = ('영인', '2015-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr, type(sr))

이름              영인
생년월일    2015-05-01
성별               여
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [5]:
print(sr['이름'])
print(sr[0], '\n')

print(sr['생년월일':'성별'])
print(sr[1:3], '\n')

print(sr[['생년월일', '학생여부']]) # 인덱싱하려면 대괄호를 두 번 사용해야 함
print(sr[[1, 3]])

영인
영인 

생년월일    2015-05-01
성별               여
dtype: object
생년월일    2015-05-01
성별               여
dtype: object 

생년월일    2015-05-01
학생여부          True
dtype: object
생년월일    2015-05-01
학생여부          True
dtype: object


In [6]:
# 배열을 시리즈로 변환

import numpy as np

s1 = np.arange(start=11, stop=16)
s2 = pd.Series(s1, index=['ED1', 'ED2', 'ED3', 'ED4', 'ED5'])
print(s1, type(s1), '\n')
print(s2, type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'> 

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [7]:
print(s2[1:3], '\n')
print(s2[[1, 3]])

ED2    12
ED3    13
dtype: int32 

ED2    12
ED4    14
dtype: int32


In [8]:
# 시리즈 -> 배열

print(type(s2))
ar = np.array(s2)
print(ar, type(ar))

<class 'pandas.core.series.Series'>
[11 12 13 14 15] <class 'numpy.ndarray'>


In [9]:
# 연습문제 - 4가지 자료형 데이터를 생성하고 각각 Series로 변환하여 출력

list_data = ['l1', 'l2', 'l3', 'l4', 'l5']
tuple_data = ('t1', 't2', 't3', 't4', 't5')
dict_data = {'d1':'가', 'd2':'나', 'd3':'다', 'd4':'라', 'd5':'마'}
arr_data = np.array(['a1', 'a2', 'a3', 'a4', 'a5'])
index = np.arange(5)+1
# print(list_data)
# print(tuple_data)
# print(dict_data)
# print(arr_data)

s1 = pd.Series(list_data, index)
print(s1, '\n')
s2 = pd.Series(tuple_data, index)
print(s2, '\n')
s3 = pd.Series(dict_data)
print(s3, '\n')
s4 = pd.Series(arr_data, index)
print(s4, '\n')

1    l1
2    l2
3    l3
4    l4
5    l5
dtype: object 

1    t1
2    t2
3    t3
4    t4
5    t5
dtype: object 

d1    가
d2    나
d3    다
d4    라
d5    마
dtype: object 

1    a1
2    a2
3    a3
4    a4
5    a5
dtype: object 



In [10]:
data = np.arange(1000, 5000, 1000)
obj = pd.Series(data)
state = ['California', 'Ohio', 'Oregon', 'Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'State'
obj

State
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32

In [11]:
obj.California = np.nan
obj

State
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [12]:
obj.Newyork = 3000 # 생성할 때 없었던 값은 값을 새로 넣는다 해도 반영이 안 됨
print(obj, '\n')

obj['Newyork'] = 3000 # 인덱스로 접근하는 방식은 어떤 경우에든 다 OK(값을 새로 생성하는 것도 가능)
print(obj)

State
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64 

State
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Newyork       3000.0
Name: population, dtype: float64


In [13]:
obj.isnull()

State
California     True
Ohio          False
Oregon        False
Texas         False
Newyork       False
Name: population, dtype: bool

## 데이터프레임
- 데이터프레임은 2차원 배열, R의 데이터프레임에서 유래
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈를 열벡터하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬이 된다. 
- 선형대수학에서 열 벡터(mx1 행렬)는 m 원소들의 단일 열 행렬 
- 행 벡터(1xm 행렬)는 m 원소들의 단일 행 행렬
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, 배열 등으로 변환될 수 있음

In [14]:
# 배열 -> 데이터프레임

ar = np.random.randint(100, 120, size=(3, 3))
print(ar, type(ar), '\n')
df = pd.DataFrame(ar, index=['d1', 'd2', 'd3'], columns=['pd', 'sales', 'int'])
print(df, type(df))

[[101 106 111]
 [110 113 100]
 [108 104 103]] <class 'numpy.ndarray'> 

     pd  sales  int
d1  101    106  111
d2  110    113  100
d3  108    104  103 <class 'pandas.core.frame.DataFrame'>


pandas indexing
- iloc: integer localtion의 약어, 데이터프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법
- loc: 컬럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방향으로 데이터에 접근하는 방법 

In [15]:
# 행 선택

print(df.iloc[1], '\n') # 인덱스 1번 행 모두 리턴
print(df.loc['d2'])

pd       110
sales    113
int      100
Name: d2, dtype: int32 

pd       110
sales    113
int      100
Name: d2, dtype: int32


In [16]:
# 특정 행, 열 선택

print(df.iloc[1, 1], '\n')
print(df.loc['d2', 'sales'])

113 

113


In [17]:
# 행, 열 추가

df1 = df.copy()
df1.loc['d5']=0 # 모든 값이 0으로 적용
df1

Unnamed: 0,pd,sales,int
d1,101,106,111
d2,110,113,100
d3,108,104,103
d5,0,0,0


In [18]:
# 열 추가 시 유의
# 열을 추가할 때에는 loc, iloc를 사용하지 않고 그대로 대괄호를 이용해 값 대입

df1['pf'] = [100, 100, 100, 0]
df1

Unnamed: 0,pd,sales,int,pf
d1,101,106,111,100
d2,110,113,100,100
d3,108,104,103,100
d5,0,0,0,0


In [19]:
# 원소 값 변경

df1.iloc[1, 1] = np.nan
df1

Unnamed: 0,pd,sales,int,pf
d1,101,106.0,111,100
d2,110,,100,100
d3,108,104.0,103,100
d5,0,0.0,0,0


In [20]:
# 사전 -> 데이터프레임
# 키 > column name
# 값 > value(키/열에 맞춰 들어감)

sp1 = np.arange(1, 6)
df = pd.DataFrame({
    'col1':sp1,
    'col2':sp1*2,
    'col3':['A', 'B', 'C', 'D', 'E']
})
df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


In [44]:
# 딕셔너리에서 값이 스칼라이면 인덱스 필요

dic = {'A':1, 'B':2, 'C':3, 'D':4} # index가 없으면 오류(ValueError)
# dic = {'A':[1], 'B':[2], 'C':[3], 'D':[4]} # 오류는 발생하지 않으나 1행만 생성됨
columns = ['a', 'b', 'c', 'd', 'e']
index = [1, 2, 3, 4]

df_dic = pd.DataFrame(dic, index) 
# df_dic = pd.DataFrame(dic)
df_dic

Unnamed: 0,A,B,C,D
1,1,2,3,4
2,1,2,3,4
3,1,2,3,4
4,1,2,3,4


In [21]:
# 리스트 -> 데이터프레임

a = np.random.randint(1, 5, size=(10, 5))
list1 = a.tolist()

index = np.arange(1, 11)
df = pd.DataFrame(list1, index, columns=['c1', 'c2' ,'c3', 'c4', 'c5'])
df

Unnamed: 0,c1,c2,c3,c4,c5
1,2,2,2,1,1
2,1,1,4,4,2
3,3,4,1,4,2
4,3,3,4,4,1
5,2,1,2,4,4
6,4,4,4,1,4
7,2,1,3,4,2
8,3,4,2,1,1
9,4,1,1,1,4
10,2,1,4,3,4


In [22]:
# 데이터프레임 -> 배열, 리스트, 딕셔너리

ar = df.values
print(ar, type(ar), '\n')

li = df.values.tolist()
print(li, type(li), '\n')

dic = df.to_dict('list') # 각 키에 대응하는 값들이 리스트 형태로 나와야하기 때문
print(dic, type(dic))

[[2 2 2 1 1]
 [1 1 4 4 2]
 [3 4 1 4 2]
 [3 3 4 4 1]
 [2 1 2 4 4]
 [4 4 4 1 4]
 [2 1 3 4 2]
 [3 4 2 1 1]
 [4 1 1 1 4]
 [2 1 4 3 4]] <class 'numpy.ndarray'> 

[[2, 2, 2, 1, 1], [1, 1, 4, 4, 2], [3, 4, 1, 4, 2], [3, 3, 4, 4, 1], [2, 1, 2, 4, 4], [4, 4, 4, 1, 4], [2, 1, 3, 4, 2], [3, 4, 2, 1, 1], [4, 1, 1, 1, 4], [2, 1, 4, 3, 4]] <class 'list'> 

{'c1': [2, 1, 3, 3, 2, 4, 2, 3, 4, 2], 'c2': [2, 1, 4, 3, 1, 4, 1, 4, 1, 1], 'c3': [2, 4, 1, 4, 2, 4, 3, 2, 1, 4], 'c4': [1, 4, 4, 4, 4, 1, 4, 1, 1, 3], 'c5': [1, 2, 2, 1, 4, 4, 2, 1, 4, 4]} <class 'dict'>


In [23]:
# 연습문제 - 배열, 리스트, 딕셔너리로 데이터프레임을 생성한 후 다시 배열, 리스트, 딕셔너리로 변환하여 출력

index = ['1st', '2nd', '3rd', '4th']
col = ['A', 'B', 'C', 'D']
num = np.arange(1, 5)

arr = np.random.randint(1, 6, size=(4, 4))
print(arr, type(arr), '\n')
df1 = pd.DataFrame(arr, index, columns=col)
print(df1, type(df1), '\n')
arr_ = df1.values
print(arr_, type(arr_), '\n')

print("*\t"*10, '\n')

li = arr.tolist()
print(li, type(li), '\n')
df2 = pd.DataFrame(li, index, columns=col)
print(df2, type(df2), '\n')
li_ = df2.values.tolist()
print(li_, type(li_), '\n')

print("*\t"*10, '\n')

dic = {
    'D1':col,
    'D2':num,
    'D3':['V1', 'V2', 'V3', 'V4'],
    'D4':np.nan
}
print(dic, type(dic), '\n')
df3 = pd.DataFrame(dic, index)
print(df3, type(df3), '\n')
dic_ = df3.to_dict('list')
print(dic_, type(dic_))

[[4 3 5 2]
 [5 4 2 5]
 [5 3 4 3]
 [5 1 2 3]] <class 'numpy.ndarray'> 

     A  B  C  D
1st  4  3  5  2
2nd  5  4  2  5
3rd  5  3  4  3
4th  5  1  2  3 <class 'pandas.core.frame.DataFrame'> 

[[4 3 5 2]
 [5 4 2 5]
 [5 3 4 3]
 [5 1 2 3]] <class 'numpy.ndarray'> 

*	*	*	*	*	*	*	*	*	*	 

[[4, 3, 5, 2], [5, 4, 2, 5], [5, 3, 4, 3], [5, 1, 2, 3]] <class 'list'> 

     A  B  C  D
1st  4  3  5  2
2nd  5  4  2  5
3rd  5  3  4  3
4th  5  1  2  3 <class 'pandas.core.frame.DataFrame'> 

[[4, 3, 5, 2], [5, 4, 2, 5], [5, 3, 4, 3], [5, 1, 2, 3]] <class 'list'> 

*	*	*	*	*	*	*	*	*	*	 

{'D1': ['A', 'B', 'C', 'D'], 'D2': array([1, 2, 3, 4]), 'D3': ['V1', 'V2', 'V3', 'V4'], 'D4': nan} <class 'dict'> 

    D1  D2  D3  D4
1st  A   1  V1 NaN
2nd  B   2  V2 NaN
3rd  C   3  V3 NaN
4th  D   4  V4 NaN <class 'pandas.core.frame.DataFrame'> 

{'D1': ['A', 'B', 'C', 'D'], 'D2': [1, 2, 3, 4], 'D3': ['V1', 'V2', 'V3', 'V4'], 'D4': [nan, nan, nan, nan]} <class 'dict'>


In [24]:
# 리스트
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'], columns=['차림표'])
print(df1,'\n')
print(df1.values.tolist(),type(df1.values.tolist()),'\n')

# 딕셔너리
df2 = pd.DataFrame({
    '커피':4000,
    '쿠키':3000,
    '케이크':6500
},index=['가격'])
print(df2,'\n')
print(df2.to_dict('list'),type(df2.to_dict('list')),'\n')

# 배열
df3 = pd.DataFrame(np.random.randint(1,10,size=(3,3)),index=['1반','2반','3반'],
                   columns=['달리기','줄다리기','무궁화'])
print(df3,'\n')
print(df3.values, type(df3.values))

      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동 

[['냉면'], ['칼국수'], ['잔치국수'], ['수제비'], ['우동']] <class 'list'> 

      커피    쿠키   케이크
가격  4000  3000  6500 

{'커피': [4000], '쿠키': [3000], '케이크': [6500]} <class 'dict'> 

    달리기  줄다리기  무궁화
1반    8     5    7
2반    3     1    1
3반    1     4    2 

[[8 5 7]
 [3 1 1]
 [1 4 2]] <class 'numpy.ndarray'>


In [26]:
# file 생성, 저장, 읽기

li = ['냉면', '칼국수', '잔치국수', '수제비', '우동']
df1 = pd.DataFrame(li, index=['메뉴1', '메뉴2', '메뉴3', '메뉴4', '메뉴5'], columns=['차림표']) # 데이터 생성
df1.to_csv("./dataset/file_data.csv", index=None) # 저장
file_data = pd.read_csv("./dataset/file_data.csv") # 읽기
file_data

Unnamed: 0,차림표
0,냉면
1,칼국수
2,잔치국수
3,수제비
4,우동


In [38]:
index=['가격1', '가격2', '가격3']

lt=np.arange(4000, 5500, 500)
# print(lt)

df = pd.DataFrame({
    '커피':lt,
    '쿠키':[3000,2000,1000],
    '케이크':[6500,5500,4500]
}, index)
df

Unnamed: 0,커피,쿠키,케이크
가격1,4000,3000,6500
가격2,4500,2000,5500
가격3,5000,1000,4500
