## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경, 전치 등)

In [2]:
# 딕셔러니를 시리즈로 변환
import pandas as pd

dic_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dic_data)
print(sr,type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [3]:
# 리스트를 시리즈로 변환

list_data = ['2019-10-02', 3.14, 'ABC',100, True]
sr = pd.Series(list_data, index=['a','b','c','d','e'])
print(sr,type(sr))

a    2019-10-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [5]:
idx = sr.index
print(idx,'\n')
val = sr.values
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 

['2019-10-02' 3.14 'ABC' 100 True]


In [6]:
# 튜플을 시리즈로 변환
tup_data = ('영인','2015-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부'])
print(sr,type(sr))

이름              영인
생년월일    2015-05-01
성별               여
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [10]:
print(sr[0])
print(sr['이름'],'\n')
print(sr[[1,3]])

영인
영인 

생년월일    2015-05-01
학생여부          True
dtype: object


In [11]:
# 배열을 시리즈로 변환
import numpy as np

s1 = np.arange(start=11, stop=16)
s2 = pd.Series(s1, index=['ED1','ED2','ED3','ED4','ED5'])
print(s1,type(s1),'\n')
print(s2,type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'> 

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [13]:
print(s2[1:3],'\n')
print(s2[[1,3]])

ED2    12
ED3    13
dtype: int32 

ED2    12
ED4    14
dtype: int32


In [16]:
# 시리즈 -> 배열

print(type(s2))
ar = np.array(s2)
print(ar,type(ar))

<class 'pandas.core.series.Series'>
[11 12 13 14 15] <class 'numpy.ndarray'>


In [None]:
# Q. 4가지 자료형 데이터를 생성하고 각각 Series로 변환하여 출력하세요.

In [19]:
lidata = [2,3,4,5]
tudata = (True,False,True,True)
dicdata = {'김첨지':'설렁탕','점순이':'감자','나':'아달린'}
arrdata = np.array(['살바도르','빈센트','파블로','램브란트'])
index = ['1번','2번','3번','4번']

li = pd.Series(lidata,index)
tu = pd.Series(tudata,index)
dic = pd.Series(dicdata)
arr = pd.Series(arrdata,index)

print(li,'\n','\n',tu,'\n','\n',dic,'\n','\n',arr)

1번    2
2번    3
3번    4
4번    5
dtype: int64 
 
 1번     True
2번    False
3번     True
4번     True
dtype: bool 
 
 김첨지    설렁탕
점순이     감자
나      아달린
dtype: object 
 
 1번    살바도르
2번     빈센트
3번     파블로
4번    램브란트
dtype: object


In [21]:
data = np.arange(1000,5000,1000)
obj = pd.Series(data)
state = ['Califonia','Ohio','Oregon','Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [22]:
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [29]:
obj['Newyork'] = 3000

In [30]:
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Newyork      3000.0
Name: population, dtype: float64

In [31]:
obj.Newyork

3000

In [25]:
obj.isnull()

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

## 데이터프레임
- 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈를 열벡터하고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(mx1행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1xm 행렬)은 m원소들의 단일 행 행렬
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, 배열 등으로 변환될 수 있음

In [32]:
# 배열 -> 데이터프레임

ar = np.random.randint(100,120,size=(3,3))
print(ar,type(ar),'\n')
df = pd.DataFrame(ar,index=['d1','d2','d3'],
                 columns=['pd','sales','int'])
print(df,type(df))

[[115 115 101]
 [105 101 100]
 [102 106 119]] <class 'numpy.ndarray'> 

     pd  sales  int
d1  115    115  101
d2  105    101  100
d3  102    106  119 <class 'pandas.core.frame.DataFrame'>


pandas indexing
- iloc : integer localtion의 약어, 데이터프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법
- loc : 인덱스명, 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법

In [35]:
# 행 선택
print(df.iloc[1],'\n')
print(df.loc['d2'])

pd       105
sales    101
int      100
Name: d2, dtype: int32 

pd       105
sales    101
int      100
Name: d2, dtype: int32


In [36]:
# 특정 행, 열 선택
print(df.iloc[1,1],'\n')
print(df.loc['d2','sales'])

101 

101


In [38]:
# 행, 열 추가
df1 = df.copy()
df1.loc['d5'] = 0
df1

Unnamed: 0,pd,sales,int
d1,115,115,101
d2,105,101,100
d3,102,106,119
d5,0,0,0


In [40]:
# 새로운 열을 생성시 유의
df1['pf'] = [100,100,100,0]
df1

Unnamed: 0,pd,sales,int,pf
d1,115,115.0,101,100
d2,105,,100,100
d3,102,106.0,119,100
d5,0,0.0,0,0


In [42]:
print(type(df1.pf))
df1.pf

<class 'pandas.core.series.Series'>


d1    100
d2    100
d3    100
d5      0
Name: pf, dtype: int64

In [39]:
# 원소 값 변경
df1.iloc[1,1] = np.nan
df1

Unnamed: 0,pd,sales,int
d1,115,115.0,101
d2,105,,100
d3,102,106.0,119
d5,0,0.0,0


In [44]:
# 사전 -> 데이터프레임
sp1 = np.arange(1,6)
df = pd.DataFrame({
    'col1':sp1,
    'col2':sp1 * 2,
    'col3':['A','B','C','D','E']
})
df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


In [76]:
# 딕셔너리에서 값이 스칼라이면 인덱스 필요

dic = {'A':1,'B':2,'C':3,'D':4}
# dic = {'A':[1],'B':[2],'C':[3],'D':[4]}
columns=['a','b','c','d','e']
index=[1,2,3,4]

df_dic = pd.DataFrame(dic,index)
# df_dic = pd.DataFrame(dic)
print(df_dic)

   A  B  C  D
1  1  2  3  4
2  1  2  3  4
3  1  2  3  4
4  1  2  3  4


In [54]:
# 리스트 -> 데이터프레임
a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
list1
index = np.arange(1,11)
df = pd.DataFrame(list1,index,columns=['c1','c2','c3','c4','c5'])
df

Unnamed: 0,c1,c2,c3,c4,c5
1,4,1,3,3,4
2,1,4,2,4,1
3,3,3,1,4,3
4,1,2,3,3,4
5,1,4,1,1,1
6,1,2,1,2,3
7,2,3,2,2,1
8,4,4,4,2,3
9,2,4,4,4,3
10,3,1,2,2,1


In [52]:
# 데이터프레임 -> 배열, 리스트, 딕셔너리
ar = df.values
print(ar,type(ar),'\n')
li = df.values.tolist()
print(li,type(li),'\n')
dict = df.to_dict('list')
print(dict,type(dict))

[[4 1 1 3 2]
 [4 3 1 3 2]
 [2 4 1 4 2]
 [4 2 1 4 1]
 [3 4 3 3 2]
 [4 4 4 3 3]
 [2 4 1 1 1]
 [3 3 3 3 3]
 [1 4 2 2 4]
 [4 1 1 2 4]] <class 'numpy.ndarray'> 

[[4, 1, 1, 3, 2], [4, 3, 1, 3, 2], [2, 4, 1, 4, 2], [4, 2, 1, 4, 1], [3, 4, 3, 3, 2], [4, 4, 4, 3, 3], [2, 4, 1, 1, 1], [3, 3, 3, 3, 3], [1, 4, 2, 2, 4], [4, 1, 1, 2, 4]] <class 'list'> 

{'c1': [4, 4, 2, 4, 3, 4, 2, 3, 1, 4], 'c2': [1, 3, 4, 2, 4, 4, 4, 3, 4, 1], 'c3': [1, 1, 1, 1, 3, 4, 1, 3, 2, 1], 'c4': [3, 3, 4, 4, 3, 3, 1, 3, 2, 2], 'c5': [2, 2, 2, 1, 2, 3, 1, 3, 4, 4]} <class 'dict'>


In [None]:
# Q. 배열, 리스트, 딕셔너리로 데이터프레임을 생성한 후 다시 배열, 리스트, 딕셔러리로 변환하여 출력하세요.

In [55]:
ar = np.arange(1,6)
ar2=ar*2
li = ar2.tolist()
df = pd.DataFrame({
    'col1': ar,
    'col2': li,
    'col3': np.nan})
print(df,type(df),'\n')
print(df.values,type(df.values),'\n')
print(df.values.tolist(),type(df.values.tolist()),'\n')
print(df.to_dict('list'),type(df.to_dict('list')),'\n')


   col1  col2  col3
0     1     2   NaN
1     2     4   NaN
2     3     6   NaN
3     4     8   NaN
4     5    10   NaN <class 'pandas.core.frame.DataFrame'> 

[[ 1.  2. nan]
 [ 2.  4. nan]
 [ 3.  6. nan]
 [ 4.  8. nan]
 [ 5. 10. nan]] <class 'numpy.ndarray'> 

[[1.0, 2.0, nan], [2.0, 4.0, nan], [3.0, 6.0, nan], [4.0, 8.0, nan], [5.0, 10.0, nan]] <class 'list'> 

{'col1': [1, 2, 3, 4, 5], 'col2': [2, 4, 6, 8, 10], 'col3': [nan, nan, nan, nan, nan]} <class 'dict'> 



In [62]:
# 리스트
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
print(df1,'\n')
print(df1.values.tolist(),type(df1.values.tolist()),'\n')

# 딕셔너리
df2 = pd.DataFrame({
    '커피':4000,
    '쿠키':3000,
    '케이크':6500
},index=['가격'])
print(df2,'\n')
print(df2.to_dict('list'),type(df2.to_dict('list')),'\n')

# 배열
df3 = pd.DataFrame(np.random.randint(1,10,size=(3,3)),index=['1반','2반','3반'],
                   columns=['달리기','줄다리기','무궁화'])
print(df3,'\n')
print(df3.values)


      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동 

[['냉면'], ['칼국수'], ['잔치국수'], ['수제비'], ['우동']] <class 'list'> 

      커피    쿠키   케이크
가격  4000  3000  6500 

{'커피': [4000], '쿠키': [3000], '케이크': [6500]} <class 'dict'> 

    달리기  줄다리기  무궁화
1반    3     2    2
2반    5     3    9
3반    5     7    5 

[[3 2 2]
 [5 3 9]
 [5 7 5]]


In [6]:
# file 생성, 저장, 읽기
import pandas as pd
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
print(df1)
df1.to_csv("./dataset/file_data.csv")
file_data = pd.read_csv("./dataset/file_data.csv",index_col=0)
file_data

      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동


Unnamed: 0,차림표
메뉴1,냉면
메뉴2,칼국수
메뉴3,잔치국수
메뉴4,수제비
메뉴5,우동
