## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임.
- 시리즈 인덱스는 데이터값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
    - Series(변환, 인덱스 구조, 원소 선택)
    - DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경, 전치 등)

In [1]:
# 딕셔너리를 시리즈로 변환
import pandas as pd

dic_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dic_data)
print(sr,type(sr))


a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [3]:
# 리스트를 시리즈로 변환

list_data = ['2019-10-02',3.14,'ABC',100,True]
sr = pd.Series(list_data, index=['a','b','c','d','e'])
print(sr,type(sr))

a    2019-10-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [6]:
idx = sr.index
print(idx,'\n')
val = sr.values
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 

['2019-10-02' 3.14 'ABC' 100 True]


In [7]:
tup_data = ('영인','2015-05-01','여',True)
sr = pd.Series(tup_data,index=['이름','생년월일','성별','학생여부'])
print(sr,type(sr))

이름              영인
생년월일    2015-05-01
성별               여
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [13]:
print(sr[0])
print(sr['이름'],'\n')
print(sr[['생년월일','성별']])
print(sr[[1,3]])

영인
영인 

생년월일    2015-05-01
성별               여
dtype: object
생년월일    2015-05-01
학생여부          True
dtype: object


In [14]:
# 배열을 Series로 변환
import numpy as np
s1 = np.arange(start=11,stop=16)
s2 = pd.Series(s1,index=['ED1','ED2','ED3','ED4','ED5'])
print(s1,type(s1))
print(s2,type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'>
ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [15]:
print(s2[1:3])
print(s2[[1,3]])

ED2    12
ED3    13
dtype: int32
ED2    12
ED4    14
dtype: int32


In [17]:
# 시리즈를 배열로 변환
print(type(s2))
ar = np.array(s2)
ar
print(ar,type(ar))

<class 'pandas.core.series.Series'>
[11 12 13 14 15] <class 'numpy.ndarray'>


In [23]:
# Q. 4가지 자료형 데이터를 생성하고 각각 Series로 변환하여 출력
arr_food = ['양식','중식','한식','일식','분식']
index = ['나','아무개1','아무개2','아무개3','아무개4']
arr_food2 = dict(zip(index,arr_food))
arr_food3 = np.array(arr_food)
arr_food4 = tuple(arr_food)
sr1 = pd.Series(arr_food, index)
sr2 = pd.Series(arr_food2)
sr3 = pd.Series(arr_food3, index)
sr4 = pd.Series(arr_food4, index)
print(sr1)
print(sr2)
print(sr3)
print(sr4)

나       양식
아무개1    중식
아무개2    한식
아무개3    일식
아무개4    분식
dtype: object
나       양식
아무개1    중식
아무개2    한식
아무개3    일식
아무개4    분식
dtype: object
나       양식
아무개1    중식
아무개2    한식
아무개3    일식
아무개4    분식
dtype: object
나       양식
아무개1    중식
아무개2    한식
아무개3    일식
아무개4    분식
dtype: object


In [24]:
data = np.arange(1000,5000,1000)
obj = pd.Series(data)
state = ['California','Ohio','Oregon','Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
obj

state
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32

In [25]:
obj.California = np.nan
obj

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [29]:
obj['Newyork'] = 3000       # 처음 만들 때에는 obj.Newyork = 3000 해도 안들어감.
obj

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Newyork       3000.0
Name: population, dtype: float64

In [30]:
print(obj.isnull())
print()
print(obj.isnull().sum())        #nan 개수 세기

state
California     True
Ohio          False
Oregon        False
Texas         False
Newyork       False
Name: population, dtype: bool

1


## 데이터프레임
- 데이터프레임은 2차원 배열, R의 데이터프레임에서 유래
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈를 열벡터하고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(mx1행렬)는 a 원소들의 단일 열 행렬
- 행 벡터(1xm)은 m원소들의 단일 행 행렬
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, 배열 등으로 변환될 수 있음

In [31]:
# 배열 > 데이터프레임
ar = np.random.randint(100,120,size=(3,3))
print(ar,type(ar),'\n')
df = pd.DataFrame(ar,index=['d1','d2','d3'],
                    columns=['pd','sales','int'])
print(df,type(df))

[[118 107 109]
 [100 101 106]
 [112 118 111]] <class 'numpy.ndarray'> 

     pd  sales  int
d1  118    107  109
d2  100    101  106
d3  112    118  111 <class 'pandas.core.frame.DataFrame'>


pandas indexing
- iloc : integer location의 약어, 데이터프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법
- loc : 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법

In [37]:
# 행선택
print(df.iloc[1],'\n')
print(df.loc['d2'],'\n')

pd       100
sales    101
int      106
Name: d2, dtype: int32 

pd       100
sales    101
int      106
Name: d2, dtype: int32 



In [40]:
# 특정 행, 열 선택
print(df.iloc[1,1],'\n')
print(df.loc['d2','sales'])

101 

101


In [56]:
# 행, 열 추가
df1 = df.copy()
df1.loc['d5'] = 0
df1

Unnamed: 0,pd,sales,int
d1,118,107,109
d2,100,101,106
d3,112,118,111
d5,0,0,0


In [58]:
df1['pf'] = [100,100,100,0]
df1

Unnamed: 0,pd,sales,int,pf
d1,118,107.0,109,100
d2,100,,106,100
d3,112,118.0,111,100
d5,0,0.0,0,0


In [57]:
# 원소 값 변경
df1.iloc[1,1] = np.nan
df1

Unnamed: 0,pd,sales,int
d1,118,107.0,109
d2,100,,106
d3,112,118.0,111
d5,0,0.0,0


In [61]:
# 사전 > 데이터프레임
sp1 = np.arange(1,6)
df = pd.DataFrame({
    'col1': sp1,
    'col2': sp1*2,
    'col3': ['A','B','C','D','E']
})
df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


In [None]:
# 딕셔너리에서 값이 스칼라이면 인덱스 필요

dic = {'A':1,'B':2,'C':3,'D':4}
# dic = {'A':[1],'B':[2],'C':[3],'D':[4]}
columns=['a','b','c','d','e']
index=[1,2,3,4]

df_dic = pd.DataFrame(dic,index)
# df_dic = pd.DataFrame(dic)
print(df_dic)

In [66]:
# 리스트 > 데이터프레임
a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
list1
index = np.arange(1,11)
df = pd.DataFrame(list1,index, columns = ['c1','c2','c3','c4','c5'])
df

Unnamed: 0,c1,c2,c3,c4,c5
1,4,1,3,4,4
2,4,4,1,4,4
3,2,3,3,1,1
4,3,3,2,1,3
5,4,1,3,1,2
6,4,2,1,1,3
7,4,4,1,2,3
8,4,4,2,1,1
9,3,3,3,2,3
10,4,2,2,2,2


In [69]:
# 데이터프레임 > 배열, 리스트, 딕셔너리
ar = df.values
print(ar)
li = df.values.tolist()
print(li)
dict = df.to_dict('list')
print(dict)

[[4 1 3 4 4]
 [4 4 1 4 4]
 [2 3 3 1 1]
 [3 3 2 1 3]
 [4 1 3 1 2]
 [4 2 1 1 3]
 [4 4 1 2 3]
 [4 4 2 1 1]
 [3 3 3 2 3]
 [4 2 2 2 2]]
[[4, 1, 3, 4, 4], [4, 4, 1, 4, 4], [2, 3, 3, 1, 1], [3, 3, 2, 1, 3], [4, 1, 3, 1, 2], [4, 2, 1, 1, 3], [4, 4, 1, 2, 3], [4, 4, 2, 1, 1], [3, 3, 3, 2, 3], [4, 2, 2, 2, 2]]
{'c1': [4, 4, 2, 3, 4, 4, 4, 4, 3, 4], 'c2': [1, 4, 3, 3, 1, 2, 4, 4, 3, 2], 'c3': [3, 1, 3, 2, 3, 1, 1, 2, 3, 2], 'c4': [4, 4, 1, 1, 1, 1, 2, 1, 2, 2], 'c5': [4, 4, 1, 3, 2, 3, 3, 1, 3, 2]}


In [79]:
# Q. 배열, 리스트, 딕셔너리로 데이터프레임을 생성한 후 다시 배열, 리스트, 딕셔너리로 변환하여 출력.
ar = np.arange(1,6)
ar2=ar*2
li = ar2.tolist()
df = pd.DataFrame({
    'col1': ar,
    'col2': li,
    'col3': np.nan})
print(df,type(df),'\n')
print(df.values,type(df.values),'\n')
print(df.values.tolist(),type(df.values.tolist()),'\n')
print(df.to_dict('list'),type(df.to_dict('list')),'\n')

   col1  col2  col3
0     1     2   NaN
1     2     4   NaN
2     3     6   NaN
3     4     8   NaN
4     5    10   NaN <class 'pandas.core.frame.DataFrame'> 

[[ 1.  2. nan]
 [ 2.  4. nan]
 [ 3.  6. nan]
 [ 4.  8. nan]
 [ 5. 10. nan]] <class 'numpy.ndarray'> 

[[1.0, 2.0, nan], [2.0, 4.0, nan], [3.0, 6.0, nan], [4.0, 8.0, nan], [5.0, 10.0, nan]] <class 'list'> 

{'col1': [1, 2, 3, 4, 5], 'col2': [2, 4, 6, 8, 10], 'col3': [nan, nan, nan, nan, nan]} <class 'dict'> 



In [85]:
# 리스트
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns = ['차림표'])
print(df1,'\n')
print(df1.values.tolist(),type(df1.values.tolist()),'\n')

# 딕셔너리
df2 = pd.DataFrame({
    '커피':4000,
    '쿠키':3000,
    '케이크':6500
},index=['가격'])
print(df2,'\n')
print(df2.to_dict('list'),type(df2.to_dict('list')),'\n')

# 배열
df3 = pd.DataFrame(np.random.randint(1,10,size=(3,3)),index=['1반','2반','3반'],
                   columns=['달리기','줄다리기','무궁화'])
print(df3,'\n')
print(df3.values)


      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동 

[['냉면'], ['칼국수'], ['잔치국수'], ['수제비'], ['우동']] <class 'list'> 

      커피    쿠키   케이크
가격  4000  3000  6500 

{'커피': [4000], '쿠키': [3000], '케이크': [6500]} <class 'dict'> 

    달리기  줄다리기  무궁화
1반    9     3    7
2반    4     9    6
3반    8     5    3 

[[9 3 7]
 [4 9 6]
 [8 5 3]]


In [88]:
# file 생성
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns = ['차림표'])
df1.to_csv('./dataset/file_data.csv', index = None)
file_data = pd.read_csv('./dataset/file_data.csv')
file_data

Unnamed: 0,차림표
0,냉면
1,칼국수
2,잔치국수
3,수제비
4,우동


In [None]:
# 딕셔너리에서 값이 스칼라이면 인덱스 필요

dic = {'A':1,'B':2,'C':3,'D':4}
# dic = {'A':[1],'B':2,'C':3,'D':4}
