## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
    - Series(변환, 인덱스 구조, 원소 선택)
    - DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경, 전치 등)

In [2]:
# 딕셔너리를 시리즈 클래스로 만들기
import pandas as pd

dic_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dic_data)
print(sr,type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [5]:
# 리스트를 시리즈로 변환
list_data = ['2019-10-02',3.14,'ABC',100,True]
sr = pd.Series(list_data,index=['a','b','c','d','e'])
print(sr,type(sr))

a    2019-10-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [7]:
idx = sr.index
print(idx,'\n')
val = sr.values
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 

['2019-10-02' 3.14 'ABC' 100 True]


In [9]:
#튜플을 시리즈로 변환
tup_data = ('영인','2015-05-01','여',True)
sr = pd.Series(tup_data,index = ['이름','생년원일','성별','학생여부'])
print(sr,type(sr))

이름              영인
생년원일    2015-05-01
성별               여
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [12]:
print(sr[0])
print(sr['이름'])
print(sr[1:3])

영인
영인
생년원일    2015-05-01
성별               여
dtype: object


In [13]:
# 배열을 시리즈로 변환
import numpy as np
s1 = np.arange(start=11, stop =16)
s2 = pd.Series(s1, index = ['ED1','ED2','ED3','ED4','ED5'])
print(s1,type(s1),'\n')
print(s2, type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'> 

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [15]:
print(s2[1:3])
print(s2[[1,3]])

ED2    12
ED3    13
dtype: int32
ED2    12
ED4    14
dtype: int32


In [18]:
#시리즈 -> 배열

print(type(s2))
ar = np.array(s2)
print(ar,type(ar))
ar

<class 'pandas.core.series.Series'>
[11 12 13 14 15] <class 'numpy.ndarray'>


array([11, 12, 13, 14, 15])

In [19]:
#4가지 자료형 데이터를 생성하고 각각 Series로 변환하여 출력하세요
dict1 = {'1' :1,'2':2,'3':3,'4':4}
list2 = [1,2,3,4]
tuple3 = [1,2,3,4]
array4 = np.array([1,2,3,4])
ar1 = pd.Series(dict1)
ar2 = pd.Series(list2)
ar3 = pd.Series(tuple3)
ar4 = pd.Series(array4)

print(ar1)
print(ar2)
print(ar3)
print(ar4)





1    1
2    2
3    3
4    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int32


In [22]:
data = np.arange(1000,5000,1000)
obj = pd.Series(data)
state = ['California','Ohio','Oregan','Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
obj

state
California    1000
Ohio          2000
Oregan        3000
Texas         4000
Name: population, dtype: int32

In [23]:
obj.California = np.nan
obj

state
California       NaN
Ohio          2000.0
Oregan        3000.0
Texas         4000.0
Name: population, dtype: float64

In [25]:
obj.isnull()

state
California     True
Ohio          False
Oregan        False
Texas         False
Name: population, dtype: bool

In [26]:
obj.isnull().sum()

1

In [27]:
obj['NewYork'] = 3000
obj

state
California       NaN
Ohio          2000.0
Oregan        3000.0
Texas         4000.0
NewYork       3000.0
Name: population, dtype: float64

## 데이터프레임
- 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈를 열벡터하고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(mx1행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1xm) 행렬은 m원소들의 단일 행 행렬
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, 배열 등으로 변환될 수 있음

In [29]:
# 배열 > 데이터프레임

ar = np.random.randint(100,120,size=(3,3))
print(ar,type(ar))
df = pd.DataFrame(ar,index = ['d1','d2','d3'],
                 columns=['pd','sales','int'])
print(df,type(df))

[[118 117 103]
 [113 107 114]
 [111 108 101]] <class 'numpy.ndarray'>
     pd  sales  int
d1  118    117  103
d2  113    107  114
d3  111    108  101 <class 'pandas.core.frame.DataFrame'>


pandas indexing
- iloc : integer location의 약어, 데이터프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법
- loc : 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법

In [36]:
# 행선택
print(df.iloc[1])
print(df.loc['d2'])

pd       113
sales    107
int      114
Name: d2, dtype: int32
pd       113
sales    107
int      114
Name: d2, dtype: int32


In [37]:
print(df.iloc[1,1],'\n')
print(df.loc['d2','sales'])

107 

107


In [38]:
df1 = df.copy()
df1.loc['d5'] = 0
df1

Unnamed: 0,pd,sales,int
d1,118,117,103
d2,113,107,114
d3,111,108,101
d5,0,0,0


In [40]:
df1['pf'] = [100,100,100,0]
df1

Unnamed: 0,pd,sales,int,pf
d1,118,117.0,103,100
d2,113,,114,100
d3,111,108.0,101,100
d5,0,0.0,0,0


In [42]:
print(df1.pf,type(df1.pf))

d1    100
d2    100
d3    100
d5      0
Name: pf, dtype: int64 <class 'pandas.core.series.Series'>


In [39]:
# 원소값 변경
df1.iloc[1,1] = np.nan
df1

Unnamed: 0,pd,sales,int
d1,118,117.0,103
d2,113,,114
d3,111,108.0,101
d5,0,0.0,0


In [44]:
# 사전 > 데이터프레임
sp1 = np.arange(1,6)
df = pd.DataFrame({
    'col1':sp1,
    'col2':sp1*2,
    'col3':['a','b','c','d','e']
    
})
df

Unnamed: 0,col1,col2,col3
0,1,2,a
1,2,4,b
2,3,6,c
3,4,8,d
4,5,10,e


In [46]:
# 리스트 > 데이터프레임

a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
index = np.arange(1,11)
df = pd.DataFrame(list1,index,columns = ['c1','c2','c3','c4','c5'])
df

Unnamed: 0,c1,c2,c3,c4,c5
1,3,3,3,1,2
2,4,1,2,1,4
3,4,3,1,1,3
4,3,2,2,4,4
5,2,1,3,2,1
6,3,1,3,4,2
7,3,4,4,1,1
8,1,3,1,2,1
9,1,4,2,4,3
10,1,1,2,3,3


In [53]:
# 데이터프레임 > 배열, 리스트, 딕셔너리
ar = df.values
print(ar,type(ar),'\n')
li = df.values.tolist()
print(li,type(li),'\n')
dict1 = df.to_dict('list')
print(dict,type(dict1))

[[3 3 3 1 2]
 [4 1 2 1 4]
 [4 3 1 1 3]
 [3 2 2 4 4]
 [2 1 3 2 1]
 [3 1 3 4 2]
 [3 4 4 1 1]
 [1 3 1 2 1]
 [1 4 2 4 3]
 [1 1 2 3 3]] <class 'numpy.ndarray'> 

[[3, 3, 3, 1, 2], [4, 1, 2, 1, 4], [4, 3, 1, 1, 3], [3, 2, 2, 4, 4], [2, 1, 3, 2, 1], [3, 1, 3, 4, 2], [3, 4, 4, 1, 1], [1, 3, 1, 2, 1], [1, 4, 2, 4, 3], [1, 1, 2, 3, 3]] <class 'list'> 

{'c1': [3, 4, 4, 3, 2, 3, 3, 1, 1, 1], 'c2': [3, 1, 3, 2, 1, 1, 4, 3, 4, 1], 'c3': [3, 2, 1, 2, 3, 3, 4, 1, 2, 2], 'c4': [1, 1, 1, 4, 2, 4, 1, 2, 4, 3], 'c5': [2, 4, 3, 4, 1, 2, 1, 1, 3, 3]} <class 'dict'>


In [65]:
# 배열, 리스트, 딕셔너리로 데이터프레임을 생성한 후 다시 배열, 리스트, 딕셔너리로 변환하여 출력하세요
li1 = [[1,2,3,4,5],[5,4,3,2,1],[1,2,3,4,5],[5,4,3,2,1]]
print(li1,type(li1))
df1 = pd.DataFrame(li1)
print(df1)
li2 = df1.values.tolist()
print(li2,type(li2),'\n')

arr1 = np.array([[1,2,3],[3,2,1],[1,2,3],[3,2,1]])
print(arr1,type(arr1))
df2 = pd.DataFrame(arr1)
print(df2)
arr2 = df2.values
print(arr2,type(arr2),'\n')

dict1 = {'a':[1,2,3,4,5],'b':[6,7,8,9,0],'c':[1,3,5,7,9],'d':[2,4,6,8,0]}
print(dict1,type(dict1))
df3 = pd.DataFrame(dict1)
print(df3)
dict2 = df3.to_dict('list')
print(dict2,type(dict2))

[[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [1, 2, 3, 4, 5], [5, 4, 3, 2, 1]] <class 'list'>
   0  1  2  3  4
0  1  2  3  4  5
1  5  4  3  2  1
2  1  2  3  4  5
3  5  4  3  2  1
[[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [1, 2, 3, 4, 5], [5, 4, 3, 2, 1]] <class 'list'> 

[[1 2 3]
 [3 2 1]
 [1 2 3]
 [3 2 1]] <class 'numpy.ndarray'>
   0  1  2
0  1  2  3
1  3  2  1
2  1  2  3
3  3  2  1
[[1 2 3]
 [3 2 1]
 [1 2 3]
 [3 2 1]] <class 'numpy.ndarray'> 

{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 0], 'c': [1, 3, 5, 7, 9], 'd': [2, 4, 6, 8, 0]} <class 'dict'>
   a  b  c  d
0  1  6  1  2
1  2  7  3  4
2  3  8  5  6
3  4  9  7  8
4  5  0  9  0
{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 0], 'c': [1, 3, 5, 7, 9], 'd': [2, 4, 6, 8, 0]} <class 'dict'>


In [72]:
# file 생성
li = ['김밥','라면','어묵','튀김','떡볶이']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
print(df1)
df1.to_csv("./dataset/file_data.csv",index = None)
file_data = pd.read_csv("./dataset/file_data.csv")
file_data

     차림표
메뉴1   김밥
메뉴2   라면
메뉴3   어묵
메뉴4   튀김
메뉴5  떡볶이


Unnamed: 0,차림표
0,김밥
1,라면
2,어묵
3,튀김
4,떡볶이
