## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체
- 시리즈 인덱스는 데이터값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경, 전치 등)

In [2]:
import pandas as pd
import numpy as np

In [4]:
# 딕셔너리를 시리즈로 변환

dic_data = {'a' : 1, 'b' : 2, 'c' : 3}
sr = pd.Series(dic_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [20]:
# 리스트를 시리즈로 변환

list_d = ['2019-10-02', 3.14, 'ABc', 100, True]
sr = pd.Series(list_d, index = ['a', 'b', '1', 2, 3])
print(sr)

a    2019-10-02
b          3.14
1           ABc
2           100
3          True
dtype: object


In [25]:
idx = sr.index
print(idx, '\n')

val = sr.values
print(val)

Index(['a', 'b', '1', 2, 3], dtype='object') 

['2019-10-02' 3.14 'ABc' 100 True]


In [64]:
# 튜플을 시리즈로 변환

tup_d = ('해원', '2009-10-28', '여', True)
sr = pd.Series(tup_d, index = ['이름', '생년월일', '성별', '학생여부'])
print(sr, type(sr))

print()

print(sr[0]) # 위치 인덱스의 value
print(sr['이름']) # 인덱스명 인덱스의 value

print()

print(sr[1:3])
print(sr['생년월일':'성별'])

print()

print(sr[[1, 3]])
print(sr[['생년월일', '학생여부']])

이름              해원
생년월일    2009-10-28
성별               여
학생여부          True
dtype: object <class 'pandas.core.series.Series'>

해원
해원

생년월일    2009-10-28
성별               여
dtype: object
생년월일    2009-10-28
성별               여
dtype: object

생년월일    2009-10-28
학생여부          True
dtype: object
생년월일    2009-10-28
학생여부          True
dtype: object


In [70]:
# 배열을 시리즈로 변환

s1 = np.arange(start = 11, stop = 16)
s2 = pd.Series(s1, index = ['ED1', 'ED2', 'ED3', 'ED4', 'ED5'])
print(s1, type(s1), '\n')
print(s2, type(s2), '\n')

[11 12 13 14 15] <class 'numpy.ndarray'> 

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'> 



In [81]:
# 시리즈 -> 배열

print(type(s2))

ar = np.array(s2)
print(ar, type(ar))

<class 'pandas.core.series.Series'>
[11 12 13 14 15] <class 'numpy.ndarray'>


In [99]:
# 4가지 자료형 데이터를 생성하고 각각 Series로 변환

se = ['나', '너', '우리', '그것', True]
se_t = tuple(se)
se_arr = np.array(se)
se_dic = dict(enumerate(se))

sr1 = pd.Series(se, index = [1, 2, 3 ,4, 5])
sr2 = pd.Series(se, index = ['a', 'b', 'c', 'd', 'e'])
sr3 = pd.Series(se, index = ['가', '나', '다', '라', '마'])
sr4 = pd.Series(se_dic)

print(sr1)
print(sr2)
print(sr3)
print(sr4)

1       나
2       너
3      우리
4      그것
5    True
dtype: object
a       나
b       너
c      우리
d      그것
e    True
dtype: object
가       나
나       너
다      우리
라      그것
마    True
dtype: object
0       나
1       너
2      우리
3      그것
4    True
dtype: object


In [93]:
data = np.arange(1000, 5000, 1000)
obj = pd.Series(data)
state = ['California', 'Ohaio', 'Oregon', 'Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'

obj

state
California    1000
Ohaio         2000
Oregon        3000
Texas         4000
Name: population, dtype: int32

In [136]:
obj.California = np.nan

obj

state
California       NaN
Ohaio         2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [138]:
obj['California']

nan

In [148]:
# 새로운 인덱스를 추가할 때 obj. 으로 표현하면 추가되지 않음

obj.Newyork = 3000

obj

state
California       NaN
Ohaio         2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [150]:
obj['Newyork'] = 3000

obj

state
California       NaN
Ohaio         2000.0
Oregon        3000.0
Texas         4000.0
Newyork       3000.0
Name: population, dtype: float64

In [129]:
obj.isnull()

state
California     True
Ohaio         False
Oregon        False
Texas         False
Name: population, dtype: bool

## 데이터프레임
- 데이터프레임은 2차원 배열 (R의 데이터프레임에서 유래)
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈를 열벡터하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 
 - 열벡터(m X 1 행렬)는 원소들의 단일 열 행렬
 - 행벡터(1 X m 행렬)는 원소들의 단일 행 행렬
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, 배열 등으로 변환할 수 있음

In [175]:
# 배열 -> 데이터프레임

ar = np.random.randint(100, 120, size = (3, 3))
print(ar, type(ar), '\n')

df = pd.DataFrame(ar, index = ['d1', 'd2', 'd3'], columns = ['pd', 'sales', 'int'])
print(df)

[[101 109 107]
 [108 115 100]
 [100 116 115]] <class 'numpy.ndarray'> 

     pd  sales  int
d1  101    109  107
d2  108    115  100
d3  100    116  115


pandas indexing
- iloc : integer location의 약어, 데이터프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법
- loc : 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법

In [205]:
# df.iloc[행, 열]선택

print(df.iloc[1], '\n')
print(df.loc['d2'], '\n')
print(df.iloc[1, 1], '\n')
print(df.loc['d2', 'sales'])

pd       108
sales    115
int      100
Name: d2, dtype: int32 

pd       108
sales    115
int      100
Name: d2, dtype: int32 

115 

115


In [209]:
# 행, 열 추가

df1 = df.copy()
df1.loc['d5'] = 0
df1

Unnamed: 0,pd,sales,int
d1,101,109,107
d2,108,115,100
d3,100,116,115
d5,0,0,0


In [211]:
df1['pf'] = [100, 100, 100, 0]
df1

Unnamed: 0,pd,sales,int,pf
d1,101,109,107,100
d2,108,115,100,100
d3,100,116,115,100
d5,0,0,0,0


In [212]:
print(type(df1.pf))

<class 'pandas.core.series.Series'>


In [208]:
# 원소 값 변경

df1.iloc[1, 1] = np.nan
df1

Unnamed: 0,pd,sales,int
d1,101,109.0,107
d2,108,,100
d3,100,116.0,115
d5,0,0.0,0


In [46]:
# 사전 -> 데이터프레임

sp1 = np.arange(1, 6)
df = pd.DataFrame({
    'col1' : sp1,
    'col2' : sp1 * 2,
    'col3' : ['A', 'B', 'C', 'D', 'E']
    }, index = [1, 2, 3, 4, 5])

df

Unnamed: 0,col1,col2,col3
1,1,2,A
2,2,4,B
3,3,6,C
4,4,8,D
5,5,10,E


In [56]:
# 딕셔너리에서 값이 스칼라이면 인덱스 필요

dic = {'A':1,'B':2,'C':3,'D':4}
# dic = {'A':[1],'B':[2],'C':[3],'D':[4]}
index=[1,2,3,4]

df_dic = pd.DataFrame(dic,index)
# df_dic = pd.DataFrame(dic)
print(df_dic)

   A  B  C  D
1  1  2  3  4
2  1  2  3  4
3  1  2  3  4
4  1  2  3  4


In [17]:
# 리스트 -> 데이터프레임

a = np.random.randint(1, 5, size = (10, 5))
list1 = a.tolist()
index = np.arange(1, 11)
df = pd.DataFrame(list1, index, columns = ['c1', 'c2', 'c3', 'c4', 'c5'])

df

Unnamed: 0,c1,c2,c3,c4,c5
1,2,4,2,1,2
2,1,2,4,3,4
3,4,4,1,1,3
4,2,2,1,2,3
5,1,2,1,1,4
6,4,4,4,4,2
7,1,3,2,4,1
8,3,1,4,2,4
9,1,2,4,1,1
10,2,2,2,1,2


In [22]:
# 데이터프레임 -> 배열, 리스트, 딕셔너리

ar = df.values
print(ar, type(ar), '\n')
li = df.values.tolist()
print(li, type(li), '\n')
dict_ = df.to_dict('list')
print(dict_, type(dict))

[[2 4 2 1 2]
 [1 2 4 3 4]
 [4 4 1 1 3]
 [2 2 1 2 3]
 [1 2 1 1 4]
 [4 4 4 4 2]
 [1 3 2 4 1]
 [3 1 4 2 4]
 [1 2 4 1 1]
 [2 2 2 1 2]] <class 'numpy.ndarray'> 

[[2, 4, 2, 1, 2], [1, 2, 4, 3, 4], [4, 4, 1, 1, 3], [2, 2, 1, 2, 3], [1, 2, 1, 1, 4], [4, 4, 4, 4, 2], [1, 3, 2, 4, 1], [3, 1, 4, 2, 4], [1, 2, 4, 1, 1], [2, 2, 2, 1, 2]] <class 'list'> 

{'c1': [2, 1, 4, 2, 1, 4, 1, 3, 1, 2], 'c2': [4, 2, 4, 2, 2, 4, 3, 1, 2, 2], 'c3': [2, 4, 1, 1, 1, 4, 2, 4, 4, 2], 'c4': [1, 3, 1, 2, 1, 4, 4, 2, 1, 1], 'c5': [2, 4, 3, 3, 4, 2, 1, 4, 1, 2]} <class 'type'>


In [70]:
a = list(range(1, 6))
b = np.arange(5, 11)
c_ = list('abcde')
c = dict(enumerate(c_))
print(c)

print(pd.DataFrame(a))
print(pd.DataFrame(a).values.tolist(), '\n')
print(pd.DataFrame(b), '\n')
print(pd.DataFrame(c, index)) # 사전형에서 밸류가 스칼라값이면 반드시 인덱스 지정



{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e'}
   0
0  1
1  2
2  3
3  4
4  5
[[1], [2], [3], [4], [5]] 

    0
0   5
1   6
2   7
3   8
4   9
5  10 

   0  1  2  3  4
1  a  b  c  d  e
2  a  b  c  d  e
3  a  b  c  d  e
4  a  b  c  d  e


In [30]:
# 리스트
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
print(df1,'\n')
print(df1.values.tolist(),type(df1.values.tolist()),'\n')

# 딕셔너리
df2 = pd.DataFrame({
    '커피':4000,
    '쿠키':3000,
    '케이크':6500
},index=['가격'])
print(df2,'\n')
print(df2.to_dict('list'),type(df2.to_dict('list')),'\n')

# 배열
df3 = pd.DataFrame(np.random.randint(1,10,size=(3,3)),index=['1반','2반','3반'],
                   columns=['달리기','줄다리기','무궁화'])
print(df3,'\n')
print(df3.values)


      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동 

[['냉면'], ['칼국수'], ['잔치국수'], ['수제비'], ['우동']] <class 'list'> 

      커피    쿠키   케이크
가격  4000  3000  6500 

{'커피': [4000], '쿠키': [3000], '케이크': [6500]} <class 'dict'> 

    달리기  줄다리기  무궁화
1반    3     8    6
2반    1     7    6
3반    2     9    6 

[[3 8 6]
 [1 7 6]
 [2 9 6]]


In [24]:
# file

li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'], columns = ['차림표'])
# df1.to_csv('./새 폴더/file_data.csv', index = None)
df1.to_csv("file_data.csv", index = None)
file_data = pd.read_csv("file_data.csv")
file_data

Unnamed: 0,차림표
0,냉면
1,칼국수
2,잔치국수
3,수제비
4,우동


In [23]:
# li = ['냉면','칼국수','잔치국수','수제비','우동']
# df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'], columns = ['차림표'])
# # df1.to_csv('./새 폴더/file_data.csv', index = None)
# df1.to_csv("file_data.csv")
# file_data = pd.read_csv("file_data.csv", index_col = 0)
# file_data

Unnamed: 0,차림표
메뉴1,냉면
메뉴2,칼국수
메뉴3,잔치국수
메뉴4,수제비
메뉴5,우동
