## 판다스(Pandas)
- 판다스는 구조화된 데이터 형식을 제공<br>
    시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성<br>
    시리즈와 데이터프레임은 대표적인 클래스 객체
- 시리즈 인덱스는 데이터 값과 일대일 대응<br>
    파이썬 딕셔너리와 비슷한 구조<br>
    pandas.Series(딕셔너리)<br>
    ex) pd.Series({'빨강':247,'파랑':146,'초록':136})
- Contents
    - Series(변환, 인덱스 구조, 원소 선택)
    - DataFrame(변환, 인덱스, 삭제, 선택, 추가, 변경, 전치 등)

In [1]:
import numpy as np
import pandas as pd

In [15]:
# 시리즈 클래스 만들기 - 딕셔너리를 시리즈로 변환
dic_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dic_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [16]:
dic = {1:'a',2:'b',3:'c'}
ds = pd.Series(dic) # 이건 시리즈
df = pd.DataFrame(ds) # 이건 시리즈로 만든 데이터프레임
df

Unnamed: 0,0
1,a
2,b
3,c


In [8]:
# 시리즈 클래스 만들기 - 리스트를 시리즈로 변환
# 딕셔너리가 아닌 리스트는 인덱스가 없기 때문에 따로 지정 안 하면 일반 인덱스가 나옴
li_data = ['2021-01-12',3.14,"F732",4,True]
sr = pd.Series(li_data)
print(sr, type(sr),'\n')

sr = pd.Series(li_data,index=['1번','2번','3번','4번','5번'])
print(sr, type(sr))
print(sr.index,'\n',sr.values)

0    2021-01-12
1          3.14
2          F732
3             4
4          True
dtype: object <class 'pandas.core.series.Series'> 

1번    2021-01-12
2번          3.14
3번          F732
4번             4
5번          True
dtype: object <class 'pandas.core.series.Series'>
Index(['1번', '2번', '3번', '4번', '5번'], dtype='object') 
 ['2021-01-12' 3.14 'F732' 4 True]


In [9]:
# 시리즈 클래스 만들기 - 튜플을 시리즈로 변환
tp_data = ('김점순','1989-08-31','여',True)
sr = pd.Series(tp_data,index=['이름','생일','성별','감자 좋아함'])
print(sr,type(sr))
print(sr[0],sr['이름'])
print(sr[1:3],'\n',sr[[1,3]]) # 슬라이싱이 아닌 추출을 하려면 리스트[]로 묶어줘야 함

이름               김점순
생일        1989-08-31
성별                 여
감자 좋아함          True
dtype: object <class 'pandas.core.series.Series'>
김점순 김점순
생일    1989-08-31
성별             여
dtype: object 
 생일        1989-08-31
감자 좋아함          True
dtype: object


In [34]:
# 시리즈 클래스 만들기 - 배열을 시리즈로 변환
ar_data = np.arange(1984,1996)
sr = pd.Series(ar_data,index=['쥐','소','호랑이','토끼','용','뱀',
                              '말','양','원숭이','닭','개','돼지'])
print(sr,type(sr))

쥐      1984
소      1985
호랑이    1986
토끼     1987
용      1988
뱀      1989
말      1990
양      1991
원숭이    1992
닭      1993
개      1994
돼지     1995
dtype: int32 <class 'pandas.core.series.Series'>


In [11]:
# 번외 - 시리즈를 배열로 변환
# 인덱스는 빼고 값만 나온다
sr = pd.Series({'빨강':123,'파랑':231,'초록':132})
arr = np.array(sr)
arr

array([123, 231, 132], dtype=int64)

In [41]:
# [연습문제] 4가지 자료형 데이터를 생성하고 각 자료형을 시리즈로 변환하세요.

lidata = [2,3,4,5]
tudata = (True,False,True,True)
dicdata = {'김첨지':'설렁탕','점순이':'감자','나':'아달린'}
arrdata = np.array(['살바도르','빈센트','파블로','램브란트'])
index = ['1번','2번','3번','4번']

li = pd.Series(lidata,index)
tu = pd.Series(tudata,index)
dic = pd.Series(dicdata)
arr = pd.Series(arrdata,index)

print(li)
print(tu)
print(dic)
print(arr)

1번    2
2번    3
3번    4
4번    5
dtype: int64
1번     True
2번    False
3번     True
4번     True
dtype: bool
김첨지    설렁탕
점순이     감자
나      아달린
dtype: object
1번    살바도르
2번     빈센트
3번     파블로
4번    램브란트
dtype: object


In [14]:
# Null 값
data = np.arange(1000,6000,1000)
obj = pd.Series(data)
state = ['California','Ohio','Oregon','Maine','Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
display(obj,pd.DataFrame(obj))

obj.California = np.nan # obj['California'] = np.nan 으로 써도 됨.
# 전자는 안 되는 경우가 있는데(신규 생성), 아래에 기술
print(obj)
display(obj.isnull(), obj.isnull().sum())

state
California    1000
Ohio          2000
Oregon        3000
Maine         4000
Texas         5000
Name: population, dtype: int32

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,1000
Ohio,2000
Oregon,3000
Maine,4000
Texas,5000


state
California       NaN
Ohio          2000.0
Oregon        3000.0
Maine         4000.0
Texas         5000.0
Name: population, dtype: float64


state
California     True
Ohio          False
Oregon        False
Maine         False
Texas         False
Name: population, dtype: bool

1

In [54]:
obj.Newyork = 3500 # 이러면 데이터프레임에 안 들어가짐
print(obj)
obj['Newyork'] = 3500 # 이렇게 하면 들어가짐. 전에 이거 한 번 한 적 있다.
print(obj)

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Maine         4000.0
Texas         5000.0
Name: population, dtype: float64
state
California       NaN
Ohio          2000.0
Oregon        3000.0
Maine         4000.0
Texas         5000.0
Newyork       3500.0
Name: population, dtype: float64


## 데이터프레임
- 데이터프레임은 2차원 배열<br>
    R의 데이터프레임에서 유래
- 데이터프레임의 열은 각각 시리즈 개체
- 시리즈가 열 벡터라면<br>
    데이터 프레임은 여러 개의 열 벡터들이 같은 행 인덱스를 기준으로<br>
    줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(mx1 행렬(m,1))는 m 원소들의 단일 열 행렬 - 하나의 시리즈<br>
    행 벡터(1xm 행렬(1,m))는 m 원소들의 단일 행 행렬 - 하나의 관측치
- 리스트, 딕셔너리, 배열 등 다양한 데이터로부터 생성 가능
- 반대로 리스트, 딕셔너리, 배열 등으로 변환할 수 있다<br>
    (이 때에는 인덱스와 분리되어 하나의 시리즈 값으로 출력)

In [62]:
# 배열을 데이터프레임으로 변환

ar = np.random.randint(100,120,size=(3,3))
print(ar)
df = pd.DataFrame(ar,index = ['D1','D2','D3'],
                 columns = ['상품','판매량','비고'])
print(type(ar),type(df))
df

[[110 102 105]
 [113 112 106]
 [116 104 117]]
<class 'numpy.ndarray'> <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,상품,판매량,비고
D1,110,102,105
D2,113,112,106
D3,116,104,117


In [76]:
# 행 선택
print(df.iloc[1]) # D2(인덱스 1값의 행)
print(df.loc['D2']) # 더 직관적
print()
# 열 선택
print(df.iloc[:,1])
print(df.loc[:,'판매량'])
print()
# 행, 열 선택
print(df.iloc[0,2])
print(df.loc['D1','비고'])

상품     113
판매량    112
비고     106
Name: D2, dtype: int32
상품     113
판매량    112
비고     106
Name: D2, dtype: int32

D1    102
D2    112
D3    104
Name: 판매량, dtype: int32
D1    102
D2    112
D3    104
Name: 판매량, dtype: int32

105
105


In [76]:
# 행 선택
print(df.iloc[1]) # D2(인덱스 1값의 행)
print(df.loc['D2']) # 더 직관적
print()
# 열 선택
print(df.iloc[:,1])
print(df.loc[:,'판매량'])
print()
# 행, 열 선택
print(df.iloc[0,2])
print(df.loc['D1','비고'])

상품     113
판매량    112
비고     106
Name: D2, dtype: int32
상품     113
판매량    112
비고     106
Name: D2, dtype: int32

D1    102
D2    112
D3    104
Name: 판매량, dtype: int32
D1    102
D2    112
D3    104
Name: 판매량, dtype: int32

105
105


In [91]:
# 행 추가
df1 = df.copy()
df1.loc['D4']=0

# 열 추가 (2가지 방법을 써보자)
df1.loc[:,'광고'] = np.random.randint(2,size=4)
df1['신상 여부']=['New','구제품','구제품','New'] # 시리즈 추가

# 원소값 변경
df1.iloc[3,1] = np.nan
df1

Unnamed: 0,상품,판매량,비고,광고,신상 여부
D1,110,102.0,105,1,New
D2,113,112.0,106,0,구제품
D3,116,104.0,117,0,구제품
D4,0,,0,1,New


In [99]:
# 사전(딕셔너리)을 데이터프레임으로 변환
sp1 = np.arange(1,10,2)
df = pd.DataFrame({
    'col1':sp1,
    'col2':sp1*2,
    'col3':['A','B','C','D','E']
},index=[1,2,3,4,5])
df.index.name = 'No.'
df

Unnamed: 0_level_0,col1,col2,col3
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,2,A
2,3,6,B
3,5,10,C
4,7,14,D
5,9,18,E


In [103]:
# 리스트를 데이터프레임으로 변환
a = np.random.randint(1,5,size=(10,5))
li1 = a.tolist()
index = np.arange(1,11)
df = pd.DataFrame(li1,index,['C1','C2','C3','C4','C5'])
df

Unnamed: 0,C1,C2,C3,C4,C5
1,1,4,1,2,2
2,2,4,3,4,1
3,3,4,2,1,4
4,2,4,2,1,1
5,1,3,2,1,3
6,2,1,3,2,1
7,2,2,1,4,4
8,4,2,1,4,4
9,2,3,4,2,2
10,3,4,3,4,2


In [110]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환

ar = df.values
print(ar,type(ar),'\n')  # 배열로 변환 1
print(np.array(df),'\n') # 배열로 변환 2
print(ar.tolist(),'\n')  # 리스트로 변환. df.values.tolist()도 가능.
print(df.to_dict('list')) # 'list','d_list','series' 등등

[[1 4 1 2 2]
 [2 4 3 4 1]
 [3 4 2 1 4]
 [2 4 2 1 1]
 [1 3 2 1 3]
 [2 1 3 2 1]
 [2 2 1 4 4]
 [4 2 1 4 4]
 [2 3 4 2 2]
 [3 4 3 4 2]] <class 'numpy.ndarray'> 

[[1 4 1 2 2]
 [2 4 3 4 1]
 [3 4 2 1 4]
 [2 4 2 1 1]
 [1 3 2 1 3]
 [2 1 3 2 1]
 [2 2 1 4 4]
 [4 2 1 4 4]
 [2 3 4 2 2]
 [3 4 3 4 2]] 

[[1, 4, 1, 2, 2], [2, 4, 3, 4, 1], [3, 4, 2, 1, 4], [2, 4, 2, 1, 1], [1, 3, 2, 1, 3], [2, 1, 3, 2, 1], [2, 2, 1, 4, 4], [4, 2, 1, 4, 4], [2, 3, 4, 2, 2], [3, 4, 3, 4, 2]] 

{'C1': [1, 2, 3, 2, 1, 2, 2, 4, 2, 3], 'C2': [4, 4, 4, 4, 3, 1, 2, 2, 3, 4], 'C3': [1, 3, 2, 2, 2, 3, 1, 1, 4, 3], 'C4': [2, 4, 1, 1, 1, 2, 4, 4, 2, 4], 'C5': [2, 1, 4, 1, 3, 1, 4, 4, 2, 2]}


In [141]:
# [연습문제] 배열, 리스트, 딕셔너리로 데이터프레임을 생성한 후
# 다시 배열, 리스트, 딕셔너리로 변환하세요.

# 리스트
li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
print(df1,'\n')
print(df1.values.tolist(),type(df1.values.tolist()),'\n')

# 딕셔너리
df2 = pd.DataFrame({
    '커피':[4000,4500,5000],
    '쿠키':[3000,3500,3800],
    '케이크':[6500,7000,7500]
},index=['A','B','C'])
print(df2,'\n')
print(df2.to_dict('list'),type(df2.to_dict('list')),'\n')
# 여기서 딕셔너리 값이 스칼라 값이면 인덱스 넣어줘야 함.

# 배열
df3 = pd.DataFrame(np.random.randint(1,10,size=(3,3)),index=['1반','2반','3반'],
                   columns=['달리기','줄다리기','무궁화'])
print(df3,'\n')
print(df3.values)

      차림표
메뉴1    냉면
메뉴2   칼국수
메뉴3  잔치국수
메뉴4   수제비
메뉴5    우동 

[['냉면'], ['칼국수'], ['잔치국수'], ['수제비'], ['우동']] <class 'list'> 

     커피    쿠키   케이크
A  4000  3000  6500
B  4500  3500  7000
C  5000  3800  7500 

{'커피': [4000, 4500, 5000], '쿠키': [3000, 3500, 3800], '케이크': [6500, 7000, 7500]} <class 'dict'> 

    달리기  줄다리기  무궁화
1반    6     1    5
2반    8     3    8
3반    6     8    5 

[[6 1 5]
 [8 3 8]
 [6 8 5]]


In [137]:
# 데이터프레임을 파일로 생성 및 저장 후 불러오기

li = ['냉면','칼국수','잔치국수','수제비','우동']
df1 = pd.DataFrame(li,index=['메뉴1','메뉴2','메뉴3','메뉴4','메뉴5'],columns=['차림표'])
df1.to_csv('./dataset/file_data.csv',index=None) # csv 확장자로 '해당 경로와 이름'으로 저장할 거예용
# 지금 엑셀로 열면 깨지는데 메모장으로 열면 안 깨짐(한글이라 그럼)
# 인덱스 같이 저장하면 인덱스 정보 날라가면서 0번째 컬럼이 됨
file_data = pd.read_csv('./dataset/file_data.csv')
file_data

# 만약 인덱스도 저장하고 싶다면 일단 index=None 지우고 저장한 다음에
# 불러올 때 index_col=0 (0번째 컬럼을 인덱스로 지정) 해서 불러오면 됨

Unnamed: 0,차림표
0,냉면
1,칼국수
2,잔치국수
3,수제비
4,우동
