#### 판다스

* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

In [3]:
# 시리즈 클래스 만들기
# pandas 불러오기 (pd)
import pandas as pd

# k:v 구조를 갖는 딕셔너리를 만들고 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr)
type(sr)

a    1
b    2
c    3
dtype: int64


pandas.core.series.Series

In [5]:
# 리스트를 시리즈로 변환
import pandas as pd

list_data = ['2019-07-02',3.14,'ABC',100,True]
sr = pd.Series(list_data,index=list('abcde'))
sr

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [6]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [8]:
# 튜플을 시리즈로 변환
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [11]:
# 인덱싱
print(sr[0])
print(sr['이름'])
print(sr[[1,2]])

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [17]:
import numpy as np

s1 = np.arange(11,21,2)
print(s1, type(s1))
print()
s2 = pd.Series(s1, index=list('abcde'))
print(s2, type(s2))

[11 13 15 17 19] <class 'numpy.ndarray'>

a    11
b    13
c    15
d    17
e    19
dtype: int32 <class 'pandas.core.series.Series'>


In [None]:
# Q. 배열을 생성 후 시리즈로 변환하여 아래와 같이 출력하세요. 
state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [20]:
data = np.arange(1000, 5000, 1000)
state = ['Califonia','Ohio','Oregon','Texas']
obj = pd.Series(data,index=state)
obj.name = 'population'
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [21]:
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [23]:
obj.isnull().sum()

1

#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [47]:
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120,size=(3,3))
print(data, type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                 columns = ['pd','sales','inv'])
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [41]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n')
print(df.loc['d2'])

pd       108
sales    111
inv      118
Name: d2, dtype: int32 

pd       108
sales    111
inv      118
Name: d2, dtype: int32


In [42]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
print(df.iloc[1,1])
print(df.loc['d2','sales'])

111
111


In [43]:
df.loc['d3'] = 0
df

Unnamed: 0,pd,sales,inv
d1,108,115,113
d2,108,111,118
d3,0,0,0


In [48]:
df.loc['d4'] = 0
df

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118
d4,0,0,0


In [57]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)


df = pd.concat([i1,g1,a1,r1],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region'},inplace=True)
df

Unnamed: 0,id,gender,age,region
0,1,0,5,5
1,2,0,48,2
2,3,1,51,10
3,4,1,45,5
4,5,0,87,6
...,...,...,...,...
995,996,1,85,8
996,997,1,44,10
997,998,0,25,9
998,999,0,43,3


In [None]:
# 과제
# 상기 데이터에 적합한 컬럼 5개를 추가하여 출력하세요.

In [64]:
# df1 = df[:]
df1 = df.copy()
df1.head(3)
# df1.tail(3)

Unnamed: 0,id,gender,age,region
0,1,0,5,5
1,2,0,48,2
2,3,1,51,10


In [65]:
df1.iloc[:2] = np.nan
df1.head()

Unnamed: 0,id,gender,age,region
0,,,,
1,,,,
2,3.0,1.0,51.0,10.0
3,4.0,1.0,45.0,5.0
4,5.0,0.0,87.0,6.0


In [68]:
a = np.random.randint(1,5,size=(10,5))
print(a,type(a))

[[3 2 2 4 3]
 [3 1 3 2 4]
 [3 1 1 4 2]
 [4 1 3 2 2]
 [1 4 3 4 4]
 [1 1 1 2 4]
 [3 4 1 4 1]
 [2 2 2 2 2]
 [4 1 2 1 1]
 [3 4 3 1 4]] <class 'numpy.ndarray'>


In [71]:
# 2차원 리스트를 데이터프레임으로 변환
list1 = a.tolist()
print(list1,type(list))

df1 = pd.DataFrame(list1, columns=['c1','c2','c3','c4','c5'])
print(df1.head(3))

[[3, 2, 2, 4, 3], [3, 1, 3, 2, 4], [3, 1, 1, 4, 2], [4, 1, 3, 2, 2], [1, 4, 3, 4, 4], [1, 1, 1, 2, 4], [3, 4, 1, 4, 1], [2, 2, 2, 2, 2], [4, 1, 2, 1, 1], [3, 4, 3, 1, 4]] <class 'type'>
   c1  c2  c3  c4  c5
0   3   2   2   4   3
1   3   1   3   2   4
2   3   1   1   4   2


In [78]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar,type(ar))
print()
li = ar.tolist()
print(li,type(li))
print()
dict = df1.to_dict('list')
print(dict,type(dict))

[[3 2 2 4 3]
 [3 1 3 2 4]
 [3 1 1 4 2]
 [4 1 3 2 2]
 [1 4 3 4 4]
 [1 1 1 2 4]
 [3 4 1 4 1]
 [2 2 2 2 2]
 [4 1 2 1 1]
 [3 4 3 1 4]] <class 'numpy.ndarray'>

[[3, 2, 2, 4, 3], [3, 1, 3, 2, 4], [3, 1, 1, 4, 2], [4, 1, 3, 2, 2], [1, 4, 3, 4, 4], [1, 1, 1, 2, 4], [3, 4, 1, 4, 1], [2, 2, 2, 2, 2], [4, 1, 2, 1, 1], [3, 4, 3, 1, 4]] <class 'list'>

{'c1': [3, 3, 3, 4, 1, 1, 3, 2, 4, 3], 'c2': [2, 1, 1, 1, 4, 1, 4, 2, 1, 4], 'c3': [2, 3, 1, 3, 3, 1, 1, 2, 2, 3], 'c4': [4, 2, 4, 2, 4, 2, 4, 2, 1, 1], 'c5': [3, 4, 2, 2, 4, 4, 1, 2, 1, 4]} <class 'dict'>


In [80]:
# file 생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']  
})
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [85]:
file_data.to_csv('dataset/file_data.csv',index=None)
file_data = pd.read_csv('dataset/file_data.csv')
print(file_data,type(file_data))

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C <class 'pandas.core.frame.DataFrame'>


In [127]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1)

   col1 col2
0     1    A
1     2    B
2     3    C


In [89]:
# Q. df_1과 df_2를 행방향과 열방향으로 병합하여 출력하세요.
df_3 =pd.concat([df_1,df_2],axis=1)
df_4 =pd.concat([df_1,df_2])
print(df_3)
print()
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [90]:
df_4

Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
0,4,D
1,5,E
2,6,F


In [92]:
# 데이터 추출
# print(df_4.col2)
print(df_4['col2'])

0    A
1    B
2    C
0    D
1    E
2    F
Name: col2, dtype: object


In [97]:
# pd.DataFrame(df_4['col2'])
df_4[['col1']]

Unnamed: 0,col1
0,1
1,2
2,3
0,4
1,5
2,6


In [102]:
# 열 삭제
df = df1.copy()
df_a = df.drop('c1',axis=1)
df_a

In [105]:
# 첫행만 출력
df.query('index==0')

Unnamed: 0,c1,c2,c3,c4,c5
0,3,2,2,4,3


In [108]:
df.query('c3==3')

Unnamed: 0,c1,c2,c3,c4,c5
1,3,1,3,2,4
3,4,1,3,2,2
4,1,4,3,4,4
9,3,4,3,1,4


In [110]:
df.query('c3==2 & c4==2')

Unnamed: 0,c1,c2,c3,c4,c5
7,2,2,2,2,2


In [111]:
df.query('c3==2 | c4==2')

Unnamed: 0,c1,c2,c3,c4,c5
0,3,2,2,4,3
1,3,1,3,2,4
3,4,1,3,2,2
5,1,1,1,2,4
7,2,2,2,2,2
8,4,1,2,1,1


In [112]:
df.query('c3==3')[['c3','c4']]

Unnamed: 0,c3,c4
1,3,2
3,3,2
4,3,4
9,3,1


In [None]:
help(df.query)

In [121]:
df_e = df[:3]
df_e

Unnamed: 0,c1,c2,c3,c4,c5
0,3,2,2,4,3
1,3,1,3,2,4
2,3,1,1,4,2


In [122]:
import warnings
warnings.filterwarnings('ignore')
df_e.rename(columns={'c1':'국어','c2':'영어','c3':'수학','c4':'과학','c5':'음악'},
            index={0:'권준기',1:'우동주',2:'임희진'},inplace=True)
df_e
          

Unnamed: 0,국어,영어,수학,과학,음악
권준기,3,2,2,4,3
우동주,3,1,3,2,4
임희진,3,1,1,4,2


In [125]:
# df_e.loc['권준기','음악']
df_e.iloc[0,4]

3

In [None]:
# 사전으로 데이터프레임 생성(8행 5열)


In [None]:
# 과제
# Q. 생성된 데이터프레임에서 아래 사항을 수행하세요.
- 열이름과 행이름 변경
- 3행만 출력
- 5열만 출력
- 3행 5열의 값 출력
- 4열의 값을 모두 0으로 변경
- 2,3행의 3열 값을 조회(2가지 방법)
- 6행의 2,3,4열의 값을 조회(2가지 방법)
- 2열을 Series와 DataFrame으로 각각 출력
- 2행 3열의 값을 2행 4열의 값과 동일하게 변경
- 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [4]:
# 데이터프레임 생성
import numpy as np
import pandas as pd
np.random.seed(0)
data = np.random.randint(80,100,size=(5,5))
df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [8]:
df1 = df.copy()
df1

Unnamed: 0,a,b,c,d,e
0,92,95,80,83,83
1,87,89,99,98,84
2,86,92,81,86,87
3,94,97,85,93,88
4,89,99,96,99,85


In [9]:
df1['index'] = list('가나다라마')
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [10]:
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [11]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,95,80,83,83
1,나,87,89,99,98,84
2,다,86,92,81,86,87
3,라,94,97,85,93,88
4,마,89,99,96,99,85


In [12]:
df1 = df3[['a','b','c','d','e','index']]
df1

Unnamed: 0,a,b,c,d,e,index
0,92,95,80,83,83,가
1,87,89,99,98,84,나
2,86,92,81,86,87,다
3,94,97,85,93,88,라
4,89,99,96,99,85,마


In [None]:
# Q. 딕셔너리로 5행 5열 데이터 프레임을 작성하세요.
index = ['r0','r1','r2','r3''r4']
column = list('abcde')

In [15]:
# 딕셔서리를 정의
dict_data = {'a':[1,2,3,4,5], 'b':[4,5,6,7,8], 'c':[7,8,9,10,11], 'd':[10,11,12,13,14], 'e':[13,14,15,16,17]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2','r3','r4'])
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [16]:
# Q. df에 r5,r6 2개의 행을 추가하고 값은 0을 적용하여 출력하세요.
df.loc['r5'] = 0
df.loc['r6'] = 0
df

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0


In [17]:
new_index = ['r0','r1','r2','r3','r4','r5','r6','r7','r8']
df5 = df.reindex(new_index,fill_value=0)
df5

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17
r5,0,0,0,0,0
r6,0,0,0,0,0
r7,0,0,0,0,0
r8,0,0,0,0,0


In [18]:
# Q. df5에서 r5 ~ r8까지 삭제 후 df1으로 출력하세요.
df1 = df5.drop(['r5','r6','r7','r8'],axis=0)
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [19]:
df1_s = df1.sort_index(ascending=False)
df1_s

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [21]:
df1_c = df1.sort_values(by='c',ascending=False)
df1_c

Unnamed: 0,a,b,c,d,e
r4,5,8,11,14,17
r3,4,7,10,13,16
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [22]:
# 전치
df1_t = df1.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,1,2,3,4,5
b,4,5,6,7,8
c,7,8,9,10,11
d,10,11,12,13,14
e,13,14,15,16,17


In [23]:
df1 = df1_t.transpose()
df1

Unnamed: 0,a,b,c,d,e
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,4,7,10,13,16
r4,5,8,11,14,17


In [None]:
# 과제
# Q. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 
# 변환하여 출력하세요(가능한한 의미있는 데이터로 작성)

In [None]:
# Q. 위에서 변환한 데이터 프레임에서 데이터 변경, 삭제, 전치, 인덱스 등 
# 처리를 한 후 다시 리스트, 배열, 사전 형태로 변환하여 출력하세요.