#### 판다스

* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

In [2]:
# 시리즈 클래스 만들기
import pandas as pd

dict_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dict_data)
sr

a    1
b    2
c    3
dtype: int64

In [3]:
print(type(sr))

<class 'pandas.core.series.Series'>


In [5]:
# 리스트를 시리즈로 변환

list_data = ['2019-01-02',3.14,'ABC',100,True]
sr = pd.Series(list_data, index = ['a','b','c','d','e'])
sr

a    2019-01-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [6]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-01-02' 3.14 'ABC' 100 True]


In [7]:
# 튜플을 시리즈로 변환
tup_data = ('영인','2015-05-01','여',True)
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부'])
sr

이름              영인
생년월일    2015-05-01
성별               여
학생여부          True
dtype: object

In [9]:
# 인덱싱
print(sr[0])
print(sr['이름'])

영인
영인


In [10]:
# 대괄호 []안에 인덱스를 리스트 형태로 입력하면 원소 데이터를 모두 반환
print(sr[[1,2]])

생년월일    2015-05-01
성별               여
dtype: object


In [12]:
# 배열을 시리즈로 변환
import numpy as np

s1 = np.arange(11,16)
s2 = pd.Series(s1, index=['ED1','ED2','ED3','ED4','ED5'])
print(s1,type(s1),'\n')
print(s2,type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'> 

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [13]:
s2[1:3]

ED2    12
ED3    13
dtype: int32

In [14]:
data = np.arange(1000, 5000, 1000)
obj = pd.Series(data)
state = ['Califonia','Ohio','Oregon','Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [15]:
# null(결측값) 대체
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [17]:
# null 확인
obj.isnull().sum()

1

#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [19]:
# 배열을 데이터프레임으로 변환
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))

df = pd.DataFrame(data, index =['d1','d2','d3'],
                 columns = ['pd','sales','int'])
df

[[103 118 119]
 [105 109 107]
 [111 103 107]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,int
d1,103,118,119
d2,105,109,107
d3,111,103,107


In [22]:
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n')
print(df.loc['d2'])

pd       105
sales    109
int      107
Name: d2, dtype: int32 

pd       105
sales    109
int      107
Name: d2, dtype: int32


In [25]:
# 특정 행,열 선택
print(df.iloc[1,1])
print(df.loc['d2','sales'])

109
109


In [26]:
# 행,열 추가
df.loc['d5'] = 0
df

Unnamed: 0,pd,sales,int
d1,103,118,119
d2,105,109,107
d3,111,103,107
d5,0,0,0


In [27]:
# 원소 값 변경
df.iloc[1,1] = np.nan
df

Unnamed: 0,pd,sales,int
d1,103,118.0,119
d2,105,,107
d3,111,103.0,107
d5,0,0.0,0


In [28]:
import numpy as np
import pandas as pd

id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,81,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
pdt_19 = np.random.randint(1, 6,size=1000)
p_19 = pd.Series(pdt_19)
pdt_20 = np.random.randint(1, 6,size=1000)
p_20 = pd.Series(pdt_20)
price_avg_19 = np.random.rand(1000)
pr19 = price_avg_19*10000
pa_19 = pd.Series(pr19)
price_avg_20 = np.random.rand(1000)
pr20 = price_avg_20*10000
pa_20 = pd.Series(pr20)
qty_19 = np.random.randint(1,101, 1000)
q_19 = pd.Series(qty_19)
qty_20 = np.random.randint(1,101, 1000)
q_20 = pd.Series(qty_20)
time_19 = np.random.randint(1, 24, 1000)
t_19 = pd.Series(time_19)
time_20 = np.random.randint(1, 24, 1000)
t_20 = pd.Series(time_20)
df = pd.concat([i1, g1,a1,r1,p_19,p_20,pa_19,pa_20,q_19,q_20,t_19,t_20],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region',4:'pdt_19',5:'pdt_20',6:'pa_19',7:'pa_20',\
                  8:'q_19',9:'q_20',10:'t_19',11:'t_20'},inplace=True)
df['pa_19'] = round(df['pa_19'],2)
df['pa_20'] = round(df['pa_20'],2)
df.iloc[0,1] = np.nan
print(type(pa_19))
df.head()

<class 'pandas.core.series.Series'>


Unnamed: 0,id,gender,age,region,pdt_19,pdt_20,pa_19,pa_20,q_19,q_20,t_19,t_20
0,1,,42,9,3,3,7569.12,4664.42,2,17,15,3
1,2,0.0,17,2,2,5,7535.56,3758.64,41,80,23,16
2,3,1.0,25,1,4,5,7945.7,9288.59,48,5,7,8
3,4,1.0,68,9,5,1,1877.95,4974.52,82,42,11,5
4,5,1.0,60,1,5,4,1013.75,5261.39,54,83,20,23


In [41]:
df1 = df[:]
df1.head()

Unnamed: 0,id,gender,age,region,pdt_19,pdt_20,pa_19,pa_20,q_19,q_20,t_19,t_20
0,1,,42,9,3,3,7569.12,4664.42,2,17,15,3
1,2,0.0,17,2,2,5,7535.56,3758.64,41,80,23,16
2,3,1.0,25,1,4,5,7945.7,9288.59,48,5,7,8
3,4,1.0,68,9,5,1,1877.95,4974.52,82,42,11,5
4,5,1.0,60,1,5,4,1013.75,5261.39,54,83,20,23


In [42]:
df1.iloc[:5] = np.nan
df1.head(7)

Unnamed: 0,id,gender,age,region,pdt_19,pdt_20,pa_19,pa_20,q_19,q_20,t_19,t_20
0,,,,,,,,,,,,
1,,,,,,,,,,,,
2,,,,,,,,,,,,
3,,,,,,,,,,,,
4,,,,,,,,,,,,
5,6.0,1.0,54.0,5.0,1.0,1.0,3374.01,6681.55,47.0,19.0,23.0,23.0
6,7.0,0.0,19.0,2.0,5.0,1.0,1015.14,8682.96,54.0,56.0,8.0,8.0


In [43]:
# 사전을 데이터프레임으로 변환
sample_array = np.arange(5)
sample_df = pd.DataFrame({
    'col1':sample_array,
    'col2':sample_array*2,
    'col3':['A','B','C','D','E']
})
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [45]:
# 2차원 리스트를 데이터프레임으로 변환
a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
print(list1)
df = pd.DataFrame(list1, columns = ['c1','c2','c3','c4','c5'])
print(df)

[[4, 1, 4, 3, 1], [3, 1, 4, 2, 3], [3, 3, 3, 3, 4], [3, 1, 2, 3, 3], [3, 4, 4, 2, 3], [3, 4, 1, 1, 2], [4, 1, 1, 3, 2], [4, 3, 1, 3, 4], [1, 4, 4, 3, 1], [1, 3, 3, 1, 2]]
   c1  c2  c3  c4  c5
0   4   1   4   3   1
1   3   1   4   2   3
2   3   3   3   3   4
3   3   1   2   3   3
4   3   4   4   2   3
5   3   4   1   1   2
6   4   1   1   3   2
7   4   3   1   3   4
8   1   4   4   3   1
9   1   3   3   1   2


In [48]:
# value_counts 함수 : 칼럼내 value별로 개수를 반환
print(type(df.c1.value_counts()))
df.c1.value_counts()

<class 'pandas.core.series.Series'>


3    5
4    3
1    2
Name: c1, dtype: int64

In [49]:
# unique 함수 : 칼럼내 unique한 value만을 반환
df.c1.unique()

array([4, 3, 1], dtype=int64)

In [50]:
# 데이터프레임을 배열, 리스트, 사전으로 변환
print(df)

   c1  c2  c3  c4  c5
0   4   1   4   3   1
1   3   1   4   2   3
2   3   3   3   3   4
3   3   1   2   3   3
4   3   4   4   2   3
5   3   4   1   1   2
6   4   1   1   3   2
7   4   3   1   3   4
8   1   4   4   3   1
9   1   3   3   1   2


In [52]:
ar = df.values
print(ar,type(ar))

[[4 1 4 3 1]
 [3 1 4 2 3]
 [3 3 3 3 4]
 [3 1 2 3 3]
 [3 4 4 2 3]
 [3 4 1 1 2]
 [4 1 1 3 2]
 [4 3 1 3 4]
 [1 4 4 3 1]
 [1 3 3 1 2]] <class 'numpy.ndarray'>


In [55]:
li = df.values.tolist()
print(li,type(li))

[[4, 1, 4, 3, 1], [3, 1, 4, 2, 3], [3, 3, 3, 3, 4], [3, 1, 2, 3, 3], [3, 4, 4, 2, 3], [3, 4, 1, 1, 2], [4, 1, 1, 3, 2], [4, 3, 1, 3, 4], [1, 4, 4, 3, 1], [1, 3, 3, 1, 2]] <class 'list'>


In [56]:
dict = df.to_dict('list')
print(dict,type(dict))

{'c1': [4, 3, 3, 3, 3, 3, 4, 4, 1, 1], 'c2': [1, 1, 3, 1, 4, 4, 1, 3, 4, 3], 'c3': [4, 4, 3, 2, 4, 1, 1, 1, 4, 3], 'c4': [3, 2, 3, 3, 2, 1, 3, 3, 3, 1], 'c5': [1, 3, 4, 3, 3, 2, 2, 4, 1, 2]} <class 'dict'>


In [57]:
# file 생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [58]:
file_data.to_csv('./dataset/file_data.csv',index=None)
file_data = pd.read_csv('./dataset/file_data.csv')
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [63]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})
print(df_1,'\n')
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C 

   col1 col2
0     4    D
1     5    E
2     6    F


In [64]:
# 병합 - 세로 방향
print(pd.concat([df_1,df_2]))


   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [65]:
# 병합 - 가로 방향
print(pd.concat([df_1,df_2], axis=1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


In [92]:
sample_array = np.arange(5)
sample_df = pd.DataFrame({
    'col1':sample_array,
    'col2':sample_array*2,
    'col3':['A','B','C','D','E']
})
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [82]:
sample_df.col2
sample_df['col2']

0    0
1    2
2    4
3    6
4    8
Name: col2, dtype: int32

In [None]:
[과제]
sample_df에서 인덱싱으로 5개 다양한 데이터 뽑기

In [None]:
'C'

0    A
1    B

col1    2
col2    4

col1    1
col2    2
col3    B

   col2 col3
0     0    A
1     2    B
2     4    C
3     6    D
4     8    E

In [93]:
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [75]:
# 'col1':'col2'는 'col1'에서 'col2' 까지 포함
sample_df.loc[:,'col1':'col2']

Unnamed: 0,col1,col2
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


In [76]:
sample_df[['col1','col3']]

Unnamed: 0,col1,col3
0,0,A
1,1,B
2,2,C
3,3,D
4,4,E


In [77]:
sample_df.iloc[2,:]

col1    2
col2    4
col3    C
Name: 2, dtype: object

In [80]:
sample_df.iloc[2,1]

4

In [85]:
sample_df.loc[3:4,'col1':'col2']

Unnamed: 0,col1,col2
3,3,6
4,4,8


In [86]:
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [94]:
# 열 삭제
print(sample_df.drop('col1',axis=1))

   col2 col3
0     0    A
1     2    B
2     4    C
3     6    D
4     8    E


In [95]:
print(sample_df.query('index==0'))

   col1  col2 col3
0     0     0    A


In [96]:
# col3 열에서 값이 A인 행
print(sample_df.query('col3 == "A"'))

   col1  col2 col3
0     0     0    A


In [97]:
# 복수의 조건 - or
print(sample_df.query('col3 == "A"|col3 == "D"'))

   col1  col2 col3
0     0     0    A
3     3     6    D


In [98]:
# 복수의 조건 - and
print(sample_df.query('col3 == "A" & col1 == 3'))

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [99]:
# 행, 열 모두에 조건 지정
print(sample_df.query('col3 == "A"')[['col2','col3']])

   col2 col3
0     0    A


In [102]:
# 데이터프레임에서 1열만 추출하면 시리즈로 변환
print(sample_df.col1)
type(sample_df.col1)


0    0
1    1
2    2
3    3
4    4
Name: col1, dtype: int32


pandas.core.series.Series

In [103]:
# 배열로 변환
np.array(sample_df.col1)

array([0, 1, 2, 3, 4])

In [104]:
sample_df.col1.values

array([0, 1, 2, 3, 4])

In [107]:
# Series로 데이터프레임 생성(배열 > Series > DataFrame)
import numpy as np
import pandas as pd
c0 = np.random.randint(60,100,size=(3,))
c1 = np.random.randint(60,100,size=(3,))
c2 = np.random.randint(60,100,size=(3,))
c3 = np.random.randint(60,100,size=(3,))
c4 = np.random.randint(60,100,size=(3,))
s1 = pd.Series(c0)
s2 = pd.Series(c1)
s3 = pd.Series(c2)
s4 = pd.Series(c3)
s5 = pd.Series(c4)
df = pd.concat([s1,s2,s3,s4,s5], axis=1)
df.columns=['kor','eng','sci','math','mus']
df.index = ['jim','sam','tom']
df

Unnamed: 0,kor,eng,sci,math,mus
jim,97,83,78,72,68
sam,81,95,62,67,79
tom,96,66,60,72,85


In [108]:
data = np.random.randint(50,100,size=(3,5))
df = pd.DataFrame(data,columns=['kor','eng','sci','math','mus'],
                 index=['jim','sam','tom'])
df

Unnamed: 0,kor,eng,sci,math,mus
jim,57,99,71,96,74
sam,79,93,56,55,89
tom,57,85,93,83,78


In [109]:
# 복사
df1 = df[:]
df1

Unnamed: 0,kor,eng,sci,math,mus
jim,57,99,71,96,74
sam,79,93,56,55,89
tom,57,85,93,83,78


In [None]:
# Q. df1에서 행 인덱스, 열 이름을 변경하여 아래와 같이 출력 하세요.     
열이름 : 국어, 영어, 과학, 수학, 음악
행이름 : j, s, t

In [110]:
# A.
df1.rename(columns={'kor':'국어','eng':'영어','sci':'과학','math':'수학','mus':'음악'},
          index = {'jim':'j','sam':'s','tom':'t'},inplace=True)
df1

Unnamed: 0,국어,영어,과학,수학,음악
j,57,99,71,96,74
s,79,93,56,55,89
t,57,85,93,83,78


In [112]:
df1.index=['j','s','t']
df1.columns=['국어','영어','과학','수학','음악']
df1

Unnamed: 0,국어,영어,과학,수학,음악
j,57,99,71,96,74
s,79,93,56,55,89
t,57,85,93,83,78


In [114]:
df1.iloc[0,4]
df1.loc['j','음악']

74

In [None]:
# Q. 음악 칼럼, t행을 삭제해 보세요

In [119]:
df1.drop('음악',axis=1,inplace=True)
df1.drop('t',axis=0,inplace=True)
df1

Unnamed: 0,국어,영어,과학,수학
j,57,99,71,96
s,79,93,56,55


In [None]:
[과제]
# Q. 데이터프레임 df를 복제하여 df2로 저장한 후 
# df2의 2개 열(column) 'eng', 'mus'를 삭제하세요.

In [None]:
# Q. 사전 자료형 으로부터 아래와 같은 데이터프레임을 생성하세요

In [120]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장 
exam_data = {'kor' : [ 90, 80, 70], 'eng' : [ 98, 89, 95],
             'mus' : [ 85, 95, 100], 'math' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['jim', 'sam', 'tom'])
print(df)

     kor  eng  mus  math
jim   90   98   85   100
sam   80   89   95    90
tom   70   95  100    90


In [116]:
# Q. df에서 fare와 age를 선택하여 100을 곱한 후 출력하세요
# applymap함수 사용 : 함수를 모든 원소에 적용
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [123]:
df_af = titanic.loc[:,['age','fare']]
df_af.head()

def mul_100(n):
    return n * 100
df_map = df_af.applymap(mul_100)
df_map.head()

Unnamed: 0,age,fare
0,2200.0,725.0
1,3800.0,7128.33
2,2600.0,792.5
3,3500.0,5310.0
4,3500.0,805.0


In [118]:
# Q. titanic.fare 데이터를 소수 2째자리 형태로 모두 출력하세요.
# 7.2500 -> 7.25

0       7.25
1      71.28
2       7.92
3      53.10
4       8.05
       ...  
886    13.00
887    30.00
888    23.45
889    30.00
890     7.75
Name: fare, Length: 891, dtype: float64

In [125]:
round(titanic.fare,2)

0       7.25
1      71.28
2       7.92
3      53.10
4       8.05
       ...  
886    13.00
887    30.00
888    23.45
889    30.00
890     7.75
Name: fare, Length: 891, dtype: float64

In [126]:
titanic.shape

(891, 15)

In [127]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB
