#### 판다스

- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)
- Contents
-- series(변환, 인덱스 구조, 원소 선택)
-- DataFrame(변환, 행인덱스/열이름 지정, 삭제, 선택, 추가, 변경, 전치, 인덱스 활용)

In [3]:
# Series 클래스 만들기
import pandas as pd

dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)
# 하나의 열이기 때문에 column이름은 따로 없다.
print(sr)

a    1
b    2
c    3
dtype: int64


In [4]:
print(type(sr))

<class 'pandas.core.series.Series'>


In [8]:
# 리스트를 Series로 변환하기
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
# 인덱스 없이 리스트만 집어넣으면 자동으로 0, 1, 2 등의 인덱스가 부여된다.
sr = pd.Series(list_data)
print(sr)
print()
sr = pd.Series(list_data, index = ['a','b','c','d','e'])
print(sr)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object

a    2019-01-02
b          3.14
c           ABC
d           100
e          True
dtype: object


In [10]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-01-02' 3.14 'ABC' 100 True]


In [13]:
# 튜플을 Series로 변환
tup_data = ('영인', '2015-05-01', '여', True)
# 인덱스는 [] 안에 리스트 형태로 준다.
sr = pd.Series(tup_data, index = ['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              영인
생년월일    2015-05-01
성별               여
학생여부          True
dtype: object


In [15]:
# 인덱싱 - 인덱스가 별도로 문자열로 되어 있는데, 
# 숫자 인덱스로 접근하면 값이 출력된다. (숫자 인덱싱이 기본으로 되어 있기 때문)
# 물론 문자열 인덱스를 입력해도 값이 출력된다.
print(sr[0])
print(sr['이름'])

영인
영인


In [19]:
# 대괄호[]안에 인덱스를 리스트형식으로 입력하면 원소 데이터를 모두 반환
print(sr[[1,2]])
print()
print(sr[['생년월일','성별']])

생년월일    2015-05-01
성별               여
dtype: object

생년월일    2015-05-01
성별               여
dtype: object


In [20]:
# 배열을 시리즈로 변환
import numpy as np

s1 = np.arange(11,16)
s2 = pd.Series(s1, index=['ED1', 'ED2', 'ED3', 'ED4', 'ED5'])
print(s1,type(s1))
print()
print(s2, type(s2))

[11 12 13 14 15] <class 'numpy.ndarray'>

ED1    11
ED2    12
ED3    13
ED4    14
ED5    15
dtype: int32 <class 'pandas.core.series.Series'>


In [21]:
s2[1:3]

ED2    12
ED3    13
dtype: int32

In [22]:
# Series 객체에다 이름을 줄 수 있다.
# 1000에서 5000미만까지 1000 간격으로 데이터 생성
data = np.arange(1000,5000,1000)
obj = pd.Series(data)
state = ['Califonia', 'Ohio', 'Oregon', 'Texas']
obj.name = 'population'
obj.index = state
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [23]:
# null(결축값) 대체
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [24]:
# null 확인
obj.isnull()

state
Califonia     True
Ohio         False
Oregon       False
Texas        False
Name: population, dtype: bool

In [25]:
obj.isnull().sum()

1

#### 데이터프레임

- 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
- 데이터프레임의 열은 각각 시리즈 개체.
- 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있다.

In [27]:
# 배열을 데이터프레임으로 변환
data = np.random.randint(100,120,size=(3,3))
print(data,type(data))

df = pd.DataFrame(data,index=['d1','d2','d3'],
                 columns = ['pd','sales','int'])
df

[[109 109 104]
 [113 105 114]
 [107 115 115]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,int
d1,109,109,104
d2,113,105,114
d3,107,115,115


In [29]:
# 행 선택               #pandas indexing,,,
print(df.iloc[1],'\n')  #iloc는 정수 인덱스
print(df.loc['d2'])     #loc는 이름 인덱스

pd       113
sales    105
int      114
Name: d2, dtype: int32 

pd       113
sales    105
int      114
Name: d2, dtype: int32


In [32]:
# 특정 행, 열 선택
print(df.iloc[1,1])
print(df.loc['d2', 'sales'])

105
105


In [33]:
# 행, 열 추가
df.loc['d5'] = 0
df

Unnamed: 0,pd,sales,int
d1,109,109,104
d2,113,105,114
d3,107,115,115
d5,0,0,0


In [35]:
# 원소 값 변경
df.iloc[1,1] = np.nan
df

Unnamed: 0,pd,sales,int
d1,109,109.0,104
d2,113,,114
d3,107,115.0,115
d5,0,0.0,0


In [38]:
id = np.random.randint(1,1001,size=1000)    # 1~ 1000번 일련번호
id = pd.Series(id)
gender = np.random.randint(0,2,size=1000)   # 0,1 정수 난수 생성
gender = pd.Series(gender)
age = np.random.randint(10,81,size=1000)    # 10~80 사이 정수 난수 생성
age = pd.Series(age)
region = np.random.randint(1,11,size=1000)  # 1~10 사이 정수 난수 생성
region = pd.Series(region)
prod_19= np.random.randint(1,6,size=1000)   # 1~5 사이 정수 난수 생성
prod_19 = pd.Series(prod_19)
prod_20= np.random.randint(1,6,size=1000)
prod_20 = pd.Series(prod_20)
price_avg_19 = np.random.uniform(1000.0,50000.0,size=1000) # 1000~50000 사이 실수 난수 생성
price_avg_19 = pd.Series(price_avg_19)
price_avg_20 = np.random.uniform(1000.0,50000.0,size=1000)
price_avg_20 = pd.Series(price_avg_20)

time_19 = np.random.randint(1,25,size=1000)  # 01~24 사이 정수 난수 생성
time_19 = pd.Series(time_19)
time_20 = np.random.randint(1,25,size=1000)
time_20 = pd.Series(time_20)

df = pd.concat([id,gender,age,region,prod_19,prod_20,price_avg_19,price_avg_20,time_19,time_20],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region',4:'prod_19',5:'prod_20',6:'price_avg_19',7:'price_avg_20',8:'time_19',9:'time_20'},inplace=True)
df['price_avg_19'] = round(df['price_avg_19'],2)
df['price_avg_20'] = round(df['price_avg_20'],2)
#print(df)

df.iloc[1:5, 5:7] = np.nan
df.iloc[:, 0] =np.nan
df

      id  gender  age  region  prod_19  prod_20  price_avg_19  price_avg_20  \
0    481       1   36       4        5        4       7322.69      31318.72   
1    856       1   40       1        4        5      19604.93      25350.60   
2    631       0   11       8        3        1      12429.56      40187.61   
3    267       0   36       8        1        4      24069.13      49878.15   
4    549       0   78       9        3        1      20549.66       8032.03   
..   ...     ...  ...     ...      ...      ...           ...           ...   
995  762       0   44       5        1        2       3555.30      29832.23   
996  606       1   74       7        4        2      23072.57       3116.95   
997  183       1   71       8        3        4      38059.63      16971.73   
998  490       0   68       9        3        3      21552.11      43972.64   
999  195       0   28       7        4        2      32274.67      18963.27   

     time_19  time_20  
0          6       13  
1  

Unnamed: 0,id,gender,age,region,prod_19,prod_20,price_avg_19,price_avg_20,time_19,time_20
0,,1,36,4,5,4.0,7322.69,31318.72,6,13
1,,1,40,1,4,,,25350.60,11,12
2,,0,11,8,3,,,40187.61,22,6
3,,0,36,8,1,,,49878.15,11,8
4,,0,78,9,3,,,8032.03,21,18
...,...,...,...,...,...,...,...,...,...,...
995,,0,44,5,1,2.0,3555.30,29832.23,19,15
996,,1,74,7,4,2.0,23072.57,3116.95,11,10
997,,1,71,8,3,4.0,38059.63,16971.73,6,12
998,,0,68,9,3,3.0,21552.11,43972.64,12,11


In [39]:
# 사전을 데이터프레임으로 변환
sample_array = np.arange(5)
sample_df = pd.DataFrame({
    'col1':sample_array,
    'col2':sample_array*2,
    'col3':['A','B','C','D','E']
})
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [48]:
# 2차원 리스트를 데이터프레임으로 변환
a = np.random.randint(1,5,size=(10,5))
list1 = a.tolist()
print(list1)
print()
df = pd.DataFrame(list1, columns = ['c1','c2','c3','c4','c5'])
df

[[3, 4, 2, 3, 1], [2, 2, 2, 2, 4], [1, 4, 4, 1, 2], [2, 1, 4, 2, 2], [2, 1, 1, 2, 3], [1, 4, 2, 3, 1], [4, 1, 2, 3, 2], [3, 4, 1, 1, 2], [2, 1, 1, 2, 3], [1, 2, 1, 4, 4]]



Unnamed: 0,c1,c2,c3,c4,c5
0,3,4,2,3,1
1,2,2,2,2,4
2,1,4,4,1,2
3,2,1,4,2,2
4,2,1,1,2,3
5,1,4,2,3,1
6,4,1,2,3,2
7,3,4,1,1,2
8,2,1,1,2,3
9,1,2,1,4,4


In [49]:
# 자료처리할때 유용하다
# value_counts 함수 - 칼럼 내 value별로 갯수 반환
print(type(df.c1.value_counts()))
df.c1.value_counts()

<class 'pandas.core.series.Series'>


2    4
1    3
3    2
4    1
Name: c1, dtype: int64

In [50]:
# unique 함수 : 칼럼 내 unique한 value만을 반환한다.
print(df.c1.unique())

[3 2 1 4]


In [51]:
# 데이터프레임을 배열, 리스트, 사전으로 변환
print(df)

   c1  c2  c3  c4  c5
0   3   4   2   3   1
1   2   2   2   2   4
2   1   4   4   1   2
3   2   1   4   2   2
4   2   1   1   2   3
5   1   4   2   3   1
6   4   1   2   3   2
7   3   4   1   1   2
8   2   1   1   2   3
9   1   2   1   4   4


In [53]:
ar = df.values
print(ar, type(ar))

[[3 4 2 3 1]
 [2 2 2 2 4]
 [1 4 4 1 2]
 [2 1 4 2 2]
 [2 1 1 2 3]
 [1 4 2 3 1]
 [4 1 2 3 2]
 [3 4 1 1 2]
 [2 1 1 2 3]
 [1 2 1 4 4]] <class 'numpy.ndarray'>


In [55]:
li = df.values.tolist()
print(li, type(li))

[[3, 4, 2, 3, 1], [2, 2, 2, 2, 4], [1, 4, 4, 1, 2], [2, 1, 4, 2, 2], [2, 1, 1, 2, 3], [1, 4, 2, 3, 1], [4, 1, 2, 3, 2], [3, 4, 1, 1, 2], [2, 1, 1, 2, 3], [1, 2, 1, 4, 4]] <class 'list'>


In [57]:
dict = df.to_dict('list')
print(dict,type(dict))

{'c1': [3, 2, 1, 2, 2, 1, 4, 3, 2, 1], 'c2': [4, 2, 4, 1, 1, 4, 1, 4, 1, 2], 'c3': [2, 2, 4, 4, 1, 2, 2, 1, 1, 1], 'c4': [3, 2, 1, 2, 2, 3, 3, 1, 2, 4], 'c5': [1, 4, 2, 2, 3, 1, 2, 2, 3, 4]} <class 'dict'>


In [58]:
#file생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [59]:
file_data.to_csv('./dataset/file_data.csv',index=None)
file_data = pd.read_csv('./dataset/file_data.csv')
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [65]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])})
print(df_1)
print(df_2)

   col1 col2
0     1    A
1     2    B
2     3    C
   col1 col2
0     4    D
1     5    E
2     6    F


In [66]:
# 병합 - 세로 방향
print(pd.concat([df_1,df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [67]:
# 병합 - 가로 방향
print(pd.concat([df_1,df_2],axis=1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


In [96]:
sample_array = np.arange(5)
sample_df = pd.DataFrame({
    'col1':sample_array,
    'col2':sample_array*2,
    'col3':['A','B','C','D','E']
})
sample_df

Unnamed: 0,col1,col2,col3
0,0,0,A
1,1,2,B
2,2,4,C
3,3,6,D
4,4,8,E


In [76]:
sample_df.col2
sample_df['col2']

0    0
1    2
2    4
3    6
4    8
Name: col2, dtype: int32

In [None]:
[과제]
sample_df에서 인덱싱으로 5가지 방법의 다양한 데이터 뽑기

In [81]:
print(sample_df.iloc[1,1])
print()
print(sample_df.loc[1,'col1'])
print()
print(sample_df.iloc[4,:])
print()
print(sample_df.loc[:,'col3'])
print()
print(sample_df.iloc[:])

2

1

col1    4
col2    8
col3    E
Name: 4, dtype: object

0    A
1    B
2    C
3    D
4    E
Name: col3, dtype: object

   col1  col2 col3
0     0     0    A
1     1     2    B
2     2     4    C
3     3     6    D
4     4     8    E


In [85]:
#'col1':'col2' 처럼 loc을 이용한 슬라이싱은 'col2'의 직전까지가 아닌
#              col2를 포함한 값
sample_df.loc[:,'col1':'col2']

Unnamed: 0,col1,col2
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


In [86]:
sample_df[['col1','col3']]

Unnamed: 0,col1,col3
0,0,A
1,1,B
2,2,C
3,3,D
4,4,E


In [88]:
sample_df.iloc[2,:]

col1    2
col2    4
col3    C
Name: 2, dtype: object

In [90]:
sample_df.iloc[2,1]

4

In [91]:
#loc에서 슬라이싱을 쓰면 end point를 포함한다.
sample_df.loc[3:4,'col1':'col2']

Unnamed: 0,col1,col2
3,3,6
4,4,8


In [97]:
# 열 삭제 - drop                    inplace=False 가 default값이고, 
#                          inplace=True를 사용하면 원본에 반영한다는 뜻이다.
print(sample_df.drop('col1',axis=1,inplace=False))

   col2 col3
0     0    A
1     2    B
2     4    C
3     6    D
4     8    E


In [98]:
#index가 0번인 것을 조회한다. query
print(sample_df.query('index==0'))

   col1  col2 col3
0     0     0    A


In [99]:
# col3 열에서 값이 A인 행이 출력된다.
print(sample_df.query('col3=="A"'))

   col1  col2 col3
0     0     0    A


In [100]:
# 복수의 조건 - or
print(sample_df.query('col3 == "A" | col3 == "D"'))

   col1  col2 col3
0     0     0    A
3     3     6    D


In [101]:
# 복수의 조건 - and
print(sample_df.query('col3 == "A" & col1 == "3"'))

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [102]:
# 행, 열 모두에 조건 지정  col3가 A인 행을 선택해주고, col2열과 col3열을 출력
print(sample_df.query('col3 == "A"')[['col2','col3']])

   col2 col3
0     0    A


In [103]:
sample_df[['col2','col3']]

Unnamed: 0,col2,col3
0,0,A
1,2,B
2,4,C
3,6,D
4,8,E


In [105]:
# 데이터프레임에서 1열만 추출하면 시리즈로 변환
# Series는 column명이 없고, Name이 있다.
print(sample_df.col1)
print(type(sample_df.col1))

0    0
1    1
2    2
3    3
4    4
Name: col1, dtype: int32
<class 'pandas.core.series.Series'>


In [106]:
# Series->배열 변환 1
np.array(sample_df.col1)

array([0, 1, 2, 3, 4])

In [107]:
# Series->배열 변환 2
sample_df.col1.values

array([0, 1, 2, 3, 4])

In [121]:
ar = np.random.randint(60,100,size=(3,5))
df = pd.DataFrame(ar,index=['jim','sam','tom'],columns=['kor','eng','sci','math','mus'])
df

Unnamed: 0,kor,eng,sci,math,mus
jim,65,95,97,96,97
sam,61,60,65,97,74
tom,85,98,66,79,97


In [132]:
# 복사
df1 = df[:]
df1

Unnamed: 0,kor,eng,sci,math,mus
jim,65,95,97,96,97
sam,61,60,65,97,74
tom,85,98,66,79,97


In [133]:
# Q. df1에서 행 인덱스, 열 이름을 변경하여 아래와 같이 출력하세요.
# df1.index = ['j','s','t']
# df1.columns = ['국어','영어','과학','수학','음악']
df1.rename(columns={'kor':'국어', 'eng':'영어', 'sci':'과학', 'math':'수학','mus':'음악'},inplace=True)
df1.rename(index={'jim':'j','sam':'s','tom':'t'},inplace=True)
df1

Unnamed: 0,국어,영어,과학,수학,음악
j,65,95,97,96,97
s,61,60,65,97,74
t,85,98,66,79,97


In [134]:
df1.iloc[0,4]
df1.loc['j','음악']

97

In [135]:
# Q. 음악 칼럼, t행을 삭제
df1.drop('음악',axis=1,inplace=True)
df1.drop('t',axis=0,inplace=True)
df1

Unnamed: 0,국어,영어,과학,수학
j,65,95,97,96
s,61,60,65,97


In [136]:
# Q.데이터프레임 df를 복제해서 df2로 저장한 후
# df2의 2개 열column 'eng' 'mus'를 삭제하세요.
df2 = df[:]

df2.drop('eng',axis=1,inplace=True)
df2.drop('mus',axis=1,inplace=True)
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Unnamed: 0,kor,sci,math
jim,65,97,96
sam,61,65,97
tom,85,66,79


In [145]:
# Q. 사전 자료형으로부터 아래와 같은 데이터프레임을 생성하세요.

col1 = [90,80,70]
col2 = [98,89,95]
col3 = [85,95,100]
col4 = [100,90,90]
exam_data = {'kor':col1,'eng':col2,'mus':col3,'math':col4}

sample_df = pd.DataFrame(exam_data,index = ['jim','sam','tom'])
sample_df

Unnamed: 0,kor,eng,mus,math
jim,90,98,85,100
sam,80,89,95,90
tom,70,95,100,90


In [151]:
#[과제]
# Q. df에서 fare와 age를 선택하여 100을 곱한 후 출력하세요
# applymap함수 사용: 함수를 모든 원소에 적용
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic

df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [159]:
def times100(x):
    if type(x) is float:
        x *= 100
    return x

df_af = titanic.loc[:,['age','fare']]
df_af.head()

df_map = df_af.applymap(times100)
df_map.head()

Unnamed: 0,age,fare
0,2200.0,725.0
1,3800.0,7128.33
2,2600.0,792.5
3,3500.0,5310.0
4,3500.0,805.0


In [160]:
# Q. titanic.fare 데이터를 소수 2째자리 형태로 모두 출력하세요
# 7.2500 -> 7.25
round(titanic.fare,2)

0       7.25
1      71.28
2       7.92
3      53.10
4       8.05
       ...  
886    13.00
887    30.00
888    23.45
889    30.00
890     7.75
Name: fare, Length: 891, dtype: float64

In [161]:
# info로 null값이 있는지 확인하고, null값이 있으면 적절히 처리해줘야 한다.
# 독립변수가 종속변수에 어떻게 영향을 주는가? 종속변수에 대한 예측
# 이곳에서는 여러 변수가 생존에 어떻게 영향을 줬는지 따져야 한다.
# 타이타닉은 생존자를 예측하는 모델. 이 때 종속변수는 survived다.
# 파생 변수 - 의미가 희미한 데이터를 범주화하여 의미있는 데이터로 만드는 것
# ex) 나이 1~2살의 의미는 별로 없지만 이것을 범주화하여 영,유아,청소년,중,장년 등으로 묶는 것 등을 말한다.
# 전처리할때 데이터를 문자열이 아닌 숫자의 형태로 만들어 줘야 함.
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB
