## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체이다.
- 시리즈 인덱스는 데이터 값과 일대일 대응한다. 파이썬 딕셔너리와 비슷한 구조이다.
- contents
   - Series (변환, 인덱스 구조, 원소 선택)
    
      -- 데이터프레임의 컬럼(행)은 모두 시리즈입니다.
      
      -- 값(value) + 인덱스(index) = 시리즈 클래스(Series)
     
      
   - DataFrame (변환, 행인덱스/열이름 지정, 삭제, 선택, 추가, 변경, 전치, 인덱스 활용)
      
      -- 가로축과 세로축이 있는 엑셀과 유사한 데이터구조입니다.
      
      -- 가로축은 로우(행), 세로축은 컬럼(열)이라고 합니다.
      

In [1]:
# 딕셔너리를 시리즈로 변환하기
import pandas as pd

dict_data = {'a':1,'b':2,'c':3}
sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [2]:
# 리스트를 시리즈로 변환하기
list_data = ['2019-07-02', -3.14,'ABC', 100, True]
# sr = pd.Series(list_data) 0번부터 index 번호 부여
sr = pd.Series(list_data,index=list('abcde')) #list index 지정하여 줄 수 있다.
sr

a    2019-07-02
b         -3.14
c           ABC
d           100
e          True
dtype: object

In [6]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' -3.14 'ABC' 100 True]


In [12]:
# 튜플을 시리즈로 변환하기
tup_data = ('kevin','2019-07-02','남', True)
# sr = pd.Series(tup_data) 0번부터 index 번호 부여
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부']) #list index 지정하여 줄 수 있다.
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [14]:
print(sr[0])
print(sr['이름'])
print(sr[[1,2]])
# print(sr[1,2]) -> 오류발생 / list로 묶어줘야한다. [[]]

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [15]:
import numpy as np
data = np.arange(1000,5000,1000)
state = ['California','Ohio','Oregon','Texas']
obj = pd.Series(data, index=state)
obj

California    1000
Ohio          2000
Oregon        3000
Texas         4000
dtype: int32

In [17]:
obj.name = 'population' # Series 전체 name 지정
obj.index.name = 'state' # index name 지정
obj

state
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32

In [21]:
obj.California = np.nan # NaN (Not a Number) : null과 유사한 개념
obj

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [22]:
obj.isnull().sum()  #null 값의 합

1

## 데이터프레임
- 2차원 배열, R의 데이터프레임에서 유래
- 열은 각각 시리즈 객체
- 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)는 m원소들의 단일 행 행렬
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있다.

In [26]:
# 배열을 데이터프레임으로 변환
np.random.seed(0) #
data = np.random.randint(100,120,size=(3,3)) #100과 120 사이 랜덤한 3행 3렬 만들기 -> data로 저장
print(data,type(data)) #데이터 출력/데이터타입 출력

# numpy 배열 이름 : ndarray

# DataFrame 만들기
df = pd.DataFrame(data,index=['d1','d2','d3'],
                 columns = ['pd','sales','inv'])
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [30]:
# 인덱싱 : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1],'\n') #index 번호
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [37]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
print(df.iloc[1][2])
print(df.loc['d2']['inv'])

107
107


In [36]:
df1 = df.copy()
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [39]:
# Q. d3의 값들을 모두 0으로 만드세요.
df1.loc['d3'] = 0
df1
df1.iloc[2]=0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [41]:
# Q. 값들이 모두 0인 d4 행을 추가하세요.
df1.loc['d4']=0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [43]:
# Q. 1행 1열의 값을 0으로 만드세요.
df1.iloc[0,0] = 0
df1

Unnamed: 0,pd,sales,inv
d1,0,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [46]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)

df1 = pd.concat([i1,g1,a1,r1], axis=1)
df1.rename(columns={0:'id',1:'gender',2:'age',3:'region'}, inplace=True)
df1

Unnamed: 0,id,gender,age,region
0,1,1,42,3
1,2,1,21,1
2,3,1,34,5
3,4,1,11,9
4,5,1,77,4
...,...,...,...,...
995,996,1,22,6
996,997,1,76,3
997,998,1,36,4
998,999,1,57,2


과제 : df1에 적합한 컬럼 5개를 추가하여 의미있는 데이터셋을 만드시고 그 데이터 셋의 가치를 설명하세요.

In [130]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
marriage = np.random.randint(2,size=100)
m1 = pd.Series(marriage)
smoking = np.random.randint(2,size=100)
s1 = pd.Series(smoking)
education_level = np.random.randint(1,11,size=100)
e1 = pd.Series(education_level)
religion = np.random.randint(1,11,size=100)
r2 = pd.Series(religion)
drinking = np.random.randint(1,11,size=100)
d1 = pd.Series(drinking)



df1 = pd.concat([i1,g1,a1,r1,m1,s1,e1,r2,d1], axis=1)
df1.rename(columns={0:'id',1:'gender',2:'age',3:'region',4:'marriage',5:'smoking',6:'education_level',7:'religion', 8:'drinking'}, inplace=True)
df1]

# 결혼경험유무, 흡연여부, 학력수준, 종교, 음주횟수를 추가하여 결혼정보회사 등급표

#예측모드 - 요인 - 액션 - 분석> 

Unnamed: 0,id,gender,age,region,marriage,smoking,education_level,religion,drinking
0,1,1,89,8,0.0,1.0,4.0,4.0,6.0
1,2,1,75,9,0.0,0.0,9.0,4.0,5.0
2,3,0,37,5,0.0,1.0,6.0,9.0,3.0
3,4,1,66,10,1.0,0.0,7.0,6.0,6.0
4,5,1,57,10,0.0,0.0,1.0,10.0,7.0
...,...,...,...,...,...,...,...,...,...
995,996,1,48,10,,,,,
996,997,0,27,7,,,,,
997,998,0,54,3,,,,,
998,999,1,17,8,,,,,


In [48]:
df2 = df1.copy() # df1 복사
df2.head() # 5줄만 보이게

Unnamed: 0,id,gender,age,region
0,1,1,42,3
1,2,1,21,1
2,3,1,34,5
3,4,1,11,9
4,5,1,77,4


In [54]:
df2.iloc[0:2]=np.nan  #0~1행 null값으로 바꾸기
df2.head()

Unnamed: 0,id,gender,age,region
0,,,,
1,,,,
2,3.0,1.0,34.0,5.0
3,4.0,1.0,11.0,9.0
4,5.0,1.0,77.0,4.0


In [55]:
df2.isnull().sum()

id        2
gender    2
age       2
region    2
dtype: int64

In [58]:
df2.isnull().sum().sum()  # 데이터프레임 전체 null값의 합

8

In [67]:
# 1 ~ 4로 램덤한 숫자로 구성되는 10행 5열 2차원 배열을 생성
np.random.seed(1)
data = np.random.randint(1,5,size=(10,5))
print(data, type(data))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [69]:
# 배열을 리스트로 변환
list1 = data.tolist()
print(list1,type(list1))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'>


In [72]:
# 리스트를 데이터프레임으로 만들기
df1 = pd.DataFrame(list1,columns=['c1','c2','c3','c4','c5'])
df1.head(3)  #n만큼 출력

Unnamed: 0,c1,c2,c3,c4,c5
0,2,4,1,1,4
1,2,4,2,4,1
2,1,2,1,4,2


In [73]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar,type(ar))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [75]:
li = ar.tolist()
print(li,type(li),'\n')
dict = df1.to_dict('list')
print(dict,type(dict))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'> 

{'c1': [2, 2, 1, 1, 3, 1, 3, 2, 2, 2], 'c2': [4, 4, 2, 3, 2, 3, 1, 4, 2, 3], 'c3': [1, 2, 1, 2, 3, 1, 4, 3, 2, 2], 'c4': [1, 4, 4, 3, 1, 2, 4, 1, 4, 2], 'c5': [4, 1, 2, 1, 4, 3, 2, 3, 4, 1]} <class 'dict'>


In [98]:
# file 생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [99]:
file_data['col3'] = 'e'
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [100]:
# file 을 csv로 저장
file_data.to_csv('dataset/file_data.csv',index=None) #untitle 없애기 중복제거

In [101]:
file_data = pd.read_csv('dataset/file_data.csv')
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [108]:
df_1 = pd.DataFrame({
    'col1' : np.array([1,2,3]),
    'col2' : np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1' : np.array([4,5,6]),
    'col2' : np.array(['D','E','F'])
})

# 데이터프레임 합치기
df_3 = pd.concat([df_1,df_2],axis=1) # axis=1 열의 방향
print(df_3,'\n')
df_4 = pd.concat([df_1,df_2])   # axis=0 행의 방향 / 0은 default값으로 생략가능
df_4

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 



Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
0,4,D
1,5,E
2,6,F


In [111]:
# 열 삭제하기
df_5 = df_4.copy()
df_5 = df_5.drop('col1',axis=1)
df_5

Unnamed: 0,col2
0,A
1,B
2,C
0,D
1,E
2,F


In [113]:
# 행 삭제
df_6 = df_3.copy()
df_6 = df_6.drop([0]) # axis=0 default값으로 생략가능
df_6

Unnamed: 0,col1,col2,col1.1,col2.1
1,2,B,5,E
2,3,C,6,F


In [115]:
df1 = file_data.copy()
df1

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [116]:
df1[3:]

Unnamed: 0,col1,col2,col3
3,4,B,e
4,5,C,e
5,6,C,e


In [117]:
df1[2:5]

Unnamed: 0,col1,col2,col3
2,3,B,e
3,4,B,e
4,5,C,e


In [118]:
df1.iloc[-1]

col1    6
col2    C
col3    e
Name: 5, dtype: object

In [120]:
df1.loc[:,['col1']]  # : 모든 행의 'col1' 열 보기

Unnamed: 0,col1
0,1
1,2
2,3
3,4
4,5
5,6


In [125]:
# df1.loc[:,['col1','col3']] 열을 선택해서 보기
df1[['col1','col3']]

Unnamed: 0,col1,col3
0,1,e
1,2,e
2,3,e
3,4,e
4,5,e
5,6,e


In [124]:
df1.loc[1:3,['col1','col3']] # 행과 열 선택해서 보기

Unnamed: 0,col1,col3
1,2,e
2,3,e
3,4,e


In [128]:
df1.iloc[1:3,0:2] #iloc 정수 형태로

Unnamed: 0,col1,col2
1,2,A
2,3,B


In [4]:
# DataFrame 생성하기 -> columns,index 바꾸기
import numpy as np
import pandas as pd

np.random.seed(2)
data = np.random.randint(50,100,size=(3,5))
df_e = pd.DataFrame(data,columns=list('abcde'))
df_e

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [5]:
df1 = df_e.copy()

In [6]:
# columns, index 바꾸기
df1.rename(columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'},
           index = {0:'이상윤',1:'강유한',2:'조승현'},inplace=True)  #inplace=True 원본에 반영하다
df1

Unnamed: 0,국어,영어,수학,과학,음악
이상윤,90,65,95,58,72
강유한,93,68,61,90,57
조승현,84,99,81,61,71


In [56]:
# 8행 5열 데이터프레임 생성
np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))
df2 = pd.DataFrame(data, columns=list('abcde'))

df2

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [57]:
df = df2.copy()

In [37]:
# Q. 열이름과 행이름 변경
df.rename(columns={'a':'지역','b':'나이','c':'성별','d':'직업','e':'연봉'}, index = {0:'김',1:'이',2:'최',3:'박',4:'임',5:'윤',6:'안',7:'정'},inplace=True)
df

Unnamed: 0,지역,나이,성별,직업,연봉
김,92,74,53,58,50
이,71,69,60,93,91
최,60,71,88,82,70
박,94,79,89,64,76
임,67,76,72,52,52
윤,51,76,55,90,96
안,83,79,92,74,57
정,93,83,65,98,87


In [38]:
# Q. 3행 전체를 출력
df.iloc[2,:]

지역    60
나이    71
성별    88
직업    82
연봉    70
Name: 최, dtype: int32

In [39]:
# Q. 3행 5열의 값 출력
df.iloc[2,4]

70

In [40]:
# Q. 4열의 값을 모두 0으로 변경
df.iloc[:,3]=0
df

Unnamed: 0,지역,나이,성별,직업,연봉
김,92,74,53,0,50
이,71,69,60,0,91
최,60,71,88,0,70
박,94,79,89,0,76
임,67,76,72,0,52
윤,51,76,55,0,96
안,83,79,92,0,57
정,93,83,65,0,87


In [47]:
# Q. 6행의 2,3,4열의 값을 조회
df.iloc[5,1:4]

나이    76
성별    55
직업     0
Name: 윤, dtype: int64

In [48]:
# Q. 2열의 Series와 DataFrame으로 각각 출력
df.iloc[:,1]

김    74
이    69
최    71
박    79
임    76
윤    76
안    79
정    83
Name: 나이, dtype: int32

In [50]:
df.iloc[:, [1]]

Unnamed: 0,나이
김,74
이,69
최,71
박,79
임,76
윤,76
안,79
정,83


In [52]:
df[['나이']]

Unnamed: 0,나이
김,74
이,69
최,71
박,79
임,76
윤,76
안,79
정,83


In [55]:
# Q. 2행 3열의 값을 2행 4열의 값과 동일하게 출력
df.iloc[1,2] = df.iloc[1,3]
df

Unnamed: 0,지역,나이,성별,직업,연봉
김,92,74,53,0,50
이,71,69,0,0,91
최,60,71,88,0,70
박,94,79,89,0,76
임,67,76,72,0,52
윤,51,76,55,0,96
안,83,79,92,0,57
정,93,83,65,0,87


In [60]:
df_s=df.copy()
df_s

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [66]:
df_s.rename(index={0:'r0',1:'r1',2:'r2',3:'r3',4:'r4',5:'r5',6:'r6',7:'r7'},inplace=True)
df_s

Unnamed: 0,a,b,c,d,e
r0,92,74,53,58,50
r1,71,69,60,93,91
r2,60,71,88,82,70
r3,94,79,89,64,76
r4,67,76,72,52,52
r5,51,76,55,90,96
r6,83,79,92,74,57
r7,93,83,65,98,87


In [68]:
df1_s=df_s.copy()
df1_s

Unnamed: 0,a,b,c,d,e
r0,92,74,53,58,50
r1,71,69,60,93,91
r2,60,71,88,82,70
r3,94,79,89,64,76
r4,67,76,72,52,52
r5,51,76,55,90,96
r6,83,79,92,74,57
r7,93,83,65,98,87


In [69]:
# 정렬 sort
# df1_s = df_s.sort_index(ascending=False)
df1_s=df_s.sort_index() # default 올림차순
df1_s

Unnamed: 0,a,b,c,d,e
r0,92,74,53,58,50
r1,71,69,60,93,91
r2,60,71,88,82,70
r3,94,79,89,64,76
r4,67,76,72,52,52
r5,51,76,55,90,96
r6,83,79,92,74,57
r7,93,83,65,98,87


In [70]:
df1_c=df_s.sort_values(by='c',ascending=False) # sort_values (columns 기준으로 sort) ascending
df1_c

Unnamed: 0,a,b,c,d,e
r6,83,79,92,74,57
r3,94,79,89,64,76
r2,60,71,88,82,70
r4,67,76,72,52,52
r7,93,83,65,98,87
r1,71,69,60,93,91
r5,51,76,55,90,96
r0,92,74,53,58,50


In [73]:
# 전치 transpose
df1_t = df1_s.iloc[:5,:]
df1_t

Unnamed: 0,a,b,c,d,e
r0,92,74,53,58,50
r1,71,69,60,93,91
r2,60,71,88,82,70
r3,94,79,89,64,76
r4,67,76,72,52,52


In [74]:
df1_t = df1_t.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,92,71,60,94,67
b,74,69,71,79,76
c,53,60,88,89,72
d,58,93,82,64,52
e,50,91,70,76,52
