## 판다스
- 판다스는 구조화된 데이터 형식을 제공, 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성, 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터 값과 일대일 대응, 파이썬 딕셔너리와 비슷한 구조
- contents
  - Series(변환, 인덱스 구조, 원소 선택)
  - DataFrame(변환, 행인덱스/열이름 지정, 삭제, 선택, 추가 , 변경, 전치, 인덱스 활용)

In [1]:
# 딕셔너리를 시리즈로 변환
import pandas as pd

dic_data = {"a":1, "b":2, "c":3}

sr = pd.Series(dic_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [2]:
data = {"a":1,"b":4,'c':5,'d':7}
srs = pd.Series(data)
print(srs, type(srs))

a    1
b    4
c    5
d    7
dtype: int64 <class 'pandas.core.series.Series'>


In [3]:
# 리스트를 시리즈로 변환
list_data = ["2019-07-02", 3.14, "ABC", 100, True]

sr = pd.Series(list_data,index = list("abcde"))
sr

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [4]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [5]:
# 튜플을 시리즈로 변환
tup_data = ('kevin', '2019-07-02', '남',True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [6]:
#시리즈 인덱싱
print(sr[0])
print(sr["이름"])
print(sr[[1,2]])

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [7]:
import numpy as np
data = np.arange(1000,5000,1000)
state = ['California','Ohio','Oregon','Texas']
obj = pd.Series(data, index=state)
obj


California    1000
Ohio          2000
Oregon        3000
Texas         4000
dtype: int32

In [8]:
obj.name = 'population'
obj.index.name = 'state'
obj

state
California    1000
Ohio          2000
Oregon        3000
Texas         4000
Name: population, dtype: int32

In [9]:
obj.California = np.nan
obj

state
California       NaN
Ohio          2000.0
Oregon        3000.0
Texas         4000.0
Name: population, dtype: float64

In [10]:
obj.isnull().sum()

1

## 데이터프레임
- 2차원 배열, R의 데이터프레임에서 유래
- 열은 각각 시리즈 객체
- 시리즈를 열벡터라고 하면 데이터프레임은 여러 개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)은 m 원소들의 단일 행 행렬
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [31]:
# 배열을 데이터프레임으로 변환
np.random.seed(0)
data = np.random.randint(100,120, size =(3,3))
print(data, type(data))  

df = pd.DataFrame(data, index=['d1', 'd2', 'd3'],
                 columns= ['pd', 'sales''inv'])
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [34]:
# 인덱싱 : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1], "\n")
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [37]:
# Q. iloc, loc를 사용하여 107을 출력하세요.

print(df.iloc[1].loc['inv'])

107


In [39]:
# Q. iloc, loc를 사용하여 107을 출력하세요.


print(df.iloc[1,2], df.loc['d2','inv'])

107 107


In [40]:
df1 = df.copy()
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [44]:
# d3의 값들을 모두 0으로 만드세요.

df1.loc["d3"] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [48]:
# Q 값들이 모두 0인 d4 행을 추가하세요.
df1.loc["d4"] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [50]:
# Q 1행 1열의 값을 0으로 만드세요.

df1.iloc[0,0] = 0
df1

Unnamed: 0,pd,sales,inv
d1,0,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [179]:
# Q id, gender, age, region
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(20,101,size = 1000)
a1 = pd.Series(age)
region = np.random.randint(1, 11, size = 1000)
r1 = pd.Series(region)
married = np.random.randint(2,size = 1000)
m1 = pd.Series(married)
current_asset = np.random.uniform(0, 31, size = 1000)
ca1 = pd.Series(np.round(current_asset, 2))
current_liabilities = np.random.uniform(0, 31, size = 1000)
cl1 = pd.Series(np.round(current_liabilities, 2))
curent_assetrrent_ratio = cur/current_liabilities
cr1 = pd.Series(np.round(current_ratio , 1))
bank = np.random.randint(10, size = 1000)
ba1 = pd.Series(bank)



df1 = pd.concat([i1, g1, a1, r1, m1, ca1, cl1, cr1, ba1], axis = 1)
df1.rename(columns = {0:'id',1:'gender',2:'age',3:'region', 4:'married', 5:"c_asset(m, max = 30)", 6:"c_liabilities(m, max = 30)", 7:"c_ratio(%)", 8:"bank" }, inplace = True)

df1.head()

Unnamed: 0,id,gender,age,region,married,"c_asset(m, max = 30)","c_liabilities(m, max = 30)",c_ratio(%),bank
0,1,0,73,3,0,27.16,16.38,1.7,4
1,2,0,75,7,0,28.11,30.91,0.9,2
2,3,0,83,4,1,19.99,24.92,0.8,1
3,4,0,79,9,1,5.69,14.91,0.4,6
4,5,1,69,5,0,13.91,6.5,2.1,6


- 과제 : df1에 적합한 컬럼 5개를 추가하여 의미있는 데이터 셋을 만드시고 그 데이터셋의 가치를 설명하세요.

- 데이터 셋 설명 :```
추가한 컬럼은 결혼여부(married), 유동자산(c_asset), 유동부채(c_liabilities), 유동비율(c_ratio), 사용하는 은행(bank)로 설정했습니다. 이 자료는 은행이 개인의 신용도를 파악할 때 유용할 것으로 예상됩니다. 대출 시에 개인정보와 개인이 가지고 있는 유동자산을 파악하고 유동부채를 파악하여 유동비율을 구해 신용도 파악에 이용할 수 있습니다. 유동비율이 변할 때, 어느 정도 수치가 되면 위험지수를 알려주는 코드를 만들어 볼 것.```


In [55]:
df2 = df1.copy()
df2.head()

Unnamed: 0,id,gender,age,region
0,1,1,46,8
1,2,0,60,2
2,3,1,61,10
3,4,0,59,6
4,5,0,7,2


In [58]:
df2.iloc[0] = np.nan
df2.iloc[1] = np.nan
df2.head()


Unnamed: 0,id,gender,age,region
0,,,,
1,,,,
2,3.0,1.0,61.0,10.0
3,4.0,0.0,59.0,6.0
4,5.0,0.0,7.0,2.0


In [64]:
df2.isnull().sum()

id        2
gender    2
age       2
region    2
dtype: int64

In [65]:
# Q
df2.isnull().sum().sum()

8

In [70]:
# 1 ~ 4로 구성되는 10행 5열 2차원 배열을 생성

In [73]:
np.random.seed(1)
data = np.random.randint(1,5, size =(10,5))
print(data, type(data))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [74]:
# 배열을 리스트로 변환
list1 = data.tolist()
print(list1, type(list1))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'>


In [75]:
df1 = pd.DataFrame(list1, columns=['c1', 'c2', 'c3', 'c4', 'c5'])
df1.head(3)

Unnamed: 0,c1,c2,c3,c4,c5
0,2,4,1,1,4
1,2,4,2,4,1
2,1,2,1,4,2


In [76]:
# 데이터프레임으 배열, 리스트, 딕셔너리로 변환

ar = df1.values
print(ar, type(ar))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [81]:
li = ar.tolist()
print(li, type(li),'\n')
dict = df1.to_dict('list')
print(dict, type(dict))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'> 

{'c1': [2, 2, 1, 1, 3, 1, 3, 2, 2, 2], 'c2': [4, 4, 2, 3, 2, 3, 1, 4, 2, 3], 'c3': [1, 2, 1, 2, 3, 1, 4, 3, 2, 2], 'c4': [1, 4, 4, 3, 1, 2, 4, 1, 4, 2], 'c5': [4, 1, 2, 1, 4, 3, 2, 3, 4, 1]} <class 'dict'>


In [102]:
#flie 생성

file_data = pd.DataFrame({
    'col1': [1,2,3,4,5,6],
    'col2': ['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [103]:
file_data['col3'] = 'e'
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [104]:
file_data.to_csv('dataset/file_data.csv', index = None)

In [105]:
file_data = pd.read_csv('dataset/file_data.csv')
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [114]:
df_1 = pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})

df_3 = pd.concat([df_1,df_2],axis = 1)
print(df_3, '\n')
df_4 = pd.concat([df_1,df_2])
df_4

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 



Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
0,4,D
1,5,E
2,6,F


In [117]:
#drop 열 삭제
df_5 = df_4.copy()
df_5 = df_5.drop('col1',axis = 1)
df_5

Unnamed: 0,col2
0,A
1,B
2,C
0,D
1,E
2,F


In [121]:
# 행 삭제
df_6 = df_3.copy()
df_6 = df_6.drop([0])
df_6

Unnamed: 0,col1,col2,col1.1,col2.1
1,2,B,5,E
2,3,C,6,F


In [143]:
df1 = file_data.copy()
df1

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [144]:
df1[3:]

Unnamed: 0,col1,col2,col3
3,4,B,e
4,5,C,e
5,6,C,e


In [145]:
df1[2:5]

Unnamed: 0,col1,col2,col3
2,3,B,e
3,4,B,e
4,5,C,e


In [146]:
df1.iloc[-1]

col1    6
col2    C
col3    e
Name: 5, dtype: object

In [151]:
df1.loc[1:3,['col1','col2']]
#df1[['col1','col3']]

Unnamed: 0,col1,col2
1,2,A
2,3,B
3,4,B


In [153]:
df1.iloc[1:3,0:]

Unnamed: 0,col1,col2,col3
1,2,A,e
2,3,B,e


In [158]:
df1.iloc[1::2]

Unnamed: 0,col1,col2,col3
1,2,A,e
3,4,B,e
5,6,C,e


In [2]:
#칼럼과 인덱스 바꾸기
import numpy as np
import pandas as pd
np.random.seed(2)
data = np.random.randint(50, 100, size = (3, 5))
df_e = pd.DataFrame(data, columns = list('abcde'))
df_eb

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [4]:
df1 = df_e.copy()
df1

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [5]:
df1.rename(columns={'a':'국어','b':'영어','c':'수학','d':'과학','e':'음악'}, index={0:'이상윤',1:'강유한',2:'조승현'}, inplace = True)

df1

Unnamed: 0,국어,영어,수학,과학,음악
이상윤,90,65,95,58,72
강유한,93,68,61,90,57
조승현,84,99,81,61,71


In [70]:
# 8행 5열 데이터프레임 생성

np.random.seed(5)
data = np.random.randint(50,100,size = (8,5))
df_2 = pd.DataFrame(data, columns = list('abcde'))
df_2

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [20]:
# Q. 열이름과 행이름 변경
df_2.rename(columns = {'a' : '국어', 'b':'수학','c':'영어','d':'사회','e':'과학'}, index = {0:"A",1:"B",2:"C",3:"D",4:"E",5:"F",6:"G",7:"H"}, inplace = True)
df_2

Unnamed: 0,국어,수학,영어,사회,과학
A,85,64,97,88,66
B,59,58,86,89,77
C,98,80,66,57,62
D,65,99,89,66,77
E,94,63,61,51,97
F,80,70,72,68,59
G,92,91,91,51,68
H,89,66,64,55,50


In [48]:
df_2.loc["C"]

국어    98
수학    80
영어    66
사회    57
과학    62
Name: C, dtype: int32

In [86]:
df_2.iloc[2:3,4:5]

Unnamed: 0,e
2,62


In [58]:
df_2.iloc[:,3] = 0
df_2

Unnamed: 0,국어,수학,영어,사회,과학
A,85,64,97,0,66
B,59,58,86,0,77
C,98,80,66,0,62
D,0,0,0,0,0
E,94,63,61,0,97
F,80,70,72,0,59
G,92,91,91,0,68
H,89,66,64,0,50
사회,0,0,0,0,0


In [59]:
df_2.iloc[5,1:4]

수학    70
영어    72
사회     0
Name: F, dtype: int64

In [61]:
df_2 = df_2.drop(["사회"])

In [62]:

df_2.iloc[:,1]
df_2.iloc[:,[1]]

Unnamed: 0,수학
A,64
B,58
C,80
D,0
E,63
F,70
G,91
H,66


In [67]:
df_2.iloc[1,2] = df_2.iloc[1,3]
df_2

Unnamed: 0,국어,수학,영어,사회,과학
A,85,64,97,0,66
B,59,58,0,0,77
C,98,80,66,0,62
D,0,0,0,0,0
E,94,63,61,0,97
F,80,70,72,0,59
G,92,91,91,0,68
H,89,66,64,0,50


In [71]:
df_s = df_2.copy()
df_s

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [72]:
df_s.rename(index = {0:"r0",1:"r1",2:"r2",3:"r3",4:"r4",5:"r5",6:"r6",7:"r7"}, inplace = True)
df_s

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97
r5,80,70,72,68,59
r6,92,91,91,51,68
r7,89,66,64,55,50


In [74]:
#정렬(sort)
#df1_s= df_s.sort_index(ascending=False) #내림차순
df1_s= df_s.sort_index() #default 올림차순
df1_s

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97
r5,80,70,72,68,59
r6,92,91,91,51,68
r7,89,66,64,55,50


In [78]:
df1_c = df_s.sort_values(by = "c", ascending = False)
df1_c

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r6,92,91,91,51,68
r3,65,99,89,66,77
r1,59,58,86,89,77
r5,80,70,72,68,59
r2,98,80,66,57,62
r7,89,66,64,55,50
r4,94,63,61,51,97


In [82]:
#전치
df1_t = df1_s.iloc[:5,:]
df1_t

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97


In [83]:
df1_t = df1_t.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,85,59,98,65,94
b,64,58,80,99,63
c,97,86,66,89,61
d,88,89,57,66,51
e,66,77,62,77,97


In [90]:
# 배열의 연산
arr = np.arange(12.).reshape(3,4)
print(arr,'\n')
print(arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]] 

[0. 1. 2. 3.]


In [91]:
# broadcasting
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [94]:
# DataFrame과 Series 간 연산

frame = pd.DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'), index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [95]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [96]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0
