## 판다스
- 판다스는 구조화된 데이터 형식을 제공, 시리즈는 1차원 배열, 데이터프레임(엑셀, 행렬)은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조
- contents
  - Series(변환, 인덱스 구조, 원소 선택)
  - DataFrame(변환, 행인덱스/열이름 지정, 삭제, 선택, 추가, 변경, 전치, 인덱스 활용)

In [33]:
# 딕셔너리를 시리즈로 변환
import pandas as pd

dict_data = {'a' : 1, 'b' : 2, 'c' : 3}
sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [38]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data, index=list('abcde'))    #인덱스가 없으면 알파벳대신 01234
sr

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [5]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [111]:
# 튜플을 시리즈로 변환
tup_data = ('kevin', '2019-07-02', '남', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [113]:
print(sr[0])
print(sr['이름'])

# 튜플은 대응하는 값이 나옴.(튜플은 수정이 불가능하기때문에 값이 바뀌지 않아서)

kevin
kevin


In [18]:
print(sr[1:3])
print(sr[[1,2]])
# print(sr[1,2])는 오류남

생년월일    2019-07-02
성별               남
dtype: object
생년월일    2019-07-02
성별               남
dtype: object


In [117]:
import pandas as pd
import numpy as np
data = np.arange(1000,5000,1000)
state = ['Califonia', 'ohio', 'Oregon', 'Texas'] # 인덱스목록
obj = pd.Series(data, index=state)
obj

Califonia    1000
ohio         2000
Oregon       3000
Texas        4000
dtype: int32

In [114]:
obj.name = 'population'
obj.index.name = 'state' # 인덱스에 이름붙여주기
obj

state
Califonia    1000
ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [116]:
obj.Califonia = np.nan  # null값 만들어주기 : 완성된 obj목록에서 인덱스 이름 지정하여 np.nan으로 값주기
obj

state
Califonia       NaN
ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [14]:
obj.isnull().sum()  #obj에 null값이 있으면 개수가 몇개인지?

1

## 데이터프레임
- 2차원 배열, R의 데이터프레임에서 유래
- 열은 각각 시리즈 객체
- 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)는 m원소들의 단일 행 행렬
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [2]:
# 배열을 데이터프레임으로 변환
import numpy as np
import pandas as pd

np.random.seed(0)  # seed값을 주면 랜덤으로 뽑힌 이후 값이 안바뀜. seed값에 숫자는 무슨의미?
data = np.random.randint(100,120, size=(3,3)) # numpy에 랜덤이 있는지. import random ?
print(data, type(data)) # numpy.ndarray 넘파이의 배열

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


In [3]:
df = pd.DataFrame(data, index = ['d1', 'd2', 'd3'], columns = ['pd', 'sales', 'inv'])
df
# 행벡터 1x3, 열벡터 3x1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [4]:
# 인덱싱 : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1])
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int32
pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [5]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
print(df.iloc[1][2])
print(df.loc['d2','inv'])

107
107


In [7]:
df1 = df.copy()
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [8]:
# d3 의 값들을 모두 0으로 만드세요.
df.loc['d3'] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [9]:
# Q 값들이 모두 0인 d4행을 추가하세요.
df1.loc['d4'] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118
d4,0,0,0


In [10]:
# Q 1행 1열의 값을 0으로 만드세요.
df1.iloc[0,0] = 0
df1

Unnamed: 0,pd,sales,inv
d1,0,115,100
d2,103,103,107
d3,109,119,118
d4,0,0,0


In [23]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size=1000) # 성별은 둘밖에 없음
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size = 1000)
r1 = pd.Series(region)

house = np.random.randint(3, size=1000)  # 1 = 세대주 2 = 동거인 3 = 집이 없음
h1 = pd.Series(house)
work = np.random.randint(3, size=1000) # 근무시간. daytime, nighttime, 0은 무직
w1 = pd.Series(work)
food = np.random.randint(3, size=1000) # 2 = 하루3끼, 1 = 하루2끼, 0 = 1끼 이하
f1 = pd.Series(food)
school = np.random.randint(4, size=1000) # 0 = 초졸 이하, 1 = 중졸 2 = 고졸 3 = 대졸 이상
s1 = pd.Series(school)
car = np.random.randint(2, size=1000) # 차보유여부
c1 = pd.Series(car)

df1 = pd.concat([i1,g1,a1,r1, h1, w1, f1, s1, c1], axis = 1)  # axis : 축. 0과1 있음
df1.rename(columns={0:'id', 1:'gender', 2:'age', 3:'region', 4:'house', 5:'work', 6:'food',7:'school',8:'car'}, inplace = True) #0번쨰 열은 id로,...
df1 # df1.head() # 앞의 5개의 값만 출력

Unnamed: 0,id,gender,age,region,house,work,food,school,car
0,1,1,67,4,0,1,0,0,1
1,2,0,41,5,2,2,1,3,0
2,3,1,6,9,2,1,0,3,1
3,4,1,27,5,0,1,0,0,0
4,5,1,63,4,2,0,1,2,0
...,...,...,...,...,...,...,...,...,...
995,996,1,40,2,1,1,0,3,0
996,997,0,33,7,1,2,1,0,1
997,998,0,14,1,2,1,2,2,1
998,999,1,57,1,0,1,2,1,1


In [14]:
# 과제 : df1에 적합한 컬럼 5개를 추가하여 의미있는 데이터셋을 만들고 그 데이터셋의 가치를 설명하세요.

In [15]:
df2 = df1.copy()
df2.head()

Unnamed: 0,id,gender,age,region,house,work,food,school,car
0,1,0,39,1,2,2,0,2,0
1,2,0,20,7,2,1,1,2,1
2,3,1,5,5,1,2,2,0,0
3,4,0,81,1,1,2,0,1,1
4,5,0,82,4,2,1,2,2,0


In [16]:
# 0번째와 1번쨰 행 값을 null값으로 바꿔보세요.
df2.iloc[0:2] = np.nan
df2.head()

Unnamed: 0,id,gender,age,region,house,work,food,school,car
0,,,,,,,,,
1,,,,,,,,,
2,3.0,1.0,5.0,5.0,1.0,2.0,2.0,0.0,0.0
3,4.0,0.0,81.0,1.0,1.0,2.0,0.0,1.0,1.0
4,5.0,0.0,82.0,4.0,2.0,1.0,2.0,2.0,0.0


In [17]:
df2.isnull().sum().sum() # null값이 몇개인지. sum2번은 왜들어가는지?

18

In [15]:
# Q. 1~4로 이루어진 10행 5열짜리 2차원 배열 만들기
np.random.seed(1) # seed안에 들어가는 숫자의 기준은? 0, 1 ?
data = np.random.randint(1,5, size = (10,5))

In [16]:
# 배열을 리스트로 변환
list1 = data.tolist()
print(list1, type(list1))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'>


In [17]:
df1 = pd.DataFrame(list1, columns =['c1', 'c2', 'c3','c4', 'c5'])
df1.head(3) #안에 숫자를 넣으면 넣은만큼만 보여줌

Unnamed: 0,c1,c2,c3,c4,c5
0,2,4,1,1,4
1,2,4,2,4,1
2,1,2,1,4,2


In [25]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar, type(ar))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [30]:
li = ar.tolist()
print(li, type(li), '\n')
dict = df1.to_dict('list')
print(dict, type(dict))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'> 

{'c1': [2, 2, 1, 1, 3, 1, 3, 2, 2, 2], 'c2': [4, 4, 2, 3, 2, 3, 1, 4, 2, 3], 'c3': [1, 2, 1, 2, 3, 1, 4, 3, 2, 2], 'c4': [1, 4, 4, 3, 1, 2, 4, 1, 4, 2], 'c5': [4, 1, 2, 1, 4, 3, 2, 3, 4, 1]} <class 'dict'>


In [60]:
# file 생성
file_data = pd.DataFrame({
    'col1': [1,2,3,4,5,6],
    'col2': ['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [61]:
file_data['col3'] = 'e'
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [67]:
file_data.to_csv('dataset/file_data.csv', index=None) # csv로 저장한다. index애 none값을 주면?

In [68]:
# 저장된거 확인했으니 다시 불러오기
file_data = pd.read_csv('dataset/file_data.csv')
file_data  # 원하지 않는 unnamed 가 출력됨 >> 위에서 index에 none값을 주면 출력이 되지 않음

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [75]:
df_1 = pd.DataFrame({
    'col1' : np.array([1,2,3]),
    'col2' : np.array(['A','B','C'])
})

df_2 = pd.DataFrame({
    'col1' : np.array([4,5,6]),
    'col2' : np.array(['D','E','F'])
})


df_3 = pd.concat([df_1,df_2], axis = 1)  # concat(~~~, 방향)
print(df_3,'\n')

df_4 = pd.concat([df_1,df_2])  # axis 디폴트값은 0이라 안써도됨. 행이 이상해졌는데 이건 리셋 인덱스~~로 정리하면됨
print(df_4)

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [77]:
df_5 = df_4.copy()
df_5 = df_5.drop('col1', axis = 1)  # drop : 줄 삭제.  여기는 열방향 삭제. col1삭제
df_5

Unnamed: 0,col2
0,A
1,B
2,C
0,D
1,E
2,F


In [80]:
df_6 = df_3.copy()
df_6 = df_6.drop([0])  # 0 행들을 삭제하는 작업
df_6

Unnamed: 0,col1,col2,col1.1,col2.1
1,2,B,5,E
2,3,C,6,F


In [85]:
df1 = file_data.copy()
df1

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [86]:
df1[:3]

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e


In [87]:
df1[3:]

Unnamed: 0,col1,col2,col3
3,4,B,e
4,5,C,e
5,6,C,e


In [88]:
df1[2:5]

Unnamed: 0,col1,col2,col3
2,3,B,e
3,4,B,e
4,5,C,e


In [95]:
# 인덱싱 : iloc 정수 인덱스, loc 이름 인덱스
df1.iloc[-1] # 마지막행값

col1    6
col2    C
col3    e
Name: 5, dtype: object

In [103]:
df1.loc[:,['col1','col3']]  # [:   >> 모든 행과 2개의 columns
# df1[['col1','col3']]  # 같은 값

Unnamed: 0,col1,col3
0,1,e
1,2,e
2,3,e
3,4,e
4,5,e
5,6,e


In [109]:
df1.loc[1:3,['col1','col3']]  # loc : 이름 인덱싱

Unnamed: 0,col1,col3
1,2,e
2,3,e
3,4,e


In [110]:
df1.iloc[1:3,0:] # iloc : 정수 인덱싱. 앞엔 행, 뒤엔 열

Unnamed: 0,col1,col2,col3
1,2,A,e
2,3,B,e


In [24]:
import numpy as np
import pandas as pd
np.random.seed(2)
data = np.random.randint(50,100,size=(3,5))
df_e = pd.DataFrame(data, columns=list('abcde'))
df_e

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [26]:
df1 = df_e.copy()

In [28]:
# 행 인덱스를 바꾸고싶다? + 열 이름 바꾸기
df1.rename(columns={'a':'국어','b':'영어', 'c':'수학', 'd':'과학', 'e':'음악'},
           index={0:'이상윤', 1:'강유한', 2:'조승현'}, inplace=True) # inplace : 원본에 반영하기
df1

Unnamed: 0,국어,영어,수학,과학,음악
이상윤,90,65,95,58,72
강유한,93,68,61,90,57
조승현,84,99,81,61,71


In [75]:
# 8행 5열 데이터프레임 짜보기

np.random.seed(5) # 숫자는 열 수??
data = np.random.randint(50,100, size=(8,5))   # size에 데이터프레임 크기가 들어가도됨
df_a = pd.DataFrame(data, columns = list('abcde'))
df_a

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [55]:
# Q. 열이름과 행이름 변경
df_b = df_a.copy()
df_b
df_b.rename(columns = {'a':'A', 'b':'B', 'c':'C', 'd':'D', 'e':'E'},
           index={0:'서울', 1:'대전', 2:'대구', 3:'부산', 4:'고양', 5:'파주', 6:'양양', 7:'안동'})

Unnamed: 0,A,B,C,D,E
서울,85,64,97,88,66
대전,59,58,86,89,77
대구,98,80,66,57,62
부산,65,99,89,66,77
고양,94,63,61,51,97
파주,80,70,72,68,59
양양,92,91,91,51,68
안동,89,66,64,55,50


In [57]:
# Q. 3행만 출력
df_b.iloc[2,:]

a    98
b    80
c    66
d    57
e    62
Name: 2, dtype: int32

In [58]:
# Q. 3행 5열의 값 출력
df_b.iloc[2,4]

62

In [60]:
# Q. 4열의 값을 모두 0으로 변경
df_b.iloc[:,3] = 0
df_b

Unnamed: 0,a,b,c,d,e
0,85,64,97,0,66
1,59,58,86,0,77
2,98,80,66,0,62
3,65,99,89,0,77
4,94,63,61,0,97
5,80,70,72,0,59
6,92,91,91,0,68
7,89,66,64,0,50


In [63]:
# Q. 6행의 2,3,4열의 값을 조회
df_b.iloc[5,1:4]

b    70
c    72
d     0
Name: 5, dtype: int64

In [69]:
# Q. 2열을 Series와 DaraFrame으로 각각 출력
df_b.iloc[:,1] # DataFrame형식
df_b[['b']]

Unnamed: 0,b
0,64
1,58
2,80
3,99
4,63
5,70
6,91
7,66


In [70]:
df_b

Unnamed: 0,a,b,c,d,e
0,85,64,97,0,66
1,59,58,86,0,77
2,98,80,66,0,62
3,65,99,89,0,77
4,94,63,61,0,97
5,80,70,72,0,59
6,92,91,91,0,68
7,89,66,64,0,50


In [74]:
# Q. 2행 3열의 값을 2행 4열의 값과 동일하게 변경
df_b.iloc[1,2] = df_b.iloc[1,3]
df_b

Unnamed: 0,a,b,c,d,e
0,85,64,97,0,66
1,59,58,0,0,77
2,98,80,66,0,62
3,65,99,89,0,77
4,94,63,61,0,97
5,80,70,72,0,59
6,92,91,91,0,68
7,89,66,64,0,50


In [82]:
df_s = df_a.copy()
df_s

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [83]:
df_s.rename(index={0:'r0', 1:'r1', 2:'r2', 3:'r3', 4:'r4', 5:'r5', 6:'r6', 7:'r7'})

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97
r5,80,70,72,68,59
r6,92,91,91,51,68
r7,89,66,64,55,50


In [84]:
df1 = df_s.copy()

In [87]:
# 내림차순으로 설정
df1 = df1.sort_index(ascending=False)
df1

Unnamed: 0,a,b,c,d,e
7,89,66,64,55,50
6,92,91,91,51,68
5,80,70,72,68,59
4,94,63,61,51,97
3,65,99,89,66,77
2,98,80,66,57,62
1,59,58,86,89,77
0,85,64,97,88,66


In [91]:
# sort(정렬)
# c열을 내림차순
df1 = df1.sort_values(by='c', ascending=False)
df1

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
6,92,91,91,51,68
3,65,99,89,66,77
1,59,58,86,89,77
5,80,70,72,68,59
2,98,80,66,57,62
7,89,66,64,55,50
4,94,63,61,51,97


In [96]:
# 전치 : 행과 열을 바꿈 >> 행과 열의 개수가 똑같아야함.
df1_t = df1.iloc[:5,:]

df1_t


Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
6,92,91,91,51,68
3,65,99,89,66,77
1,59,58,86,89,77
5,80,70,72,68,59


In [99]:
# transpose : 행과 열을 바꿈
df1_t = df1_t.transpose()
df1_t

Unnamed: 0,0,6,3,1,5
a,85,92,65,59,80
b,64,91,99,58,70
c,97,91,89,86,72
d,88,51,66,89,68
e,66,68,77,77,59
