## 판다스
- 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터 프레임은 2차원 배열
- 라이브러리는 여러 종류의 class와 다양한 내장함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
- 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조
- contents
  - Series(변환, 인덱스 구조, 원소 선택)
  - DataFrame(변환, 행인덱스/열이름 지정, 삭제, 선택, 추가, 변경, 전치, 인덱스 활용)

In [3]:
# 딕셔너리를 시리즈로 변환
import pandas as pd

dict_data = {'a' : 1, 'b' : 2, 'c' : 3}
sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [8]:
# 리스트를 시리즈로 변환
list_data = ['2019-07-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data, index=list('abcde'))
#sr = pd.Series(list_data)
sr

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [9]:
# 인덱스 및 값
idx = sr.index
val = sr.values
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [10]:
# 튜플을 시리즈로 변환
tup_data = ('kevin', '2019-07-02', '남', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [12]:
print(sr[0])
print(sr['이름'])
print(sr[[1, 2]])
# print(sr[1,2]) 이렇게 하면 에러 XXX

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


In [13]:
import numpy as np
data = np.arange(1000, 5000, 1000)
state = ['Califonia', 'Ohio', 'Oregon', 'Texas']
obj = pd.Series(data, index=state)
obj

Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
dtype: int32

In [14]:
obj.name = 'population'
obj.index.name = 'state'
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [15]:
obj.Califonia = np.nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [16]:
obj.isnull().sum() # null 값이 몇개니?

1

## 데이터프레임
- 2차원 배열, R의 데이터프레임에서 유래
- 열은 각각 시리즈 객체
- 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)는 m 원소들의 단일 행 행렬
- 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
- 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [20]:
# 배열을 데이터프레임으로 변환
np.random.seed(0) # 시드값 주면 랜덤 돌려도 안바뀜
data = np.random.randint(100, 120, size = (3, 3))
print(data, type(data))

df = pd.DataFrame(data, index = ['d1', 'd2', 'd3'], columns = ['pd', 'sales', 'inv'])
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [22]:
# 인덱싱 : iloc 정수 인덱스, loc 이름 인덱스
print(df.iloc[1], '\n')
print(df.loc['d2'])

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [28]:
# Q. iloc, loc를 사용하여 107을 출력하세요.

print(df.iloc[1,2])
print(df.loc['d2', 'inv'])

107
107


In [44]:
df1 = df.copy()
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [45]:
# Q. d3의 값들을 모두 0으로 만드세요.

df1.loc['d3'] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0


In [46]:
# Q. 값들이 모두 0인 d4 행을 추가하세요.

df1.loc['d4'] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,0,0,0
d4,0,0,0


In [47]:
# Q. 1행 1열의 값을 0으로 만드세요.

df1.iloc[1,1] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,0,107
d3,0,0,0
d4,0,0,0


In [124]:
# id, gender, age, region
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(1, 101, size = 1000)
a1 = pd.Series(age)
region = np.random.randint(1, 11, size = 1000)
r1 = pd.Series(region)

df1 = pd.concat([i1, g1, a1, r1], axis = 1) # axis = 0 행 axis = 1 열 # concat 더해주는거
df1.rename(columns={0:'id', 1:'gender', 2:'age', 3:'region'}, inplace = True)
df1

Unnamed: 0,id,gender,age,region
0,1,1,26,3
1,2,1,78,6
2,3,1,29,3
3,4,1,58,9
4,5,1,7,3
...,...,...,...,...
995,996,0,10,8
996,997,0,74,8
997,998,0,42,1
998,999,0,59,8


과제 : df1에 적합한 컬럼 5개를 추가하여 의미있는 데이터셋을 만드시고 그 데이터셋의 가치를 설명하세요.

In [128]:
id = np.arange(1, 1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size = 1000)
g1 = pd.Series(gender)
age = np.random.randint(1, 101, size = 1000)
a1 = pd.Series(age)
region = np.random.randint(1, 11, size = 1000)
r1 = pd.Series(region)

high = np.random.randint(10, 200, size = 1000)
h1 = pd.Series(high)
weight = np.random.randint(2, 200, size = 1000)
w1 = pd.Series(weight)
with_family = np.random.randint(2, size = 1000)
wf1 = pd.Series(with_family)
eat_supplement = np.random.randint(2, size = 1000)
es1 = pd.Series(eat_supplement)
covid = np.random.randint(2, size = 1000)
c1 = pd.Series(covid)

df1 = pd.concat([i1, g1, a1, r1, h1, w1, wf1, es1, c1], axis = 1)
df1.rename(columns={0:'id', 1:'gender', 2:'age', 3:'region',
                    4:'high', 5:'weight', 6:'with famaily', 
                    7:'eat supplement', 8:'got covid'}, inplace = True)
df1

Unnamed: 0,id,gender,age,region,high,weight,with famaily,eat supplement,got covid
0,1,1,48,3,117,137,0,0,0
1,2,0,40,5,93,5,1,0,1
2,3,1,80,5,54,125,0,0,1
3,4,0,3,7,11,177,1,0,1
4,5,1,94,2,56,158,0,0,0
...,...,...,...,...,...,...,...,...,...
995,996,1,34,10,112,169,1,1,0
996,997,1,37,3,20,146,1,1,0
997,998,1,4,1,157,175,0,1,0
998,999,1,96,8,120,94,1,1,1


데이터셋의 가치 설명 ㄴ내일.. 이시간에,,,
와우,, 다시 해보기


In [51]:
df2 = df1.copy()
df2.head()

Unnamed: 0,id,gender,age,region
0,1,0,11,10
1,2,1,68,10
2,3,0,7,7
3,4,0,92,10
4,5,0,100,10


In [56]:
df2.iloc[0:2] = np.nan
df2.head()

Unnamed: 0,id,gender,age,region
0,,,,
1,,,,
2,3.0,0.0,7.0,7.0
3,4.0,0.0,92.0,10.0
4,5.0,0.0,100.0,10.0


In [57]:
df2.isnull().sum()

id        2
gender    2
age       2
region    2
dtype: int64

In [60]:
df2.isnull().sum().sum()

8

In [None]:
# 1 ~ 4중 랜덤한 숫자로 구성되는 10행 5열 2차원 배열을 생성

In [67]:
np.random.seed(1)
data = np.random.randint(1, 5, size = (10, 5))
print(data, type(data))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [68]:
# 배열을 리스트로 변환

list1 = data.tolist()
print(list1, type(list1))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'>


In [69]:
# 리스트를 데이터프레임으로 변환
df1 = pd.DataFrame(list1, columns=['c1', 'c2', 'c3', 'c4', 'c5'])
df1.head(3)

Unnamed: 0,c1,c2,c3,c4,c5
0,2,4,1,1,4
1,2,4,2,4,1
2,1,2,1,4,2


In [70]:
# 데이터프레임을 배열, 리스트, 딕셔너리로 변환
ar = df1.values
print(ar, type(ar))

[[2 4 1 1 4]
 [2 4 2 4 1]
 [1 2 1 4 2]
 [1 3 2 3 1]
 [3 2 3 1 4]
 [1 3 1 2 3]
 [3 1 4 4 2]
 [2 4 3 1 3]
 [2 2 2 4 4]
 [2 3 2 2 1]] <class 'numpy.ndarray'>


In [72]:
li = ar.tolist()
print(li, type(li), '\n')
dict = df1.to_dict('list') # 딕셔너리는 리스트로 나올수 밖에 없으니까 list 넣어줌
print(dict, type(dict))

[[2, 4, 1, 1, 4], [2, 4, 2, 4, 1], [1, 2, 1, 4, 2], [1, 3, 2, 3, 1], [3, 2, 3, 1, 4], [1, 3, 1, 2, 3], [3, 1, 4, 4, 2], [2, 4, 3, 1, 3], [2, 2, 2, 4, 4], [2, 3, 2, 2, 1]] <class 'list'> 

{'c1': [2, 2, 1, 1, 3, 1, 3, 2, 2, 2], 'c2': [4, 4, 2, 3, 2, 3, 1, 4, 2, 3], 'c3': [1, 2, 1, 2, 3, 1, 4, 3, 2, 2], 'c4': [1, 4, 4, 3, 1, 2, 4, 1, 4, 2], 'c5': [4, 1, 2, 1, 4, 3, 2, 3, 4, 1]} <class 'dict'>


In [73]:
# file 생성
file_data = pd.DataFrame({
    'col1':[1, 2, 3, 4, 5, 6],
    'col2':['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [82]:
file_data['col3'] = 'e'
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [89]:
file_data.to_csv('dataset/file_data.csv', index = None) # untitle 안생기게

In [90]:
file_data=pd.read_csv('dataset/file_data.csv')
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [92]:
df_1 = pd.DataFrame({
    'col1':np.array([1, 2, 3]),
    'col2':np.array(['A','B','C'])
})
df_2 = pd.DataFrame({
    'col1':np.array([4, 5, 6]),
    'col2':np.array(['D','E','F'])
})

df_3 = pd.concat([df_1,df_2], axis=1)
print(df_3,'\n')
df_4 = pd.concat([df_1,df_2])  # axis 안넣어주니까 이상해져씀
df_4

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 



Unnamed: 0,col1,col2
0,1,A
1,2,B
2,3,C
0,4,D
1,5,E
2,6,F


In [93]:
# 열 삭제 drop
df_5 = df_4.copy()
df_5 = df_5.drop('col1', axis=1)
df_5

Unnamed: 0,col2
0,A
1,B
2,C
0,D
1,E
2,F


In [94]:
# 행 삭제 drop 
df_6 = df_3.copy()
df_6 = df_6.drop([0])
df_6

Unnamed: 0,col1,col2,col1.1,col2.1
1,2,B,5,E
2,3,C,6,F


In [98]:
df1 = file_data.copy()
df1

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [99]:
df1[3:]

Unnamed: 0,col1,col2,col3
3,4,B,e
4,5,C,e
5,6,C,e


In [100]:
df1[2:5]

Unnamed: 0,col1,col2,col3
2,3,B,e
3,4,B,e
4,5,C,e


In [101]:
df1.iloc[-1]

col1    6
col2    C
col3    e
Name: 5, dtype: object

In [106]:
df1.loc[:,'col1']  # 앞에 : 는 모든 행

0    1
1    2
2    3
3    4
4    5
5    6
Name: col1, dtype: int64

In [105]:
df1.loc[:,['col1']] # 데이터 프레임 형태로 하려면 col1 한번 더 리스트로 묶어줌

Unnamed: 0,col1
0,1
1,2
2,3
3,4
4,5
5,6


In [108]:
df1.loc[:,['col1','col3']]

Unnamed: 0,col1,col3
0,1,e
1,2,e
2,3,e
3,4,e
4,5,e
5,6,e


In [109]:
df1[['col1','col3']]  # loc 안쓰고도 뽑을수 있음 : 모든 행도 안써주넹

Unnamed: 0,col1,col3
0,1,e
1,2,e
2,3,e
3,4,e
4,5,e
5,6,e


In [110]:
df1.loc[1:3, ['col1','col3']]

Unnamed: 0,col1,col3
1,2,e
2,3,e
3,4,e


In [112]:
df1.iloc[1:3, 0:]   # iloc 사용해서 슬라이싱

Unnamed: 0,col1,col2,col3
1,2,A,e
2,3,B,e


In [2]:
import numpy as np
import pandas as pd
np.random.seed(2)
data = np.random.randint(50, 100, size =(3, 5))
df_e = pd.DataFrame(data, columns=list('abcde'))
df_e

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [5]:
df1 = df_e.copy()

In [7]:
# 행이름 열이름 바꾸기

df1.rename(columns={'a':'국어', 'b':'영어', 'c':'수학', 'd':'과학', 'e':'음악'},
           index={0:'이상윤', 1:'강유한', 2:'조승현'}, inplace=True) 
#inplace = True 꼭 해조야함 그래야 원본에 반영됨 한번 반영하면 취소가 안됨
df1

Unnamed: 0,국어,영어,수학,과학,음악
이상윤,90,65,95,58,72
강유한,93,68,61,90,57
조승현,84,99,81,61,71


In [32]:
# 8행 5열 데이터프레임 생성

np.random.seed(5)
data = np.random.randint(50, 100, size = (8, 5))
df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [9]:
# Q. 열이름과 행이름 변경

In [33]:
df.rename(columns={'a':'Korea','b':'USA','c':'Japan','d':'UK','e':'France'},
         index={0:'Korean', 1:'American', 2:'Japanese', 3:'English', 4:'French',5:'Chinese',
               6:'Italian', 7:'German'}, inplace = True)
df

Unnamed: 0,Korea,USA,Japan,UK,France
Korean,85,64,97,88,66
American,59,58,86,89,77
Japanese,98,80,66,57,62
English,65,99,89,66,77
French,94,63,61,51,97
Chinese,80,70,72,68,59
Italian,92,91,91,51,68
German,89,66,64,55,50


In [12]:
# Q. 3행(세번째) 전체를 출력

In [24]:
df.loc['Japanese']

Korea     98
USA       80
Japan     66
UK        57
France    62
Name: Japanese, dtype: int32

In [25]:
df.iloc[2, :]

Korea     98
USA       80
Japan     66
UK        57
France    62
Name: Japanese, dtype: int32

In [13]:
# Q. 3행 5열의 값 출력

In [26]:
df.iloc[2, 4]

62

In [14]:
# Q. 4열의 값을 모두 0으로 변경

In [34]:
df.iloc[:, 3] = 0
df

Unnamed: 0,Korea,USA,Japan,UK,France
Korean,85,64,97,0,66
American,59,58,86,0,77
Japanese,98,80,66,0,62
English,65,99,89,0,77
French,94,63,61,0,97
Chinese,80,70,72,0,59
Italian,92,91,91,0,68
German,89,66,64,0,50


In [15]:
# Q. 6행의 2,3,4열의 값을 조회

In [35]:
df.iloc[5,1:4]

USA      70
Japan    72
UK        0
Name: Chinese, dtype: int64

In [16]:
# Q. 2열을 Series와 DataFrame으로 각각 출력

In [36]:
df.iloc[: , 1]

Korean      64
American    58
Japanese    80
English     99
French      63
Chinese     70
Italian     91
German      66
Name: USA, dtype: int32

In [37]:
df.iloc[:, [1]]

Unnamed: 0,USA
Korean,64
American,58
Japanese,80
English,99
French,63
Chinese,70
Italian,91
German,66


In [39]:
df[['USA']]

Unnamed: 0,USA
Korean,64
American,58
Japanese,80
English,99
French,63
Chinese,70
Italian,91
German,66


In [None]:
# Q. 2행 3열의 값을 2행 4열의 값과 동일하게 변경

In [41]:
df.iloc[1,2] = df.iloc[1,3]
df

Unnamed: 0,Korea,USA,Japan,UK,France
Korean,85,64,97,0,66
American,59,58,0,0,77
Japanese,98,80,66,0,62
English,65,99,89,0,77
French,94,63,61,0,97
Chinese,80,70,72,0,59
Italian,92,91,91,0,68
German,89,66,64,0,50


In [49]:
np.random.seed(5)
data = np.random.randint(50, 100, size = (8, 5))
df_s = pd.DataFrame(data, columns=list('abcde'))
df_s

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [51]:
df_s.rename(index={0:'r0', 1:'r1', 2:'r2', 3:'r3', 4:'r4',5:'r5',
               6:'r6', 7:'r7'}, inplace = True)
df_s

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97
r5,80,70,72,68,59
r6,92,91,91,51,68
r7,89,66,64,55,50


In [52]:
# 정렬 (sort)
df1_s = df_s.sort_index(ascending=False)  #ascending=False 내림차순 없으면 오름차순
df1_s                                     #sort_index

Unnamed: 0,a,b,c,d,e
r7,89,66,64,55,50
r6,92,91,91,51,68
r5,80,70,72,68,59
r4,94,63,61,51,97
r3,65,99,89,66,77
r2,98,80,66,57,62
r1,59,58,86,89,77
r0,85,64,97,88,66


In [53]:
df1_c = df1_s.sort_values(by='c',ascending=False)  # sort_values
df1_c

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r6,92,91,91,51,68
r3,65,99,89,66,77
r1,59,58,86,89,77
r5,80,70,72,68,59
r2,98,80,66,57,62
r7,89,66,64,55,50
r4,94,63,61,51,97


In [58]:
# 전치 (행과 열을 바꿈)  transpose()
df1_t = df_s.iloc[:5,:]
df1_t

Unnamed: 0,a,b,c,d,e
r0,85,64,97,88,66
r1,59,58,86,89,77
r2,98,80,66,57,62
r3,65,99,89,66,77
r4,94,63,61,51,97


In [59]:
df1_t = df1_t.transpose()
df1_t

Unnamed: 0,r0,r1,r2,r3,r4
a,85,59,98,65,94
b,64,58,80,99,63
c,97,86,66,89,61
d,88,89,57,66,51
e,66,77,62,77,97
