## pandas
- Pandas는 구조화된 데이터 형식을 제공. Series는 1차원 배열, DataFrame은 2차원 배열(95%, 엑셀과 비슷)
- 라이브러리는 여러 종류의 class와 다양한 내장함수로 구성. Series와 DataFrame은 대표적인 class객체 <br>
    : 클래스는 설계도(붕어빵 틀), 객체는 상품(붕어빵)
- Series 인덱스는 데이터 값과 일대일 대응. 파이썬 Dictionary와 비슷한 구조
- scalar가 열을 이루면 > Series(벡터) > Series가 여러개 > DataFrame(2차원 행렬)
- Contents
    - Series(변환, 인덱스 구조, 원소 선택)
    - DataFrame(변환, 행인덱스/열이름 지정, 삭제, 선택, 추가, 변경, 전치, 인덱스 활용)

####  1. Series로 변환 및 인덱스

In [4]:
#Dict to Series
import pandas as pd

dict_data={'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)
print(sr)
print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
#List to Series #별도의 인덱스 지정 필요(한꺼번에 주기 가능)
list_data =['2019-07-02',3.14, 'ABC', 100, True]
sr= pd.Series(list_data, index=list('abcde'))
sr

a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [6]:
# 인덱스 및 값
idx = sr.index
val = sr.values #value's'주의
print(idx)
print(val)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['2019-07-02' 3.14 'ABC' 100 True]


In [7]:
#Tuple to Series
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data, index=['이름','생년월일','성별','학생여부'])
print(sr)

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object


In [8]:
# 인덱스 및 값
print(sr[0])
print(sr['이름'])
print(sr[[1,2]]) #두개 이상이므로 <리스트로 묶어서> 인덱싱 #[1:3]도 가능
#print(sr[1,2]) # error

kevin
kevin
생년월일    2019-07-02
성별               남
dtype: object


#### 2. numpy

In [9]:
#배열 numpy
import numpy as np

data = np.arange(1000,5000,1000)
state = ['Califonia','Ohio','Oregon','Texas']
obj = pd.Series(data, index=state)
obj 

Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
dtype: int32

In [10]:
obj.name = 'population' #Series 전체 이름
obj.index.name = 'state' # 열이름
obj

state
Califonia    1000
Ohio         2000
Oregon       3000
Texas        4000
Name: population, dtype: int32

In [11]:
obj.Califonia = np.nan # nan
obj

state
Califonia       NaN
Ohio         2000.0
Oregon       3000.0
Texas        4000.0
Name: population, dtype: float64

In [12]:
obj.isnull().sum() #null 값이 있니?.합계는? #데이터 전처리 시, 필수!

1

## DataFrame
- 2차원 배열, R의 데이터프레임에서 유래
- 열은 각각 Series객체
- Series를 열벡터라고 하면, DataFrame은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬
- 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
- 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬
- List, Dictionary, ndarray등 다양한 데이터로부터 생성 > 반대로 List, Dictionary, ndarray등으로 변환될 수 있음.
- pandas에서 전처리하고, 알고리즘에 넣으려면 numpy로 바꿔줘야하기에 자료형에 대한 자유로운 변환이 필수

In [13]:
# 배열을 DataFrame으로 변환
np.random.seed(0) #random 값 고정
data = np.random.randint(100, 120, size =(3,3)) #2차원 배열
print(data, type(data)) #ndarray type

df = pd.DataFrame(data, index=['d1','d2','d3'],
                  columns = ['pd','sales','inv']) #index 안주면 0 ~
df

[[112 115 100]
 [103 103 107]
 [109 119 118]] <class 'numpy.ndarray'>


Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


#### 1. indexing
- DataFrame에서 index는 '행'만을 말함
- iloc : 정수 인덱스, loc : 이름 인덱스 

In [14]:
print(df.iloc[1],'\n') #d2행
print(df.loc['d2']) #따옴표

pd       103
sales    103
inv      107
Name: d2, dtype: int32 

pd       103
sales    103
inv      107
Name: d2, dtype: int32


In [15]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
# 리스트 안에 가두는거
print(df.iloc[1,2])
print(df.loc['d2','inv'])

107
107


In [16]:
df1 = df.copy()
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,103,107
d3,109,119,118


In [17]:
# d3의 값들을 모두 0으로 만드세요.
df1.iloc[2] =0
df1

#값들이 모두 0인 d4 행을 추가하세요.
df1.loc['d4'] =0
df1

# 1행 1열의 값을 0으로 만드세요.
df1.iloc[1,1] = 0
df1

Unnamed: 0,pd,sales,inv
d1,112,115,100
d2,103,0,107
d3,0,0,0
d4,0,0,0


In [18]:
# id, gender, age, region
id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2, size =1000)
g1 = pd.Series(gender)
age = np.random.randint(1,101,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size = 1000)
r1 = pd.Series(region)

#Series > df로 합치기
df1 = pd.concat([i1,g1,a1,r1], axis=1) #axis=0(행),1(열) 합칠방향 
df1.rename(columns ={0:'id',1:'gender',2:'age', 3: 'region'}, inplace =True) #inplace : 원본에 반영해라
df1.head() #초기 5줄만

Unnamed: 0,id,gender,age,region
0,1,0,11,10
1,2,1,68,10
2,3,0,7,7
3,4,0,92,10
4,5,0,100,10


# 과제 

In [19]:
# df1(인구분포)에 적합한 컬럼 5개를 추가하여 의미있는 데이터셋을 만들고, 그 데이터 셋의 가치를 설명하세요.
# Answer) 전연령, 전국구, 성별무관 .. 최근 ~를 방문한 횟수,

In [20]:
df2=df1.copy()
df2.head()

Unnamed: 0,id,gender,age,region
0,1,0,11,10
1,2,1,68,10
2,3,0,7,7
3,4,0,92,10
4,5,0,100,10


In [21]:
df2.iloc[0:2]=np.nan
df2.head()

Unnamed: 0,id,gender,age,region
0,,,,
1,,,,
2,3.0,0.0,7.0,7.0
3,4.0,0.0,92.0,10.0
4,5.0,0.0,100.0,10.0


In [22]:
df2.isnull().sum().sum()

8

In [23]:
#1~4중 랜덤한 숫자로 구성되는 10행 5열 2차원 배열을 생성하세요.
np.random.seed(0) #random 값 고정
data = np.random.randint(5, size =(10,5)) #2차원 배열
print(data, type(data)) #ndarray type

[[4 0 3 3 3]
 [1 3 2 4 0]
 [0 4 2 1 0]
 [1 1 0 1 4]
 [3 0 3 0 2]
 [3 0 1 3 3]
 [3 0 1 1 1]
 [0 2 4 3 3]
 [2 4 2 0 0]
 [4 0 4 1 4]] <class 'numpy.ndarray'>


In [24]:
#배열을 리스트로 변환
list1 = data.tolist()
print(list1, type(list1))

[[4, 0, 3, 3, 3], [1, 3, 2, 4, 0], [0, 4, 2, 1, 0], [1, 1, 0, 1, 4], [3, 0, 3, 0, 2], [3, 0, 1, 3, 3], [3, 0, 1, 1, 1], [0, 2, 4, 3, 3], [2, 4, 2, 0, 0], [4, 0, 4, 1, 4]] <class 'list'>


In [25]:
#list > DataFrame
df1 = pd.DataFrame(list1, columns = ['c1','c2','c3','c4','c5'])

In [26]:
#데이터프레임을 배열, 리스트, 딕셔너리로 변환하세요.
# DF > array
ar = df1.values
print(ar, type(ar))

# AR > LI
li = ar.tolist()
print(li, type(li))

#list > dic
dict = df1.to_dict('list') #c1, c2 .. 에 대응하는 values가 여러개이므로 'list'로 넣어야함.
print(dict, type(dict))

[[4 0 3 3 3]
 [1 3 2 4 0]
 [0 4 2 1 0]
 [1 1 0 1 4]
 [3 0 3 0 2]
 [3 0 1 3 3]
 [3 0 1 1 1]
 [0 2 4 3 3]
 [2 4 2 0 0]
 [4 0 4 1 4]] <class 'numpy.ndarray'>
[[4, 0, 3, 3, 3], [1, 3, 2, 4, 0], [0, 4, 2, 1, 0], [1, 1, 0, 1, 4], [3, 0, 3, 0, 2], [3, 0, 1, 3, 3], [3, 0, 1, 1, 1], [0, 2, 4, 3, 3], [2, 4, 2, 0, 0], [4, 0, 4, 1, 4]] <class 'list'>
{'c1': [4, 1, 0, 1, 3, 3, 3, 0, 2, 4], 'c2': [0, 3, 4, 1, 0, 0, 0, 2, 4, 0], 'c3': [3, 2, 2, 0, 3, 1, 1, 4, 2, 4], 'c4': [3, 4, 1, 1, 0, 3, 1, 3, 0, 1], 'c5': [3, 0, 0, 4, 2, 3, 1, 3, 0, 4]} <class 'dict'>


#### 3. file

In [27]:
import pandas as pd
# file 생성
file_data = pd.DataFrame({
    'col1':[1,2,3,4,5,6],
    'col2':['A','A','B','B','C','C']
})
file_data

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [28]:
#수정
file_data['col3']='e'
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [29]:
#저장
file_data.to_csv('C:\\cakd7\\m2_분석라이브러리활용\\pandas\\file_data.csv', index=None)

In [30]:
file_data=pd.read_csv('file_data.csv')
file_data

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


- DataFrame끼리 연산

In [31]:
df_1=pd.DataFrame({
    'col1':np.array([1,2,3]),
    'col2':np.array(['A','B','C'])
})

df_2=pd.DataFrame({
    'col1':np.array([4,5,6]),
    'col2':np.array(['D','E','F'])
})

#DF + DF 합치기
df_3 = pd.concat([df_1,df_2], axis =1) #열방향 합치기
print(df_3, '\n')

df_4 = pd.concat([df_1,df_2]) #Default = 행방향 합치기
print(df_4, '\n')

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F 

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F 



In [32]:
# 열 삭제
df_5 = df_4.copy()
df_5 = df_5.drop('col1', axis=1)
df_5

# 행 삭제
df_6 = df_3.copy()
df_6 = df_6.drop([0])
df_6

Unnamed: 0,col1,col2,col1.1,col2.1
1,2,B,5,E
2,3,C,6,F


In [33]:
# 슬라이싱
df1 = file_data.copy()
df1

Unnamed: 0,col1,col2,col3
0,1,A,e
1,2,A,e
2,3,B,e
3,4,B,e
4,5,C,e
5,6,C,e


In [34]:
#행 슬라이싱
df1[3:]
df1[2:-1]
# df1[-1] #안됨
df1.iloc[-1] #iloc, loc 로만 가능

col1    6
col2    C
col3    e
Name: 5, dtype: object

In [35]:
#열 슬라이싱
df1[['col1','col2']] #loc없이 추출가능
# df1.loc[:,['col1':]] #슬라이싱은 안되네용

Unnamed: 0,col1,col2
0,1,A
1,2,A
2,3,B
3,4,B
4,5,C
5,6,C


In [36]:
df1.loc[:,['col1','col2']] #loc 모든행의 col1,col2 #DF형태로하려면 리스트로 묶어줘야함.
df1.loc[1:3,['col1','col2']]

Unnamed: 0,col1,col2
1,2,A
2,3,B
3,4,B


In [37]:
print(df1)
df1.iloc[::2,:] #열 슬라이싱은 iloc에서만 가능, step사용 가능

   col1 col2 col3
0     1    A    e
1     2    A    e
2     3    B    e
3     4    B    e
4     5    C    e
5     6    C    e


Unnamed: 0,col1,col2,col3
0,1,A,e
2,3,B,e
4,5,C,e


# 06/29(금)

- col & index 전환

In [38]:
import numpy as np
import pandas as pd

np.random.seed(2)
data = np.random.randint(50,100,size=(3,5))
df_e = pd.DataFrame(data, columns=list('abcde'))
df_e

Unnamed: 0,a,b,c,d,e
0,90,65,95,58,72
1,93,68,61,90,57
2,84,99,81,61,71


In [39]:
df1=df_e.copy()

In [40]:
df1.rename(columns={'a':'국어','b':'영어', 'c':'수학', 'd':'과학', 'e':'음악'},
           index = {0:'이상윤', 1:'강유한',2:'조승현'}, inplace= True)
df1

Unnamed: 0,국어,영어,수학,과학,음악
이상윤,90,65,95,58,72
강유한,93,68,61,90,57
조승현,84,99,81,61,71


In [41]:
# 8행 5열 데이터프레임
np.random.seed(5)
data= np.random.randint(50,100,size=(8,5))
df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,85,64,97,88,66
1,59,58,86,89,77
2,98,80,66,57,62
3,65,99,89,66,77
4,94,63,61,51,97
5,80,70,72,68,59
6,92,91,91,51,68
7,89,66,64,55,50


In [42]:
df.rename(columns={'A':'가','B':'나','C':'다','D':'라','E':'마'},
         index = {0:'a',1:'b',2:'c',3:'d',4:'e',5:'f',6:'g',7:'h'}, inplace=True)
df

Unnamed: 0,a,b,c,d,e
a,85,64,97,88,66
b,59,58,86,89,77
c,98,80,66,57,62
d,65,99,89,66,77
e,94,63,61,51,97
f,80,70,72,68,59
g,92,91,91,51,68
h,89,66,64,55,50


In [43]:
#3번쨰 행 전체를 출력하세요
df.iloc[2,:]

a    98
b    80
c    66
d    57
e    62
Name: c, dtype: int32

In [44]:
#3번째 열 전체를 출력하세요.
df.iloc[:,3]=0
df

Unnamed: 0,a,b,c,d,e
a,85,64,97,0,66
b,59,58,86,0,77
c,98,80,66,0,62
d,65,99,89,0,77
e,94,63,61,0,97
f,80,70,72,0,59
g,92,91,91,0,68
h,89,66,64,0,50


In [45]:
#3행 5열 값을 출력하세요
df.iloc[2,4]

62

In [46]:
# 6행의 2,3,4열의 값을 조회
df.iloc[5,1:4]

b    70
c    72
d     0
Name: f, dtype: int64

In [47]:
df.loc[5,[2:5]]

SyntaxError: invalid syntax (2895961060.py, line 1)

In [None]:
#2열을 Series와 DataFrame으로 각각출력 (다시)
sr=df.iloc[:,1]
print(sr,type(sr))
df1=pd.DataFrame(sr)
df1

df.iloc[:, 1]
df.iloc[:, [1]]

In [None]:
df

In [None]:
# 2행 3열 값을 2행 4열 값과 동일하게 변경
df.iloc[1,2] = df.iloc[1,3]
df

##2

In [48]:
df_s = df.copy()
df_s

Unnamed: 0,a,b,c,d,e
a,85,64,97,0,66
b,59,58,86,0,77
c,98,80,66,0,62
d,65,99,89,0,77
e,94,63,61,0,97
f,80,70,72,0,59
g,92,91,91,0,68
h,89,66,64,0,50


In [49]:
df_s.rename(index = {0:'r0',1:'r1',2:'r2',3:'r3',4:'r4',5:'r5',6:'r6',7:'r7'}, inplace=True)
type(df_s)


pandas.core.frame.DataFrame

- 정렬

In [None]:
#index기준 sort : sort_index
df1_s= df_s.sort_index(ascending=False) #내림차순
df1_s

#column기준 sort : sort_values
df1_c = df1_s.sort_values(by='c', ascending=False)
df1_c

- 전치 : 행과 열의 갯수가 같아야함.

In [None]:
#행과 열 갯수 맞추기
df1_t = df1_s.iloc[:5, :]
df1_t

In [None]:
df1_t = df1_t.transpose()
df1_t