# [(10주차) 5월6일](https://guebin.github.io/IP2022/2022/05/04/(10%EC%A3%BC%EC%B0%A8)-5%EC%9B%946%EC%9D%BC.html)

> 데이터프레임 선언, 행$\cdot$열 이름부여, 자료형, pd.Series

# Pandas 사용법

## pandas 공부 1단계

In [2]:
import numpy as np
import pandas as pd

### 데이터프레임 선언

`-` 방법1: dictionary에서 만든다.

In [3]:
pd.DataFrame({'att':[30,40,50], 'mid':[50,60,70]}) # 리스트

Unnamed: 0,att,mid
0,30,50
1,40,60
2,50,70


In [4]:
pd.DataFrame({'att':(30,40,50),'mid':(50,60,70)}) # 튜플

Unnamed: 0,att,mid
0,30,50
1,40,60
2,50,70


In [5]:
pd.DataFrame({'att':np.array([30,40,50]),'mid':np.array([50,60,70])}) # numpy array

Unnamed: 0,att,mid
0,30,50
1,40,60
2,50,70


`-` 방법2: 2차원 ndarray에서 만든다.

In [6]:
np.arange(2*3).reshape(2,3)

array([[0, 1, 2],
       [3, 4, 5]])

In [7]:
pd.DataFrame(np.arange(2*3).reshape(2,3))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


### 열의 이름 부여

`-` 방법1: 딕셔너리를 통하여 만들면 딕셔너리의 key가 자동으로 열의 이름이 된다.

In [8]:
pd.DataFrame({'att':np.array([30,40,50]), 'mid':np.array([50,60,70])})

Unnamed: 0,att,mid
0,30,50
1,40,60
2,50,70


`-` 방법2: pd.DataFrame()의 옵션에 columns를 이용

In [9]:
pd.DataFrame(np.arange(2*3).reshape(2,3),columns=['X1','X2','X3'])

Unnamed: 0,X1,X2,X3
0,0,1,2
1,3,4,5


`-` 방법3: df.columns에 원하는 열이름 덮어씀 (1)

In [30]:
df=pd.DataFrame(np.arange(2*3).reshape(2,3))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


In [31]:
df.columns = ['X1','X2','X3'] # columns 메소드 이용.

In [32]:
df

Unnamed: 0,X1,X2,X3
0,0,1,2
1,3,4,5


In [33]:
df.columns, type(df.columns)

(Index(['X1', 'X2', 'X3'], dtype='object'), pandas.core.indexes.base.Index)

`-` 방법4: df.columns에 원하는 열이름 덮어씀 (2)

In [14]:
df=pd.DataFrame(np.arange(2*3).reshape(2,3))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


In [15]:
df.columns = pd.Index(['X1','X2','X3'])

In [16]:
df

Unnamed: 0,X1,X2,X3
0,0,1,2
1,3,4,5


**방법4** 가 **방법3** 의 방식보다 컴퓨터가 이해하기 좋다. (=불필요한 에러를 방지할 수 있다.)

In [17]:
## 방법3
df.columns, type(df.columns)  ## 내부적으로 list 타입을 pandas.core.indexes~~형태로 바꿔주긴 함.

(Index(['X1', 'X2', 'X3'], dtype='object'), pandas.core.indexes.base.Index)

In [18]:
['X1','X2','X3'], type(['X1','X2','X3'])

(['X1', 'X2', 'X3'], list)

- 처음부터 타입을 맞춰놓게 하는 게 좋다. (컴퓨터가 이해하기 명시적인 표현)

In [19]:
## 방법4
pd.Index(['X1','X2','X3']), type(pd.Index(['X1','X2','X3']))

(Index(['X1', 'X2', 'X3'], dtype='object'), pandas.core.indexes.base.Index)

### 행의 이름 부여

`-` 방법1: 중첩 dict이면 nested dic의 key가 알아서 행의 이름으로 된다. 

- 바깥쪽 딕셔너리의 키는 컬럼이름으로, 안쪽 딕셔너리의 키는 로우이름으로 들어간다.

In [20]:
pd.DataFrame({'att':{'guebin':30, 'iu':40, 'hynn':50} , 'mid':{'guebin':5, 'iu':45, 'hynn':90}})

Unnamed: 0,att,mid
guebin,30,5
iu,40,45
hynn,50,90


`-` 방법2: pd.DataFrame()의 index옵션 이용

In [21]:
pd.DataFrame({'att':[30,40,50] , 'mid':[5,45,90]}, index=['guebin','iu','hynn'])

Unnamed: 0,att,mid
guebin,30,5
iu,40,45
hynn,50,90


`-` 방법3: df.index에 덮어씌움.

In [35]:
df=pd.DataFrame({'att':[30,40,50] , 'mid':[5,45,90]})
df

Unnamed: 0,att,mid
0,30,5
1,40,45
2,50,90


In [36]:
df.index = pd.Index(['guebin','iu','hynn']) ## 좋은 코드!
#df.index = ['guebin','iu','hynn'] <- 이것도 실행 되기는 된다.
df

Unnamed: 0,att,mid
guebin,30,5
iu,40,45
hynn,50,90


`-` 방법4: df.set_index()를 이용하여 덮어씌운다.

In [38]:
df=pd.DataFrame({'att':[30,40,50] , 'mid':[5,45,90]})
df

Unnamed: 0,att,mid
0,30,5
1,40,45
2,50,90


In [39]:
df.set_index(pd.Index(['guebin','iu','hynn'])) # set_index 메소드 이용

Unnamed: 0,att,mid
guebin,30,5
iu,40,45
hynn,50,90


***(주의) 아래는 에러가 난다.***

In [26]:
df.set_index(['guebin','iu','hynn'])

KeyError: "None of ['guebin', 'iu', 'hynn'] are in the columns"

In [27]:
df.set_index([['guebin','iu','hynn']]) # 꺽쇠를 한번 더 넣어주면 에러를 피할수 있다. 

Unnamed: 0,att,mid
guebin,30,5
iu,40,45
hynn,50,90


### 자료형, len, shape, for문의 반복변수

In [42]:
df = pd.DataFrame({'att':[30,40,50],'mid':[5,45,90]})
df

Unnamed: 0,att,mid
0,30,5
1,40,45
2,50,90


`-` type

In [43]:
type(df)

pandas.core.frame.DataFrame

`-` len

In [44]:
len(df) # row의 개수

3

`-` shape

In [45]:
df.shape

(3, 2)

`-` for문의 반복변수

In [46]:
for k in df:
    print(k) # 딕셔너리 같죠?

att
mid


In [47]:
for k in {'att':[30,40,50],'mid':[5,45,90]}:
    print(k)

att
mid


### pd.Series

`-` 2차원 ndarray가 데이터프레임에 대응한다면 1차원 ndarray는 pd.Series에 대응한다.

In [57]:
a=pd.Series(np.random.randn(10))
a

0   -0.015761
1    0.793164
2   -0.194785
3   -1.704138
4    0.196202
5   -0.542479
6    0.134923
7   -1.151843
8    0.567016
9    2.469013
dtype: float64

In [58]:
type(a)

pandas.core.series.Series

In [59]:
len(a)

10

In [60]:
a.shape

(10,)

In [62]:
for value in a:
    print(value)

-0.01576052104052408
0.7931636561267669
-0.19478516128697446
-1.7041378729481649
0.19620173234455546
-0.542479066364815
0.13492305158609827
-1.1518431416352932
0.5670160023697828
2.4690128371679556


In [95]:
for value in np.random.randn(10):
    print(value)

-0.0864801362204059
-0.9294913581613311
-0.4818729848296065
2.1539740078272693
0.5075567770278344
0.6907204209585092
0.2885924769916613
-0.5636921329605091
-0.9741967151982581
1.8705475972066663
