# pandas의 2차원 자료형 DataFrame 1
- 2차원적인 데이터 형식
- 행렬 구조를 가짐

### 1. 1차원 리스트를 딕셔너리 형태로 만들어 DataFrame 구조로 변경

In [3]:
import pandas as pd

In [4]:
a = {'a' : [1, 2, 3], 'b' : [1, 3, 5], 'c' : [2, 4, 6], 'd' : [3, 6, 9]}

In [5]:
a

{'a': [1, 2, 3], 'b': [1, 3, 5], 'c': [2, 4, 6], 'd': [3, 6, 9]}

In [6]:
df1 = pd.DataFrame(a)  # 리스트가 열로 들어간다.

In [7]:
df1

Unnamed: 0,a,b,c,d
0,1,1,2,3
1,2,3,4,6
2,3,5,6,9


In [8]:
type(df1)  # 데이터프레임 형이다.

pandas.core.frame.DataFrame

In [9]:
df1.shape  # 3행 4열

(3, 4)

In [10]:
df1.info()  # column별 속성, 데이터 타입 등 요약 제공

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       3 non-null      int64
 1   b       3 non-null      int64
 2   c       3 non-null      int64
 3   d       3 non-null      int64
dtypes: int64(4)
memory usage: 224.0 bytes


### 2. numpy를 사용해 DataFrame으로 변경

In [11]:
import numpy as np

In [12]:
b = np.arange(12).reshape(3, 4)

In [13]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [14]:
df2 = pd.DataFrame(b)

In [15]:
df2  # column name이 없기 때문에 integer index

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [16]:
type(df2)

pandas.core.frame.DataFrame

In [17]:
df2.shape

(3, 4)

In [18]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       3 non-null      int64
 1   1       3 non-null      int64
 2   2       3 non-null      int64
 3   3       3 non-null      int64
dtypes: int64(4)
memory usage: 224.0 bytes


### 3. 바로 DataFrame 만들기

In [19]:
df = pd.DataFrame([[1, 20, '서울'], [2, 25, '대전']],
                 index = ['홍길동', '홍길순'],
                 columns = ['순서', '나이', '지역'])

In [20]:
df  # index와 column name을 적어 줄 수 있다. 생략하면 integer index

Unnamed: 0,순서,나이,지역
홍길동,1,20,서울
홍길순,2,25,대전


In [21]:
type(df)

pandas.core.frame.DataFrame

In [22]:
df.shape

(2, 3)

In [23]:
df.info()  # 지역 열은 문자열(object)

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, 홍길동 to 홍길순
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   순서      2 non-null      int64 
 1   나이      2 non-null      int64 
 2   지역      2 non-null      object
dtypes: int64(2), object(1)
memory usage: 64.0+ bytes


### Index, Columns 확인, 변경

In [24]:
df.index  # 인덱스 목록

Index(['홍길동', '홍길순'], dtype='object')

In [25]:
df.columns  # 열 목록

Index(['순서', '나이', '지역'], dtype='object')

In [26]:
df.values  # 값 목록

array([[1, 20, '서울'],
       [2, 25, '대전']], dtype=object)

In [27]:
# 인덱스 변경
df.index = ['사람 1', '사람 2']

In [28]:
df

Unnamed: 0,순서,나이,지역
사람 1,1,20,서울
사람 2,2,25,대전


In [29]:
# 열 변경
df.columns = ['연번' ,'연령', '도시']

In [30]:
df

Unnamed: 0,연번,연령,도시
사람 1,1,20,서울
사람 2,2,25,대전


In [31]:
# 특정 인덱스나 열 이름 변경
df = df.rename(index = {'사람 1' : '홍길동'})

In [32]:
df  # '사람 1'을 '홍길동'으로 변경

Unnamed: 0,연번,연령,도시
홍길동,1,20,서울
사람 2,2,25,대전


In [33]:
df = df.rename(columns = {'연번' : '순서', '연령' : '나이'})

In [34]:
df  # 연번 -> 순서, 연령 -> 나이 변경

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전


# pandas의 2차원 자료형 DataFrame 2
- 행 추가
- 열 추가
- 값 변경
- 행 삭제
- 열 삭제

In [35]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전


### 행 추가

In [36]:
df.loc['사람 3'] = [3, 30, '부산']

In [37]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [38]:
df.loc['사람 4'] = 0

In [39]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 4,0,0,0


In [40]:
# 행 복사해서 행 추가

df.loc['사람 1'] = df.loc['홍길동']

In [41]:
df  # 홍길동 행의 값을 가져온 '사람 1' 행 추가

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 4,0,0,0
사람 1,1,20,서울


### 열 추가

In [42]:
df['나이대'] = ['20대', '20대', '30대', '0대', '20대']

In [43]:
df  # 열 단위는 loc이 필요없다.

Unnamed: 0,순서,나이,도시,나이대
홍길동,1,20,서울,20대
사람 2,2,25,대전,20대
사람 3,3,30,부산,30대
사람 4,0,0,0,0대
사람 1,1,20,서울,20대


In [44]:
df['직업'] = '학생'  # 전부 학생으로 채우기

In [45]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,0,0,0,0대,학생
사람 1,1,20,서울,20대,학생


### 값 변경

In [46]:
df.loc['사람 4', '순서'] = 4

In [47]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,0,0,0대,학생
사람 1,1,20,서울,20대,학생


In [48]:
df.iloc[3, 1] = 10

In [49]:
df  # 사람 4의 나이 변경

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,10,0,0대,학생
사람 1,1,20,서울,20대,학생


In [50]:
df.loc['사람 4', ['도시', '나이대']] = '광주', '10대'

In [51]:
df  # 값 복수 변경

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,10,광주,10대,학생
사람 1,1,20,서울,20대,학생


In [52]:
df.iloc[3, [1, 3]] = 40, '40대'

In [53]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 4,4,40,광주,40대,학생
사람 1,1,20,서울,20대,학생


### 행 삭제

In [54]:
df = df.drop('사람 4', axis = 0)

In [55]:
df

Unnamed: 0,순서,나이,도시,나이대,직업
홍길동,1,20,서울,20대,학생
사람 2,2,25,대전,20대,학생
사람 3,3,30,부산,30대,학생
사람 1,1,20,서울,20대,학생


### 열 삭제

In [56]:
df = df.drop(['나이대', '직업'], axis = 1)

In [57]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,1,20,서울


# pandas의 2차원 자료형 DataFrame 3
- 전체 복사
- 부분 복사

In [58]:
df2 = df  # 복사가 아닌 특정 위치의 값을 동일하게 참조하는 것

In [59]:
df2

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,1,20,서울


In [60]:
df2.loc['사람 1', '순서'] = 4

In [61]:
df2

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [62]:
df  # df2만 바꿨는데 df도 바뀌었다.

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


### 전체 복사

In [63]:
df3 = df.copy()  # 전체 복사

In [64]:
df3

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [65]:
df3.loc['사람 1', '순서'] = 5

In [66]:
df3

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,5,20,서울


In [67]:
df  # df의 ['사람 1', '순서']는 바뀌지 않았다.

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


### 부분 복사

In [68]:
# 1차원적으로 가져오기

hong = df.loc['홍길동']

In [69]:
hong  # 특정 행만 복사

순서     1
나이    20
도시    서울
Name: 홍길동, dtype: object

In [70]:
type(hong)  # Series

pandas.core.series.Series

In [71]:
hong.shape

(3,)

In [72]:
gil = df.iloc[0]

In [73]:
gil

순서     1
나이    20
도시    서울
Name: 홍길동, dtype: object

In [74]:
type(gil)

pandas.core.series.Series

In [75]:
gil.shape

(3,)

In [76]:
# 2차원적으로 가져오기

df4 = df.loc[['홍길동', '사람 1']]

In [77]:
df4

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 1,4,20,서울


In [78]:
type(df4)

pandas.core.frame.DataFrame

In [79]:
df5 = df.iloc[[0, 3]]  # 홍길동, 사람 1 가져오기

In [80]:
df5

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 1,4,20,서울


In [81]:
df6 = df.loc['홍길동' : '사람 3']

In [82]:
df6

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [83]:
df7 = df.iloc[0:3]  # 마지막 번호 미포함

In [84]:
df7

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산


In [85]:
df

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [86]:
df8 = df[['나이']]

In [87]:
df8

Unnamed: 0,나이
홍길동,20
사람 2,25
사람 3,30
사람 1,20


In [88]:
df9 = df['나이']

In [89]:
df9

홍길동     20
사람 2    25
사람 3    30
사람 1    20
Name: 나이, dtype: int64

In [90]:
type(df8)

pandas.core.frame.DataFrame

In [91]:
type(df9)

pandas.core.series.Series

In [93]:
df10 = df[['나이', '도시']]

In [94]:
df10

Unnamed: 0,나이,도시
홍길동,20,서울
사람 2,25,대전
사람 3,30,부산
사람 1,20,서울


In [95]:
df  # df는 그대로

Unnamed: 0,순서,나이,도시
홍길동,1,20,서울
사람 2,2,25,대전
사람 3,3,30,부산
사람 1,4,20,서울


In [96]:
df11 = df.loc[['홍길동', '사람 1'], ['나이', '도시']]

In [97]:
df11

Unnamed: 0,나이,도시
홍길동,20,서울
사람 1,20,서울


In [98]:
df12 = df.iloc[[0, 3], [1, 2]]

In [99]:
df12

Unnamed: 0,나이,도시
홍길동,20,서울
사람 1,20,서울
