# 데이터 프레임 생성


|a|b|c|
|---|---|---|
|1|4|7|
|2|5|8|
|3|6|9|

In [3]:
import pandas as pd

# dict로 DataFrame 생성

In [None]:
df = pd.DataFrame({'a': [1,2,3], 'b':[4,5,6], 'c':[7,8,9]})

In [None]:
type(df)

pandas.core.frame.DataFrame

In [None]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
dummy = {'a': [1,2,3], 'b':[4,5,6], 'c':[7,8,9]}

In [None]:
df2 = pd.DataFrame(dummy)

In [None]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


# list로 DataFrame 생성

In [1]:
a = [[1,4,7], [2,5,8], [3,6,9]]

In [4]:
df3 = pd.DataFrame(a)

In [5]:
df3

Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


In [7]:
df3.columns = ['a', 'b',' c']

In [8]:
df3

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


# Practice) 아래 테이블과 같은 데이터 프레임 만들기  

|company|직원수|
|-|-|
|abc|400|
|회사|10|
|123|6|

In [9]:
data = {'company': ['abc', '회사', 123], '직원수': [400, 10, 6]}

In [11]:
practice_df = pd.DataFrame(data)
practice_df

Unnamed: 0,company,직원수
0,abc,400
1,회사,10
2,123,6


|company|직원수|위치|
|-|-|-|
|abc|400|Seoul|
|회사|10|NaN(결측값)|
|123|6|Busan|

**numpy를 이용해 결측값 생성**

In [17]:
import numpy as np

data2 = {'company': ['abc', '회사', 123], '직원수': [400, 10, 6], '위치': ['Seoul', np.NaN, 'Busan']}

In [18]:
practice_df2 = pd.DataFrame(data2)
practice_df2

Unnamed: 0,company,직원수,위치
0,abc,400,Seoul
1,회사,10,
2,123,6,Busan


# 컬럼명 추출 / 변경

## 데이터 프레임 생성

In [31]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})

In [32]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [33]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

In [34]:
df.columns[1]

'b'

데이터프레임의 칼럼명을 d, e, f로 변경

In [35]:
df.columns = ['d', 'e', 'f']

In [36]:
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


데이터 프레임의 'd' 칼럼을 '디'로, 'f'를 '에프'로 변경

In [38]:
df.columns = ['디', 'e', '에프']
df

Unnamed: 0,디,e,에프
0,1,4,7
1,2,5,8
2,3,6,9


rename을 통한 칼럼명 변경

In [41]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
df.columns = ['d', 'e', 'f']
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


In [42]:
df.rename(columns = {'d': '디', 'f': '에프'})

Unnamed: 0,디,e,에프
0,1,4,7
1,2,5,8
2,3,6,9


In [43]:
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


변경 사항 기존 변수에 저장

In [46]:
df.rename(columns = {'d': '디', 'f': '에프'}, inplace=True) # inplace 이용
df

Unnamed: 0,디,e,에프
0,1,4,7
1,2,5,8
2,3,6,9


# Copy를 이용한 데이터 복사

### 데이터 프레임 생성

In [47]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})

In [55]:
df.columns = ['d', 'e', 'f']
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


데이터 프레임 하나 더 생성

In [56]:
df2 = df
df2

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


df의 컬럼을 다시 a, b, c로 변경

In [58]:
df.columns = ['a', 'b', 'c']
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [59]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


df2의 컬럼명도 함께 변경됨 -> df, df2는 같은 객체를 참조하고 있기 때문 (얕은 복사)

해결 방법: deepcopy 이용! (깊은 복사)

In [62]:
import copy

df2 = copy.deepcopy(df)

In [63]:
df

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [64]:
df2

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [65]:
df.columns = ['d', 'e', 'f']
df

Unnamed: 0,d,e,f
0,1,4,7
1,2,5,8
2,3,6,9


In [67]:
df2 # df 변경사항 반영 X

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9
