## 1. 데이터프레임(dataframe) 이해하기
- 데이터프레임은 `테이블형(2차원) 데이터`이며, 데이터 분석/머신 러닝에서 데이터 처리를 위해 주로 사용됨
- 2차원이기 때문에 엑셀/csv와 같이 데이터가 row, column로 구성되며, 인덱스도 두 개, row/column 각각 존재함
    - 행의 레이블은 인덱스로, 열의 레이블은 컬럼으로 부름

## 2. Dataframe 생성

#### **2.1** `pd.DataFrame()`으로 생성

In [105]:
import pandas as pd

df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


#### **2.2** 인덱스와 함께 생성하기

In [108]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]},
    index=[2000, 2010, 2020]
)
df

Unnamed: 0,미국,한국,중국
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


## 3. index, columns, values 읽고 수정하기
- dataframe은 index, columns, values
- Series는 index, values

#### **3.1** index

In [112]:
df.index

Index([2000, 2010, 2020], dtype='int64')

In [114]:
df.index = [2001, 2002, 2003]
df

Unnamed: 0,미국,한국,중국
2001,2.1,0.4,10
2002,2.2,0.5,13
2003,2.3,0.45,15


#### **3.2** column

In [117]:
df.columns

Index(['미국', '한국', '중국'], dtype='object')

In [119]:
df.columns = ['일본', '필리핀', '러시아']
df

Unnamed: 0,일본,필리핀,러시아
2001,2.1,0.4,10
2002,2.2,0.5,13
2003,2.3,0.45,15


#### **3.3** value

In [122]:
df.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

#### **3.4** index를 특정 column으로 설정하기
- `데이터프레임.set_index(column)`으로 설정

In [125]:
df = pd.DataFrame({
    "년도": [2000, 2010, 2020],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,년도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [127]:
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### **3.5** index 데이터를 column으로 변경하기
- `데이터프레임.reset_index(column)`으로 변경

In [130]:
df = df.reset_index('년도')
df

Unnamed: 0,년도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


## 4. 데이터프레임 데이터 접근하기
- `데이터프레임.loc[index 값]`: index를 통해서 행을 가져옴
- `데이터프레임.iloc[index 번호]`: 인덱스 번호를 통해서 행을 가져옴 (0부터 시작)

> 인덱스가 숫자로 입력됬는지, 문자로 입력됬는지에 따라, loc[] 에서 지정하는 방식도 동일하게 해야함

In [157]:
df = pd.DataFrame({
    "년도": [2000, 2010, 2020],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### **4.1** 특정 행 가져오기

In [70]:
df.loc[2000] # 행 하나를 가져오면 이것도 Series임. type(df.loc[2000])

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

In [64]:
df.iloc[0] # index를 따로 설정해도 index 번호가 있음

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

#### **4.2** 특정 열(컬럼) 가져오기 

In [68]:
df['미국']

년도
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

#### **4.3** 특정 데이터만 가져오기

In [73]:
df['미국'][2000]

2.1

In [75]:
df.loc[2000]['미국']

2.1

## 5. dataframe 컬럼 수정하기

#### **5.1** 컬럼 추가하기
- 컬럼명에 데이터를 맞춰서 넣어주면 됨

In [89]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [91]:
df['일본'] = [1, 2, 3]
df

Unnamed: 0_level_0,미국,한국,중국,일본
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000,2.1,0.4,10,1
2010,2.2,0.5,13,2
2020,2.3,0.45,15,3


#### **5.2** dataframe 컬럼 삭제하기
- `del` 사용

In [94]:
del df['일본']
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


## 6. 데이터프래임 행 수정하기

#### **6.1** 행 추가하기

In [159]:
df.loc[2030] = [1, 2, 3]
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
2030,1.0,2.0,3


#### **6.2** 행 삭제하기
- 행을 삭제하는 경우는 거의 없음
- `데이터프레임.drop([인덱스이름])`

In [161]:
df.drop([2030])

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


## 7. dataframe 컬럼 복사
- `copy()`

> 원본 데이터는 놔두고, 복사해서 데이터 처리를 하는 경우가 많음, 컬럼 리스트를 넣는다고 생각
보통 원본 데이터는 온전히 보전하고, 필요한 데이터 분석시마다 필요한 컬럼만 가져올 때 많이 사용 (그 외의 경우는 안써도 됨)

In [164]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [166]:
df2 = df[['중국', '한국']].copy()
df2

Unnamed: 0_level_0,중국,한국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [168]:
df2.columns = ['브라질', '아르헨티나']
df2

Unnamed: 0_level_0,브라질,아르헨티나
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [170]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
