## 데이터프레임
데이터프레임은 2차원 배열의 형태를 가진다. 
- 판다스의 데이터프레임 자료구조는 대표적인 통계 패키지인 R의 데이터프레임에서 유래했다고 알려져 있음.

![dataframe](Img/img_dataframe.jpg)

데이터프레임의 열(column; 컬럼)은 각각 시리즈 객체다.
- 시리즈를 열벡터(vector)라고 하면,
- 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 결합된 2차원 벡터, 행렬(matrix)이다.

In [6]:
import pandas as pd # pandas 라이브러리를 불러오고, pd라는 이름으로 사용한다.
import numpy as np # numpy 라이브러리를 불러오고, np라는 이름으로 사용한다.

---
### 1. DataFrame 생성하기

In [18]:
dict = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}

df = pd.DataFrame(dict)
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


데이터프레임을 생성할때 각 컬럼들의 길이는 기본적으로 같아야 한다.
만약 컬럼의 길이가 다를 경우 아래의 문제가 발생한다.
1. 컬럼의 길이가 다른 컬럼보다 작을 경우
    - 평균 컬럼의 길이가 3이고, 작은 컬럼의 길이는 2일 경우
    - 길이가 작은 컬럼이 0,1행에 넣을지, 1,2행에 넣을지, 0,2행에 넣을지 문제가 발생한다.
    <br> <br>
2. 컬럼의 길이가 다른 컬럼보다 클 경우
    - 평균 컬럼의 길이가 3이고, 큰 컬럼의 길이가 4일 경우
    - 길이가 큰 컬럼에서 배치할 행의 위치가 명확하지 않은 인덱스가 1개 존재한다.

**이런 문제는 데이터프레임 생성시 명시적으로 인덱스를 지정함으로서 해결한다.**

In [17]:
# 명시적으로 인덱스를 지정하는 방법
d = {'col1': [0, 1, 2, 3], 'col2': pd.Series([2, 3], index=[2, 3])}
df = pd.DataFrame(data=d, index=[0, 1, 2, 3])
df

Unnamed: 0,col1,col2
0,0,
1,1,
2,2,2.0
3,3,3.0


다만 이 경우, 상대적으로 **데이터프레임 인덱스에 누락이 발생하는 컬럼엔 NaN값이 할당**된다.

빠르게 NaN에 대한 처리를 해주어야 한다.

#### 1-1. 명시적으로 행 인덱스 / 열 이름 설정

In [27]:
# 데이터프레임 생성과 동시에 행 인덱스 / 열 이름 설정
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                    index = ['준서', '예은'],
                    columns=['나이', '성별', '학교'])

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


#### 1-2. 행 인덱스, 열 이름 명시적으로 할당

In [30]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                    index = ['준서', '예은'],
                    columns=['나이', '성별', '학교'])
print(df); print()

# 인덱스, 열 이름 명시적으로 할당
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']
print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


#### 1-3. 행 인덱스, 열 이름 변경

In [31]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                    index = ['준서', '예은'],
                    columns=['나이', '성별', '학교'])
print(df); print()

# 열 이름(columns) 변경
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)

df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

