# DataFrame

2차원 행렬에 인덱스를 붙은 자료형 (index + column + value)

- index(row index) : 행 데이터 라벨
- column(column index) : 열 데이터 라벨


- 실제로는 column series를 dictionary로 묶은 것

## 속성

```
df.index : index값 확인 (Index 객체 출력)
df.columns : columns값 확인 (Index 객체 출력)
df.values : 값 확인 (array 값 출력)
```

```
df.index.name = "도시" : index 이름 붙이기
df.columns.name = "특성" : columns 이름 붙이기
```

## 데이터프레임 생성

### 1. 첫번째 방법(columns 입력후, 값 입력)

```
df = pd.DataFrame(columns=['Email', 'Name'])
df['Email'] = ['a@g.com', 'b@n.com']
df['Name'] = ['nm1', 'nm2']
```
- index는 정수 값으로 자동으로 입력

### 2. 두번째 방법 (dictionary로 값 입력)

```
data = {'Name' : ['nm1', 'nm2'], 'Email' : ['a@g.com', 'b@n.com']}
df = pd.DataFrame(data)
```

**dictionary의 list로 입력이 가능**
```
data = [{'Name' : 'nm1', 'Email' : 'a@g.com'}, {'Name' : 'nm2', 'Email' : 'b@ga.com'}]
df = pd.DataFrame(data)
```

### 3. 세번째 방법 (index, columns, dictionary로 값 입력)

```
data = {'Name' : ['nm1', 'nm2'], 'Email' : ['a@g.com', 'b@n.com']}
columns = ['Name', 'Email']
index = ['first', 'second']
df = pd.DataFrame(data, index = index, columns = columns)
```

## 인덱싱

### 1. 열 인덱싱

```
df['Name'] : 값으로 인덱싱 가능 (Series값 반환)
```

```
df[['Name', 'Email']] : 배열로 각 위치의 column값 인덱싱 가능(DataFrame값 반환)
```

-**열 인덱싱할 때 정수를 사용할 수 없다. 하지만 문자열 라벨이 주어지지 않는 다면 정수 이용가능**

### 2. 행 인덱싱

```
df[:1] : 행 인덱싱은 항상 슬라이싱 해야 한다. (리턴 DataFrame)
df.loc[2] : (리턴 series)
```

### 3. 개별 데이터 인덱싱

```
df["열"]["행"] : 개별 데이터 인덱싱
```

## 갱신, 추가, 삭제

### 1. 열

```
df["Address"] = ['a', 'b', 'c'] : column 있을 때 갱신
df["Address"] = "" : column 없을 때 갱신(모든 행에 적용(broadcasting))
```

#### apply
map처럼 함수를 입력받아 사용 가능 (series 리턴)
```
def name(name):
    return "{}({}).format(name, len(name)"
   
df["New_name"] = df["Name"].apply(name)
```

### 2. 행

```
df.loc['first'] = {'Name' : 'nm3', 'Email' : 'd3@g.com'} // 존재할 때 갱신

df.loc[len(df)] = {'Name' : 'nm3', 'Email' : 'd3@g.com'} // 마지막일 때 추가
```

```
df.loc[2]["Age"]["min"] : column에 columm으로 접속가능
```

## 데이터 합치기 삭제하기

#### append
행에 추가 = numpy의 concatenate와 같다.

```
df3 = df1.append(df2)
```

#### concat

```
df3 = pd.concat([df1, df2]).reset_index(drop=True) : 행 결합
df3 = pd.concat([df1, df2], axis = 1) : 열 결합 (index는 무시)
```

#### reset_index
인덱싱 값 초기화 하기 (DataFrame, Series 모두 존재)
```
df1.reset_index(drop = True, inplace = True)

drop : 기존의 인덱싱 값 삭제
inplace : True일 때, 수정 데이터 해당 변수에 바로 적용
```

#### drop
```
df.drop('Mean', axis = 1, inplace=True) : 열 삭제
```

## Groupby

column 내부에 같은 값끼리 묶어주는 역활
- column에 의한 DataFrameGroupBy 객체 반환

유니크 데이터를 생성하는 방법

- set 이용 제거
```
result = np.array(list(set(df["Name"].values)))
```
- unique() 함수로 제거
```
result = df["Name"].unique() : series에서 unique 존재
```
- groupby로 제거
```
df.groupby("Name").size().reset_index(name='counts')
```
**size()** 해당 column의 갯수 (series 출력)

### groupby 객체의 function

#### size() 
해당 column의 갯수 (series 출력)

#### agg()

최소값, 최댓값, 평균값, 합, 중앙값 출력 (DataFrame)

```
df.groupby("Name").agg('min') : name에서 최솟값 
df.groupby("Name").agg('max') : name에서 최댓값
df.groupby("Name").agg('mean') : name에서 평균값
df.groupby("Name").agg('sum') : name에서 합
df.groupby("Name").agg('median') : name에서 중앙값
```

```
df.groupby("Name").agg(["min", "max"]) : 여러개로 출력이 가능
```

#### sum()


## sort_values
sort_values를 이용하여 counts로 내림차순 정렬
```
df = df.sort_values(by=['count'], ascending=True)

by : column 속성 정렬
ascending : True 오름차순, False 내림차순
```

## Select

```
df.head(10) : 앞에서 10개 출력 default = 5
df.tail(10) : 뒤에서 10개 출력 default = 5
```

## rename

```
df.rename(columns={"Name" : "unique_name"}) : name에서 unique_name으로 변경
```

## Merge

ID 컬럼과 User ID를 매칭시켜 merge
```
df.merge(df2, left_on="ID", right_on="UserID", how='outer') : 합치기
```

left_on: 왼쪽 매칭시킬 key
right_on : 오른쪽 매칭시킬 key
- key가 같을 시에는 left_on과 right_on을 쓸 필요가 없다.

how : inner(데이터 없는 곳은 없앴다), outer(데이터 없는 곳은 NaN)

## fillna()
데이터가 없는 사람은 0으로 초기화
```
fillna(value = 0)
```