# __데이터프레임의 구성__


- 기본 구조는 index와 column


## _Series_
- Series는 value와 index로 구성된 1차원 자료구조
- 구성하는 값들의 데이터타입들은 모두 같아야함
- index label을 지정하지 않으면 0부터 자동으로 정수형 인덱스
- DataFrame에서 특정 column을 하나 추출하면 Series로 볼 수 있음

```
series = ['LG', '애플', '애플', '삼성', 'ASUS', '삼성']
sr = pd.Series(series)

index = [1,2,3,4,5,6]
sr = pd.Series(series, index = index)
```


## _DataFrame_
- 2차원 배열 구조
- Column 단위로는 데이터 타입이 동일해야 됨, Column 간의 데이터 타입을 달라도 됨

```
data = {
    '노트북 브랜드' : ['LG', '애플', '애플', '삼성', 'ASUS', '삼성'],
    '노트북 화면 크기(인치)' : [14.0, 14.2, 15.3, 13.3, 14.0, 15.6],
    '노트북 무게(kg)' : [0.99, 1.63, 1.51, 0.87, 1.28, 1.80],
    '사용자 이름' : ['연동운', '문유정', '이다빈', '최재완', '조영진', '김진형'],
}
df = pd.DataFrame(data)

index = [1,2,3,4,5,6]
columns = ['브랜드', '화면 크기', '무게', '이름']
df = pd.DataFrame(data, index=index, columns=columns)
```


## _데이터 확인하기_
- `df.head(n)`
- `df.tail(n)`
- `df.shape`
- `df.dtypes`
- `df.describe()`
- `df[열 이름].unique()`
- `df.isnull()`
- `df.info()`
- `df.count()`
- `df[열 이름].value_counts()`
---

# __데이터 추출__


## _Indexing & Slicing_
- 인덱싱: 단순 지목
- 슬라이싱: `df[start:end]`


## _행단위 데이터 추출: loc과 iloc_
### loc
- 행단위 데이터 추출
- 인덱싱 & 슬라이싱 모두 가능
- loc 인자 안에는 행과 열의 이름이 들어와야 함
- `df.loc`의 범위는 끝 인덱스를 포함
```
df.loc[행 이름]
df.loc[행 이름, 열 이름]
df.loc[:, 열 이름]
```
### iloc
- loc과 거의 유사하지만 인자로 행과 열의 이름이 아니라, 정수형 인덱스 번호가 와야함
- 데이터 양이 많아지면 속도 측면에서 더 유리함
- `df.iloc`의 범위는 (시작 인덱스 ~ 끝 인덱스-1)
`df.iloc[행 순서, 열 순서]


## _열단위 데이터 추출: Column명_
```
df[열 이름]
df[[열 이름1, 열 이름2...]]
df[[열 이름]]
df[열 이름][행 이름]
```


## _불리언 인덱싱_


특정 조건에 만족하는 데이터를 추출하고 싶을 때


- 판다스에서 데이터프레임의 특정 열에 조건문을 걸면 각각의 값들에 대응하는 True/False 배열이 반환됨
- 앞서 데이터 추출을 위해 인덱스/컬럼명을 넣었던 자리에 조건문이 들어가게 되면 True 값에 해당하는 부분만 출력
- 조건문 여러 개를 논리연산자(and, or)로 묶어 사용하는 것도 가능
- loc에서도 불리언 인덱싱 쓸 수 있음
- 하지만 iloc은 정수형 순서 인덱스만 받을 수 있으므로 bool 타입인 불리언 인덱싱은 불가능
```
df[조건문]
df[(조건문1) 논리연산자 (조건문2)]
df.loc[조건문, 열 이름]
```


## _인덱스 설정_
- `df.set_index(열 이름)`: 기존의 열 중 하나를 인덱스로 설정
- `df.reset_index()`: 인덱스를 리셋하고 기존 인덱스를 열에 추가
- `df.reindex(인덱스 배열)`: 인덱스의 재배열에 따라 기존 행데이터도 인덱스를 따라감
---

# __데이터 조작__
## _데이터 추가, 삭제_
- `df['새로운 열 이름'] = 리스트`: 특정 리스트를 데이터프레임에 추가
- `df.drop(labels, axis)`
## _데이터 정렬_
- `df.sort_index`: 인덱스를 기준으로 정렬
- `df.sort_values["열 이름"]`: 특정 열의 값을 기준으로 정렬
## _데이터 변환_
- `df[열 이름] = df[열 이름].astype(바꿀 자료형)`
- `df.replace(바꾸고 싶은 값, 바꿀 값)`
## _데이터프레임 병합_
- `df = pd.concat([df1, df2], axis = 0)` -> 행방향 결합
- `df = pd.concat([df1, df2], axis = 1)` -> 열방향 결합
- `df = pd.merge(df1, df2, how = 'inner', on = '~~')` -> 교집합 연산
- `df = pd.merge(df1, df2, how = 'outer', on = '~~')` -> 합집합 연산
## _집계함수_
```
df['컬럼 명'].mean()
df['컬럼 명'].median()
df['컬럼 명'].std()
df['컬럼 명'].sum()
df['컬럼 명'].max()
df['컬럼 명'].min()
df.groupby('column명1')['column명2'].집계함수
```
---