## 1. Pandas란
- 데이터 분석에 특화된 파이썬 라이브러리
- 행과 열로 구성
- Numpy의 확장판
- 실행 예시
  ```python
  import pandas as pd
  df = pd.read_csv('파일 경로')
  ```

## 2. DataFrame의 구성

#### 2.1 Index와 Column
- 데이터의 위치 표현
- index(행): 보통 데이터의 순서 의미
- column(열): 보통 데이터의 카테고리 의미

#### 2.2 Series
- 값(value)과 인덱스(index)로 구성된 1차원 자료구조
- 시리즈를 구성하는 값들의 데이터 타입은 모두 같아야 함
- 인덱스 레이블을 지정하지 않으면, 0부터 시작하는 디폴트 정수형 인덱스 사용

#### 2.3 DataFrame
- 행과 열로 구성된 2차원 배열 구조
- 컬럽 단위로는 값들의 데이터 타입이 같야 함.


#### 2.4 데이터 확인하기
- `df.head(n)`: 위에서부터 n개의 행 반환
- `df.tail(n)`: 아래서부터 n개의 행 반환
---
- `df.shape`: (행개수, 열개수) 반환
- `df.dtypes`: 열들의 데이터타입 반환
- `df.describe()`: 수치형 열들의 통계값 반환
- `df[열 이름].unique()`: 특정 열에 포함된 값들 중복없이 1개씩 반환
- `df.isnull()`: 결측치 여부 반환
- `df.info()`: 여러 정보 종합적으로 반환
---
- `df.count()`: 결측치를 제외한 데이터의 행 수 반환
- `df[열 이름].value_counts()`: 특정 열에 포함된 값들의 빈도수 반환

## 3. 데이터 추출

#### 3.1 인덱싱(Indexing) & 슬라이싱(Slicing)
- 인덱싱: 단순 지정
- 슬라이싱: 범위 지정 / `df[start:end]`

#### 3.2 행단위 데이터 추출: loc & iloc
**loc**
- 기본적으로 행단위로 데이터 추출
- `df.loc['행이름']`: 행 단위 추출
- `df.loc['행이름', '열이름']`: 값 단위 추출
- `df.loc[:, '열이름']`: 열 단위 추출

**iloc**
- 행과 열의 이름이 아니라, 정수형 인덱스 번호 사용
- `df.iloc[행순서, 열순서]`

#### 3.3 열단위 데이터 추출: 컬럼명
- `df['열이름']`
- `df[['열이름1', '열이름2'..]]`
- `df[['열이름']]`
- `df['열이름]['행이름']` 

#### 3.4 불리언(Boolean) 인덱싱
- 조건문에 대해 True 값에 해당하는 부분만 출력
- loc에서도 불리언 인덱싱 가능, 하지만 iloc은 불가능
- `df[조건문]`
- `df[(조건문1) 논리연산자 (조건문2)]`
- `df.loc[조건문, 열이름]`


#### 3.5 인덱스 설정
- `df.set_index('열이름')`: 기존 열 중 하나를 인덱스로 설정
- `df.reset_index()`: 인덱스를 리셋하고 기존 인덱스를 열에 추가
- `df.redindex(인덱스 배열)`: 인덱스 재배열에 따라 기존 행데이터도 인덱스를 따라간다

## 4. 데이터 조작

#### 4.1 데이터 추가, 삭제
- `df['새로운 열이름'] = 리스트`: 추가
- `df.drop('삭제할 열이름', axis)`: 삭제

#### 4.2 데이터 정렬
- `df.sort_index`: 인덱스를 기준으로 정렬
- `df.sort_values['열이름']`: 특정 열의 값을 기준으로 정렬

#### 4.3 데이터 변환
- `df['열이름'] = df['열이름'].astype('바꿀 자료형')`: 자료형 변환
- `df.replace(바꾸고 싶은 값, 바꿀 값)`: 데이터 값 변환

#### 4.4 데이터프레임 병합
**concat**
  - 단순히 두 데이터프레임을 이어붙임
  - `df = pd.concat([df1, df2], axis = 0)`: 행방향 결합
  - `df = pd.concat([df1, df2], axis = 1)`: 열방향 결합
 
**merge**
  - 공통 항목을 기준으로 병합
  - `df = pd.merge(df1, df2, how='inner', on='기준이 되는 열이름')`: 교집합(and) 연산
  - `df = pd.merge(df1, df2, how='outer', on='기준이 되는 열이름')`: 합집합(or) 연


## 5. 집계함수

#### 5.1 집계함수란
- 여러 행으로부터 하나의 결괏값 반환
- 집계함수:
    - `df['컬럼명'].mean()`: 평균
    - `df['컬럼명'].median()`: 중앙값
    - `df['컬럼명'].std()`: 표준편차
    - `df['컬럼명'].sum()`: 합계
    - `df['컬럼명'].max()`: 최댓값
    - `df['컬럼명'].min()`: 최솟값

- axis=0: 행방향 연산(↓) / axis=1: 열방향 연산(→)

#### 5.2 그룹화(Grouping)
- 일부 행을 대상으로 집계
- `df.groupby('컬럼명1')['컬럼명2'].집계함수`