In [None]:
# 판다스(Pandas) 기본 개념 정리

## 1. 데이터프레임의 구성

### 1.1 기본 개념
- **판다스(Pandas)**: 데이터 분석에 특화된 파이썬 라이브러리, 넘파이(Numpy)의 확장판
- **데이터프레임**: 판다스의 핵심 자료구조로, 행과 열로 구성된 2차원 표 형태
- **인덱스(Index)**: 행을 식별하는 레이블
- **컬럼(Column)**: 열을 식별하는 레이블, 데이터의 카테고리 나타냄

### 1.2 시리즈(Series)
- 1차원 자료구조로 값(value)과 인덱스(index)로 구성
- 데이터프레임의 한 열은 시리즈 형태
- 동일한 데이터 타입을 가져야 함
- 별도의 인덱스 지정이 없으면 0부터 시작하는 정수형 인덱스 자동 사용

### 1.3 데이터프레임(DataFrame)
- 2차원 배열 구조로, 행과 열로 구성
- 여러 시리즈의 집합체
- 각 컬럼별로 데이터 타입은 동일해야 하지만, 컬럼 간에는 다른 데이터 타입 가능

### 1.4 데이터 확인 방법
- **기본 탐색 함수**:
  - `head`/`tail`: 데이터의 앞/뒤 일부 확인
  - `shape`: 행과 열의 개수 확인
  - `info`: 데이터 정보 종합적 확인
  - `describe`: 수치형 열의 통계 요약
  - `dtypes`: 열의 데이터 타입 확인
  - `isnull`: 결측치 확인
  - `value_counts`: 특정 열의 값 빈도 계산

## 2. 데이터 추출

### 2.1 인덱싱과 슬라이싱
- **인덱싱**: 특정 요소를 단순 지목하여 데이터 추출
- **슬라이싱**: 범위를 조건으로 데이터 추출
- 인덱싱은 차원을 하나 축소시키고, 슬라이싱은 차원을 유지함

### 2.2 loc과 iloc
- **loc**: 레이블(이름) 기반 인덱싱, 행과 열의 이름으로 데이터 추출
- **iloc**: 위치(숫자) 기반 인덱싱, 행과 열의 정수형 인덱스로 데이터 추출
- **주의점**: loc 슬라이싱은 끝 인덱스를 포함(inclusive), iloc은 끝 인덱스를 제외(exclusive)

### 2.3 열 단위 데이터 추출
- 컬럼명을 직접 사용하여 열 단위 데이터 추출 가능
- 단일 열 추출 시 시리즈 반환, 여러 열 추출 시 데이터프레임 반환

### 2.4 불리언 인덱싱
- True/False 배열을 통해 데이터를 필터링하는 방식
- 조건문을 적용하여 True 값에 해당하는 부분만 추출
- 논리연산자(and→&, or→|)를 사용해 여러 조건 결합 가능
- loc에서 사용 가능하나 iloc에서는 사용 불가

### 2.5 인덱스 설정
- `set_index`: 기존 열을 인덱스로 설정
- `reset_index`: 인덱스를 리셋하고 기존 인덱스를 열로 추가
- `reindex`: 인덱스 재배열, 기존 행 데이터도 인덱스를 따라감

## 3. 데이터 조작

### 3.1 데이터 추가와 삭제
- 새로운 열 추가: 리스트나 시리즈를 데이터프레임에 할당
- `drop`: 행이나 열 삭제 (axis 매개변수로 방향 지정)
- **inplace**: True로 설정 시 원본 데이터 직접 변경, False는 변경된 복사본 반환

### 3.2 데이터 정렬
- `sort_index`: 인덱스를 기준으로 정렬
- `sort_values`: 특정 열의 값을 기준으로 정렬

### 3.3 데이터 변환
- `astype`: 데이터 타입 변환
- `replace`: 특정 값을 다른 값으로 대체

### 3.4 데이터프레임 병합
- **concat**: 단순히 두 데이터프레임을 이어붙이는 방식
  - axis=0: 행방향 결합 (위아래로)
  - axis=1: 열방향 결합 (좌우로)
  
- **merge**: 공통 항목을 기준으로 병합하는 방식
  - how='inner': 교집합(and) 연산
  - how='outer': 합집합(or) 연산
  - on: 기준이 될 열 지정

### 3.5 집계 함수
- 여러 행으로부터 하나의 결괏값을 반환하는 함수
- 주요 함수: mean(평균), median(중앙값), std(표준편차), sum(합계), max(최대값), min(최소값)
- axis=0: 행방향 연산(각 열에 대한 결과)
- axis=1: 열방향 연산(각 행에 대한 결과)

### 3.6 그룹화(Grouping)
- `groupby`: 특정 기준으로 데이터를 그룹화하여 집계
- 그룹별로 집계함수를 적용하여 보다 의미 있는 인사이트 도출 가능
- 주로 집계함수와 함께 사용