# **Pandas_사전 과제**

## ⭐**Pandas의 정의**
: 데이터 분석에 특화된 파이썬 라이브러리. Numpy의 확장판으로서 Numpy 기능과 구조화 된 데이터 처리 기능을 제공한다.
<br>행과 열을 다룰 수 있는 **데이터 객체(DataFrame)** 를 만들어 사용하는 것이 특징이다. **분석의 시작 단계이다.**

### Series() vs DataFrame()
>**Series()**<br>: 1차원 배열 / index 기반 데이터

>**Datatframe()**<br>: 2차원 배열 / index(데이터의 순서), column(데이터의 카테고리) 기반 데이터 -> **데이터의 위치**를 나타냄.

## ⭐**DataFrame 구성**
```python
import pandas as pd
pd.DataFrame() # 괄호 안에서 Shift + Tab -> 함수 인자에 관한 설명을 확인할 수 있음.
```

#### DataFrame에 담기는 Data type별 특징
>**List[]**
```python
df = pd.DataFrame(list, columns=['a', 'b', 'c']) # Column 이름을 명시적으로 넘겨 줌.
```
>**Dictionary{key: value}**
```python
df = pd.DataFrame(dictionary) # Dictionary는 Key-Value 구조로 유지되므로 Key가 자연스럽게 Column 역할을 함. columns 명시 필요 X.
```

##### 공통점
```python
df = df.set_index('행 이름') # DataFrame().set_index(): 행 이름을 지정하는 method
```

`df.types`: Column별 데이터 타입 확인

## **DataFrame 접근**

`df.head(n), df.tail(n)`: 각각 위/아래서부터 n개 만큼의 데이터 출력. default: 5개
`df.loc['행이름', '열이름']`

### 인덱싱 (단순 지목인 경우)
- 열 이름
> `df["colname"]`: Series 반환<br>
`df[["colname1", "colname2"]]`: 부분적인 DataFrame 반환<br>
`df[["colname"]]`: colname 단일 열(DataFrame) 반환<br>
`df["colname"][index]`: colname 열 index번째 값 반환
- 행과 열 "이름(label)"로 -> `df.loc['행 이름', '열 이름']`
-  행과 열 순서로 -> `df.iloc['행 인덱스', '열 인덱스']` 

### 슬라이싱 (범위가 조건인 경우)
- 행 순서: `df[n:m]`
- 행과 열 이름: `df.loc[n:m, "colname1":"colname2"]` ❗슬라이싱 범위 주의: **[n, m) | [colname1, colname2]**❗
- 행과 열 순서: `df.iloc[n:m, p:q]`

❓**loc[] vs iloc[]**: .loc[]은 label 기반 인덱싱, .iloc[]은 정수 기반 인덱싱.

### 인덱스 설정
- default: 0 ~
- `df.set_index("colname", inplace=True)`: 기존 열 중 하나를 인덱스로 설정
- `df.reset_index()`: 인덱스 리셋 및 기존 인덱스를 열에 추가 ❓**inplace=True**: 원본 객체에서 직접 수행한다는 의미
- `df.reindex(인덱스 배열)`: 행 재배치 또는 새로운 인덱스 추가. 신규 인덱스의 데이터는 NaN(Not a Number)임.

## ⭐**데이터 조작**
### **데이터 확인하기**
#### DataFrame 훑기
`df.head(n)`
`df.tail(n)`
`df.shape`

#### DataFrame 정보 확인하기
`df.dtypes`
`df.info()`
`df.describe()`
`df.isnull()`

#### Data 개수 세기
`df.count()`
`df["colname"].value_counts()`

### **Data 추가, 삭제**
추가: `df['new_colname'] = data_list`, `df['new'] = df['old1'] / df['old2'] 가능`<br>
삭제: `del df['열 이름']`, `df.drop(lables, axis)`
>❓**del vs .drop()**: del은 무조건 원본 데이터 열 삭제. drop()은 **inplace=False**일 때 원본 데이터 삭제 X -> 새로운 df에 할당 가능!<br>
>❓**axis**: 0 == 행, 1 == 열 -> 연산의 기준!

### **데이터 정렬**
by 인덱스: `df.sort_index(ascending=False)` # 내림차순
by 값: `df.sort_values(by="colname", ascending=False)`

### **데이터 변환**
특정 Column 내 데이터 자료형 변환하기<br>
1. `df.dtypes` -> 변환하려고 하는 열의 자료형 확인
2. `df["colname"] = df["colname"].astype(str)`<br>

+) 데이터 변경: `df.replace(target, new)`

## **데이터 조작 (심화)**

### 연산
`df['colname'].func()`<br>
- `.mean()`: 평균
- `.median()` : 중앙값
- `.std()` : 표준편차
- `.sum()` : 합계
- `.max()` : 최댓값
- `.min()` : 최솟값

### 그룹화
`df.groupby('group_name')['operand_col'].operation()`<br>
: 특정 기준으로 그룹을 지정하여 연산을 수행할 수 있음.

### 데이터프레임 합치기
> **`concatnated_df = pd.concat([df1, df2])`**<br>
: 동일한 구조의 DataFrame을 행 또는 열 방향으로 이어붙일 때<br>

> **`pd.merge(df1, df2, how="inner", on="~~")`**<br>
: 공통 항목(열 또는 인덱스)가 있는 두 DataFrame을 병합할 때 -> 형태가 달라도, 겹치는 데이터를 기준으로 df를 합칠 수 있음.