### **pandas**

- pandas는 파이썬에서 사용할 수 있는 라이브러리 (↔ 프레임워크)
- 행과 열로 구성되어있는 테이블 형태의 데이터를 다룰 때 효과적으로 관리해줄 수 있는 라이브러리
- 왜 pandas를 사용하는가?
    - 가장 오랜 기간 테이블 형태의 데이터를 다룰 때 사용되어왔다 → 검증 // 버그가 거의 수정(**안정화**되었다)
    - **현업**에서 가장 많이 사용함.
    - **기능**이 압도적임. → plotly 데이터 시각화 라이브러리와 호환성 ⇒ 웬만한 전처리 & 데이터 시각화
- pandas 를 통해서 실행하고자 하는 기본 기능 위주로 문법 기초 학습
- 학습한 결과를 토대로 ⇒ 2가지 실습 ( 코로나 확진자 데이터 전처리 & 시각화 실습 // 이커머스 쇼핑몰 데이터 전처리 &시각화)

---

- raw data : raw → 원본 데이터 기준 전처리 / 복제본을 사용 (pandas는 join 등 으로 데이터를 합하는 등의 정보도 시각화를 정확히 해줌)
- **EDA** : Exploratory Data Analysis (탐색적 데이터 분석) 데이터를 전처리하는 경우는 방대한 데이터! 그 데이터가 의미하는 바를 분석,해석할 줄 알아야함. 데이터 분석의 효율적인 방법!! → 크롤링 효율성으로 올라감!
    - 방법 1. 해당 데이터는 어떠한 출처를 가지고 있는가
    - 방법 2. 해당 데이터의 양은 어느정도 인가?
    - 방법 3. 해당 데이터 내 각 feature (각각의 컬럼들)의 상관관계는 어떤것인가?(비례 or 반비례)

# 🐼 pandas란?

**pandas**는 Python에서 사용되는 데이터 분석을 위한 **라이브러리**입니다.  
엑셀처럼 **행(Row)과 열(Column)**로 구성된 **테이블 형태의 데이터**를 효과적으로 다룰 수 있게 해줍니다.

> ✅ 라이브러리란?  
> : 특정 기능을 쉽게 쓸 수 있도록 만든 "기능 모음집".  
> pandas는 프레임워크가 아닌 **라이브러리**이며, 필요한 기능만 골라서 사용합니다.

---

## ✅ pandas를 왜 사용하는가?

- 🧪 **검증된 안정성**  
  - 오랜 기간 동안 개발되어 대부분의 버그가 수정됨 (안정적)
  - 전 세계 데이터 분석가들이 사용 → 자료 많음

- 💼 **현업에서 가장 많이 사용되는 표준 도구**  
  - 데이터 분석, 머신러닝, 금융, 통계, 리서치 등 다양한 분야에서 사용
  - 대부분의 기업/프로젝트에서도 `pandas` 기반으로 작업

- 🎯 **강력한 기능**  
  - 데이터 읽기/쓰기(csv, excel, json 등)
  - 결측치 처리, 그룹화, 필터링, 정렬, 조인 등 전처리 기능
  - plotly, seaborn 등 시각화 라이브러리와 뛰어난 호환성

- 🔁 **전처리부터 시각화까지 이어지는 통합 도구**  
  - 분석 → 시각화 → 리포트까지 이어지는 파이프라인의 중심

---

## 📚 pandas 학습 포인트

> pandas를 배우는 목적:  
> → 데이터를 "깨끗하게 만들고(전처리)" → "정보를 뽑아내고(EDA)" → "보여주는 것(시각화)"

- pandas 문법 기초만 잘 익혀도 웬만한 데이터 분석은 수행 가능
- **두 가지 실습 중심으로 연습**:
  1. 코로나 확진자 데이터 전처리 + 시각화
  2. 이커머스 쇼핑몰 구매 데이터 전처리 + 시각화

---

## 🧼 raw data와 전처리

- **raw data**: 가공되지 않은 원본 데이터
- 분석 시에는 보통 **원본은 건드리지 않고 복제본**을 만들어 사용
- pandas는 `merge`, `join`, `groupby` 등으로 데이터를 효과적으로 조합 및 가공 가능
- 전처리를 잘 하면 시각화가 훨씬 쉬워짐

---

## 🔍 EDA (탐색적 데이터 분석, Exploratory Data Analysis)

EDA는 데이터를 본격적으로 분석하기 전, **데이터를 이해하고 해석하는 과정**입니다.  
→ 크롤링한 데이터를 어떻게 분석할지 정하기 위한 중요한 단계입니다.

### 🎯 EDA 핵심 질문
1. **출처**: 이 데이터는 어디서, 어떤 기준으로 수집되었는가?
2. **규모**: 데이터는 몇 행, 몇 열로 구성되어 있는가?
3. **특성(Feature) 분석**: 각 컬럼 간의 관계는 어떤가? (예: 비례, 반비례, 독립 등)
4. **결측치, 이상치**는 있는가?
5. **시각화**를 통해 어떤 인사이트를 얻을 수 있는가?

---

## 🧩 pandas의 핵심 개념

### 🔹 Series
- 1차원 배열 구조 (리스트처럼 생겼지만 라벨이 있음)
- 예: `[10, 20, 30]` → 각각에 이름(인덱스)을 붙인 형태
- 하나의 컬럼(열) 또는 하나의 특성을 표현할 때 사용

```python
import pandas as pd
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)
