## 1️⃣ 판다스(Pandas)가 필요한 이유

> NumPy는 빠르지만 “행과 열의 의미”가 없습니다.
> 
> 
> 즉, 숫자는 처리할 수 있어도 “데이터의 이름, 컬럼, 인덱스”를 모릅니다.
> 

**Pandas는 그 한계를 극복한 데이터 분석용 라이브러리입니다.**

---

### 💡 판다스의 주요 특징

| 항목 | 설명 |
| --- | --- |
| 구조화된 데이터 | 행(Row) + 열(Column) 형태 |
| 레이블 기반(변수이름 기반) 접근 | 숫자가 아닌 “이름”으로 데이터 접근 |
| 다양한 입출력 지원 | CSV, Excel, JSON, SQL, HTML 등 |
| NumPy 기반 | 내부적으로 NumPy 배열을 사용 (고속 연산) |
| 분석 친화적 | 그룹, 피벗, 통계, 결측치 처리 등 내장 |

---

### 📊 실무 예시

| 사례 | 활용 예 |
| --- | --- |
| 매출 데이터 분석 | `read_csv()`로 불러와 `groupby()`로 합계 계산 |
| 고객 데이터 관리 | 고객 등급, 구매 패턴 집계 |
| 텍스트 데이터 분석 | 댓글, 리뷰 데이터 전처리 |
| AI 학습 데이터 준비 | CSV → DataFrame 변환 후 모델 학습용 구조화 |

---

## 2️⃣ Series와 DataFrame

> Pandas의 기본 데이터 단위는 두 가지입니다.
> 

---

### 🔹 Series (1차원)

> “하나의 열(column)”을 표현하는 1차원 구조
> 
> 
> (인덱스와 값으로 구성)
>

In [5]:
# 1차원 자료 생성
import pandas as pd

s = pd.Series([100, 200, 300, 400])
print(s)

0    100
1    200
2    300
3    400
dtype: int64


In [9]:
# 2차원 배열 생성 - Data frame 생성
# json형태의 자료구조 형태를 볼 수 있음

data = {
    "이름" : ["홍길동", "이몽룡", "성춘향"],
    "나이" : [30,20,40],
    "직업" : ["개발자", "분석가", "디자이너"]}


df  = pd.DataFrame(data)
display(df)

Unnamed: 0,이름,나이,직업
0,홍길동,30,개발자
1,이몽룡,20,분석가
2,성춘향,40,디자이너


---

## 3️⃣ CSV 파일 읽기 & 쓰기

> CSV(Comma-Separated Values)는
> 
> 
> 가장 일반적인 **데이터 파일 포맷**입니다.
>

In [None]:
# csv로 저장
df.to_csv("test.csv", index=False, encoding="utf-8")


In [13]:
df2 = pd.read_csv("test.csv", encoding="utf-8")
display(df2)

Unnamed: 0,이름,나이,직업
0,홍길동,30,개발자
1,이몽룡,20,분석가
2,성춘향,40,디자이너


---

## 4️⃣ 데이터 확인 메서드

> CSV 파일을 불러왔으면 가장 먼저 “데이터의 구조”를 살펴봐야 합니다.
>

In [None]:
# 데이터 확인 메서드
# 1. head() / tail()
# 데이터가 제대로 출력되는지 확인
print(df2.head(1))
print(df2.tail(1))

# 2. info()
# rangeIndex : 총 데이터 수 파악 / data colums : 총 자료의 개수 파악
# Non-Null : null값 확인 // Dtype : 자료형파악 // memory usage : 메모리 사용량
print(df2.info())

# 3. describe()
# 수치형 자료에 대한 통계량 확인 
# 1. 이상치는 없는지 2. 데이터의 구조및 분포 확인 3. 한가지값으로만 이루어지지 않았는지 빠르게 파악
print(df2.describe())

    이름  나이   직업
0  홍길동  30  개발자
    이름  나이    직업
2  성춘향  40  디자이너
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   직업      3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None
         나이
count   3.0
mean   30.0
std    10.0
min    20.0
25%    25.0
50%    30.0
75%    35.0
max    40.0


## 5️⃣ 🧩 추가 실습 — “직원 정보 데이터 미리보기”

> 다음과 같은 CSV를 예시로 사용합니다.
>

In [21]:
data = {
    "이름" : ["홍길동", "이몽룡", "성춘향"],
    "부서" : ["개발", "기획", "디자인"],
    "직급" : ["대리", "사원", "과장"],
    "연봉" : [5500, 42000, 6000]
}

# 데이터 프레임 만들기
df = pd.DataFrame(data)

# csv 만들기
df.to_csv("employee.csv", index=False, encoding="utf-8")

#현황 살펴보기
print(df.info())
print(df.describe())
print(df.head(2))
print(df.tail(2))

# 연봉 평균, 최대값 
print(df["연봉"].mean())
print(df["연봉"].max())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   부서      3 non-null      object
 2   직급      3 non-null      object
 3   연봉      3 non-null      int64 
dtypes: int64(1), object(3)
memory usage: 228.0+ bytes
None
                 연봉
count      3.000000
mean   17833.333333
std    20930.440352
min     5500.000000
25%     5750.000000
50%     6000.000000
75%    24000.000000
max    42000.000000
    이름  부서  직급     연봉
0  홍길동  개발  대리   5500
1  이몽룡  기획  사원  42000
    이름   부서  직급     연봉
1  이몽룡   기획  사원  42000
2  성춘향  디자인  과장   6000
17833.333333333332
42000
