# 03차시: Pandas 라이브러리 기초 (Series, DataFrame)

## 학습 목표
- Python 데이터 분석의 핵심 도구인 Pandas 이해
- Series와 DataFrame의 기본 구조 학습
- 금융 데이터를 Pandas로 다루는 방법 습득

## 학습 내용
1. Pandas 소개 및 설치
2. Series: 1차원 데이터 구조
3. DataFrame: 2차원 데이터 구조
4. 데이터 조회 및 선택
5. 기본 통계 함수

## 구분
이론/실습

---
Pandas는 금융 데이터 분석에서 가장 많이 사용되는 라이브러리입니다.


## 1. Pandas 소개

### Pandas란?
- **Pan**el **Da**ta의 약자
- Python에서 데이터 분석을 위한 핵심 라이브러리
- 엑셀과 유사한 표 형태의 데이터를 다루는 도구

### 주요 특징
- **빠른 데이터 처리**: 대용량 데이터도 효율적으로 처리
- **다양한 파일 지원**: CSV, Excel, JSON, SQL 등
- **결측치 처리**: 누락된 데이터를 쉽게 처리
- **데이터 정렬/그룹화**: 복잡한 데이터 조작 가능

### 핵심 자료구조
| 자료구조 | 차원 | 설명 |
|----------|------|------|
| **Series** | 1차원 | 인덱스가 있는 1차원 배열 |
| **DataFrame** | 2차원 | 행과 열이 있는 표 형태 |


## 2. Series: 1차원 데이터 구조

### Series란?
- 인덱스(index)와 값(value)으로 구성된 1차원 배열
- 엑셀의 한 열(Column)과 유사

### Series 생성 방법
```python
# 리스트로 생성
pd.Series([값1, 값2, 값3])

# 딕셔너리로 생성
pd.Series({'키1': 값1, '키2': 값2})
```

### 금융 데이터에서의 활용
- 특정 종목의 일별 종가
- 여러 종목의 현재가


In [1]:
import pandas as pd
import numpy as np

# Series 생성 - 리스트로 생성
daily_close = pd.Series([75000, 76000, 74500, 77000, 76500])

print(f"\n타입: {type(daily_close)}")
daily_close


타입: <class 'pandas.core.series.Series'>


Unnamed: 0,0
0,75000
1,76000
2,74500
3,77000
4,76500


In [2]:
# 인덱스 지정하여 생성
dates = ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04', '2024-01-05']
daily_close = pd.Series([75000, 76000, 74500, 77000, 76500], index=dates)
daily_close

Unnamed: 0,0
2024-01-01,75000
2024-01-02,76000
2024-01-03,74500
2024-01-04,77000
2024-01-05,76500


In [3]:
# Series 생성 - 딕셔너리로 생성
stock_prices = pd.Series({
    '삼성전자': 75000,
    'NAVER': 450000,
    '카카오': 120000,
    'LG전자': 85000
})
stock_prices

Unnamed: 0,0
삼성전자,75000
NAVER,450000
카카오,120000
LG전자,85000


In [4]:
# 기본 통계
print("\n[기본 통계]")
print(f"평균가: {stock_prices.mean():,.0f}원")
print(f"최고가: {stock_prices.max():,}원 ({stock_prices.idxmax()})")
print(f"최저가: {stock_prices.min():,}원 ({stock_prices.idxmin()})")


[기본 통계]
평균가: 182,500원
최고가: 450,000원 (NAVER)
최저가: 75,000원 (삼성전자)


In [5]:
# Series 데이터 접근

# 인덱스로 접근
print(f"삼성전자 현재가: {stock_prices['삼성전자']:,}원")
print(f"NAVER 현재가: {stock_prices['NAVER']:,}원")

# 위치(정수)로 접근
print(f"\n첫 번째 종목: {stock_prices.iloc[0]:,}원")
print(f"마지막 종목: {stock_prices.iloc[-1]:,}원")

# 슬라이싱
print("처음 2개 종목:")
print(stock_prices[:2])

# 조건 필터링
print("\n[조건 필터링: 10만원 이상 종목]")
filtered = stock_prices[stock_prices >= 100000]
print(filtered)

삼성전자 현재가: 75,000원
NAVER 현재가: 450,000원

첫 번째 종목: 75,000원
마지막 종목: 85,000원
처음 2개 종목:
삼성전자      75000
NAVER    450000
dtype: int64

[조건 필터링: 10만원 이상 종목]
NAVER    450000
카카오      120000
dtype: int64


In [6]:
# Series 연산

# 전일 종가
last_prices = pd.Series({
    '삼성전자': 73000,
    'NAVER': 445000,
    '카카오': 125000,
    'LG전자': 82000
})

# 등락금액 계산 (Series 간 연산)
updown = stock_prices - last_prices
print("등락금액:")
print(updown)

# 등락률 계산
pct_change = (updown/ last_prices) * 100
print("\n등락률 (%):")
print(pct_change.round(2))

등락금액:
삼성전자     2000
NAVER    5000
카카오     -5000
LG전자     3000
dtype: int64

등락률 (%):
삼성전자     2.74
NAVER    1.12
카카오     -4.00
LG전자     3.66
dtype: float64


## 3. DataFrame: 2차원 데이터 구조

### DataFrame이란?
- 행(row)과 열(column)로 구성된 2차원 표 형태
- 엑셀 스프레드시트와 유사
- 여러 개의 Series가 모인 것

### DataFrame 생성 방법
```python
# 딕셔너리로 생성 (열 기준)
pd.DataFrame({'열1': [값들], '열2': [값들]})

# 리스트로 생성 (행 기준)
pd.DataFrame([[행1], [행2]], columns=['열1', '열2'])
```

### 금융 데이터에서의 활용
- 종목별 가격, 거래량, 등락률 등 다양한 정보를 표로 관리
- 일별 OHLCV (시가, 고가, 저가, 종가, 거래량) 데이터


In [7]:
# 3-1 : DataFrame 생성 - 딕셔너리로 생성

stocks = pd.DataFrame({
    '종목명': ['삼성전자', 'NAVER', '카카오', 'LG전자', '셀트리온'],
    '현재가': [75000, 450000, 120000, 85000, 180000],
    '전일대비': [2000, 5000, -3000, 1500, 4000],
    '거래량': [15000000, 500000, 3000000, 800000, 1200000]
})

print(f"\nDataFrame 크기: {stocks.shape} (행 x 열)")
stocks


DataFrame 크기: (5, 4) (행 x 열)


Unnamed: 0,종목명,현재가,전일대비,거래량
0,삼성전자,75000,2000,15000000
1,NAVER,450000,5000,500000
2,카카오,120000,-3000,3000000
3,LG전자,85000,1500,800000
4,셀트리온,180000,4000,1200000


### 주요 통계 함수
| 함수 | 설명 |
|------|------|
| `mean()` | 평균 |
| `sum()` | 합계 |
| `min()` / `max()` | 최솟값 / 최댓값 |
| `std()` | 표준편차 |
| `count()` | 개수 |
| `describe()` | 요약 통계 |

In [8]:
# 기본 통계 함수
print("[기본 통계]")
print(f"평균 현재가: {stocks['현재가'].mean():,.0f}원")
print(f"최고 현재가: {stocks['현재가'].max():,}원")
print(f"최저 현재가: {stocks['현재가'].min():,}원")
print(f"총 거래량: {stocks['거래량'].sum():,}주")
print(f"평균 거래량: {stocks['거래량'].mean():,.0f}주")

print("\n" + "=" * 50)
print("[describe() - 요약 통계]")
stocks.describe()

[기본 통계]
평균 현재가: 182,000원
최고 현재가: 450,000원
최저 현재가: 75,000원
총 거래량: 20,500,000주
평균 거래량: 4,100,000주

[describe() - 요약 통계]


Unnamed: 0,현재가,전일대비,거래량
count,5.0,5.0,5.0
mean,182000.0,1900.0,4100000.0
std,155346.387148,3090.307428,6170089.0
min,75000.0,-3000.0,500000.0
25%,85000.0,1500.0,800000.0
50%,120000.0,2000.0,1200000.0
75%,180000.0,4000.0,3000000.0
max,450000.0,5000.0,15000000.0


In [9]:
# 새로운 열 추가 및 계산
print("[새로운 열 추가]")

# 등락률 계산하여 새 열 추가
stocks['전일가'] = stocks['현재가'] - stocks['전일대비']
stocks['등락률'] = (stocks['전일대비'] / stocks['전일가'] * 100).round(2)

print(stocks)

print("\n상승 종목만 필터링:")
filterd = stocks[stocks['등락률'] > 0]
filterd[['종목명', '등락률']]

[새로운 열 추가]
     종목명     현재가  전일대비       거래량     전일가   등락률
0   삼성전자   75000  2000  15000000   73000  2.74
1  NAVER  450000  5000    500000  445000  1.12
2    카카오  120000 -3000   3000000  123000 -2.44
3   LG전자   85000  1500    800000   83500  1.80
4   셀트리온  180000  4000   1200000  176000  2.27

상승 종목만 필터링:


Unnamed: 0,종목명,등락률
0,삼성전자,2.74
1,NAVER,1.12
3,LG전자,1.8
4,셀트리온,2.27


In [10]:
# 3-2: DataFrame 생성 - 리스트로 생성

data = [
    ['005930', '삼성전자', 75000],
    ['035420', 'NAVER', 450000],
    ['035720', '카카오', 120000]
]

df_stocks = pd.DataFrame(data, columns=['종목코드', '종목명', '현재가'])
print(df_stocks)

# 인덱스 설정
print("\n[종목코드를 인덱스로 설정]")
df_indexed = df_stocks.set_index('종목코드')
df_indexed

     종목코드    종목명     현재가
0  005930   삼성전자   75000
1  035420  NAVER  450000
2  035720    카카오  120000

[종목코드를 인덱스로 설정]


Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5930,삼성전자,75000
35420,NAVER,450000
35720,카카오,120000


In [11]:
# DataFrame 기본 정보 확인
print("[DataFrame 기본 정보]")
print(f"열 이름: {df_stocks.columns.tolist()}")
print(f"인덱스: {df_stocks.index.tolist()}")
print(f"크기: {df_stocks.shape}")
print(f"데이터 개수: {df_stocks.size}")

print("\n" + "=" * 50)
print("[head() - 처음 3행]")
print(df_stocks.head(3))

print("\n[tail() - 마지막 2행]")
print(df_stocks.tail(2))

print("\n" + "=" * 50)
print("[info() - 데이터 타입 정보]")
stocks.info()

[DataFrame 기본 정보]
열 이름: ['종목코드', '종목명', '현재가']
인덱스: [0, 1, 2]
크기: (3, 3)
데이터 개수: 9

[head() - 처음 3행]
     종목코드    종목명     현재가
0  005930   삼성전자   75000
1  035420  NAVER  450000
2  035720    카카오  120000

[tail() - 마지막 2행]
     종목코드    종목명     현재가
1  035420  NAVER  450000
2  035720    카카오  120000

[info() - 데이터 타입 정보]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목명     5 non-null      object 
 1   현재가     5 non-null      int64  
 2   전일대비    5 non-null      int64  
 3   거래량     5 non-null      int64  
 4   전일가     5 non-null      int64  
 5   등락률     5 non-null      float64
dtypes: float64(1), int64(4), object(1)
memory usage: 372.0+ bytes


## 4. 데이터 조회 및 선택

### 열(Column) 선택
- `df['열이름']` : 단일 열 선택 → Series 반환
- `df[['열1', '열2']]` : 복수 열 선택 → DataFrame 반환

### 행(Row) 선택
- `df.loc[인덱스]` : 인덱스(라벨)로 선택
- `df.iloc[위치]` : 정수 위치로 선택

### 조건 필터링
- `df[조건]` : 조건에 맞는 행만 선택


In [12]:
# 열(Column) 선택
print("[열 선택]")
print("종목명 열:")
print(df_stocks['종목명'])

print("\n여러 열 선택 (종목명, 현재가):")
print(df_stocks[['종목명', '현재가']])

[열 선택]
종목명 열:
0     삼성전자
1    NAVER
2      카카오
Name: 종목명, dtype: object

여러 열 선택 (종목명, 현재가):
     종목명     현재가
0   삼성전자   75000
1  NAVER  450000
2    카카오  120000


In [13]:
# 행(Row) 선택
print("[행 선택 - iloc (정수 위치)]")
print("첫 번째 행:")
print(df_stocks.iloc[0])

print("\n처음 3행:")
print(df_stocks.iloc[:3])

print("\n" + "=" * 50)
print("[행 선택 - loc (인덱스)]")
# 인덱스를 종목명으로 변경하여 예시
df_by_name = df_stocks.set_index('종목명')
print(df_by_name.loc['NAVER'])

[행 선택 - iloc (정수 위치)]
첫 번째 행:
종목코드    005930
종목명       삼성전자
현재가      75000
Name: 0, dtype: object

처음 3행:
     종목코드    종목명     현재가
0  005930   삼성전자   75000
1  035420  NAVER  450000
2  035720    카카오  120000

[행 선택 - loc (인덱스)]
종목코드    035420
현재가     450000
Name: NAVER, dtype: object


In [14]:
# 조건 필터링
print("현재가 10만원 이상 종목:")
filtered = df_stocks[df_stocks['현재가'] >= 100000]
print(filtered)

현재가 10만원 이상 종목:
     종목코드    종목명     현재가
1  035420  NAVER  450000
2  035720    카카오  120000




### 정렬 함수
- `sort_values()` : 값 기준 정렬
- `sort_index()` : 인덱스 기준 정렬


In [15]:
# 정렬
sorted = df_stocks.sort_values('현재가', ascending=False)
sorted

Unnamed: 0,종목코드,종목명,현재가
1,35420,NAVER,450000
2,35720,카카오,120000
0,5930,삼성전자,75000


## 종합 실습: 주식 portfolio 분석

배운 내용을 종합하여 실제 portfolio를 Pandas로 분석해봅니다.


In [16]:
# 종합 실습: portfolio 분석
print("=" * 60)
print("[portfolio 종합 분석]")
print("=" * 60)

# portfolio 데이터 생성
portfolio = pd.DataFrame({
    '종목코드': ['005930', '035420', '035720', '066570', '068270'],
    '종목명': ['삼성전자', 'NAVER', '카카오', 'LG전자', '셀트리온'],
    '매수가': [70000, 400000, 130000, 80000, 170000],
    '현재가': [75000, 450000, 120000, 85000, 180000],
    '보유수량': [10, 2, 5, 8, 3]
})

# 계산 열 추가
portfolio['매수금액'] = portfolio['매수가'] * portfolio['보유수량']
portfolio['평가금액'] = portfolio['현재가'] * portfolio['보유수량']
portfolio['수익금'] = portfolio['평가금액'] - portfolio['매수금액']
portfolio['수익률'] = (portfolio['수익금'] / portfolio['매수금액'] * 100).round(2)

print("\n[portfolio 현황]")
print(portfolio.to_string(index=False))

[portfolio 종합 분석]

[portfolio 현황]
  종목코드   종목명    매수가    현재가  보유수량   매수금액   평가금액    수익금   수익률
005930  삼성전자  70000  75000    10 700000 750000  50000  7.14
035420 NAVER 400000 450000     2 800000 900000 100000 12.50
035720   카카오 130000 120000     5 650000 600000 -50000 -7.69
066570  LG전자  80000  85000     8 640000 680000  40000  6.25
068270  셀트리온 170000 180000     3 510000 540000  30000  5.88


In [17]:
# portfolio 요약 분석
print("[portfolio 요약]")
print("-" * 60)

total_buy = portfolio['매수금액'].sum()
total_evaluation = portfolio['평가금액'].sum()
total_revenue = portfolio['수익금'].sum()
total_return = (total_revenue / total_buy * 100)

print(f"총 매수 금액: {total_buy:,}원")
print(f"총 평가 금액: {total_evaluation:,}원")
print(f"총 수익금: {total_revenue:+,}원")
print(f"총 수익률: {total_return:+.2f}%")

print("\n[수익률 기준 정렬 (내림차순)]")
sorted = portfolio.sort_values('수익률', ascending=False)
print(sorted[['종목명', '수익률', '수익금']].to_string(index=False))

print("\n[수익/손실 종목 분류]")
profit = portfolio[portfolio['수익률'] > 0]
loss = portfolio[portfolio['수익률'] < 0]
print(f"수익 종목: {len(profit)}개")
print(f"손실 종목: {len(loss)}개")
print("=" * 60)

[portfolio 요약]
------------------------------------------------------------
총 매수 금액: 3,300,000원
총 평가 금액: 3,470,000원
총 수익금: +170,000원
총 수익률: +5.15%

[수익률 기준 정렬 (내림차순)]
  종목명   수익률    수익금
NAVER 12.50 100000
 삼성전자  7.14  50000
 LG전자  6.25  40000
 셀트리온  5.88  30000
  카카오 -7.69 -50000

[수익/손실 종목 분류]
수익 종목: 4개
손실 종목: 1개


## 배운 내용 정리

- **Pandas**: Python 데이터 분석의 핵심 라이브러리

- **Series**: 인덱스가 있는 1차원 배열
  - 생성: `pd.Series(리스트)`, `pd.Series(딕셔너리)`
  - 접근: `series['인덱스']`, `series.iloc[위치]`

- **DataFrame**: 행과 열로 구성된 2차원 표
  - 생성: `pd.DataFrame(딕셔너리)`, `pd.DataFrame(리스트)`
  - 열 선택: `df['열이름']`, `df[['열1', '열2']]`
  - 행 선택: `df.loc[인덱스]`, `df.iloc[위치]`
  - 조건 필터링: `df[조건]`

- **통계 함수**: `mean()`, `sum()`, `min()`, `max()`, `describe()`

- **정렬**: `sort_values()`, `sort_index()`

---

## 다음 차시 예고
다음 차시에서는 **Pandas를 활용한 데이터 전처리**를 배웁니다.
- 결측치 처리
- 데이터 변환
- 그룹화 및 집계
