# Pandas 기초 - Series와 DataFrame

Pandas는 파이썬에서 데이터 분석을 위한 핵심 라이브러리입니다. 엑셀과 유사한 테이블 형태의 데이터를 다룰 수 있습니다.

**학습 목표:**
- Pandas 라이브러리 import 방법
- Series와 DataFrame의 차이점 이해
- 리스트와 딕셔너리로 DataFrame 생성하기
- columns와 index 설정 방법

---
## 1. Pandas 패키지 로드

In [None]:
# pandas 패키지를 pd라는 별칭(alias)으로 import
# 관례적으로 pd를 사용하며, 대부분의 튜토리얼과 문서에서 이 방식을 따릅니다.
import pandas as pd

---
## 2. Pandas의 Series와 DataFrame

Pandas의 핵심 자료구조:
- **Series**: 1차원 데이터 (하나의 column)
- **DataFrame**: 2차원 데이터 (여러 column으로 구성된 테이블)

### 2-1. Series

1차원 배열과 유사하며, 각 요소에 인덱스(label)가 부여됩니다.

In [2]:
pd.Series([1, 2, 3, 4])

0    1
1    2
2    3
3    4
dtype: int64

In [None]:
# pd.Series()로 리스트를 Series로 변환
# 왼쪽 숫자(0,1,2,3)는 자동 생성된 인덱스
pd.Series([1, 2, 3, 4])

In [None]:
# 변수에 저장된 리스트를 Series로 변환
a = [1, 2, 3, 4]

In [None]:
mylist = [1, 2, 3, 4]
test = pd.Series(mylist)
type(test)

pandas.core.series.Series

# Series의 타입 확인
mylist = [1, 2, 3, 4]
test = pd.Series(mylist)
type(test)  # pandas.core.series.Series 반환

### 2-2. DataFrame

DataFrame은 **2차원 테이블 구조**로, 여러 개의 Series가 모여 구성됩니다.

**DataFrame의 구성 요소:**
- `index`: 행 라벨 (왼쪽 첫 번째 열)
- `columns`: 열 라벨 (첫 번째 행)
- `values`: 실제 데이터가 저장된 부분

In [5]:
# 2차원 리스트로 values값을 생성
subway1 = [['1호선','서울역', 17896, 15468],
           ['2호선','강남', 22794, 21657],
           ['3호선','신사', 24131, 25592]]

In [6]:
type(subway1)

list

In [None]:
# DataFrame의 왼쪽 첫번째 열은 index이다.
# DataFrame의 첫번째 행은 columns이다.
# 실제 data가 저장된 부분은 values라고 부른다.
# 실제 데이터프레임이 저장되지는 않는다.
pd.DataFrame(subway1)

Unnamed: 0,0,1,2,3
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


In [7]:
# df1이라는 이름으로 데이터프레임이 저장(생성)
df1 = pd.DataFrame(subway1)

In [8]:
df1

Unnamed: 0,0,1,2,3
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


#### 제목컬럼 만들기

In [9]:
df1.columns = ['지하철노선', '역명', '승차총승객수','하차총승객수']

In [10]:
df1

Unnamed: 0,지하철노선,역명,승차총승객수,하차총승객수
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


In [15]:
df1 = pd.DataFrame(data=subway1, columns=['지하철노선', '역명', '승차총승객수','하차총승객수'])
df1

Unnamed: 0,지하철노선,역명,승차총승객수,하차총승객수
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


#### 방법 2. dict로 만들기

In [12]:
# 데이터프레임을 생성할 때, dict타입으로 생성하면, columns와 values를 입력하고 시작 
# dict의 key값은 column
# dict의 value는 values->리스트
subway2 = {'지하철노선':['1호선', '2호선', '3호선'], 
            '역명': ['서울역','강남','신사'], 
            '승차총승객수': [17896, 22794, 24131],
            '하차총승객수': [15468, 21657, 25592]
           }

In [13]:
df2 = pd.DataFrame(subway2)

In [14]:
df2

Unnamed: 0,지하철노선,역명,승차총승객수,하차총승객수
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


#### index를 특정 column으로 지정하기

In [None]:
df1

Unnamed: 0,지하철노선,역명,승차총승객수,하차총승객수
0,1호선,서울역,17896,15468
1,2호선,강남,22794,21657
2,3호선,신사,24131,25592


In [16]:
# index값을 특정 column으로 대치하기
df1.index = df1['지하철노선']

In [17]:
df1

Unnamed: 0_level_0,지하철노선,역명,승차총승객수,하차총승객수
지하철노선,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1호선,1호선,서울역,17896,15468
2호선,2호선,강남,22794,21657
3호선,3호선,신사,24131,25592


#### series = column 이라고 하였습니다. 확인해 볼까요?

In [18]:
type(df1['역명'])

pandas.core.series.Series

In [19]:
df1['역명']

지하철노선
1호선    서울역
2호선     강남
3호선     신사
Name: 역명, dtype: object

---
## 정리

| 개념 | 설명 |
|------|------|
| `import pandas as pd` | Pandas를 pd라는 별칭으로 import |
| `pd.Series()` | 리스트를 1차원 Series로 변환 |
| `pd.DataFrame()` | 리스트/딕셔너리를 2차원 DataFrame으로 변환 |
| `df.columns` | DataFrame의 열 이름 설정/확인 |
| `df.index` | DataFrame의 행 인덱스 설정/확인 |
| `df['column']` | 특정 column 선택 (Series 반환) |

**핵심 포인트:**
- Series = 1차원 (하나의 column)
- DataFrame = 2차원 (여러 column의 테이블)
- 딕셔너리로 DataFrame 생성 시 key가 column 이름이 됨