# 데이터 분석과 판다스: Series의 이해

- **판다스(Pandas)**는 파이썬에서 데이터를 다루는 대표적인 라이브러리  
- 핵심 자료 구조: **Series**와 **DataFrame**  
- **Series**: 1차원 데이터(리스트와 비슷)  
- **DataFrame**: 2차원 데이터(엑셀 표와 비슷)  

👉 이번에는 **Series**를 직접 만들어보고 다뤄보자

In [54]:
import pandas as pd

# 직접 리스트 입력 → Series 생성
age = pd.Series([25, 34, 19, 45, 60])

# age의 내용 출력
print(age)

# age의 데이터형 확인
print(type(age))

0    25
1    34
2    19
3    45
4    60
dtype: int64
<class 'pandas.core.series.Series'>


In [55]:
import pandas as pd

age = pd.Series([25, 34, 19, 45, 60])
print(age)
print(type(age))

0    25
1    34
2    19
3    45
4    60
dtype: int64
<class 'pandas.core.series.Series'>


# Series 생성 방법

- **리스트(list)를 직접 입력**해서 만들 수 있음  
- 출력 결과에서 **왼쪽 숫자(0,1,2,...)는 인덱스(index)**  
- 오른쪽 값은 실제 데이터(value)  

👉 Series는 리스트와 달리 **인덱스와 값**이 한 쌍으로 출력됨

In [56]:
# 이미 만들어진 리스트를 Series로 변환
data = ['spring', 'summer', 'fall', 'winter']
season = pd.Series(data)

print(season)

0    spring
1    summer
2      fall
3    winter
dtype: object


In [57]:
data = ['spring', 'summer', 'fall', 'winter']
print(data)
season = pd.Series(data)
print(season)

['spring', 'summer', 'fall', 'winter']
0    spring
1    summer
2      fall
3    winter
dtype: object


# 인덱스(index)로 값 접근하기

- `season.iloc[번호]` → 번호(index)에 해당하는 값 가져오기  
- 인덱스는 0부터 시작함 (리스트와 동일)  
- 예: `season.iloc[2]` → 세 번째 값 = "fall"

In [58]:
# 인덱스 2의 값 가져오기
print(season.iloc[2])

fall


In [59]:
print(season.loc[3])

winter


# 🤔 생각해 보기

1. `season.iloc[2]` 대신 `season.iloc[0]`을 실행하면 어떤 값이 나올까?  
2. `age = pd.Series([25, 34, 19, 45, 60])`에서 값을 바꿔  
   `[10, 20, 30, 40, 50]`으로 만들면 출력 결과가 어떻게 달라질까?  
3. `type(age)` 대신 `age.mean()`을 실행하면 어떤 결과가 나올까?

In [60]:
print(season.iloc[0])

import pandas as pd

# 직접 리스트 입력 → Series 생성
age = pd.Series([10, 20, 30, 40, 50])

# age의 내용 출력
print(age)

# age의 데이터형 확인
print(age.mean())

spring
0    10
1    20
2    30
3    40
4    50
dtype: int64
30.0


# DataFrame의 이해

- **DataFrame**은 판다스의 2차원 자료구조  
- 행(row) × 열(column) 구조 → 엑셀, CSV, SQL 테이블과 유사  
- `pd.DataFrame(리스트)`로 생성 가능  
- `Series` 여러 개가 합쳐진 형태라고 볼 수도 있음
---------------------------------------
- 정형 데이터의 대표적인 형식

In [61]:
import pandas as pd

# 2차원 리스트로부터 데이터프레임 생성
score = pd.DataFrame([[85, 96, 40, 95],
                      [73, 69, 45, 80],
                      [78, 50, 60, 90]])

# 내용 출력
print(score)

# 자료형 확인
print(type(score))

    0   1   2   3
0  85  96  40  95
1  73  69  45  80
2  78  50  60  90
<class 'pandas.core.frame.DataFrame'>


# DataFrame의 기본 속성

- `.index` → 행(row) 인덱스 (기본값: 0, 1, 2, ...)  
- `.columns` → 열(column) 인덱스 (기본값: 0, 1, 2, ...)  

👉 인덱스는 데이터 탐색과 선택에서 매우 중요한 역할을 함

In [62]:
# 행 인덱스
print(score.index)

# 열 인덱스
print(score.columns)

RangeIndex(start=0, stop=3, step=1)
RangeIndex(start=0, stop=4, step=1)


# 특정 원소 접근하기

- `iloc[행번호, 열번호]` 형식으로 원하는 원소를 선택  
- 예: `iloc[1, 2]` → 1행 2열의 값 (0부터 시작)  
- 즉, 두 번째 행 & 세 번째 열의 값을 가져옴

In [63]:
# 1행 2열 값 가져오기
print(score.iloc[1, 2])

45


# 🤔 생각해 보기

1. `score.iloc[1, 2]` 대신 `score.iloc[0, 0]`을 실행하면 어떤 값이 나올까?  
2. `score.index`와 `score.columns` 결과를 확인했을 때,  
   인덱스를 원하는 숫자나 문자로 바꾸려면 어떤 방법이 있을까?  
3. `score.iloc[2]`만 실행하면 어떤 결과가 나올까?

In [64]:
# 1
print(score.iloc[0, 0])

# 2
print('\n')
score.index = ['A', 'B', 'C']
score.columns = [15, 20, 25, 30]
print(score)

# 3
print('\n')
print(score.iloc[2])

85


   15  20  25  30
A  85  96  40  95
B  73  69  45  80
C  78  50  60  90


15    78
20    50
25    60
30    90
Name: C, dtype: int64


- 왼쪽(15,20,25,30) → 열 이름(columns) = Series의 인덱스

- 오른쪽(78,50,60,90) → C행의 실제 값

# Series에 레이블 부여하기

- 기본적으로 Series는 0, 1, 2... 순서의 숫자 인덱스를 가짐  
- 하지만 원하는 이름(레이블)을 지정할 수 있음  
- `Series.index = [...]` 로 행 이름을 지정  

👉 이렇게 하면 단순한 숫자 대신 **사람 이름, 날짜 등 의미 있는 인덱스**를 사용할 수 있음



In [65]:
import pandas as pd

# 기본 인덱스 (0,1,2,3)
age = pd.Series([25, 34, 19, 45])
print("레이블 부여 전:")
print(age)

# 사용자 정의 인덱스 부여
age.index = ['John', 'Jane', 'Tom', 'Luka']
print("\n레이블 부여 후:")
print(age)

레이블 부여 전:
0    25
1    34
2    19
3    45
dtype: int64

레이블 부여 후:
John    25
Jane    34
Tom     19
Luka    45
dtype: int64


# iloc vs loc (Series)

- `iloc[번호]` → **절대 위치 기반** 인덱싱  
- `loc['레이블']` → **이름(레이블) 기반** 인덱싱  

예시:  
- `age.iloc[2]` → 세 번째 값 (Tom의 값)  
- `age.loc['Tom']` → 'Tom'이라는 이름을 가진 값

In [66]:
print(age.iloc[2])       # 절대 위치
print(age.loc['Tom'])    # 레이블 기반

19
19


# DataFrame에 레이블 부여하기

- `DataFrame.index = [...]` → 행 이름 지정  
- `DataFrame.columns = [...]` → 열 이름 지정  

👉 레이블을 부여하면 데이터 해석이 훨씬 쉬워짐

In [67]:
# 레이블 부여 전
score = pd.DataFrame([[85, 96, 40, 95],
                      [73, 69, 45, 80],
                      [78, 50, 60, 90]])
print("레이블 부여 전:")
print(score)

# 행과 열 레이블 지정
score.index = ['John', 'Jane', 'Tom']
score.columns = ['KOR', 'ENG', 'MATH', 'SCI']

print("\n레이블 부여 후:")
print(score)

레이블 부여 전:
    0   1   2   3
0  85  96  40  95
1  73  69  45  80
2  78  50  60  90

레이블 부여 후:
      KOR  ENG  MATH  SCI
John   85   96    40   95
Jane   73   69    45   80
Tom    78   50    60   90


# iloc vs loc (DataFrame)

- `iloc[행번호, 열번호]` → 절대 위치 기반 접근  
- `loc['행레이블', '열레이블']` → 레이블 기반 접근  

예시:  
- `score.iloc[2, 1]` → 2행 1열 값 (Tom의 ENG 점수)  
- `score.loc['Tom', 'ENG']` → Tom 학생의 ENG 점수

In [68]:
print(score.iloc[2, 1])           # 절대 위치 접근
print(score.loc['Tom', 'ENG'])    # 레이블 기반 접근

50
50


# 🤔 생각해 보기

1. `age.loc['Luka']`를 실행하면 어떤 값이 나올까?  
2. `score.loc['Jane', 'MATH']`을 실행하면 어떤 값이 출력될까?  
3. `score.iloc[0]`만 실행하면 어떤 결과가 나올까?

In [69]:
print(age.loc['Luka'])

45


In [70]:
print(score.loc['Jane', 'MATH'])

45


In [71]:
score.iloc[0]

Unnamed: 0,John
KOR,85
ENG,96
MATH,40
SCI,95


# 중복 레이블이 있는 Series

- Series의 인덱스는 꼭 고유(unique)할 필요는 없음  
- 동일한 이름(레이블)이 여러 번 등장할 수도 있음  
- 이 경우 `iloc`과 `loc`의 동작이 달라짐

👉 주의!  
- **iloc** → 위치 기반 → 하나의 값 반환  
- **loc** → 이름 기반 → 같은 이름이 여러 개면 **여러 값 반환**

In [72]:
import pandas as pd

age = pd.Series([25, 34, 19, 45, 60])
age.index = ['John', 'Jane', 'Tom', 'Micle', 'Tom']

print("Series 내용:")
print(age)

# 위치 기반 (iloc)
print("\nage.iloc[3] →")
print(age.iloc[3])

# 레이블 기반 (loc)
print("\nage.loc['Tom'] →")
print(age.loc['Tom'])

Series 내용:
John     25
Jane     34
Tom      19
Micle    45
Tom      60
dtype: int64

age.iloc[3] →
45

age.loc['Tom'] →
Tom    19
Tom    60
dtype: int64


# 결과 해석

- `age.iloc[3]` → 인덱스 번호 3의 값 → "Micle"의 45 반환  
- `age.loc['Tom']` → 'Tom'이라는 이름이 2번 등장 → **두 개의 값(19, 60)을 모두 반환**  

👉 따라서 레이블을 중복으로 사용하면 loc에서는 여러 행이 선택될 수 있음

# 🤔 생각해 보기

1. `age.loc['John']`을 실행하면 어떤 값이 나올까?  
2. `age.loc['Tom'].iloc[0]`을 실행하면 어떤 결과가 나올까?  
3. 만약 모든 인덱스를 고유하게(unique) 만들고 싶다면 어떤 방법이 있을까?  
   (힌트: `reset_index()`, `drop_duplicates()` 등 활용)

In [73]:
age.loc['John']

np.int64(25)

In [74]:
age.loc['Tom'].iloc[0]

np.int64(19)

In [75]:
unique = age.reset_index().drop_duplicates(subset = 'index', keep = 'first')

unique = unique.set_index('index')[0]
print(unique)

index
John     25
Jane     34
Tom      19
Micle    45
Name: 0, dtype: int64


- reset_index(): 현재 인덱스를 일반 열(column)으로 되돌리고, 새로운 정수형 인덱스를 부여
- drop_duplicates(): 중복된 행(데이터)을 제거
- subset = 'index': 중복을 확인할 기준 열을 지정
- keep = 'first': 중복이 여러 개일 때 첫 번째 항목을 남기고, 나머지를 제거

# 숫자 레이블 지정하기

- Series의 인덱스는 꼭 문자열이 아니라 **숫자**로도 지정할 수 있음  
- 하지만 주의할 점:  
  - `iloc[숫자]` → **위치 기반** (0부터 시작하는 순서)  
  - `loc[숫자]` → **레이블 기반** (직접 지정한 인덱스 값)

👉 따라서 숫자 레이블을 쓰면 헷갈릴 수 있음

In [84]:
import pandas as pd

population = pd.Series([523, 675, 690, 720, 800])
population.index = [10, 20, 30, 40, 50]  # 숫자 레이블 지정

print("Series 내용:")
print(population)

# 위치 기반 (iloc)
print("\npopulation.iloc[1] →")
print(population.iloc[1])

# 잘못된 접근 (iloc[20] → IndexError)
# print(population.iloc[20])  # 실행 시 에러 발생

# 레이블 기반 (loc)
print("\npopulation.loc[20] →")
print(population.loc[20])

Series 내용:
10    523
20    675
30    690
40    720
50    800
dtype: int64

population.iloc[1] →
675

population.loc[20] →
675


# 결과 해석

- `population.iloc[1]` → 위치 1의 값 → **675**  
- `population.iloc[20]` → 없는 위치라서 **IndexError 발생**  
- `population.loc[20]` → 레이블이 20인 값 → **675**

👉 즉, 숫자를 레이블로 지정하면  
- iloc = 단순히 순서 번호  
- loc = 내가 지정한 숫자 (레이블)  
로 완전히 다르게 동작

# 🤔 생각해 보기

1. `population.loc[50]`을 실행하면 어떤 값이 나올까?  
2. `population.iloc[4]`와 `population.loc[50]`은 같은 결과를 줄까?  
3. 인덱스가 숫자라 헷갈릴 수 있는데, 만약 'A', 'B', 'C', ...와 같은 문자 레이블로 바꾼다면 접근은 어떻게 달라질까?

In [85]:
#1
print(population.loc[50])

800


In [86]:
#2
print(population.iloc[4])

800


In [89]:
#2
print(population.loc[50])

800


In [92]:
#3
population.index = ['A', 'B', 'C', 'D', 'E']
print(population)

A    523
B    675
C    690
D    720
E    800
dtype: int64


In [94]:
#3
print(population.iloc[4])

800


In [95]:
#3
print(population.loc['E'])

800
