In [1]:
import pandas as pd

data = [20, 10, 40, 50, 60, 30, 70, 80]
index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

series = pd.Series(data, index=index, name='my_series')
series

a    20
b    10
c    40
d    50
e    60
f    30
g    70
h    80
Name: my_series, dtype: int64

In [2]:
value_at_b = series.loc['b']
value_at_three = series.iloc[2:]

print(series)
print('index b :', value_at_b)
print('3번째 값(0부터시작): ', value_at_three)

a    20
b    10
c    40
d    50
e    60
f    30
g    70
h    80
Name: my_series, dtype: int64
index b : 10
3번째 값(0부터시작):  c    40
d    50
e    60
f    30
g    70
h    80
Name: my_series, dtype: int64


In [6]:
value_at_b = series.loc['b']
value_at_one = series.iloc[1]
print('index b :', value_at_b)
print('1번째 값(0부터시작): ', value_at_one)

index b : 10
1번째 값(0부터시작):  10


In [7]:
value_b_to_d = series['b' :'d']
print(value_b_to_d)

value_2_to_before_5 = series[2 : 5]
print(value_2_to_before_5)

b    10
c    40
d    50
Name: my_series, dtype: int64
c    40
d    50
e    60
Name: my_series, dtype: int64


In [8]:
# 조건 설정 (예: 30 이상인 값만 선택)
condition = series >= 30
print('condition:', condition)
# 조건에 맞는 요소 필터링
filtered_series = series[condition]
filtered_series

condition: a    False
b    False
c     True
d     True
e     True
f     True
g     True
h     True
Name: my_series, dtype: bool


c    40
d    50
e    60
f    30
g    70
h    80
Name: my_series, dtype: int64

In [10]:
# series sort_values 
sorted_series = series.sort_values()
print('sorted_series:\n', sorted_series)

sorted_series:
 b    10
a    20
f    30
c    40
d    50
e    60
g    70
h    80
Name: my_series, dtype: int64


In [11]:
series_sorted = series.sort_values(ascending=False)
series_sorted

h    80
g    70
e    60
d    50
c    40
f    30
a    20
b    10
Name: my_series, dtype: int64

In [13]:
series_sorted = series.sort_index()
# ascending( default=True) : 오름차순, False: 내림차순
# inplace ( default=False) : True면 원본 데이터 변경, False면 새로운 객체 반환
# na_position ( default='last') : 'first'면 NaN을 처음에, 'last'면 마지막에 위치
series_sorted

a    20
b    10
c    40
d    50
e    60
f    30
g    70
h    80
Name: my_series, dtype: int64

In [17]:
# series rank function
ranked_series = series.rank()
# method='average' : 동점인 경우 평균 순위
# method='min' : 동점인 경우 최소 순위
# method='max' : 동점인 경우 최대 순위
# method='first' : 동점인 경우 먼저 나타나는 순위
# method='dense' : 동점인 경우 순위를 건너뛰지 않음
# ascending=True : 오름차순, False : 내림차순
# na_option='keep' : NaN을 유지, 'top' : NaN을 가장 위에, 'bottom' : NaN을 가장 아래에
# pct=True : 백분율 순위, default=False
ranked_series = series.rank(method='average', ascending=True, na_option='keep')
print('ranked_series:\n', ranked_series)

ranked_series:
 a    2.0
b    1.0
c    4.0
d    5.0
e    6.0
f    3.0
g    7.0
h    8.0
Name: my_series, dtype: float64


In [18]:
# pandas apply function
# apply() 사용자 정의 함수, 내장 함수를 적용할 수 있음
import pandas as pd
data = [1,2,3,4,5]
series= pd.Series(data, name='my_series')

In [19]:
def custom_function(x):
    # 사용자 정의 함수의 내용을 작성
    if x >= 3:
        result = x + 2
    else:
        result = x + 4
    return result

result_series = series.apply(custom_function)
result_series

0    5
1    6
2    5
3    6
4    7
Name: my_series, dtype: int64

In [20]:
result_series = series.apply(lambda x: x + 2 if x >= 3 else x + 4)
result_series

0    5
1    6
2    5
3    6
4    7
Name: my_series, dtype: int64

In [21]:
result_series = series.map(lambda x: x ** 2)
result_series

0     1
1     4
2     9
3    16
4    25
Name: my_series, dtype: int64

In [22]:
data = ['apple', 'banana', 'cherry', 'date', 'banana']
series = pd.Series(data)

# 'banana'를 'orange'로 대체
result_series = series.replace('banana', 'orange')
result_series

0     apple
1    orange
2    cherry
3      date
4    orange
dtype: object

In [23]:
result_series = series.replace('^a', 'fruit', regex=True)
result_series

0    fruitpple
1       banana
2       cherry
3         date
4       banana
dtype: object

In [26]:
# cut function
# 주로 연속적인 데이터를 카테고리로 나눌때 사용

data = [1, 7, 5, 3, 9, 2, 6, 4, 8]
series = pd.Series(data)

bins = [0, 3, 6, 9]
labels = ['low', 'medium', 'high']
result_series = pd.cut(series, bins=bins, labels=labels)
#series: 나눌 대상 시리즈 또는 배열
# bins: 구간의 경계값을 지정하는 리스트
# labels: 각 구간에 대한 레이블을 지정하는 리스트
# right: True (default)면 구간의 오른쪽 경계값 포함, False: 포함하지 않음
# include_lowest: True면 첫 번째 구간의 왼쪽 경계값 포함, False: 포함하지 않음
# ordered: True면 레이블이 순서대로 정렬됨, False면 순서 없음
# retbins: True면 구간 경계값을 반환, False (default)면 반환하지 않음
# precision: 구간 경계값의 소수점 자리수 지정
# duplicates: 'raise' (default)면 중복된 경계값이 있으면 오류 발생, 'drop'이면 중복된 경계값을 제거
# right: True면 구간의 오른쪽 경계값 포함, False면 포함하지 않음
# include_lowest: True면 첫 번째 구간의 왼쪽 경계값 포함, False면 포함하지 않음

#
result_series

0       low
1      high
2    medium
3       low
4      high
5       low
6    medium
7    medium
8      high
dtype: category
Categories (3, object): ['low' < 'medium' < 'high']

In [27]:
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
series = pd.Series(data)

def custom_function(x):
    # 함수의 내용을 만들어 주세요.
    if x % 3 == 0:
        return x*2
    elif x % 4 == 0:
        return x*3
    else:
        return x
    return x

result_series = series.map(custom_function)
result_series

0     1
1     2
2     6
3    12
4     5
5    12
6     7
7    24
8    18
9    10
dtype: int64

In [28]:
data = [10, 20, 30, 40, 50, 60]
series = pd.Series(data)

# replace 함수를 사용하여 값을 교체
result_series = series.replace({30: 35, 40:45})
result_series

0    10
1    20
2    35
3    45
4    50
5    60
dtype: int64

# 결측치와 중복 값



In [29]:
import pandas as pd

data = [20, None, 40, 50, None, 30, 70, None, 20, 50]
index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

series = pd.Series(data, index=index)
series

a    20.0
b     NaN
c    40.0
d    50.0
e     NaN
f    30.0
g    70.0
h     NaN
i    20.0
j    50.0
dtype: float64

In [30]:
series_result = series.dropna()
print('결측치 제거 후 시리즈:\n', series_result)

결측치 제거 후 시리즈:
 a    20.0
c    40.0
d    50.0
f    30.0
g    70.0
i    20.0
j    50.0
dtype: float64


In [31]:
result_series = series.fillna(0)
print('결측치 0으로 채운 시리즈:\n', result_series)

결측치 0으로 채운 시리즈:
 a    20.0
b     0.0
c    40.0
d    50.0
e     0.0
f    30.0
g    70.0
h     0.0
i    20.0
j    50.0
dtype: float64


In [36]:
print('결측치가 있는 시리즈:\n', series)
result_series = series.duplicated(keep='first') #default: keep='first' 첫번째 중복값만 True
# keep='last' : 마지막 중복값만 True, keep=False : 모든 중복값 True
result_series

결측치가 있는 시리즈:
 a    20.0
b     NaN
c    40.0
d    50.0
e     NaN
f    30.0
g    70.0
h     NaN
i    20.0
j    50.0
dtype: float64


a    False
b    False
c    False
d    False
e     True
f    False
g    False
h     True
i     True
j     True
dtype: bool

In [37]:
result_series = series.drop_duplicates()
print('중복값 제거 후 시리즈:\n', result_series)

중복값 제거 후 시리즈:
 a    20.0
b     NaN
c    40.0
d    50.0
f    30.0
g    70.0
dtype: float64


In [38]:
mean = series.mean()

result_series = series.fillna(mean)
result_series

a    20.0
b    40.0
c    40.0
d    50.0
e    40.0
f    30.0
g    70.0
h    40.0
i    20.0
j    50.0
dtype: float64

In [None]:
# 🎯 Pandas vs NumPy 용도 차이점 완전 가이드

## 📊 핵심 차이점 요약

### NumPy (Numerical Python)
- **목적**: 수치 계산 및 배열 연산
- **주요 데이터 구조**: ndarray (다차원 배열)
- **특징**: 빠른 수학적 연산, 메모리 효율성
- **용도**: 과학 계산, 선형대수, 통계 연산

### Pandas (Panel Data)
- **목적**: 데이터 분석 및 조작
- **주요 데이터 구조**: Series, DataFrame
- **특징**: 데이터 라벨링, 결측치 처리, 그룹화
- **용도**: 데이터 전처리, 분석, 시각화

## 🎯 언제 무엇을 사용할까?

| 상황 | NumPy 사용 | Pandas 사용 |
|------|-----------|-------------|
| 수학 계산 | ✅ 행렬 연산, 삼각함수 | ❌ 복잡함 |
| 데이터 분석 | ❌ 라벨 없음 | ✅ 인덱스, 컬럼명 |
| 파일 입출력 | ❌ 제한적 | ✅ CSV, Excel, JSON |
| 결측치 처리 | ❌ 직접 구현 | ✅ fillna(), dropna() |
| 그룹 분석 | ❌ 복잡함 | ✅ groupby() |
| 시계열 분석 | ❌ 기본 기능 없음 | ✅ 날짜 인덱스 지원 |

In [39]:
print("=== 📊 NumPy vs Pandas 기본 구조 비교 ===")
import numpy as np
import pandas as pd

# 동일한 데이터를 두 라이브러리로 표현
data = [10, 20, 30, 40, 50]

print("🔢 NumPy Array:")
numpy_array = np.array(data)
print(f"   데이터: {numpy_array}")
print(f"   타입: {type(numpy_array)}")
print(f"   형태: {numpy_array.shape}")
print(f"   데이터 타입: {numpy_array.dtype}")

print("\n📊 Pandas Series:")
pandas_series = pd.Series(data, index=['A', 'B', 'C', 'D', 'E'], name='values')
print(pandas_series)
print(f"   타입: {type(pandas_series)}")
print(f"   인덱스: {pandas_series.index.tolist()}")
print(f"   이름: {pandas_series.name}")

print("\n=== 🎯 접근 방식 차이 ===")
print("NumPy - 위치 기반 접근:")
print(f"   첫 번째 요소: {numpy_array[0]}")
print(f"   마지막 요소: {numpy_array[-1]}")
print(f"   슬라이싱: {numpy_array[1:4]}")

print("\nPandas - 라벨 기반 접근:")
print(f"   'A' 인덱스: {pandas_series['A']}")
print(f"   'E' 인덱스: {pandas_series['E']}")
print(f"   'B'~'D' 구간: {pandas_series['B':'D'].values}")

print("\n=== 🧮 연산 방식 차이 ===")
print("NumPy - 순수 수치 연산:")
numpy_squared = numpy_array ** 2
print(f"   제곱: {numpy_squared}")
print(f"   평균: {np.mean(numpy_array):.2f}")
print(f"   표준편차: {np.std(numpy_array):.2f}")

print("\nPandas - 인덱스 유지 연산:")
pandas_squared = pandas_series ** 2
print("   제곱:")
print(pandas_squared)
print(f"   평균: {pandas_series.mean():.2f}")
print(f"   표준편차: {pandas_series.std():.2f}")

=== 📊 NumPy vs Pandas 기본 구조 비교 ===
🔢 NumPy Array:
   데이터: [10 20 30 40 50]
   타입: <class 'numpy.ndarray'>
   형태: (5,)
   데이터 타입: int64

📊 Pandas Series:
A    10
B    20
C    30
D    40
E    50
Name: values, dtype: int64
   타입: <class 'pandas.core.series.Series'>
   인덱스: ['A', 'B', 'C', 'D', 'E']
   이름: values

=== 🎯 접근 방식 차이 ===
NumPy - 위치 기반 접근:
   첫 번째 요소: 10
   마지막 요소: 50
   슬라이싱: [20 30 40]

Pandas - 라벨 기반 접근:
   'A' 인덱스: 10
   'E' 인덱스: 50
   'B'~'D' 구간: [20 30 40]

=== 🧮 연산 방식 차이 ===
NumPy - 순수 수치 연산:
   제곱: [ 100  400  900 1600 2500]
   평균: 30.00
   표준편차: 14.14

Pandas - 인덱스 유지 연산:
   제곱:
A     100
B     400
C     900
D    1600
E    2500
Name: values, dtype: int64
   평균: 30.00
   표준편차: 15.81


In [40]:
print("\n=== 🔍 데이터 처리 방식 차이 ===")

# 결측치가 포함된 데이터
data_with_nan = [10, np.nan, 30, 40, np.nan]

print("🔢 NumPy - 결측치 처리:")
numpy_nan = np.array(data_with_nan)
print(f"   원본: {numpy_nan}")
print(f"   평균 (NaN 포함): {np.mean(numpy_nan)}")  # NaN
print(f"   평균 (NaN 제외): {np.nanmean(numpy_nan):.2f}")
# NumPy는 결측치 처리를 위해 별도 함수 필요

print("\n📊 Pandas - 결측치 처리:")
pandas_nan = pd.Series(data_with_nan, index=['A', 'B', 'C', 'D', 'E'])
print(pandas_nan)
print(f"   평균 (자동 NaN 제외): {pandas_nan.mean():.2f}")
print("   결측치 제거:")
print(pandas_nan.dropna())
print("   결측치 채우기 (0으로):")
print(pandas_nan.fillna(0))

print("\n=== 📈 실무 사용 예시 ===")
print("NumPy 적합한 경우:")
print("   ✅ 수학적 계산: 행렬 곱셈, 선형대수")
print("   ✅ 과학 계산: 물리학, 통계학 공식")
print("   ✅ 이미지 처리: 픽셀 배열 연산")
print("   ✅ 머신러닝: 가중치 행렬 연산")

print("\nPandas 적합한 경우:")
print("   ✅ 데이터 분석: CSV 파일 읽기/쓰기")
print("   ✅ 비즈니스 분석: 매출, 고객 데이터 분석")
print("   ✅ 데이터 전처리: 결측치, 중복값 처리")
print("   ✅ 리포팅: 그룹별 집계, 피벗 테이블")

print("\n=== ⚡ 성능 비교 ===")
import time

# 대용량 데이터로 성능 테스트
large_data = np.random.randint(1, 100, 100000)

# NumPy 연산 성능
start = time.time()
numpy_result = large_data ** 2
numpy_mean = np.mean(numpy_result)
numpy_time = time.time() - start

# Pandas 연산 성능
pandas_large = pd.Series(large_data)
start = time.time()
pandas_result = pandas_large ** 2
pandas_mean = pandas_result.mean()
pandas_time = time.time() - start

print(f"\n대용량 데이터 (100,000개) 연산:")
print(f"   NumPy 시간: {numpy_time:.6f}초")
print(f"   Pandas 시간: {pandas_time:.6f}초")
print(f"   속도 비율: NumPy가 {pandas_time/numpy_time:.2f}배 빠름")
print(f"   결과 동일: {abs(numpy_mean - pandas_mean) < 0.001}")


=== 🔍 데이터 처리 방식 차이 ===
🔢 NumPy - 결측치 처리:
   원본: [10. nan 30. 40. nan]
   평균 (NaN 포함): nan
   평균 (NaN 제외): 26.67

📊 Pandas - 결측치 처리:
A    10.0
B     NaN
C    30.0
D    40.0
E     NaN
dtype: float64
   평균 (자동 NaN 제외): 26.67
   결측치 제거:
A    10.0
C    30.0
D    40.0
dtype: float64
   결측치 채우기 (0으로):
A    10.0
B     0.0
C    30.0
D    40.0
E     0.0
dtype: float64

=== 📈 실무 사용 예시 ===
NumPy 적합한 경우:
   ✅ 수학적 계산: 행렬 곱셈, 선형대수
   ✅ 과학 계산: 물리학, 통계학 공식
   ✅ 이미지 처리: 픽셀 배열 연산
   ✅ 머신러닝: 가중치 행렬 연산

Pandas 적합한 경우:
   ✅ 데이터 분석: CSV 파일 읽기/쓰기
   ✅ 비즈니스 분석: 매출, 고객 데이터 분석
   ✅ 데이터 전처리: 결측치, 중복값 처리
   ✅ 리포팅: 그룹별 집계, 피벗 테이블

=== ⚡ 성능 비교 ===

대용량 데이터 (100,000개) 연산:
   NumPy 시간: 0.000655초
   Pandas 시간: 0.000302초
   속도 비율: NumPy가 0.46배 빠름
   결과 동일: True


In [42]:
print("\n=== 🏢 실무 활용 사례 비교 ===")

print("📊 시나리오 1: 학생 성적 분석")
print("NumPy 방식:")
# NumPy로 학생 성적 처리
scores_np = np.array([85, 92, 78, 96, 88])
print(f"   성적: {scores_np}")
print(f"   평균: {np.mean(scores_np):.1f}")
print(f"   최고점: {np.max(scores_np)}")
print(f"   ❌ 학생 이름을 따로 관리해야 함")

print("\nPandas 방식:")
# Pandas로 학생 성적 처리
students = ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve']
scores_pd = pd.Series(scores_np, index=students, name='scores')
print(scores_pd)
print(f"   평균: {scores_pd.mean():.1f}")
print(f"   최고점 학생: {scores_pd.idxmax()} ({scores_pd.max()}점)")
print(f"   ✅ 학생 이름과 성적이 함께 관리됨")

print(f"\n📈 시나리오 2: 월별 매출 분석")
monthly_sales = [120, 135, 142, 158, 165, 178]
months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']

print("NumPy 방식:")
sales_np = np.array(monthly_sales)
growth_np = np.diff(sales_np) / sales_np[:-1] * 100
print(f"   매출: {sales_np}")
print(f"   성장률: {growth_np.round(1)}%")
print(f"   ❌ 월 정보가 분리되어 관리 복잡")

print("\nPandas 방식:")
sales_pd = pd.Series(monthly_sales, index=months, name='sales')
growth_pd = sales_pd.pct_change() * 100
print("   매출:")
print(sales_pd)
print("   월별 성장률:")
print(growth_pd.dropna().round(1))
print(f"   ✅ 월 정보와 함께 직관적 분석")

print(f"\n🔬 시나리오 3: 과학 계산")
print("NumPy가 더 적합한 경우:")
# 벡터 내적 계산
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])
dot_product = np.dot(vector_a, vector_b)
print(f"   벡터 A: {vector_a}")
print(f"   벡터 B: {vector_b}")
print(f"   내적: {dot_product}")
print(f"   ✅ 순수 수학 연산에 최적화")

# Pandas로 같은 계산 (비효율적)
series_a = pd.Series(vector_a)
series_b = pd.Series(vector_b)
dot_pandas = (series_a * series_b).sum()
print(f"\n   Pandas 내적: {dot_pandas}")
print(f"   ❌ 불필요한 오버헤드 발생")

print(f"\n💡 선택 기준 요약:")
print("   🔢 NumPy 선택 시:")
print("     - 수학적 계산이 주목적")
print("     - 성능이 최우선")
print("     - 단순한 배열 구조")
print("     - 메모리 효율성 중요")
print()
print("   📊 Pandas 선택 시:")
print("     - 데이터 분석이 주목적")
print("     - 라벨링된 데이터")
print("     - 결측치, 중복값 처리")
print("     - 파일 입출력 필요")
print("     - 비즈니스 리포팅")

print(f"\n🎯 실무 추천:")
print("   1️⃣ 데이터 분석 시작 → Pandas")
print("   2️⃣ 수학 연산 필요 → NumPy")
print("   3️⃣ 대부분의 경우 → Pandas (NumPy 자동 사용)")
print("   4️⃣ 성능 최적화 → NumPy로 전환")
print("\n✅ 완료: Pandas vs NumPy 용도 차이 완전 이해!")


=== 🏢 실무 활용 사례 비교 ===
📊 시나리오 1: 학생 성적 분석
NumPy 방식:
   성적: [85 92 78 96 88]
   평균: 87.8
   최고점: 96
   ❌ 학생 이름을 따로 관리해야 함

Pandas 방식:
Alice      85
Bob        92
Charlie    78
Diana      96
Eve        88
Name: scores, dtype: int64
   평균: 87.8
   최고점 학생: Diana (96점)
   ✅ 학생 이름과 성적이 함께 관리됨

📈 시나리오 2: 월별 매출 분석
NumPy 방식:
   매출: [120 135 142 158 165 178]
   성장률: [12.5  5.2 11.3  4.4  7.9]%
   ❌ 월 정보가 분리되어 관리 복잡

Pandas 방식:
   매출:
Jan    120
Feb    135
Mar    142
Apr    158
May    165
Jun    178
Name: sales, dtype: int64
   월별 성장률:
Feb    12.5
Mar     5.2
Apr    11.3
May     4.4
Jun     7.9
Name: sales, dtype: float64
   ✅ 월 정보와 함께 직관적 분석

🔬 시나리오 3: 과학 계산
NumPy가 더 적합한 경우:
   벡터 A: [1 2 3]
   벡터 B: [4 5 6]
   내적: 32
   ✅ 순수 수학 연산에 최적화

   Pandas 내적: 32
   ❌ 불필요한 오버헤드 발생

💡 선택 기준 요약:
   🔢 NumPy 선택 시:
     - 수학적 계산이 주목적
     - 성능이 최우선
     - 단순한 배열 구조
     - 메모리 효율성 중요

   📊 Pandas 선택 시:
     - 데이터 분석이 주목적
     - 라벨링된 데이터
     - 결측치, 중복값 처리
     - 파일 입출력 필요
     - 비즈니스 리포팅

🎯 실무 추천:
   1️⃣ 데이터 분

# Make DataFrame class using dictionary

In [43]:
import pandas as pd

# Using dictionary to create a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data) 
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [44]:
# using a list of lists to create a DataFrame
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
columns = ['Name', 'Age', 'City']
df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [47]:
# changing Sereies to DataFrame
data = [10, 20, 30, 40, 50, 60]
series = pd.Series(data, name='my_series')
df = pd.DataFrame(series)
print('using dataframe initialize:', df)

df2 = series.to_frame()
print('using to_frame:', df2)


using dataframe initialize:    my_series
0         10
1         20
2         30
3         40
4         50
5         60
using to_frame:    my_series
0         10
1         20
2         30
3         40
4         50
5         60


In [55]:
# cancat() using pandas
data1 = [1, 2, 3]
data2 = [4, 5, 6]
series1 = pd.Series(data1, name='Series1')
series2 = pd.Series(data2, name='Series2')
result_series = pd.concat([series1, series2], axis=1) # axis=1: 열 방향으로 연결
print('Concatenated Series:\n', result_series)

result_series2 = pd.concat([series1, series2], axis=0) # axis=0: 행 방향으로 연결
print('Concatenated Series:\n', result_series2)

Concatenated Series:
    Series1  Series2
0        1        4
1        2        5
2        3        6
Concatenated Series:
 0    1
1    2
2    3
0    4
1    5
2    6
dtype: int64


In [56]:
series3 = pd.Series([1,2,3], name='Series3')
df = pd.concat([result_series, series3], axis=1)
print('Concatenated DataFrame:\n', df)

Concatenated DataFrame:
    Series1  Series2  Series3
0        1        4        1
1        2        5        2
2        3        6        3


In [57]:
# df.columns 
# columns name check
# select specific columns
# modify columns
# select columns using condition
# select columns using index
# select columns using list of names

import pandas as pd

# 주어진 리스트들
names = ['철수', '영희', '민수', '지영', '수민', '호철', '민지']
ages = [25, 30, 35, 28, 22, 21, 20]
genders = ['남', '여', '남', '여', '남', '남', '여']
cities = ['서울', '부산', '서울', '대전', '제주', '부산', '강원']

# 리스트들을 딕셔너리로 묶기
data = {'이름': names, '나이': ages, '성별': genders, '도시': cities}

# 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별,도시
0,철수,25,남,서울
1,영희,30,여,부산
2,민수,35,남,서울
3,지영,28,여,대전
4,수민,22,남,제주
5,호철,21,남,부산
6,민지,20,여,강원


In [58]:
df.columns

Index(['이름', '나이', '성별', '도시'], dtype='object')

In [59]:
# df.index 
# 데이터프레임의 각 데이터 항목에 대한 레이블을 나타냄 
# index는 행의 순서를 나타내며, 기본적으로 0부터 시작하는 정수 인덱스가 사용됨
# index를 사용하여 특정 행에 접근하거나, 행을 선택할 수 있음
# index는 데이터프레임의 행을 식별하는 데 사용되며, 인덱스가 있는 경우 데이터프레임의 행을 더 쉽게 참조할 수 있음
df.index

RangeIndex(start=0, stop=7, step=1)

In [62]:
df.values # 데이터프레임의 값들을 NumPy 배열로 반환
# 값만 추출하기 때문에 인덱스 정보는 없다. 

array([['철수', 25, '남', '서울'],
       ['영희', 30, '여', '부산'],
       ['민수', 35, '남', '서울'],
       ['지영', 28, '여', '대전'],
       ['수민', 22, '남', '제주'],
       ['호철', 21, '남', '부산'],
       ['민지', 20, '여', '강원']], dtype=object)

In [63]:
df.dtypes # 각 열의 데이터 타입을 확인

이름    object
나이     int64
성별    object
도시    object
dtype: object

In [64]:
df.head()

Unnamed: 0,이름,나이,성별,도시
0,철수,25,남,서울
1,영희,30,여,부산
2,민수,35,남,서울
3,지영,28,여,대전
4,수민,22,남,제주


In [66]:
df.tail() # non-null 값의 개수, 각열에서 결측치가 아닌 데이터 개수를 표시 

Unnamed: 0,이름,나이,성별,도시
2,민수,35,남,서울
3,지영,28,여,대전
4,수민,22,남,제주
5,호철,21,남,부산
6,민지,20,여,강원


In [67]:
df.info() # 데이터프레임의 요약 정보를 출력, 데이터 타입, 결측치 개수, 메모리 사용량 등을 포함
# 데이터프레임의 구조와 내용을 빠르게 파악할 수 있는 유용한 함수
# 데이터프레임의 각 열에 대한 정보(데이터 타입, 결측치 개수 등)를 제공

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      7 non-null      object
 1   나이      7 non-null      int64 
 2   성별      7 non-null      object
 3   도시      7 non-null      object
dtypes: int64(1), object(3)
memory usage: 356.0+ bytes


In [68]:
df.shape # 데이터프레임의 행과 열의 개수를 반환

(7, 4)

In [69]:
len(df) # 데이터프레임의 행의 개수를 반환

7

In [70]:
df.size # 데이터프레임의 전체 요소 개수를 반환 (행 * 열)

28

In [71]:
df.describe() # 데이터프레임의 통계 요약 정보를 출력, 각 열의 평균, 표준편차, 최소값, 최대값 등을 포함
# 수치형 데이터에 대한 통계 정보를 제공, 데이터의 분포와 특성을 파악하는 데 유용
# count: 데이터 개수, mean: 평균, std: 표준편차, min: 최소값, 25%: 1사분위수
# 50%: 중앙값, 75%: 3사분위수, max: 최대값
# describe() 함수는 기본적으로 수치형 데이터에 대한 통계 정보를 제공하며,
# 범주형 데이터에 대해서는 고유값의 개수와 빈도수를 제공    

Unnamed: 0,나이
count,7.0
mean,25.857143
std,5.45981
min,20.0
25%,21.5
50%,25.0
75%,29.0
max,35.0


In [72]:
import pandas as pd

# 딕셔너리로 생성하기
data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, None, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', None, '여']
}

df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]
df

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남
2,김철수,30.0,남
3,이영희,28.0,여
4,박지원,22.0,남
5,장민주,29.0,여
6,신동호,27.0,남
7,김민지,24.0,여
8,이하늘,26.0,여
9,정승우,,
10,한지혜,23.0,여


In [73]:
first_row = df.loc[1]
first_row

이름     홍길동
나이    25.0
성별       남
Name: 1, dtype: object

In [79]:
df.loc[1, '이름']

'홍길동'

In [76]:
df.shape

(10, 3)

In [80]:
df.iloc[1,1]  # 1번째 행, 1번째 열의 값

np.float64(30.0)

# Data filtering

In [81]:
import pandas as pd

data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, None, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', None, '여']
}
df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]
df

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남
2,김철수,30.0,남
3,이영희,28.0,여
4,박지원,22.0,남
5,장민주,29.0,여
6,신동호,27.0,남
7,김민지,24.0,여
8,이하늘,26.0,여
9,정승우,,
10,한지혜,23.0,여


In [82]:
is_above_28_series = df['나이'] >= 28
is_above_28_series

1     False
2      True
3      True
4     False
5      True
6     False
7     False
8     False
9     False
10    False
Name: 나이, dtype: bool

In [83]:
above_28_df = df[is_above_28_series]
above_28_df

Unnamed: 0,이름,나이,성별
2,김철수,30.0,남
3,이영희,28.0,여
5,장민주,29.0,여


In [84]:
# Series의 isin([list])
is_in_series = df['이름'].isin(['홍길동', '이영희'])
is_in_series

1      True
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
Name: 이름, dtype: bool

In [85]:
df[is_in_series]

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남
3,이영희,28.0,여


In [86]:
# Series의 series.str.contains() function
# 문자열이 특정 패턴을 포함하는지를 불리언 시리즈로 반환 
# series.str.contains('pattern', case=False, na=False, regex=True)
# pattern: 찾고자 하는 문자열 패턴
# case: 대소문자 구분 여부 (기본값: True)
# na: NaN 값 처리 방법 (기본값: False, NaN은 False로 처리)
# regex: 정규 표현식 사용 여부 (기본값: True)
filtered_df = df[df['이름'].str.contains('길동', case=False, na=False)]
filtered_df 

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남


In [87]:
age_above_25_and_male = df[ (df['나이'] > 25) & (df['성별'] == '남' ) ]
age_above_25_and_male 

Unnamed: 0,이름,나이,성별
2,김철수,30.0,남
6,신동호,27.0,남


In [89]:
age_columns = df['나이']
age_columns

1     25.0
2     30.0
3     28.0
4     22.0
5     29.0
6     27.0
7     24.0
8     26.0
9      NaN
10    23.0
Name: 나이, dtype: float64

In [90]:
heights = [170, 175, 160, 130, 140, 150, 160, 170, 180, 190]
df['키'] = heights
df

Unnamed: 0,이름,나이,성별,키
1,홍길동,25.0,남,170
2,김철수,30.0,남,175
3,이영희,28.0,여,160
4,박지원,22.0,남,130
5,장민주,29.0,여,140
6,신동호,27.0,남,150
7,김민지,24.0,여,160
8,이하늘,26.0,여,170
9,정승우,,,180
10,한지혜,23.0,여,190


In [91]:
df = df.drop(columns=['키'])  # '키' 열 삭제
df

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남
2,김철수,30.0,남
3,이영희,28.0,여
4,박지원,22.0,남
5,장민주,29.0,여
6,신동호,27.0,남
7,김민지,24.0,여
8,이하늘,26.0,여
9,정승우,,
10,한지혜,23.0,여


In [92]:
# del df['키']  # '키' 열 삭제
# del은 열을 삭제할 때 사용, drop()은 행 또는 열을 삭제할 때 사용

# pop()은 열을 삭제하고 그 열을 반환

# drop()은 행 또는 열을 삭제할 때 사용, axis 파라미터로 행 또는 열을 지정,
# inplace 파라미터로 원본 데이터프레임을 수정할지 여부를 지정

# loc을 사용한 열 삭제
# df.loc[:, ~df.columns.isin(['키'])]  # '키' 열을 제외한 모든 열 선택

In [94]:
# columns name 변경
columns = { '이름' : 'Name', '나이': 'Age', '성별': 'Gender'}
df.rename(columns=columns, inplace=True)
df

Unnamed: 0,Name,Age,Gender
1,홍길동,25.0,남
2,김철수,30.0,남
3,이영희,28.0,여
4,박지원,22.0,남
5,장민주,29.0,여
6,신동호,27.0,남
7,김민지,24.0,여
8,이하늘,26.0,여
9,정승우,,
10,한지혜,23.0,여


In [102]:
# 특정 열을 기준으로 정렬 
#  데이터프레임 생성
data = {'성별': ['남', '여', '남', '여', '여'],
        '나이': [25, 30, 28, 32, 27]}
df = pd.DataFrame(data)

sorted_df = df.sort_values(by='나이')
sorted_df

Unnamed: 0,성별,나이
0,남,25
4,여,27
2,남,28
1,여,30
3,여,32


In [103]:
desc_sorted_df = df.sort_values(by='나이', ascending=False) # 내림차순 정렬
desc_sorted_df

Unnamed: 0,성별,나이
3,여,32
1,여,30
2,남,28
4,여,27
0,남,25


In [104]:
# 정렬한 이후 인덱스를 재설정 
print('sorted value: ', sorted_df)
sorted_df.reset_index(drop=True, inplace=True)  # drop=True: 기존 인덱스를 삭제하고 새 인덱스를 생성
# 기존인덱스를 남기려면 drop=False 로 설정
print('reset index: ', sorted_df)

sorted value:    성별  나이
0  남  25
4  여  27
2  남  28
1  여  30
3  여  32
reset index:    성별  나이
0  남  25
1  여  27
2  남  28
3  여  30
4  여  32


In [110]:
def setting_value(row):
    if row['이름'] in ['철수', '영희', '민수']:
        return 'A학교'  
    else:
        return 'B학교'
data = {
    '이름': ['철수', '영희', '민수', '지영', '지수'],
    '나이': [25, 30, 35, 28, 29],
    '성별': ['남', '여', '남', '여', '여'],
    '성적': [80, 90, 75, 85, 95]
}
change_value = { '나이': '연령', '성별':'남녀' }
df = pd.DataFrame(data)
print(df)

result_df = df.rename(columns=change_value, inplace=False)
result_df['학교'] = df.apply(setting_value, axis=1)  # axis=1: 행 단위로 적용']
print(result_df)

   이름  나이 성별  성적
0  철수  25  남  80
1  영희  30  여  90
2  민수  35  남  75
3  지영  28  여  85
4  지수  29  여  95
   이름  연령 남녀  성적   학교
0  철수  25  남  80  A학교
1  영희  30  여  90  A학교
2  민수  35  남  75  A학교
3  지영  28  여  85  B학교
4  지수  29  여  95  B학교


In [111]:
data = {
    '이름': ['철수', '영희', '민수', '지영', '지수'],
    '연령': [25, 30, 35, 28, 29],
    '남녀': ['남', '여', '남', '여', '여'],
    '성적': [80, 90, 75, 85, 95],
    '학교': ['A학교', 'A학교', 'A학교', 'B학교', 'B학교']
}
df = pd.DataFrame(data)

result_df = df.sort_values('성적', ascending=False)[['학교','이름','성적']]
result_df

Unnamed: 0,학교,이름,성적
4,B학교,지수,95
1,A학교,영희,90
3,B학교,지영,85
0,A학교,철수,80
2,A학교,민수,75


In [112]:
import pandas as pd

data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, 20, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', '여', '여']
}
df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]
df

Unnamed: 0,이름,나이,성별
1,홍길동,25,남
2,김철수,30,남
3,이영희,28,여
4,박지원,22,남
5,장민주,29,여
6,신동호,27,남
7,김민지,24,여
8,이하늘,26,여
9,정승우,20,여
10,한지혜,23,여


In [113]:
# apply() 함수를 사용하여 각 행에 대해 함수를 적용

In [114]:
def age_category(age):
    # 함수 내용을 채워주세요
    if age < 30:
        return 'Young'
    else:
        return 'Adult'

result_df = df.copy()
result_df['연령대'] = result_df['나이'].apply(age_category)
result_df

Unnamed: 0,이름,나이,성별,연령대
1,홍길동,25,남,Young
2,김철수,30,남,Adult
3,이영희,28,여,Young
4,박지원,22,남,Young
5,장민주,29,여,Young
6,신동호,27,남,Young
7,김민지,24,여,Young
8,이하늘,26,여,Young
9,정승우,20,여,Young
10,한지혜,23,여,Young


In [115]:
result_df = df.copy()
df['연령대'] = df.apply(lambda x: 'Young' if x['나이'] < 30 else 'Adult', axis=1)
df

Unnamed: 0,이름,나이,성별,연령대
1,홍길동,25,남,Young
2,김철수,30,남,Adult
3,이영희,28,여,Young
4,박지원,22,남,Young
5,장민주,29,여,Young
6,신동호,27,남,Young
7,김민지,24,여,Young
8,이하늘,26,여,Young
9,정승우,20,여,Young
10,한지혜,23,여,Young


In [116]:
def combine_age_gender(age, gender):
    return f'{age}세 {gender}'

# apply 함수를 사용하여 새로운 컬럼 추가
result_df = df.copy()
result_df['나이와 성별'] = result_df.apply(lambda row: combine_age_gender(row['나이'],row['성별']), axis=1)
result_df

Unnamed: 0,이름,나이,성별,연령대,나이와 성별
1,홍길동,25,남,Young,25세 남
2,김철수,30,남,Adult,30세 남
3,이영희,28,여,Young,28세 여
4,박지원,22,남,Young,22세 남
5,장민주,29,여,Young,29세 여
6,신동호,27,남,Young,27세 남
7,김민지,24,여,Young,24세 여
8,이하늘,26,여,Young,26세 여
9,정승우,20,여,Young,20세 여
10,한지혜,23,여,Young,23세 여


In [None]:
# applymap() function
# DataFrame의 모든 요소에 대해 함수를 적용
df_str = df.applymap(lambda x: str(x) ) # dataFrame의 모든 요소를 문자열로 변환
# series의 경우 apply()를 사용
# 모든 원소에 동일한 연산을 적용해야 할 때 유용 
df_str

  df_str = df.applymap(lambda x: str(x) )


Unnamed: 0,이름,나이,성별,연령대
1,홍길동,25,남,Young
2,김철수,30,남,Adult
3,이영희,28,여,Young
4,박지원,22,남,Young
5,장민주,29,여,Young
6,신동호,27,남,Young
7,김민지,24,여,Young
8,이하늘,26,여,Young
9,정승우,20,여,Young
10,한지혜,23,여,Young


In [119]:
# iterrows() function
# DataFrame의 각 행을 반복하면서 인덱스와 행 데이터를 튜플로 반환
for index, row in df.iterrows():
    print(f"Index: {index}, Name: {row['이름']}, Age: {row['나이']}, Gender: {row['성별']}")
    print("-"*20)

Index: 1, Name: 홍길동, Age: 25, Gender: 남
--------------------
Index: 2, Name: 김철수, Age: 30, Gender: 남
--------------------
Index: 3, Name: 이영희, Age: 28, Gender: 여
--------------------
Index: 4, Name: 박지원, Age: 22, Gender: 남
--------------------
Index: 5, Name: 장민주, Age: 29, Gender: 여
--------------------
Index: 6, Name: 신동호, Age: 27, Gender: 남
--------------------
Index: 7, Name: 김민지, Age: 24, Gender: 여
--------------------
Index: 8, Name: 이하늘, Age: 26, Gender: 여
--------------------
Index: 9, Name: 정승우, Age: 20, Gender: 여
--------------------
Index: 10, Name: 한지혜, Age: 23, Gender: 여
--------------------


In [122]:
# groupby() function
# DataFrame을 특정 열을 기준으로 그룹화하여 집계 연산을 수행
grouped = df.groupby('성별')['나이'].mean()  # 성별을 기준으로 평균 계산
print(grouped)
# sum(), mean(), median(), min(), max(), count() 등의 집계 함수를 사용할 수 있음
# std(), var() 등의 통계 함수도 사용 가능

성별
남    26.0
여    25.0
Name: 나이, dtype: float64


In [125]:
# agg() function
# 여러 집계 함수를 동시에 적용할 수 있음
grouped_agg = df['나이'].agg(['mean', 'min', 'max', 'std'])  # 평균, 최소, 최대, 표준편차 계산
print(grouped_agg)

mean    25.400000
min     20.000000
max     30.000000
std      3.204164
Name: 나이, dtype: float64


In [127]:
grouped_agg = df[['나이', '성별']].agg({'나이': ['mean', 'min', 'max']})
print(grouped_agg)

        나이
mean  25.4
min   20.0
max   30.0


In [134]:
grouped_agg = df.agg({'나이': ['mean', 'min', 'max']})
print(grouped_agg)

        나이
mean  25.4
min   20.0
max   30.0


# Concatenate Datafram

In [135]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

display(df1)
display(df2)

Unnamed: 0,A,B
0,1,3
1,2,4


Unnamed: 0,A,B
0,5,7
1,6,8


In [136]:
concatenated = pd.concat([df1, df2], axis=0)  # axis=0: 행 방향으로 연결
print("Concatenated DataFrame (행 방향):")
display(concatenated)

Concatenated DataFrame (행 방향):


Unnamed: 0,A,B
0,1,3
1,2,4
0,5,7
1,6,8


In [137]:
concatenated = pd.concat([df1, df2], axis=1)
concatenated

Unnamed: 0,A,B,A.1,B.1
0,1,3,5,7
1,2,4,6,8


In [138]:
# inner join
# 첫 번째 데이터프레임 생성
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'name': ['철수', '영희', '민수']})

# 두 번째 데이터프레임 생성
df2 = pd.DataFrame({'ID': [1, 2, 4],
                    'age': [25, 30, 28]})

display(df1)
display(df2)

# '학생ID' 열을 기준으로 두 데이터프레임 조인
joined_df = pd.merge(df1, df2, on='ID', how='inner')
joined_df

Unnamed: 0,ID,name
0,1,철수
1,2,영희
2,3,민수


Unnamed: 0,ID,age
0,1,25
1,2,30
2,4,28


Unnamed: 0,ID,name,age
0,1,철수,25
1,2,영희,30


In [142]:
# left join
# '학생ID' 열을 기준으로 Left 조인
display(df1)
display(df2)
left_joined_df = pd.merge(df1, df2, on='ID', how='left')
left_joined_df

Unnamed: 0,ID,name
0,1,철수
1,2,영희
2,3,민수


Unnamed: 0,ID,age
0,1,25
1,2,30
2,4,28


Unnamed: 0,ID,name,age
0,1,철수,25.0
1,2,영희,30.0
2,3,민수,


In [141]:
display(df1)
display(df2)
outer_joined_df = pd.merge(df1, df2, on='ID', how='outer')
outer_joined_df

Unnamed: 0,ID,name
0,1,철수
1,2,영희
2,3,민수


Unnamed: 0,ID,age
0,1,25
1,2,30
2,4,28


Unnamed: 0,ID,name,age
0,1,철수,25.0
1,2,영희,30.0
2,3,민수,
3,4,,28.0


# 🔗 DataFrame Join 연산 완전 가이드

## 📋 Join 연산이란?
- **정의**: 두 개 이상의 DataFrame을 공통 열(키)을 기준으로 결합하는 연산
- **목적**: 분산된 데이터를 통합하여 분석하기 위함
- **핵심**: 어떤 행을 포함할지 결정하는 방식이 join 타입을 구분

## 🎯 4가지 주요 Join 타입

### 1️⃣ Inner Join (내부 조인)
- **특징**: 두 DataFrame에서 **공통으로 존재하는 키**만 포함
- **결과**: 교집합과 같은 개념
- **사용 시기**: 완전히 매칭되는 데이터만 필요할 때

### 2️⃣ Left Join (좌측 조인)  
- **특징**: **왼쪽 DataFrame의 모든 행** + 오른쪽에서 매칭되는 행
- **결과**: 왼쪽 기준, 매칭 안 되면 NaN
- **사용 시기**: 기준 데이터를 모두 유지하면서 추가 정보를 결합할 때

### 3️⃣ Right Join (우측 조인)
- **특징**: **오른쪽 DataFrame의 모든 행** + 왼쪽에서 매칭되는 행  
- **결과**: 오른쪽 기준, 매칭 안 되면 NaN
- **사용 시기**: Left Join의 반대 (실무에서는 Left Join을 더 많이 사용)

### 4️⃣ Outer Join (외부 조인)
- **특징**: **양쪽 DataFrame의 모든 행** 포함
- **결과**: 합집합과 같은 개념
- **사용 시기**: 모든 데이터를 보존하면서 결합할 때

In [143]:
print("=== 🎯 Join 연산 실습 데이터 준비 ===")
import pandas as pd

# 학생 정보 데이터프레임 (왼쪽)
students_df = pd.DataFrame({
    'student_id': [1, 2, 3, 4, 5],
    'name': ['김철수', '이영희', '박민수', '정지영', '장수민'],
    'grade': ['A', 'B', 'A', 'C', 'B']
})

# 점수 정보 데이터프레임 (오른쪽)  
scores_df = pd.DataFrame({
    'student_id': [1, 2, 3, 6, 7],
    'math_score': [95, 87, 92, 89, 84],
    'english_score': [88, 94, 85, 91, 87]
})

print("📚 학생 정보 (students_df):")
display(students_df)
print("\n📊 점수 정보 (scores_df):")
display(scores_df)

print("\n🔍 데이터 분석:")
print(f"• 학생 정보 데이터: {len(students_df)}명")
print(f"• 점수 정보 데이터: {len(scores_df)}명") 
print(f"• 공통 학생 ID: {set(students_df['student_id']) & set(scores_df['student_id'])}")
print(f"• 학생 정보에만 있는 ID: {set(students_df['student_id']) - set(scores_df['student_id'])}")
print(f"• 점수 정보에만 있는 ID: {set(scores_df['student_id']) - set(students_df['student_id'])}")

=== 🎯 Join 연산 실습 데이터 준비 ===
📚 학생 정보 (students_df):


Unnamed: 0,student_id,name,grade
0,1,김철수,A
1,2,이영희,B
2,3,박민수,A
3,4,정지영,C
4,5,장수민,B



📊 점수 정보 (scores_df):


Unnamed: 0,student_id,math_score,english_score
0,1,95,88
1,2,87,94
2,3,92,85
3,6,89,91
4,7,84,87



🔍 데이터 분석:
• 학생 정보 데이터: 5명
• 점수 정보 데이터: 5명
• 공통 학생 ID: {1, 2, 3}
• 학생 정보에만 있는 ID: {4, 5}
• 점수 정보에만 있는 ID: {6, 7}


In [144]:
print("\n=== 1️⃣ INNER JOIN (내부 조인) ===")
print("🎯 목표: 두 DataFrame에서 공통으로 존재하는 student_id만 포함")

# Inner Join 수행
inner_result = pd.merge(students_df, scores_df, on='student_id', how='inner')

print("📋 Inner Join 결과:")
display(inner_result)

print(f"🔍 분석:")
print(f"• 원본 학생 수: {len(students_df)}명")
print(f"• 원본 점수 수: {len(scores_df)}개")  
print(f"• Inner Join 결과: {len(inner_result)}행")
print(f"• 포함된 학생 ID: {inner_result['student_id'].tolist()}")
print(f"• 제외된 학생: 김철수 외 {len(students_df) - len(inner_result)}명 (점수 없음)")
print(f"• 제외된 점수: {len(scores_df) - len(inner_result)}개 (학생 정보 없음)")

print("\n💡 Inner Join 특징:")
print("✅ 완전히 매칭되는 데이터만 포함")
print("✅ 데이터 무결성 보장")
print("❌ 일부 데이터 손실 가능성")
print("🎯 사용 예시: 성적 분석 시 학생 정보와 점수가 모두 있는 경우만")


=== 1️⃣ INNER JOIN (내부 조인) ===
🎯 목표: 두 DataFrame에서 공통으로 존재하는 student_id만 포함
📋 Inner Join 결과:


Unnamed: 0,student_id,name,grade,math_score,english_score
0,1,김철수,A,95,88
1,2,이영희,B,87,94
2,3,박민수,A,92,85


🔍 분석:
• 원본 학생 수: 5명
• 원본 점수 수: 5개
• Inner Join 결과: 3행
• 포함된 학생 ID: [1, 2, 3]
• 제외된 학생: 김철수 외 2명 (점수 없음)
• 제외된 점수: 2개 (학생 정보 없음)

💡 Inner Join 특징:
✅ 완전히 매칭되는 데이터만 포함
✅ 데이터 무결성 보장
❌ 일부 데이터 손실 가능성
🎯 사용 예시: 성적 분석 시 학생 정보와 점수가 모두 있는 경우만


In [145]:
print("\n=== 2️⃣ LEFT JOIN (좌측 조인) ===")
print("🎯 목표: 왼쪽 DataFrame(학생 정보)의 모든 행 유지 + 매칭되는 점수 정보 추가")

# Left Join 수행
left_result = pd.merge(students_df, scores_df, on='student_id', how='left')

print("📋 Left Join 결과:")
display(left_result)

print(f"🔍 분석:")
print(f"• 원본 학생 수: {len(students_df)}명")
print(f"• Left Join 결과: {len(left_result)}행 (학생 수와 동일)")
print(f"• 점수가 있는 학생: {left_result['math_score'].notna().sum()}명")
print(f"• 점수가 없는 학생: {left_result['math_score'].isna().sum()}명")

# 점수가 없는 학생 확인
missing_scores = left_result[left_result['math_score'].isna()]
if not missing_scores.empty:
    print(f"• 점수 없는 학생: {', '.join(missing_scores['name'].tolist())}")

print("\n💡 Left Join 특징:")
print("✅ 기준 테이블(왼쪽)의 모든 데이터 보존")
print("✅ 매칭되지 않는 경우 NaN으로 표시")
print("✅ 데이터 손실 없음 (기준 테이블 기준)")
print("🎯 사용 예시: 모든 학생 명단 유지하면서 점수 정보 추가")
print("📊 실무 활용: 고객 정보 + 구매 이력, 직원 정보 + 평가 점수")


=== 2️⃣ LEFT JOIN (좌측 조인) ===
🎯 목표: 왼쪽 DataFrame(학생 정보)의 모든 행 유지 + 매칭되는 점수 정보 추가
📋 Left Join 결과:


Unnamed: 0,student_id,name,grade,math_score,english_score
0,1,김철수,A,95.0,88.0
1,2,이영희,B,87.0,94.0
2,3,박민수,A,92.0,85.0
3,4,정지영,C,,
4,5,장수민,B,,


🔍 분석:
• 원본 학생 수: 5명
• Left Join 결과: 5행 (학생 수와 동일)
• 점수가 있는 학생: 3명
• 점수가 없는 학생: 2명
• 점수 없는 학생: 정지영, 장수민

💡 Left Join 특징:
✅ 기준 테이블(왼쪽)의 모든 데이터 보존
✅ 매칭되지 않는 경우 NaN으로 표시
✅ 데이터 손실 없음 (기준 테이블 기준)
🎯 사용 예시: 모든 학생 명단 유지하면서 점수 정보 추가
📊 실무 활용: 고객 정보 + 구매 이력, 직원 정보 + 평가 점수


In [146]:
print("\n=== 3️⃣ RIGHT JOIN (우측 조인) ===")
print("🎯 목표: 오른쪽 DataFrame(점수 정보)의 모든 행 유지 + 매칭되는 학생 정보 추가")

# Right Join 수행
right_result = pd.merge(students_df, scores_df, on='student_id', how='right')

print("📋 Right Join 결과:")
display(right_result)

print(f"🔍 분석:")
print(f"• 원본 점수 개수: {len(scores_df)}개")
print(f"• Right Join 결과: {len(right_result)}행 (점수 개수와 동일)")
print(f"• 학생 정보가 있는 점수: {right_result['name'].notna().sum()}개")
print(f"• 학생 정보가 없는 점수: {right_result['name'].isna().sum()}개")

# 학생 정보가 없는 점수 확인
missing_students = right_result[right_result['name'].isna()]
if not missing_students.empty:
    print(f"• 학생 정보 없는 ID: {missing_students['student_id'].tolist()}")

print("\n💡 Right Join 특징:")
print("✅ 기준 테이블(오른쪽)의 모든 데이터 보존") 
print("✅ 매칭되지 않는 경우 NaN으로 표시")
print("✅ Left Join의 반대 개념")
print("🎯 사용 예시: 모든 점수 데이터 유지하면서 학생 정보 추가")
print("📝 참고: 실무에서는 Left Join을 더 많이 사용 (직관적)")


=== 3️⃣ RIGHT JOIN (우측 조인) ===
🎯 목표: 오른쪽 DataFrame(점수 정보)의 모든 행 유지 + 매칭되는 학생 정보 추가
📋 Right Join 결과:


Unnamed: 0,student_id,name,grade,math_score,english_score
0,1,김철수,A,95,88
1,2,이영희,B,87,94
2,3,박민수,A,92,85
3,6,,,89,91
4,7,,,84,87


🔍 분석:
• 원본 점수 개수: 5개
• Right Join 결과: 5행 (점수 개수와 동일)
• 학생 정보가 있는 점수: 3개
• 학생 정보가 없는 점수: 2개
• 학생 정보 없는 ID: [6, 7]

💡 Right Join 특징:
✅ 기준 테이블(오른쪽)의 모든 데이터 보존
✅ 매칭되지 않는 경우 NaN으로 표시
✅ Left Join의 반대 개념
🎯 사용 예시: 모든 점수 데이터 유지하면서 학생 정보 추가
📝 참고: 실무에서는 Left Join을 더 많이 사용 (직관적)


In [147]:
print("\n=== 4️⃣ OUTER JOIN (외부 조인) ===")
print("🎯 목표: 양쪽 DataFrame의 모든 행 포함 (합집합)")

# Outer Join 수행
outer_result = pd.merge(students_df, scores_df, on='student_id', how='outer')

print("📋 Outer Join 결과:")
display(outer_result)

print(f"🔍 분석:")
print(f"• 원본 학생 수: {len(students_df)}명")
print(f"• 원본 점수 수: {len(scores_df)}개")
print(f"• Outer Join 결과: {len(outer_result)}행")
print(f"• 완전한 데이터 (학생정보 + 점수): {outer_result[['name', 'math_score']].notna().all(axis=1).sum()}행")
print(f"• 학생 정보만 있는 경우: {outer_result['name'].notna().sum() - outer_result[['name', 'math_score']].notna().all(axis=1).sum()}행")
print(f"• 점수 정보만 있는 경우: {outer_result['math_score'].notna().sum() - outer_result[['name', 'math_score']].notna().all(axis=1).sum()}행")

print("\n💡 Outer Join 특징:")
print("✅ 모든 데이터 보존 (합집합)")
print("✅ 매칭되지 않는 경우 NaN으로 표시")
print("✅ 데이터 손실 전혀 없음")
print("❌ 결과 크기가 가장 큼")
print("🎯 사용 예시: 전체 데이터 현황 파악, 누락된 데이터 확인")

print("\n=== 📊 4가지 Join 결과 비교 ===")
print(f"{'Join 타입':<12} {'결과 행수':<8} {'특징'}")
print("-" * 50)
print(f"{'Inner':<12} {len(inner_result):<8} 교집합 (완전 매칭만)")
print(f"{'Left':<12} {len(left_result):<8} 왼쪽 기준 (학생 정보 보존)")
print(f"{'Right':<12} {len(right_result):<8} 오른쪽 기준 (점수 정보 보존)")
print(f"{'Outer':<12} {len(outer_result):<8} 합집합 (모든 데이터 보존)")


=== 4️⃣ OUTER JOIN (외부 조인) ===
🎯 목표: 양쪽 DataFrame의 모든 행 포함 (합집합)
📋 Outer Join 결과:


Unnamed: 0,student_id,name,grade,math_score,english_score
0,1,김철수,A,95.0,88.0
1,2,이영희,B,87.0,94.0
2,3,박민수,A,92.0,85.0
3,4,정지영,C,,
4,5,장수민,B,,
5,6,,,89.0,91.0
6,7,,,84.0,87.0


🔍 분석:
• 원본 학생 수: 5명
• 원본 점수 수: 5개
• Outer Join 결과: 7행
• 완전한 데이터 (학생정보 + 점수): 3행
• 학생 정보만 있는 경우: 2행
• 점수 정보만 있는 경우: 2행

💡 Outer Join 특징:
✅ 모든 데이터 보존 (합집합)
✅ 매칭되지 않는 경우 NaN으로 표시
✅ 데이터 손실 전혀 없음
❌ 결과 크기가 가장 큼
🎯 사용 예시: 전체 데이터 현황 파악, 누락된 데이터 확인

=== 📊 4가지 Join 결과 비교 ===
Join 타입      결과 행수    특징
--------------------------------------------------
Inner        3        교집합 (완전 매칭만)
Left         5        왼쪽 기준 (학생 정보 보존)
Right        5        오른쪽 기준 (점수 정보 보존)
Outer        7        합집합 (모든 데이터 보존)


In [148]:
print("\n=== 🎯 실무 활용 가이드 ===")

print("📝 Join 선택 기준:")
print()
print("🎯 Inner Join을 선택하는 경우:")
print("   ✅ 완전한 데이터만 필요 (품질 중시)")
print("   ✅ 분석 정확도가 최우선")
print("   ✅ 예: 성적 분석 시 학생 정보와 점수가 모두 있는 경우만")
print()
print("🎯 Left Join을 선택하는 경우:")  
print("   ✅ 기준 데이터를 모두 보존해야 함")
print("   ✅ 추가 정보가 있으면 결합, 없어도 무관")
print("   ✅ 예: 고객 목록 + 구매 이력, 직원 목록 + 평가 점수")
print()
print("🎯 Right Join을 선택하는 경우:")
print("   ✅ Left Join의 반대 상황")
print("   ✅ 실무에서는 드물게 사용 (Left Join을 더 선호)")
print()
print("🎯 Outer Join을 선택하는 경우:")
print("   ✅ 모든 데이터 현황 파악 필요")
print("   ✅ 데이터 누락 현황 분석")
print("   ✅ 예: 시스템 간 데이터 동기화 확인")

print("\n=== 💡 추가 팁 ===")
print()
print("🔑 여러 열을 키로 사용:")
print("   pd.merge(df1, df2, on=['col1', 'col2'], how='inner')")
print()
print("🔑 다른 열 이름으로 조인:")
print("   pd.merge(df1, df2, left_on='id1', right_on='id2', how='left')")
print()
print("🔑 인덱스로 조인:")
print("   pd.merge(df1, df2, left_index=True, right_index=True, how='outer')")
print()
print("🔑 중복 열 이름 처리:")
print("   pd.merge(df1, df2, on='id', how='inner', suffixes=('_left', '_right'))")

print("\n=== ⚠️ 주의사항 ===")
print()
print("❌ 키 열에 중복값이 있으면 결과가 예상보다 클 수 있음")
print("❌ 데이터 타입이 다르면 조인이 제대로 되지 않을 수 있음")  
print("❌ NaN 값이 있는 키로는 조인이 되지 않음")
print("✅ 조인 전에 데이터 타입과 중복값 확인 필수")
print("✅ 조인 후 결과 크기와 내용 검증 권장")

print("\n🎉 완료: DataFrame Join 연산 완전 마스터!")


=== 🎯 실무 활용 가이드 ===
📝 Join 선택 기준:

🎯 Inner Join을 선택하는 경우:
   ✅ 완전한 데이터만 필요 (품질 중시)
   ✅ 분석 정확도가 최우선
   ✅ 예: 성적 분석 시 학생 정보와 점수가 모두 있는 경우만

🎯 Left Join을 선택하는 경우:
   ✅ 기준 데이터를 모두 보존해야 함
   ✅ 추가 정보가 있으면 결합, 없어도 무관
   ✅ 예: 고객 목록 + 구매 이력, 직원 목록 + 평가 점수

🎯 Right Join을 선택하는 경우:
   ✅ Left Join의 반대 상황
   ✅ 실무에서는 드물게 사용 (Left Join을 더 선호)

🎯 Outer Join을 선택하는 경우:
   ✅ 모든 데이터 현황 파악 필요
   ✅ 데이터 누락 현황 분석
   ✅ 예: 시스템 간 데이터 동기화 확인

=== 💡 추가 팁 ===

🔑 여러 열을 키로 사용:
   pd.merge(df1, df2, on=['col1', 'col2'], how='inner')

🔑 다른 열 이름으로 조인:
   pd.merge(df1, df2, left_on='id1', right_on='id2', how='left')

🔑 인덱스로 조인:
   pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

🔑 중복 열 이름 처리:
   pd.merge(df1, df2, on='id', how='inner', suffixes=('_left', '_right'))

=== ⚠️ 주의사항 ===

❌ 키 열에 중복값이 있으면 결과가 예상보다 클 수 있음
❌ 데이터 타입이 다르면 조인이 제대로 되지 않을 수 있음
❌ NaN 값이 있는 키로는 조인이 되지 않음
✅ 조인 전에 데이터 타입과 중복값 확인 필수
✅ 조인 후 결과 크기와 내용 검증 권장

🎉 완료: DataFrame Join 연산 완전 마스터!


In [149]:
import pandas as pd
import numpy as np

# 데이터 생성
data = {
    '학교': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B'],
    '학생이름': ['철수', '영희', '민수', '지영', '철수', '영희', '민수', '지영', '철수', '영희', '민수', '지영', '철수', '영희', '민수', '지영', '철수', '영희', '민수', '지영'],
    '학년': [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2],
    '수학성적': [np.nan, 85, 90, 70, 75, 80, 95, 60, np.nan, 80, 75, 85, 90, 70, 75, 80, 95, 60, np.nan, 80],
    '국어성적': [85, 90, 70, 75, 80, 95, 60, 70, 85, 90, 70, 75, 80, 95, 60, 70, 85, np.nan, 70, 75],
    '영어성적': [90, 70, 75, 80, 95, 60, 70, 85, 90, 70, 75, 80, 95, np.nan, 70, 85, 90, 70, 75, 80]
}

df = pd.DataFrame(data)
df.head(10)

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
0,A,철수,1,,85.0,90.0
1,B,영희,2,85.0,90.0,70.0
2,C,민수,3,90.0,70.0,75.0
3,A,지영,1,70.0,75.0,80.0
4,B,철수,2,75.0,80.0,95.0
5,C,영희,3,80.0,95.0,60.0
6,A,민수,1,95.0,60.0,70.0
7,B,지영,2,60.0,70.0,85.0
8,C,철수,3,,85.0,90.0
9,A,영희,1,80.0,90.0,70.0


In [150]:
df.isna()

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
0,False,False,False,True,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,True,False,False
9,False,False,False,False,False,False


In [151]:
df.isna().sum()

학교      0
학생이름    0
학년      0
수학성적    3
국어성적    1
영어성적    1
dtype: int64

In [152]:
df.isnull()

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
0,False,False,False,True,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,True,False,False
9,False,False,False,False,False,False


In [155]:
df.isna().any(axis=1)  # 행 단위로 결측치가 있는지 확인

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12    False
13     True
14    False
15    False
16    False
17     True
18     True
19    False
dtype: bool

In [156]:
df.isna().any(axis=0)  # 열 단위로 결측치가 있는지 확인

학교      False
학생이름    False
학년      False
수학성적     True
국어성적     True
영어성적     True
dtype: bool

In [None]:
# any() function of pandas
df[df.isna().any(axis=1)] # 결측치가 있는 행만 선택

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
0,A,철수,1,,85.0,90.0
8,C,철수,3,,85.0,90.0
13,B,영희,2,70.0,95.0,
17,C,영희,3,60.0,,70.0
18,A,민수,1,,70.0,75.0


In [157]:
df_cleaned = df.dropna()  # 결측치가 있는 행 제거
df_cleaned.head(10)

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
1,B,영희,2,85.0,90.0,70.0
2,C,민수,3,90.0,70.0,75.0
3,A,지영,1,70.0,75.0,80.0
4,B,철수,2,75.0,80.0,95.0
5,C,영희,3,80.0,95.0,60.0
6,A,민수,1,95.0,60.0,70.0
7,B,지영,2,60.0,70.0,85.0
9,A,영희,1,80.0,90.0,70.0
10,B,민수,2,75.0,70.0,75.0
11,C,지영,3,85.0,75.0,80.0


In [158]:
# 결측치 채워 넣기 
fill_values = { '수학성적': 0, '국어성적': 0, '영어성적': 0 }
df.fillna(value=fill_values, inplace=True)
df.head(10)

Unnamed: 0,학교,학생이름,학년,수학성적,국어성적,영어성적
0,A,철수,1,0.0,85.0,90.0
1,B,영희,2,85.0,90.0,70.0
2,C,민수,3,90.0,70.0,75.0
3,A,지영,1,70.0,75.0,80.0
4,B,철수,2,75.0,80.0,95.0
5,C,영희,3,80.0,95.0,60.0
6,A,민수,1,95.0,60.0,70.0
7,B,지영,2,60.0,70.0,85.0
8,C,철수,3,0.0,85.0,90.0
9,A,영희,1,80.0,90.0,70.0


In [None]:
# 결측치 보간 

