In [None]:
import pandas as pd
import numpy as np

In [None]:
# 샘플 데이터 생성
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Diana'],
    'age': [25, 30, 35, 28],
    'salary': [50000, 60000, 70000, 55000]
})

In [None]:
# 사용자 정의 함수 적용
def add_10(n):
  return n + 10

In [None]:
# 시리즈에 함수 적용
sr1 = df['age'].apply(add_10)
print("add_10 함수 적용 결과:")
print(sr1)

add_10 함수 적용 결과:
0    35
1    40
2    45
3    38
Name: age, dtype: int64


In [None]:
# 람다 함수 사용
sr2 = df['age'].apply(lambda n : n+10)
print("\n람다 함수 적용 결과:")
print(sr2)


람다 함수 적용 결과:
0    35
1    40
2    45
3    38
Name: age, dtype: int64


In [None]:
# 통계 계산 함수
def calculate_stats(series):
    return pd.Series({
        'mean': series.mean(),
        'std': series.std(),
        'min': series.min(),
        'max': series.max()
    })

# 각 열에 함수 적용 (axis=0)
numeric_df =  df[['age','salary']]
result_df = numeric_df.apply(calculate_stats, axis=0)
print("각 열에 통계 함수 적용:")
print(result_df)

# 각 행에 함수 적용 (axis=1)
result_sr = numeric_df.apply(lambda x : x.max() - x.min(), axis=1)
print("\n각 행의 최대값-최소값 차이:")
print(result_sr)

각 열에 통계 함수 적용:
            age        salary
mean  29.500000  58750.000000
std    4.203173   8539.125638
min   25.000000  50000.000000
max   35.000000  70000.000000

각 행의 최대값-최소값 차이:
0    49975
1    59970
2    69965
3    54972
dtype: int64


In [None]:
# 조건에 따른 분류
df['High_performer'] = df.apply(lambda row : 'yes' if row['salary'] > 55000 else 'No', axis=1)
print("고성과자 분류 추가:")
print(df)

# 나이가 평균보다 높은 사람들만 필터링
avg_age = df['age'].mean()
high_age_filter = df['age'] > avg_age
filtered_df = df[high_age_filter]
print(f"\n평균 나이({avg_age:.1f})보다 높은 사람들:")
print(filtered_df)


고성과자 분류 추가:
      name  age  salary High_performer
0    Alice   25   50000             No
1      Bob   30   60000            yes
2  Charlie   35   70000            yes
3    Diana   28   55000             No

평균 나이(29.5)보다 높은 사람들:
      name  age  salary High_performer
1      Bob   30   60000            yes
2  Charlie   35   70000            yes


In [None]:
# 데이터 처리 함수들
def add_bonus_column(df):
  df['bonus'] = df['salary'] * 0.1
  return df

def categorize_age(df):
  df['age_group'] = df['age'].apply(lambda x : 'Young' if x < 30 else 'Senior')
  return df

def calculate_total_compensation(df):
  df['total_comp'] = df['salary'] + df['bonus']
  return df

# 여러 함수를 체이닝으로 연결
result = (df.pipe(add_bonus_column)
            .pipe(categorize_age)
            .pipe(calculate_total_compensation))

print("파이프 체이닝 결과:")
print(result)

파이프 체이닝 결과:
      name  age  salary High_performer   bonus age_group  total_comp
0    Alice   25   50000             No  5000.0     Young     55000.0
1      Bob   30   60000            yes  6000.0    Senior     66000.0
2  Charlie   35   70000            yes  7000.0    Senior     77000.0
3    Diana   28   55000             No  5500.0     Young     60500.0


In [None]:
# 타이타닉 데이터셋 예시
titanic_data = pd.DataFrame({
    'class': ['First', 'Second', 'Third', 'First', 'Second', 'Third'],
    'sex': ['male', 'female', 'male', 'female', 'male', 'female'],
    'age': [22, 38, 26, 35, 45, 29],
    'fare': [71.28, 71.28, 7.92, 53.10, 13.00, 7.75]
})

print("원본 타이타닉 데이터:")
print(titanic_data)

# 단일 기준 그룹화
grouped = titanic_data.groupby('class')
print("\n클래스별 평균 나이:")
print(grouped['age'].mean())

# 다중 기준 그룹화
grouped_two = titanic_data.groupby(['class','sex'])
print("\n클래스와 성별 그룹화:")
print(grouped_two.size())

# 집계 함수 적용
result = titanic_data.groupby('class').agg({
    'age': 'mean',
    'fare': ['min', 'max']
})
print("\n클래스별 집계 결과:")
print(result)


원본 타이타닉 데이터:
    class     sex  age   fare
0   First    male   22  71.28
1  Second  female   38  71.28
2   Third    male   26   7.92
3   First  female   35  53.10
4  Second    male   45  13.00
5   Third  female   29   7.75

클래스별 평균 나이:
class
First     28.5
Second    41.5
Third     27.5
Name: age, dtype: float64

클래스와 성별 그룹화:
class   sex   
First   female    1
        male      1
Second  female    1
        male      1
Third   female    1
        male      1
dtype: int64

클래스별 집계 결과:
         age   fare       
        mean    min    max
class                     
First   28.5  53.10  71.28
Second  41.5  13.00  71.28
Third   27.5   7.75   7.92


In [None]:
# 그룹별 누적합
titanic_data['fare_cumsum'] = titanic_data.groupby('class')['fare'].cumsum()
print("그룹별 요금 누적합:")
print(titanic_data[['class', 'fare', 'fare_cumsum']])

그룹별 요금 누적합:
    class   fare  fare_cumsum
0   First  71.28        71.28
1  Second  71.28        71.28
2   Third   7.92         7.92
3   First  53.10       124.38
4  Second  13.00        84.28
5   Third   7.75        15.67


In [None]:
# z-score 계산
titanic_data['age_zscore'] = titanic_data.groupby('class')['age'].transform(
    lambda x: (x - x.mean()) / x.std()
)

print("\n클래스별 나이 z-score:")
print(titanic_data[['class', 'age', 'age_zscore']])


클래스별 나이 z-score:
    class  age  age_zscore
0   First   22   -0.707107
1  Second   38   -0.707107
2   Third   26   -0.707107
3   First   35    0.707107
4  Second   45    0.707107
5   Third   29    0.707107


In [None]:
# 샘플 데이터프레임들
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Charlie'],
    'score': [85, 90, 88]
})
df2 = pd.DataFrame({
    'id': [4, 5, 6],
    'name': ['Diana', 'Eve', 'Frank'],
    'score': [92, 87, 85]
})

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

# 수직 연결
result1 = pd.concat([df1, df2], axis=0, ignore_index=True)
print("\n수직 연결 결과:")
print(result1)

# 수평 연결용 데이터
df3 = pd.DataFrame({
    'age': [25, 30, 35],
    'city': ['Seoul', 'Busan', 'Incheon']
})

result2 = pd.concat([df1,df3],axis=1)
print("\n수평 연결 결과:")
print(result2)

df1:
   id     name  score
0   1    Alice     85
1   2      Bob     90
2   3  Charlie     88

df2:
   id   name  score
0   4  Diana     92
1   5    Eve     87
2   6  Frank     85

수직 연결 결과:
   id     name  score
0   1    Alice     85
1   2      Bob     90
2   3  Charlie     88
3   4    Diana     92
4   5      Eve     87
5   6    Frank     85

수평 연결 결과:
   id     name  score  age     city
0   1    Alice     85   25    Seoul
1   2      Bob     90   30    Busan
2   3  Charlie     88   35  Incheon


In [None]:
# 병합용 데이터프레임들
students = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'Diana'],
    'class': ['A', 'B', 'A', 'C']
})

grades = pd.DataFrame({
    'id': [1, 2, 3, 5],
    'subject': ['Math', 'Science', 'English', 'History'],
    'grade': [95, 88, 92, 85]
})

print("students 데이터:")
print(students)
print("\ngrades 데이터:")
print(grades)

# Inner Join (공통된 id만 출)
merge_inner = pd.merge(students,grades,how='inner',on='id')
print("\nInner Join 결과:")
print(merge_inner)

# Left Join (students를 기준으로 데이터 병합)
merge_left = pd.merge(students, grades, how='left', on='id')
print("\nLeft Join 결과:")
print(merge_left)

students 데이터:
   id     name class
0   1    Alice     A
1   2      Bob     B
2   3  Charlie     A
3   4    Diana     C

grades 데이터:
   id  subject  grade
0   1     Math     95
1   2  Science     88
2   3  English     92
3   5  History     85

Inner Join 결과:
   id     name class  subject  grade
0   1    Alice     A     Math     95
1   2      Bob     B  Science     88
2   3  Charlie     A  English     92

Left Join 결과:
   id     name class  subject  grade
0   1    Alice     A     Math   95.0
1   2      Bob     B  Science   88.0
2   3  Charlie     A  English   92.0
3   4    Diana     C      NaN    NaN


In [None]:
# 피벗 테이블용 데이터
sales_data = pd.DataFrame({
    'date': ['2024-01', '2024-01', '2024-02', '2024-02', '2024-01', '2024-02'],
    'product': ['A', 'B', 'A', 'B', 'A', 'B'],
    'region': ['North', 'South', 'North', 'South', 'South', 'North'],
    'sales': [100, 150, 120, 180, 110, 160]
})

print("원본 판매 데이터:")
print(sales_data)

# 피벗 테이블 생성
pivot_df = sales_data.pivot_table(
    index='date',
    columns='product',
    values='sales',
    aggfunc='sum'
)
print("\n피벗 테이블 (날짜별-제품별 판매량):")
print(pivot_df)

원본 판매 데이터:
      date product region  sales
0  2024-01       A  North    100
1  2024-01       B  South    150
2  2024-02       A  North    120
3  2024-02       B  South    180
4  2024-01       A  South    110
5  2024-02       B  North    160

피벗 테이블 (날짜별-제품별 판매량):
product    A    B
date             
2024-01  210  150
2024-02  120  340


In [None]:
# 스택/언스택용 데이터
df_stack = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}, index=['X', 'Y', 'Z'])

print("원본 데이터:")
print(df_stack)

# 스택: 열을 행으로 변환
stacked = df_stack.stack()
print("\n스택 결과 (열→행):")
print(stacked)

# 언스택: 행을 열로 변환
unstacked = stacked.unstack()
print("\n언스택 결과 (행→열):")
print(unstacked)


원본 데이터:
   A  B  C
X  1  4  7
Y  2  5  8
Z  3  6  9

스택 결과 (열→행):
X  A    1
   B    4
   C    7
Y  A    2
   B    5
   C    8
Z  A    3
   B    6
   C    9
dtype: int64

언스택 결과 (행→열):
   A  B  C
X  1  4  7
Y  2  5  8
Z  3  6  9


In [None]:
# Melt용 데이터 (Wide 형태)
wide_df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'City': ['Seoul', 'Busan', 'Incheon'],
    'Math': [85, 90, 88],
    'Science': [92, 87, 85],
    'English': [78, 95, 92]
})

print("Wide 형태 데이터:")
print(wide_df)

Wide 형태 데이터:
      Name     City  Math  Science  English
0    Alice    Seoul    85       92       78
1      Bob    Busan    90       87       95
2  Charlie  Incheon    88       85       92
