In [None]:
import numpy as np

# 1차원 배열 생성
array1 = np.array([1, 2, 3])

# 2차원 배열 생성
array2 = np.array([[1, 2, 3],
                   [4, 5, 6]])


In [None]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)


In [None]:
list1 = [1, 2, 3]
print(type(list1))

array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)


In [None]:
array2 = np.array([[1, 2, 3],
                   [4, 5, 6]])

print("array2:")
print(array2)
print("Shape:", array2.shape)
print("차원 수 (ndim):", array2.ndim)


In [None]:
array1 = np.arange(10)
print('array1:\n', array1)

# (2, 5)로 reshape
array2 = array1.reshape(2, 5)
print('array2:\n', array2)

# (5, 2)로 reshape
array3 = array1.reshape(5, 2)
print('array3:\n', array3)

# (4, 3)으로 reshape 시도 - 오류 발생
# array1.reshape(4, 3)  # ValueError 발생

In [None]:
array1 = np.arange(10)

# 자동 계산 가능한 경우
array2 = array1.reshape(-1, 5)
print('array2 shape:', array2.shape)

array3 = array1.reshape(5, -1)
print('array3 shape:', array3.shape)

# 자동 계산 불가능한 경우 - 오류 발생
# array4 = array1.reshape(-1, 4)  # ValueError 발생

## Pandas와 Numpy

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)


In [None]:
dates = pd.date_range("20130101", periods=6)
print(dates)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)


In [None]:
df2 = pd.DataFrame({
    "A": 1.0,
    "B": pd.Timestamp("20130102"),
    "C": pd.Series(1, index=list(range(4)), dtype="float32"),
    "D": np.array([3] * 4, dtype="int32"),
    "E": pd.Categorical(["test", "train", "test", "train"]),
    "F": "foo"
})
print(df2)


In [None]:
print(df2.dtypes)


In [None]:
print(df.head())     # 상위 5개 행
print(df.tail(3))    # 하위 3개 행


In [None]:
print(df.index)
print(df.columns)


In [None]:
print(df.to_numpy())


In [None]:
print(df.describe())


In [None]:
print(df.T)


In [None]:
print(df["A"])

In [None]:
df[0:3]

In [None]:
df["20130102":"20130104"]

In [None]:
df.loc["20130102":"20130104", ["A", "B"]]


In [None]:
df.loc[dates[0], "A"]       # 위치 기반 접근
df.at[dates[0], "A"]        # 가장 빠른 방식


In [None]:
df.iloc[3]                  # 4번째 행 전체
df.iloc[3:5, 0:2]           # 4~5번째 행, 1~2번째 열
df.iloc[[1, 2, 4], [0, 2]]  # 특정 행/열 조합
df.iloc[1:3, :]             # 2~3번째 행, 전체 열
df.iloc[:, 1:3]             # 전체 행, 2~3번째 열
df.iloc[1, 1]               # 2행 2열 값
df.iat[1, 1]                # 빠른 2행 2열 접근


In [None]:
df[df["A"] > 0]             # A 열이 0보다 큰 행만

df[df > 0]                 # 전체 DataFrame에서 양수만 표시, 나머지는 NaN


In [None]:
df2 = df.copy()
df2["E"] = ["one", "one", "two", "three", "four", "three"]

df2[df2["E"].isin(["two", "four"])]


In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1.loc[dates[0] : dates[1], "E"] = 1
print(df1)


In [None]:
# 결측치가 있는 모든 행 제거
df1.dropna(how="any")

# 결측치를 5로 채우기
df1.fillna(value=5)


In [None]:
pd.isna(df1)

## 데이터 처리와 집계

In [None]:
import pandas as pd

# Titanic 데이터 CSV 파일 로드
titanic_df = pd.read_csv("../data/titanic.csv")

# DataFrame 출력
titanic_df

In [None]:
# 이름 기준 오름차순 정렬
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

# Pclass와 Name 기준 내림차순 정렬
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)


In [None]:
print(titanic_df['Pclass'].nunique())
print(titanic_df['Survived'].nunique())
print(titanic_df['Name'].nunique())

In [None]:
titanic_df.count()

In [None]:
# 평균
titanic_df[['Age', 'Fare']].mean()

# 합계
titanic_df[['Age', 'Fare']].sum()

# 최솟값
titanic_df[['Age', 'Fare']].min()


In [None]:
# groupby 객체 생성
titanic_groupby = titanic_df.groupby('Pclass')

# Age와 Fare에 대해 count
titanic_groupby[['Age', 'Fare']].count()


In [None]:
# 최대값과 최소값을 나란히 출력
titanic_df.groupby('Pclass')['Age'].max(), titanic_df.groupby('Pclass')['Age'].min()


In [None]:
# max, min 함께 보기
titanic_df.groupby('Pclass')['Age'].agg([max, min])


In [None]:
titanic_df.groupby(['Pclass']).agg(
    age_max=('Age', 'max'),
    age_mean=('Age', 'mean'),
    fare_mean=('Fare', 'mean')
)


In [None]:
agg_format = {
    'Age': 'max',
    'SibSp': 'sum',
    'Fare': 'mean'
}
titanic_df.groupby('Pclass').agg(agg_format)


In [None]:
# 이름의 길이 계산
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name', 'Name_len']].head(3)


In [None]:
# 나이 기준으로 아동/성인 구분
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x: 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)


In [None]:
def categorize_age(age):
    """
    나이에 따라 연령대를 분류하는 함수
    """
    if age <= 5:
        return 'Baby'
    elif age <= 12:
        return 'Child'
    elif age <= 18:
        return 'Teenager'
    elif age <= 25:
        return 'Student'
    elif age <= 35:
        return 'Young Adult'
    elif age <= 60:
        return 'Adult'
    else:
        return 'Elderly'

# 적용 및 확인
titanic_df['Age_cate'] = titanic_df['Age'].apply(categorize_age)
titanic_df[['Age', 'Age_cate']].head()


## 데이터 병합 및 변환 이론

In [None]:
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})

df3 = pd.concat([df1, df2], axis=0)  # 행 병합
df4 = pd.concat([df1, df2], axis=1)  # 열 병합

print(df1)
print('\n')
print(df2)
print('\n')
print(df3)
print('\n')
print(df4)


In [None]:
import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})

df_merged = pd.merge(df1, df2, on='key', how='inner')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})

df_merged = pd.merge(df1, df2, on='key', how='outer')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})

df_merged = pd.merge(df1, df2, on='key', how='left')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})

df_merged = pd.merge(df1, df2, on='key', how='right')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=['K0', 'K2', 'K3'])

df_merged = df1.join(df2, how='left')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
sales = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'product_id': [101, 102, 103, 104],
    'quantity': [5, 2, 3, 1]
})

customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 5],
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'city': ['Seoul', 'Busan', 'Daegu', 'Incheon']
})

sales = sales.set_index('customer_id')
customers = customers.set_index('customer_id')

merged_data = sales.join(customers, how='left')

print(sales)
print('\n')
print(customers)
print('\n')
print(merged_data)


In [None]:
df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'C': ['C0', 'C1', 'C2', 'C3']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'C': ['C4', 'C5', 'C6'],
    'D': ['D0', 'D1', 'D2']
})

df_merged = pd.merge(df1, df2, on='key', how='inner', suffixes=('_left', '_right'))

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
})

df_merged = pd.merge(df1, df2, on='key', how='inner')
df_merged = df_merged.drop('B', axis=1)

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
df1 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K2', 'K3'],
    'key2': ['K4', 'K5', 'K6', 'K7'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K2'],
    'key2': ['K4', 'K5', 'K6'],
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
})

df_merged = pd.merge(df1, df2, on=['key1', 'key2'], how='inner')

print(df1)
print('\n')
print(df2)
print('\n')
print(df_merged)


In [None]:
import pandas as pd

# Titanic 데이터 CSV 파일 로드
replace_test_df = pd.read_csv("../data/titanic.csv")

In [None]:
import numpy as np

# 예: Titanic 데이터
replace_test_df['Sex'] = replace_test_df['Sex'].replace({'male': 'Man', 'female': 'Woman'})
print(replace_test_df.head(10))


In [None]:
# NaN을 특정 값으로 대체
replace_test_df['Cabin'] = replace_test_df['Cabin'].replace(np.nan, 'CXXX')

# Cabin별 값 개수 확인
print(replace_test_df['Cabin'].value_counts(dropna=False))