<a href="https://colab.research.google.com/github/zzhining/python_data_basic2/blob/main/3%EC%9E%A5/3_2_2_%EC%83%9D%EC%84%B1_%EB%B0%8F_%EC%82%AD%EC%A0%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 데이터프레임 생성 방법

## 1) 딕셔너리로부터 생성

In [None]:
import pandas as pd
import numpy as np

# 딕셔너리로부터 생성
product_dict = {
    'product_name': ['노트북', '마우스', '키보드', '모니터'],
    'price': [1200000, 25000, 80000, 350000],
    'stock': [10, 50, 30, 15],
    'category': ['전자제품', '주변기기', '주변기기', '전자제품']
}

df_from_dict = pd.DataFrame(product_dict)
print("=== 딕셔너리로부터 생성 ===")
print(df_from_dict)

## 2) 리스트로부터 생성

In [None]:
# 리스트의 리스트로부터 생성
product_list = [
    ['노트북', 1200000, 10, '전자제품'],
    ['마우스', 25000, 50, '주변기기'],
    ['키보드', 80000, 30, '주변기기'],
    ['모니터', 350000, 15, '전자제품']
]

df_from_list = pd.DataFrame(
    product_list,
    columns=['product_name', 'price', 'stock', 'category'],
    index=['P001', 'P002', 'P003', 'P004']
)
print("=== 리스트로부터 생성 (인덱스 지정) ===")
print(df_from_list)

## 3) NumPy 배열로부터 생성

In [None]:
# NumPy 배열로부터 생성
np_array = np.random.randint(1, 100, size=(4, 3))
df_from_numpy = pd.DataFrame(
    np_array,
    columns=['A', 'B', 'C'],
    index=['Row1', 'Row2', 'Row3', 'Row4']
)
print("=== NumPy 배열로부터 생성 ===")
print(df_from_numpy)

## 4) 빈 데이터프레임 생성 후 데이터 추가

In [None]:
# 빈 데이터프레임 생성 후 데이터 추가
empty_df = pd.DataFrame(columns=['name', 'age', 'city'])
new_data = pd.DataFrame({
    'name': ['김철수', '이영희'],
    'age': [25, 30],
    'city': ['서울', '부산']
})
df_combined = pd.concat([empty_df, new_data], ignore_index=True)
print("=== 빈 데이터프레임에 데이터 추가 ===")
print(df_combined)

# 2. 외부 파일에서 데이터 불러오기

In [None]:
# CSV 파일 불러오기
file_name = 'https://raw.githubusercontent.com/zzhining/python_data_basic2/refs/heads/main/3%EC%9E%A5/sample_products.csv'
df_csv = pd.read_csv(file_name, encoding='utf-8')
print("=== CSV 파일 불러오기 ===")
print(df_csv)

In [None]:
# 불러오기 시 조건 지정
df_filtered = pd.read_csv(
    file_name,
    encoding='utf-8',
    usecols=['product_name', 'price', 'category'],  # 특정 컬럼만
    nrows=3  # 상위 3행만
)
print("=== 조건을 지정하여 불러오기 ===")
print(df_filtered)

# 3. 데이터 프레임 복사

In [None]:
# 원본 데이터프레임 생성
original_df = pd.DataFrame({
    'name': ['김철수', '이영희', '박민수'],
    'age': [25, 30, 35],
    'salary': [3000, 4000, 5000]
})

print("=== 원본 데이터프레임 ===")
print(original_df)

# 깊은 복사
deep_copy_df = original_df.copy()
deep_copy_df.loc[0, 'salary'] = 3500  # 복사본 수정

print("\n=== 깊은 복사 후 수정 ===")
print("원본:")
print(original_df)
print("복사본:")
print(deep_copy_df)

# 참조 복사 (주의!)
reference_df = original_df  # 같은 객체를 가리킴
reference_df.loc[1, 'age'] = 31

print("\n=== 참조 복사 후 참조 데이터 변경 ===")
print("원본 (참조 복사로 인해 변경됨):")
print(original_df)

# 4. 행과 열 삭제

In [None]:
# 테스트용 데이터 생성
test_data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6],
    'name': ['김철수', '이영희', '박민수', '김철수', '정수진', '이영희'],
    'age': [25, 30, None, 25, 28, 30],
    'city': ['서울', '부산', '대구', '서울', None, '부산'],
    'salary': [3000, 4000, 5000, 3000, 3500, 4000],
    'temp_col': ['임시', '임시', '임시', '임시', '임시', '임시']
})

print("=== 원본 데이터 ===")
print(test_data)

## 1) 특정 열 삭제

In [None]:
# 특정 열 삭제
df_drop_col = test_data.drop('temp_col', axis=1)
print("\n=== 열 삭제 후 ===")
print(df_drop_col)

## 2) 여러 열 삭제

In [None]:
# 여러 열 삭제
df_drop_cols = test_data.drop(['temp_col', 'id'], axis=1)
print("\n=== 여러 열 삭제 후 ===")
print(df_drop_cols)

## 3) 특정 행 삭제 (인덱스 기준)

In [None]:
# 특정 행 삭제 (인덱스 기준)
df_drop_row = test_data.drop([0, 5], axis=0)
print("\n=== 특정 행 삭제 후 ===")
print(df_drop_row)

## 4) 중복 행 삭제

In [None]:
# 중복 행 삭제
df_no_duplicates = test_data.drop_duplicates(subset=['name', 'age'], keep='first')
print("\n=== 중복 행 삭제 후 (name, age 기준) ===")
print(df_no_duplicates)

## 5) 결측치가 있는 행 삭제

In [None]:
# 결측치가 있는 행 삭제
df_no_na = test_data.dropna()
print("\n=== 결측치 행 삭제 후 ===")
print(df_no_na)

## 6) 특정 컬럼의 결측치만 삭제

In [None]:
# 특정 컬럼의 결측치만 삭제
df_no_na_age = test_data.dropna(subset=['age'])
print("\n=== age 컬럼 결측치 행 삭제 후 ===")
print(df_no_na_age)

# 5. 데이터프레임 저장

In [None]:
# 저장용 샘플 데이터 생성
save_data = pd.DataFrame({
    'product_id': ['P001', 'P002', 'P003', 'P004'],
    'product_name': ['노트북', '마우스', '키보드', '모니터'],
    'price': [1200000, 25000, 80000, 350000],
    'category': ['전자제품', '주변기기', '주변기기', '전자제품'],
    'reg_date': pd.date_range('2024-01-01', periods=4, freq='D')
})

print("=== 저장할 데이터 ===")
print(save_data)

# CSV 파일로 저장
save_data.to_csv('products_output.csv',
                 index=False)  # 인덱스 제외
print("\n=== CSV 파일 저장 완료 ===")