In [1]:
# Dataframe 생성
# 리스트, 딕셔너리, 배열 등 여러 형태의 데이터를 Dataframe으로 변환해 분석 작업 시작 가능.

# pd.DataFrame(data, index, columns, dtype)     # 기본 생성자
# pd.concat([df1, df2], axis)                   # Dataframe의 결합

# 기본 생성자의 인자
# data: 데이터(리스트, 딕셔너리, 배열 등)
# index: 행 인덱스
# columns: 컬럼명
# axis: 결합 축(0이면 행, 1이면 열)

In [2]:
# Dictionary로부터 Dataframe을 생성하는 코드.
import pandas as pd
import numpy as np 

produce_dict = {
    'product_name': ['노트북', '마우스', '키보드', '모니터'],
    'price': [1200000, 25000, 80000, 350000],
    'stock': [10, 50, 30, 15],
    'category': ['전자제품', '주변기기', '주변기기', '주변기기']
}

df_from_dict = pd.DataFrame(produce_dict)
print(f"====Dictionary로부터 DataFrame을 생성====")
print(f"\n{df_from_dict}")

====Dictionary로부터 DataFrame을 생성====

  product_name    price  stock category
0          노트북  1200000     10     전자제품
1          마우스    25000     50     주변기기
2          키보드    80000     30     주변기기
3          모니터   350000     15     주변기기


In [3]:
# list로부터 DataFrame을 생성.
product_list =[
    ['노트북', 1200000, 10, '전자제품'],
    ['마우스', 25000, 50, '주변기기'],
    ['키보드', 80000, 30, '주변기기'],
    ['모니터', 350000, '주변기기']
]

df_from_list = pd.DataFrame(
    product_list,
    columns = ['product_name', 'price', 'stock', 'category'],       # columns 인자에 직접 값을 넣어 열 이름을 지정함.
    index = ['P001', 'P002', 'P003', 'P004']                        # index 인자를 사용해 행의 인덱스명을 지정.
    )

print(f"====list로 만든 DataFrame====")
print(f"\n{df_from_list}")

====list로 만든 DataFrame====

     product_name    price stock category
P001          노트북  1200000    10     전자제품
P002          마우스    25000    50     주변기기
P003          키보드    80000    30     주변기기
P004          모니터   350000  주변기기     None


In [4]:
# NumPy 배열로부터 DataFrame 만들기.
np_array = np.random.randint(1, 100, size = (4, 3))

df_from_numpy = pd.DataFrame(
    np_array,
    columns = ['A', 'B', 'C'],
    index = ['Row1', 'Row2', 'Row3', 'Row4']
)

print(f"====NumPy 배열로 DataFrame 만들기====")
print(f"\n{df_from_numpy}")

====NumPy 배열로 DataFrame 만들기====

       A   B   C
Row1  58  28  96
Row2  45  89  58
Row3  99  47  64
Row4  97  27  34


In [42]:
# 외부 파일의 데이터를 불러와 DataFrame으로 만들기.
# CSV 파일
# pd.read_csv(filepath, sep, header, encoding, dtype)
# filepath: 파일 경로 또는 URL
# sep: 구분자 (CSV는 기본값이 쉼표)
# header: header의 행 번호 (기본값은 0)
# encoding: 문자 인코딩 (utf-8, cp949 등)
# sheet_name:Excel 시트명 또는 번호
# dtype: column별 데이터 타입 지정

# Excel 파일
# pd.read_excel(filepath, sheet_name, header)

# JSON 파일
# pd_.read_json(filepath, orient)
# orient: JSON 저장 형식

# SQL DB
# pd.read_sql(query, connection)

# HTML Table
# pd.read_html(url)

# Parquet 파일
# Parquet 파일: 컬럼 지향적(Columnar) 저장 형식의 데이터 파일. 대용량 데이터 처리와 분석에 최적화된 파일 형식.
# pd.read_parquet(filepath)

In [20]:
# CSV 파일을 불러오는 예제 코드
file_name = 'https://raw.githubusercontent.com/zzhining/python_data_basic2/refs/heads/main/3%EC%9E%A5/sample_products.csv'
file_name01 = 'https://raw.githubusercontent.com/zzhining/python_data_basic2/refs/heads/main/3%EC%9E%A5/sample_products.csv'
df_csv = pd.read_csv(file_name, encoding = 'utf-8')
df_csv02 = pd.read_csv(file_name01, encoding = 'utf-8')

print(f"====CSV 파일 불러오기====")
print(f"\n{df_csv}")
print(f"\n{df_csv02}")

# 조건을 지정해 CSV 파일을 불러오기.
df_filtered = pd.read_csv(
    file_name,
    encoding = 'utf-8',
    usecols = ['product_name', 'price', 'category'],     # 특정 컬럼만 불러오기. 그래서 변수명이 'usecols'
    nrows = 3           # 상위 3개 행만 지정.
)

print(f"\n====조건을 지정해 CSV 파일 불러오기====")
print(f"\n{df_filtered}")

====CSV 파일 불러오기====

  product_id product_name    price category
0       P001          노트북  1200000     전자제품
1       P002          마우스    25000     주변기기
2       P003          키보드    80000     주변기기
3       P004          모니터   350000     전자제품
4       P005          스피커   120000     주변기기

  product_id product_name    price category
0       P001          노트북  1200000     전자제품
1       P002          마우스    25000     주변기기
2       P003          키보드    80000     주변기기
3       P004          모니터   350000     전자제품
4       P005          스피커   120000     주변기기

====조건을 지정해 CSV 파일 불러오기====

  product_name    price category
0          노트북  1200000     전자제품
1          마우스    25000     주변기기
2          키보드    80000     주변기기


In [22]:
# DataFrame 복사하기
# 원본 데이터를 변경하지 않고 DataFrame을 조작하거나 백업 본 생성 시 사용.
# 깊은 복사와 참조 복사 존재.
# 깊은 복사: 완전히 새 메모리 공간에 데이터를 복사함. 원본과 복사본이 완전히 독립적이라서 한 쪽을 수정해도 다른 한 쪽에 영향을 주지 않음.
# df.copy()

# 참조 복사: 실제 복사가 아닌 같은 메모리 객체를 가리키는 새 변수를 만드는 것. 한 쪽에서 수정 시 다른 한 쪽도 변경됨.
# df_new = df
original_df = pd.DataFrame({
    'name': ['김철수', '이영희', '박민수'],
    'age': [25, 30, 35],
    'salary': [3000, 4000, 5000]
})

print(f"====원본 DataFrame====")
print(f"\n{original_df}")

# 깊은 복사
deep_copy_df = original_df.copy()
deep_copy_df.loc[0, 'salary'] = 3500        # 복사본의 데이터를 수정하기. (원본은 바뀌지 않음.)

print(f"\n====깊은 복사 후 복사본의 데이터 수정====")
print(f"\n원본: \n{original_df}")
print(f"\n복사본: \n{deep_copy_df}")

# 참조 복사
ref_df = original_df
ref_df.loc[1, 'age'] = 31           # 참조 복사를 수행한 상태여서, 원본과 'ref_df' 둘 다 값이 수정됨.

print(f"\n====참조 복사 후 데이터 변경====")
print(f"\n원본: \n{original_df}")     # 출력하면 참조 복사로 인해 30 -> 31로 데이터가 변경됨.

====원본 DataFrame====

  name  age  salary
0  김철수   25    3000
1  이영희   30    4000
2  박민수   35    5000

====깊은 복사 후 복사본의 데이터 수정====

원본: 
  name  age  salary
0  김철수   25    3000
1  이영희   30    4000
2  박민수   35    5000

복사본: 
  name  age  salary
0  김철수   25    3500
1  이영희   30    4000
2  박민수   35    5000

====참조 복사 후 데이터 변경====

원본: 
  name  age  salary
0  김철수   25    3000
1  이영희   31    4000
2  박민수   35    5000


In [None]:
# DataFrame의 행과 열 삭제
# 불필요한 데이터나 결측치, 중복 데이터를 제거하여 데이터 품질을 향상시킬 때 사용.
# 데이터 전처리 과정에서 필수.
# 행과 열을 삭제하는 구문.
# df.drop(labels, axis, inplace)
# labels: 삭제할 행 또는 열의 이름
# axis: 삭제할 축(0 = 행, 1 = 열)
# inplace: 원본 수정 여부(기본값은 False)

# 중복 행을 삭제하는 구문
# df.drop_duplicates(subset, keep)
# subset: 중복 또는 결측치를 확인할 컬럼
# keep: 중복 시 유지할 행 (first, last, False 세 가지 케이스)

# 결측치를 삭제하는 구문
# df.dropna(axis, how, subset)
# how: 결측치 삭제 조건(any, all 중 택일)

# 열을 영구적으로 삭제하는 구문
# del df['column']

# 열을 삭제 후 반환하는 구문
# df.pop('column')

In [35]:
test_data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6],
    'name': ['김철수', '이영희', '박민수', '김철수', '정수진', '이영희'],
    'age': [25, 30, None, 25, 28, 30],
    'city': ['서울', '부산', '대구', '서울', None, '부산'],
    'salary': [3000, 4000, 5000, 3000, 3500, 4000],
    'temp_col': ['임시', '임시', '임시', '임시', '임시', '임시']
})

print(f"====원본 데이터====")
print(f"\n{test_data}")

====원본 데이터====

   id name   age  city  salary temp_col
0   1  김철수  25.0    서울    3000       임시
1   2  이영희  30.0    부산    4000       임시
2   3  박민수   NaN    대구    5000       임시
3   4  김철수  25.0    서울    3000       임시
4   5  정수진  28.0  None    3500       임시
5   6  이영희  30.0    부산    4000       임시


In [30]:
# 특정 열을 삭제하기.
df_drop_col = test_data.drop('temp_col', axis = 1)
print(f"====특정 열을 삭제한 후의 데이터====")
print(f"\n{df_drop_col}")

====특정 열을 삭제한 후의 데이터====

   id name   age  city  salary
0   1  김철수  25.0    서울    3000
1   2  이영희  30.0    부산    4000
2   3  박민수   NaN    대구    5000
3   4  김철수  25.0    서울    3000
4   5  정수진  28.0  None    3500
5   6  이영희  30.0    부산    4000


In [32]:
# 여러 개의 열을 삭제하기.
df_drop_cols = test_data.drop(['temp_col', 'id'], axis = 1)
print(f"====여러 개의 열을 삭제한 후의 데이터====")
print(f"\n{df_drop_cols}")

====여러 개의 열을 삭제한 후의 데이터====

  name   age  city  salary
0  김철수  25.0    서울    3000
1  이영희  30.0    부산    4000
2  박민수   NaN    대구    5000
3  김철수  25.0    서울    3000
4  정수진  28.0  None    3500
5  이영희  30.0    부산    4000


In [34]:
# 인덱스를 기준으로 특정 행을 삭제하기.
df_drop_row = test_data.drop([0, 5], axis = 0)
print(f"====인덱스를 기준으로 특정 행을 삭제한 후의 데이터====")
print(f"\n{df_drop_row}")

====인덱스를 기준으로 특정 행을 삭제한 후의 데이터====

   id name   age  city  salary temp_col
1   2  이영희  30.0    부산    4000       임시
2   3  박민수   NaN    대구    5000       임시
3   4  김철수  25.0    서울    3000       임시
4   5  정수진  28.0  None    3500       임시


In [37]:
# 중복 행을 삭제하기.
df_no_dupl = test_data.drop_duplicates(subset = ['name', 'age'], keep = 'first')
print(f"====중복 행을 삭제한 후의 데이터(name과 age를 기준)====")
print(f"\n{df_no_dupl}")            # 김철수와 이영희가 각각 'name' 및 'age'가 중복된 상태여서, keep = first 기준에 따른 앞에 있는 데이터는 살려두고, 뒤에 위치한 데이터를 삭제함.

====중복 행을 삭제한 후의 데이터(name과 age를 기준)====

   id name   age  city  salary temp_col
0   1  김철수  25.0    서울    3000       임시
1   2  이영희  30.0    부산    4000       임시
2   3  박민수   NaN    대구    5000       임시
4   5  정수진  28.0  None    3500       임시


In [39]:
# 결측치가 존재하는 행을 삭제하기.
df_no_na = test_data.dropna()
print(f"====결측치가 존재하는 행을 삭제한 후의 데이터====")
print(f"\n{df_no_na}")          # NaN, None이 들어있던 행이 삭제됨.

====결측치가 존재하는 행을 삭제한 후의 데이터====

   id name   age city  salary temp_col
0   1  김철수  25.0   서울    3000       임시
1   2  이영희  30.0   부산    4000       임시
3   4  김철수  25.0   서울    3000       임시
5   6  이영희  30.0   부산    4000       임시


In [41]:
# 특정 컬럼의 결측치만 삭제하기.
df_no_na_age = test_data.dropna(subset = ['age'])
print(f"====age 컬럼의 결측치가 존재하는 행을 삭제한 후의 데이터====")
print(f"\n{df_no_na_age}")          # subset을 'age로만 설정해서 age에 결측치가 존재하는 행만 삭제됨. 그래서 'city'의 None은 아직 살아있음.

====age 컬럼의 결측치가 존재하는 행을 삭제한 후의 데이터====

   id name   age  city  salary temp_col
0   1  김철수  25.0    서울    3000       임시
1   2  이영희  30.0    부산    4000       임시
3   4  김철수  25.0    서울    3000       임시
4   5  정수진  28.0  None    3500       임시
5   6  이영희  30.0    부산    4000       임시


In [None]:
# DataFrame 저장하기
# 분석 결과나 전처리된 데이터를 다양한 형태의 파일로 저장 가능.

# CSV로 저장하기.
# df.to_csv(filepath, sep, encoding, index)

# Excel로 저장하기.
# df.to_excel(filepath, sheet_name, index)

# JSON으로 저장하기.
# df.to_json(filepath, orient)

# Parquet로 저장하기.
# df.to_parquet(filepath)

# Pickle로 저장하기.
# df.to_pickle(filepath)

# SQL로 저장하기.
# df.to_sql(table_name, connection)

In [45]:
# CSV 파일로 DataFrame을 저장하는 예제 코드
save_data = pd.DataFrame({
    'product_id': ['P001', 'P002', 'P003', 'P004'],
    'product_name': ['노트북', '마우스', '키보드', '모니터'],
    'price': [1200000, 25000, 80000, 350000],
    'category': ['전자제품', '주변기기', '주변기기', '주변기기'],
    'reg_date': pd.date_range('2024-01-01', periods = 4, freq = 'D')
})

save_data.to_csv('products_output.csv',
                 encoding = 'utf-8',        # 한글 깨짐을 방지하기 위한 utf-8
                 index = False)             # 인덱스는 저장하지 않고 제외함.