## 03-1 나만의 데이터 만들기

### 시리즈와 데이터프레임 만들기

#### [실습] 시리즈 만들기

In [None]:
import pandas as pd

s = pd.Series(['banana', 42])
print(s)

In [None]:
s = pd.Series(data=['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who'])
print(s)

#### [Do It! 실습] 데이터 프레임 만들기

In [None]:
scientists = pd.DataFrame({
        "Name": ["Rosaline Franklin", "William Gosset"],
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61],
})

print(scientists)

In [None]:
scientists = pd.DataFrame(
    data={
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61],
    },
    index=["Rosaline Franklin", "William Gosset"],
    columns=["Occupation", "Born", "Died", "Age"],
)

print(scientists)

## 03-2 시리즈 다루기

#### [실습] 시리즈 추출하기

In [None]:
scientists = pd.DataFrame(
    data={
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61],
    },
    index=["Rosaline Franklin", "William Gosset"],
    columns=["Occupation", "Born", "Died", "Age"],
)

print(scientists)

In [None]:
first_row = scientists.loc['William Gosset']
print(type(first_row))

In [None]:
print(first_row)

In [None]:
print(first_row.index)

In [None]:
print(first_row.values)

### 시리즈의 keys() 메서드

In [None]:
print(first_row.keys())

In [None]:
print(first_row.index[0])

In [None]:
print(first_row.keys()[0])

### 시리즈와 ndarray

#### [Do It! 실습] 시리즈의 메서드 사용하기

In [None]:
ages = scientists['Age']
print(ages)

In [None]:
# 평균
print(ages.mean())

In [None]:
# 최솟값
print(ages.min())

In [None]:
# 최댓값
print(ages.max())

In [None]:
# 표준 편차
print(ages.std())

### 시리즈와 불리언

In [None]:
scientists = pd.read_csv('../data/scientists.csv')

#### [실습] 기술 통계량 계산하기

In [None]:
ages = scientists['Age']
print(ages)

In [None]:
print(ages.describe())

In [None]:
print(ages.mean())

In [None]:
print(ages[ages > ages.mean()])

In [None]:
print(ages > ages.mean())

In [None]:
print(type(ages > ages.mean()))

In [None]:
# 수동으로 불리언 마스크 만들어서 데이터 필터링하기
manual_bool_values = [
    True,   # 0
    True,   # 1
    False,  # 2
    False,  # 3
    True,   # 4
    True,   # 5
    False,  # 6
    True,   # 7                 # 각 행에 대한 선택 여부
]
print(ages[manual_bool_values]) # True인 위치의 데이터만 선택됨

### 시리즈와 브로드캐스팅

#### [실습] 벡터와 벡터, 벡터와 스칼라 계산하기

In [None]:
# 같은 크기의 시리즈끼리 연산 (벡터 + 벡터)
print(ages + ages)  # 각 요소별로 더해짐

In [None]:
print(ages * ages)  # 각 요소별로 제곱됨

In [None]:
# 시리즈와 스칼라 연산 (벡터 + 스칼라)
print(ages + 100)   # 모든 요소에 100 더해짐

In [None]:
print(ages * 2)     # 모든 요소에 2 곱해짐

#### [Do It! 실습] 길이가 서로 다른 벡터 연산하기

In [None]:
# 길이가 다른 시리즈 간 연산
print(ages + pd.Series([1, 100]))  # 결과: 같은 인덱스끼리만 연산되고, 나머지는 NaN이 됨
# 인덱스 0, 1에 대해서만 연산이 이루어지고 나머지는 NaN
# null 값 제거가 중요한 이유

In [None]:
import numpy as np

# print(ages + np.array([1, 100]))  # 오류

#### [실습] 인덱스가 같은 벡터 자동 정렬하기

In [None]:
# 인덱스 순서가 다른 시리즈 연산
rev_ages = ages.sort_index(ascending=False) # 인덱스 역순으로 정렬
print(rev_ages) # 인덱스 역순으로 정렬된 시리즈

In [None]:
print(ages * 2)  # 정상적인 연산

In [None]:
# 인덱스가 다른 순서라도 같은 인덱스끼리 연산됨
print(ages + rev_ages)  # 인덱스 기준으로 자동 정렬되어 연산됨
# 결과적으로 동일한 인덱스끼리 더해진 결과가 나옴

## 03-3 데이터프레임 다루기

### 데이터프레임의 구성

In [None]:
# 데이터프레임의 인덱스, 컬럼, 값 확인
scientists.index # 행 인덱스 (RangeIndex(start=0, stop=8, step=1))

In [None]:
scientists.columns # 열 인덱스 (Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object'))

In [None]:
scientists.values # 데이터 값들 (numpy 2차원 배열 형태)

### 데이터프레임과 불리언 추출

In [None]:
# 데이터프레임에 불리언 마스킹 적용
print(scientists.loc[scientists['Age'] > scientists['Age'].mean()])
# scientists['Age'] > scientists['Age'].mean()은 불리언 시리즈를 반환하고
# .loc[] 인덱서에 이 불리언 시리즈를 전달하여 조건을 만족하는 행만 선택

### 데이터프레임과 브로드캐스팅

#### [실습] 데이터프레임을 대상으로 연산하기

In [None]:
# 데이터프레임 분할하기
first_half = scientists[:4] # 앞 4개 행
second_half = scientists[4:] # 뒤 4개 행

print(first_half)

In [None]:
print(second_half)

In [None]:
# 데이터프레임과 스칼라 연산
print(scientists * 2) # 문자열은 반복, 숫자는 곱셈이 이루어짐

In [None]:
# 동일한 형태의 데이터프레임 간 연산
df1 = df2 = pd.DataFrame(data=[[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # df1 + df2와 동일

df_added = df1.add(df2)
print(df_added) # 대응하는 위치의 요소끼리 더해짐

## 03-4 시리즈와 데이터프레임 데이터 변경하기

#### [실습] 열 추가하기

In [None]:
# 데이터 타입 확인
print(scientists.dtypes) # 각 열의 데이터 타입 출력

In [None]:
# 날짜 데이터를 datetime 타입으로 변환
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d') 
print(born_datetime) # datetime64[ns] 타입의 시리즈

In [None]:
died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d')

In [None]:
# 새로운 열 추가하기
scientists['born_dt'], scientists['died_dt'] = (born_datetime, died_datetime)

In [None]:
print(scientists.head()) # 새로운 열이 추가된 데이터프레임 확인

In [None]:
print(scientists.shape) # (8, 7) - 7개 열로 증가

In [None]:
print(scientists.dtypes) # born_dt, died_dt가 datetime64[ns] 타입으로 추가됨

#### [Do It! 실습] 열 내용 변경하기

In [None]:
print(scientists['Age']) # 현재 Age 열 확인

In [None]:
# sample() 메서드로 랜덤하게 섞기
print(scientists["Age"].sample(frac=1, random_state=42))
# frac=1: 모든 데이터 사용, random_state=42: 재현 가능한 랜덤 시드 설정

In [None]:
# 시리즈 섞기 시도 (원본 데이터가 변경되지 않음)
scientists["Age"] = scientists["Age"].sample(frac=1, random_state=42)
print(scientists['Age']) # 변경되지 않고 원래 순서 유지

In [None]:
# .values 속성을 이용하여 실제로 데이터 변경하기
scientists["Age"] = scientists["Age"].sample(frac=1, random_state=42).values
print(scientists['Age']) # 실제로 값이 섞임

In [None]:
# 날짜 차이를 계산하여 새로운 열 추가
scientists['age_days'] = (scientists['died_dt'] - scientists['born_dt'])
print(scientists) # age_days 열이 timedelta 타입으로 추가됨

In [None]:
# 일수를 년수로 변환하여 새로운 열 추가
# scientists['age_years'] = (scientists['age_days'].astype('timedelta64[Y]'))  # pandas 2.0.3 오류
scientists['age_years'] = (scientists['age_days'].dt.days / 365).apply(np.floor) # 날짜 수를 햇수로 변환
# age_years 열 추가됨

print(scientists)

#### [실습] assign()으로 열 수정하기 

In [None]:
# assign() 메서드로 여러 개의 열을 한 번에 추가하기
scientists = scientists.assign(
    age_days_assign=scientists['died_dt'] - scientists['born_dt'],
    # age_year_assign=scientists['age_days'].astype('timedelta64[Y]'))  # pandas 2.0.3 오류
    age_year_assign=(scientists['age_days'].dt.days / 365).apply(np.floor)
)
print(scientists) # 새로운 열들이 추가됨

##### <한 걸음 더!> 다른 방법으로 나이 계산하기

In [None]:
# assign() 메서드에 람다 함수 사용하기
scientists = scientists.assign(
    age_days_assign=scientists["died_dt"] - scientists["born_dt"],
    # age_year_assign=lambda df_: df_["age_days_assign"].astype("timedelta64[Y]"),  # pandas 2.0.3 오류
    age_year_assign=lambda df_: (df_["age_days_assign"].dt.days / 365).apply(np.floor), 
)
print(scientists) # lambda를 사용하여 이전에 정의한 열을 참조할 수 있음

#### [실습] 열 삭제하기

In [None]:
# 현재 열 목록 확인
print(scientists.columns)

In [None]:
# drop() 메서드로 열 삭제하기
scientists_dropped = scientists.drop(['Age'], axis="columns")
# axis="columns": 열 방향으로 삭제 (axis=1과 동일)

In [None]:
# 삭제 후 열 목록 확인
print(scientists_dropped.columns) # 'Age' 열이 사라짐

## 03-5 데이터 저장하고 불러오기

### 피클로 저장하고 불러오기

#### [실습] 시리즈와 데이터프레임 저장하기

In [None]:
# 시리즈 추출하기
names = scientists['Name']
print(names)

In [None]:
# 피클로 저장하기
names.to_pickle('../output/scientists_names_series.pickle')

In [None]:
scientists.to_pickle('../output/scientists_df.pickle')

#### [실습] 피클 데이터 읽어 오기

In [None]:
# 피클 파일 읽기
series_pickle = pd.read_pickle('../output/scientists_names_series.pickle')
print(series_pickle) # 원래 시리즈와 동일한 데이터 복원

In [None]:
dataframe_pickle = pd.read_pickle('../output/scientists_df.pickle')
print(dataframe_pickle) # 원래 데이터프레임과 동일한 데이터 복원

### CSV와 TSV 파일로 저장하고 불러오기

In [None]:
# CSV 파일로 저장하기
scientists.to_csv('../output/scientists_df_no_index.csv', index=False)
# index=False: 인덱스는 저장하지 않음

### 엑셀로 저장하기

#### [실습] 시리즈와 데이터프레임 저장하기

In [None]:
#!pip install openpyxl  # openpyxl이 없다면 주석을 제거하고 설치하세요.

In [None]:
# 시리즈를 엑셀로 저장하기 위해 데이터프레임으로 변환
names = scientists['Name']
print(names)

In [None]:
names_df = names.to_frame()

In [None]:
names_df.to_excel('../output/scientists_names_series_df.xls',
                  engine='openpyxl')

In [None]:
# 데이터프레임을 엑셀로 저장하기
scientists.to_excel("../output/scientists_df.xlsx",
                    sheet_name="scientists", # 시트 이름 지정
                    index=False) # 인덱스 제외

### 다양한 형식으로 저장하기

#### [실습] feather 파일로 저장하기

In [None]:
#!pip install pyarrow  # pyarrow가 없다면 주석을 제거하고 설치하세요.

In [None]:
# feather 형식으로 저장하기
scientists.to_feather('../output/scientists.feather')

In [None]:
# feather 파일 읽기
sci_feather = pd.read_feather('../output/scientists.feather')
print(sci_feather) # 원본과 동일한 데이터프레임 복원

#### [실습] 딕셔너리로 변환하기

In [None]:
# 데이터프레임 일부 선택
sci_sub_dict = scientists.head(2) # 앞 2개 행만 선택

In [None]:
# 딕셔너리로 변환
sci_dict = sci_sub_dict.to_dict() 

In [None]:
import pprint
pprint.pprint(sci_dict) # 중첩 딕셔너리 형태로 출력됨

In [None]:
# 딕셔너리에서 다시 데이터프레임 생성
sci_dict_df = pd.DataFrame.from_dict(sci_dict)
print(sci_dict_df) # 원래 데이터프레임으로 복원

#### [실습] JSON으로 저장하기

In [None]:
# JSON 형식으로 변환
sci_json = sci_sub_dict.to_json(orient='records', indent=2, date_format="iso")
# 레코드(행) 단위로 변환 # 들여쓰기 2칸 # 날짜 ISO 형식으로
pprint.pprint(sci_json) # JSON 문자열 출력

In [None]:
# JSON 문자열에서 데이터프레임 생성
sci_json_df = pd.read_json(
    ('[\n'
 '  {\n'
 '    "Name":"Rosaline Franklin",\n'
 '    "Born":"1920-07-25",\n'
 '    "Died":"1958-04-16",\n'
 '    "Age":61,\n'
 '    "Occupation":"Chemist",\n'
 '    "born_dt":"1920-07-25T00:00:00.000",\n'
 '    "died_dt":"1958-04-16T00:00:00.000",\n'
 '    "age_days":"P13779DT0H0M0S",\n'
 '    "age_years":37.0,\n'
 '    "age_days_assign":"P13779DT0H0M0S",\n'
 '    "age_year_assign":37.0\n'
 '  },\n'
 '  {\n'
 '    "Name":"William Gosset",\n'
 '    "Born":"1876-06-13",\n'
 '    "Died":"1937-10-16",\n'
 '    "Age":45,\n'
 '    "Occupation":"Statistician",\n'
 '    "born_dt":"1876-06-13T00:00:00.000",\n'
 '    "died_dt":"1937-10-16T00:00:00.000",\n'
 '    "age_days":"P22404DT0H0M0S",\n'
 '    "age_years":61.0,\n'
 '    "age_days_assign":"P22404DT0H0M0S",\n'
 '    "age_year_assign":61.0\n'
 '  }\n'
 ']'),
     orient="records"
)
print(sci_json_df)

In [None]:
# 데이터 타입 확인
print(sci_json_df.dtypes) # JSON 변환 과정에서 일부 데이터 타입이 변경됨

In [None]:
# datetime 타입으로 변환
sci_json_df["died_dt_json"] = pd.to_datetime(sci_json_df["died_dt"])
print(sci_json_df) # died_dt_json 열이 datetime64[ns] 타입으로 추가됨

In [None]:
print(sci_json_df.dtypes) # 타입 변경 확인