In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply/US_Crime_Rates/US_Crime_Rates_1960_2014.csv')
df.head()

Unnamed: 0,Year,Population,Total,Violent,Property,Murder,Forcible_Rape,Robbery,Aggravated_assault,Burglary,Larceny_Theft,Vehicle_Theft
0,1960,179323175,3384200,288460,3095700,9110,17190,107840,154320,912100,1855400,328200
1,1961,182992000,3488000,289390,3198600,8740,17220,106670,156760,949600,1913000,336000
2,1962,185771000,3752200,301510,3450700,8530,17550,110860,164570,994300,2089600,366800
3,1963,188483000,4109500,316970,3792500,8640,17650,116470,174210,1086400,2297800,408300
4,1964,191141000,4564600,364220,4200400,9360,21420,130390,203050,1213200,2514400,472800


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   Year                55 non-null     int64
 1   Population          55 non-null     int64
 2   Total               55 non-null     int64
 3   Violent             55 non-null     int64
 4   Property            55 non-null     int64
 5   Murder              55 non-null     int64
 6   Forcible_Rape       55 non-null     int64
 7   Robbery             55 non-null     int64
 8   Aggravated_assault  55 non-null     int64
 9   Burglary            55 non-null     int64
 10  Larceny_Theft       55 non-null     int64
 11  Vehicle_Theft       55 non-null     int64
dtypes: int64(12)
memory usage: 5.3 KB


## Convert the type of the column Year to datetime64.

In [None]:
df['Year'] = df['Year'].astype('datetime64')
df['Year'].dtype

ValueError: The 'datetime64' dtype has no unit. Please pass in 'datetime64[ns]' instead.

- 'datetime64'라는 데이터 타입이 Pandas에서 사용되지 않음
- Pandas에서 시간을 처리할 때는 datetime64 대신 pd.to_datetime()을 사용해야 한다

In [None]:
df['Year'] = pd.to_datetime(df['Year'])
print(df['Year'].dtype)

datetime64[ns]


In [4]:
# Pandas에서 날짜 타입은 datetime64[ns]로 명시적으로 지정된다
df['Year'] = df['Year'].astype('datetime64[ns]')

In [5]:
df['Year'].head()

Unnamed: 0,Year
0,1970-01-01 00:00:00.000001960
1,1970-01-01 00:00:00.000001961
2,1970-01-01 00:00:00.000001962
3,1970-01-01 00:00:00.000001963
4,1970-01-01 00:00:00.000001964


- astype() 메서드는 날짜 형식의 문자열을 처리하는 유연성을 제공하지 않음
> 예를 들어, df['Year']에 값이 '01-2024' (월-연도) 형식으로 저장되어 있다면, 이 데이터를 날짜로 변환하려면 특정 형식(%m-%Y)을 지정해야 한다. 하지만 astype 메서드는 이를 지원하지 않는다.

In [None]:
df['Year'] = pd.to_datetime(df['Year'], format='%Y') # 월과 일은 기본값인 1월 1일로 설정
df['Year'].head(5)

# format='%Y'은 입력 데이터가 연도만 포함된 형식임을 Pandas에 알려준다
# 이렇게 지정하면 Pandas는 입력을 읽을 때 연도만 파싱하고, 나머지 부분은 기본값으로 채움

In [None]:
df['Year'] = pd.to_datetime(df['Year'], format='%Y')
df['Year'].head()

Unnamed: 0,Year
0,1970-01-01 00:00:00.000001960
1,1970-01-01 00:00:00.000001961
2,1970-01-01 00:00:00.000001962
3,1970-01-01 00:00:00.000001963
4,1970-01-01 00:00:00.000001964


> format = '%Y'는 입력 데이터가 연도만 포함된 형식을 Pandas에 알려준다
- 이렇게 지정하면 Pandas는 입력을 읽을 때 연도만 파싱하고, 나머지 부분은 기본값으로 채움

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Year                55 non-null     datetime64[ns]
 1   Population          55 non-null     int64         
 2   Total               55 non-null     int64         
 3   Violent             55 non-null     int64         
 4   Property            55 non-null     int64         
 5   Murder              55 non-null     int64         
 6   Forcible_Rape       55 non-null     int64         
 7   Robbery             55 non-null     int64         
 8   Aggravated_assault  55 non-null     int64         
 9   Burglary            55 non-null     int64         
 10  Larceny_Theft       55 non-null     int64         
 11  Vehicle_Theft       55 non-null     int64         
dtypes: datetime64[ns](1), int64(11)
memory usage: 5.3 KB


## Set the Year column as the index of the dataframe.

In [13]:
df = df.set_index(keys='Year', drop=True)
# drop=True 기존의 열을 제거하고, 그 열을 새로운 인덱스로 설정

In [14]:
df.head()

Unnamed: 0_level_0,Population,Violent,Property,Murder,Forcible_Rape,Robbery,Aggravated_assault,Burglary,Larceny_Theft,Vehicle_Theft
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1970-01-01 00:00:00.000001960,179323175,288460,3095700,9110,17190,107840,154320,912100,1855400,328200
1970-01-01 00:00:00.000001961,182992000,289390,3198600,8740,17220,106670,156760,949600,1913000,336000
1970-01-01 00:00:00.000001962,185771000,301510,3450700,8530,17550,110860,164570,994300,2089600,366800
1970-01-01 00:00:00.000001963,188483000,316970,3792500,8640,17650,116470,174210,1086400,2297800,408300
1970-01-01 00:00:00.000001964,191141000,364220,4200400,9360,21420,130390,203050,1213200,2514400,472800


## Delete the Total column.

In [15]:
df = df.drop(columns='Total')
df.head()

KeyError: "['Total'] not found in axis"

In [None]:
# 원본 데이터프레임을 직접 수정
# del df['Total']

## Group the year by decades and sum the values.
> Pay attention to the Population column number, summing this column is a mistake.
- 연도를 수십 년 단위로 그룹화하고 값을 합산

In [None]:
# df.index가 DatetimeIndex일 경우, year는 DatetimeIndex 객체의 속성
# Pandas는 DatetimeIndex에 대해 날짜와 관련된 여러 속성(예: year, month, day)을 제공

import pandas as pd

# 예제 DataFrame
df1 = pd.DataFrame({
    'Value': [100, 200, 300],
}, index=pd.to_datetime(['1960-01-01', '1970-01-01', '1080-01-01']))

print(df.index) # DatetimeIndex 객체
print(df.index.year) # 연도 추출

In [16]:
copy = df.resample('10AS').sum()

# 인덱스가 날짜인 경우에만 resample()이 제대로 작동한다.
# 10년 단위로 리샘플링
# 아래 코드에서 resample()이 작동하는 이유는 df['Population']이 아닌 인덱스가 날짜 형식이기 때문
# resample()은 Series나 DataFrame의 인덱스를 기준으로 동작한다.
population = df['Population'].resample('10AS').max()

copy['Population'] = population
df.head()

  copy = df.resample('10AS').sum()
  population = df['Population'].resample('10AS').max()


Unnamed: 0_level_0,Population,Violent,Property,Murder,Forcible_Rape,Robbery,Aggravated_assault,Burglary,Larceny_Theft,Vehicle_Theft
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1970-01-01 00:00:00.000001960,179323175,288460,3095700,9110,17190,107840,154320,912100,1855400,328200
1970-01-01 00:00:00.000001961,182992000,289390,3198600,8740,17220,106670,156760,949600,1913000,336000
1970-01-01 00:00:00.000001962,185771000,301510,3450700,8530,17550,110860,164570,994300,2089600,366800
1970-01-01 00:00:00.000001963,188483000,316970,3792500,8640,17650,116470,174210,1086400,2297800,408300
1970-01-01 00:00:00.000001964,191141000,364220,4200400,9360,21420,130390,203050,1213200,2514400,472800


> Pandas는 DatetimeIndex에 대해 날짜와 관련된 여러 속성(예: year, month, day)을 제공
## resample()
- pandas의 DatetimeIndex 기반 메서드로, 시간 간격을 기준으로 데이터를 다시 샘플링
- 주어진 데이터프레임을 지정된 시간 간격으로 그룹화하고, 지정된 집계 함수(sum, mean, max 등)을 적용

## '10AS'의 의미
- 10년 단위로 재샘플링을 의미
- 10년 단위를 의미하며, S는 시작 연도를 기준으로 그룹화를 의미한다
> 10A: 10년 단위 + S:시작(Starting Point)

## What is the most dangerous decade to live in the US?

In [None]:
df.idxmax()

Unnamed: 0,0
Year,54
Population,54
Violent,32
Property,31
Murder,31
Forcible_Rape,32
Robbery,31
Aggravated_assault,33
Burglary,20
Larceny_Theft,31
