In [None]:
total = df.groupby('item_name').sum()

df['item_price'] = df['item_price'].str.replace('$', '')
df['item_price'] = df['item_price'].astype(float)

# **.str.replace().astype()**

In [None]:
# lambda function
change_type = lambda x: x[1:-1]
change_type_price = df['item_price'].apply(change_type)

# **lambda x: x[1:-1]**
### **df.groupby('A')['B'].apply(lambda x: x.sum())**
# **apply()**

In [None]:
df.shape

# **중복된 행 제거 drop_duplicates([])**

In [None]:
df_filtered = df.drop_duplicates(['item_name', 'quantity', 'choice_description'])

# Select rows with quantity == 1
df_one_product = df_filtered[df_filtered['quantity'] == 1]

# Count unique products costing more than $10
num_expensive_products = df_one_product[df_one_product['item_price'] > 10]['item_name'].nunique()
print(num_expensive_products)


# **drop(columns=[])**

In [1]:
per_price = per_price.drop(columns = ['order_id', 'quantity'])

per_price.sort_values(by='item_price', ascending=False)

NameError: name 'per_price' is not defined

# **set_index()**

# 기존 데이터프레임 직접 수정 inplace=True
df.set_index('origin', inplace=True) 

# **isin()**

In [None]:
# Select the 'deaths', 'size' and 'deseters' columns from Maine and Alaska
df.loc[df['origin'].isin(['Maine', 'Alaska']), []]

In [None]:
# Select rows where df.deahs is greater than 500 or less than 50
df.loc[(df['deaths'] > 500) | (df['deaths'] < 50), :]

# **str.startswith()**

In [None]:
# Select the teams that start with G
G_country = df[df['Team'].str.startswith('G')]
G_country

# **.agg(['mean', 'min', 'max])**

In [None]:
# Print the mean, min and max values for spirit consumption.
df.groupby('continent')['spirit_servings'].agg(['max', 'min', 'mean'])

In [None]:
# Discover what is the mean age per occupation
age_per = df.groupby('occupation')['age'].mean()
age_per

# **map(): 특정 값에 대해 1:1 매핑을 제공하여 데이터를 변환**

In [None]:
# Discover the Male ratio per occupation and sort it from the most to the least
df['gender_to_number'] = df['gender'].map({'M':1, 'F':0})

male = df.groupby('occupation')['gender_to_number'].sum() / df['occupation'].value_counts() * 100
male.sort_values(ascending=False)

# **pd.DataFrame({'occupation':male_raito.index, 'male':male_ratio, 'female':female_ratio)**

In [None]:
# For each occupation present the percentage of women and men (Ratio!!!)

male_count = df[df['gender_to_number'] == 1].groupby('occupation')['gender_to_number'].sum()
female_count = df[df['gender_to_number'] == 0].groupby('occupation')['gender_to_number'].sum()

total_count = df.groupby('occupation').size()

male_ratio = (male_count / total_count) * 100
female_ratio = (female_count / total_count) * 100

result = pd.DataFrame({'occupation': male_ratio.index, 
                      'male': male_ratio,
                      'female':female_ratio})
result

# **unstack(): 계층적 데이터를 평면 구조로 변환**

In [None]:
# Present the mean preTestScore grouped by regiment and company without heirarchical indexing

df.groupby(['regiment', 'company'])['preTestScore'].mean().unstack()

# **size() vs value_counts()**
- values_counts(): 고유값 별 개수 세기 => 결측치(NaN) 제외하고 계산
- size(): 데이터의 전체 크기(개수) 반환 => 결측치(NaN) 제외하지 않음

In [None]:
# What is the number of the observations in each regiment and company
# 각 연대 및 중대별 관측 횟수는 얼마입니까?

regiment_counts = df.groupby('regiment').size() # 데이터별 관측치 수 구하기 size()
company_counts = df.groupby('company').size()

print(regiment_counts)
print()
print(company_counts)

print(df.groupby('regiment').value_counts())

# 한 번에 그룹화
grouped_counts = df.groupby(['regiment', 'company']).size()
print(grouped_counts)

# **pd.to_datetime(df['Year'], format='%Y')**

In [None]:
# Convert the type of the column Year to datetime64
df['Year'] = pd.to_datetime(df['Year'], format = '%Y')
df['Year'].head()

# **resample(): 시간 간격을 기준으로 데이터를 다시 샘플링**
## **'10AS'의 의미**
- 10년 단위로 재샘플링
- 10년 단위를 의미하며, S는 시작 연도를 기준으로 그룹화

### **10A: 10년 단위 + S: 시작(Starting point)**


In [None]:
# Group the year by decades and sum the values
# 연도를 수십 년 단위로 그룹화하고 값을 합산합니다.

df = df.resample('10AS').sum()

population = df['Population'].resample('10AS').max()

df['Population'] = population
df.head()

In [None]:
df['Decade'] = (df.index.year // 10) * 10
# year는 항상 소문자로 작성해야 합니다. 이는 Pandas가 제공하는 DatetimeIndex 속성이기 때문

df = df.groupby('Decade').agg({
    'Population': 'max',  # Population은 최댓값 사용
    'Violent': 'sum',     # 나머지는 합계
    'Property': 'sum',
    'Murder': 'sum',
    'Forcible_Rape': 'sum',
    'Robbery': 'sum',
    'Aggravated_assault': 'sum',
    'Burglary': 'sum',
    'Larceny_Theft': 'sum',
    'Vehicle_Theft': 'sum'
})


# **idxmax()**

In [None]:
# What is the most dangerous decade to live in the US?
most = df.idxmax()
most

# **merge(): 공통 열 또는 인덱스를 기준으로 결합**

In [None]:
# Merge all_data and data3 along the subject_id value
# subject_id 값을 따라 all_data와 data3를 병합

pd.merge(all_data, df3, on = 'subject_id')

data = pd.merge(df1, df2, on='subject_id', how = 'inner')

data_all = pd.merge(df1, df2, on = 'subject_id', how = 'outer')

# **apply() vs agg()의 차이**
- apply(): 단일 함수를 데이터의 각 행, 열 또는 그룹에 적용 (커스텀 함수를 적용할 때 유용)
## grouped = df.groupby('A')['B'].apply(lambda x: x.sum())
- agg(): 데이터의 집계(aggregation)를 수행할 때 사용 (하나의 열에 여러 함수를 동시 적용)
## grouped = df.groupby('A')['B'].agg(['sum', 'mean'])

# **apply() vs applymap()의 차이**
- 
apply(): 데이터프레임의 열 또는 행에 대해 를 적용
- 용
applymap(): 데이터프레임의 모든 개별 요소에 대해 함수를 적용

In [None]:
df.applymap(mul10).head()

# **np.random.randint(start, high=1000, size=100, dtype='l')**

In [None]:
cars['owner'] = np.random.randint(15000, high=73000, size=398, dtype='l')
cars['owner']

In [None]:
df1 = pd.Series(np.random.randint(1, high=4, size=100, dtype='l'))
df2 = pd.Series(np.random.randint(1, high=3, size=100, dtype='l'))
df3 = pd.Series(np.random.randint(10000, high=30001, size=100, dtype='l')) 

# **pd.concat(): axis로 수평 결합(axis=1) 또는 수직 결합(axis=0) 모두 가능**

# **reset_index() vs set_index()의 차이**
- **reset_index()**: 현재의 인덱스를 데이터프레임의 열로 변환하고, 인덱스 초기화
- > **df.reset_index(drop=False, inplace=False)**
  > - drop=False: 기존 인덱스를 열로 남길지 여부 (True로 설정하면 인덱스 삭제)
  > - inplace=True: 원본 데이터프레임을 직접 변경.
- **set_index()**: 데이터프레임의 특정 열을 새로운 인덱스로 설정
- > **df.set_index(keys, drop=True, inplace=False)**
  > - keys: 인덱스로 사용할 열 이름
  > - drop=True: 지정한 열을 데이터프레임에서 삭제할지 여부
  > - inplace=True: 원본 데이터프레임을 직접 변경

# **to_frame() 메서드**

In [None]:
bigcolumn = bigcolumn.to_frame()
print(type(bigcolumn))

bigcolumn

# **drop = True**
### - 기존 인덱스를 **완전히 제거**하고 새로운 기본 숫자형 인덱스 생성
# **drop = False(기본값)**
### - 기존 인덱스를 데이터프레임의 열로 변환한 뒤, 새로운 숫자형 인덱스 생성

# **특정 컬럼을 선택해도 데이터프레임 형태로 유지하려면 이중 대괄호[['ColumnName']]을 사용해라.**

In [None]:
# What is the median name occurence?
median_names = names[names['Count'] == names['Count'].median()][['Count']]
median_names

# 특정 컬럼을 선택해도 데이터프레임 형태로 유지하려면 이중 대괄호[['ColumnName']]을 사용해라. 

# **.plot(kind='bar')**

In [None]:
top_5.plot(kind='bar')

plt.xlabel('items')
plt.ylabel('Number of Times Ordered')
plt.title('Most Ordered Chipole\'s Items')

plt.show()

# **plt.scatter(x, y, s(size), c(color))**

In [None]:
# Create a scatterplot with the number of items ordered per order price
# 주문 가격당 주문한 품목 수로 분산형 차트를 만듭니다.

# 가격과 수량을 그룹화하여 합계 계산
prices = df.groupby('order_id').sum()

# Scatter plot 그리기: x축은 'item_price', y축은 'quantity'
plt.scatter(x=prices['item_price'], y=prices['quantity'], s=50, c='green')

# 레이블과 제목 설정
plt.xlabel('Order Price')
plt.ylabel('Items ordered')
plt.title('Number of items ordered per order price')

plt.show()


In [None]:
# Add another column called place, and insert what you have in mind.
df['place'] = ['park','street','lake','forest']

df.head()

# **resample()**
### **시간 축 기반 데이터(DatetimeIndex)를 특정 간격으로 그룹화하여 집계하거나 변환할 때 사용**

In [None]:
# Get the last business day of each month
df_month = df.resample('BM').mean() # business month end
df_month.head()

In [None]:
# now we have the montly data. Now change the frequency to year.
year = monthly.resample('AS-JAN').sum() # AS(Annual Start)
year

# **.dropna(): 결측치 제거**
# **.fillna(): 결측값을 특정 값으로 대체**

In [None]:
monthly = monthly.dropna()
monthly