
### **1741. Find Total Time Spent by Each Employee**

```python
import pandas as pd

def total_time(employees: pd.DataFrame) -> pd.DataFrame:
    employees['sub_time'] = employees['out_time']-employees['in_time']
    employees = employees[['event_day','emp_id','sub_time']]
    employees.columns = ['day','emp_id','total_time']
    a = employees.groupby(['day','emp_id']).agg(sum).reset_index()
    return a
```

groupby를 사용하는 문제이다

- **`as_index=False`**와 **`reset_index()`**
    1. GroupBy의 **`as_index=False`:**
        - 팬더에서 GroupBy 작업을 사용할 때 **`as_index=False`**는 팬더가 그룹화 열을 결과 DataFrame의 인덱스로 설정하지 못하도록 설정할 수 있는 매개변수입니다.
        - 예를 들어 **`as_index=False`** 없이 DataFrame을 'A' 열로 그룹화하면 결과 DataFrame의 인덱스는 'A'가 됩니다. **`as_index=False`**를 사용하면 'A'는 결과 DataFrame의 열로 유지되고 DataFrame은 기본 정수 인덱스를 유지합니다.
    2. **`reset_index()`:**
        - **`reset_index()`**는 DataFrame에서 인덱스를 재설정하는 데 사용되는 메서드입니다. DataFrame에 기본이 아닌 인덱스(예: 인덱스 또는 MultiIndex로 설정된 특정 열)가 있는 경우 **`reset_index()`**는 이를 기본 정수 인덱스로 재설정합니다.
        - 이 방법에는 이전 인덱스를 DataFrame의 열로 삽입하거나 완전히 삭제하는 옵션도 있습니다.
    
    요약하면 **`as_index=False`**는 GroupBy 작업 중에 출력 형식을 제어하는 데 사용되는 반면 **`reset_index()`**는 다양한 작업 후에 DataFrame의 인덱스를 기본 정수 인덱스로 재설정하는 데 사용되는 일반적인 방법입니다. 둘 다 DataFrame에 기본 정수 인덱스가 있는지 또는 인덱스로 특정 열이 있는지 여부에 영향을 줄 수 있다는 점에서 유사하지만 DataFrame 조작의 다른 컨텍스트와 단계에서 사용됩니다.
    
    ![Untitled](https://prod-files-secure.s3.us-west-2.amazonaws.com/5b00b930-a7fb-48ca-8d83-95b1692e479d/ce669784-79df-43fc-ac67-a4e2ef0662d6/Untitled.png)
    

### **511. Game Play Analysis I**

```python
import pandas as pd

def game_analysis(activity: pd.DataFrame) -> pd.DataFrame:
    activity.sort_values(by='event_date',inplace=True)
    activity.drop_duplicates(subset='player_id',inplace=True)
    a = activity.rename(columns={'event_date':'first_login'})
    return a[['player_id','first_login']]

----
groupby로 풀기
import pandas as pd

def game_analysis(activity: pd.DataFrame) -> pd.DataFrame:
    df=activity.groupby('player_id')['event_date'].min().reset_index()
    return df.rename(columns={'event_date':'first_login'})
```

1. **`groupby('player_id')`**:
    - 여기서 **`groupby`**는 DataFrame **`activity`**의 메소드입니다. '()'는 이 메소드를 호출하고 인수를 전달하는 데 사용됩니다. 이 경우 'player_id' 인수가 'groupby'에 전달됩니다. 이는 DataFrame이 'player_id' 열의 값을 기반으로 그룹화된다는 의미입니다.
2. **`['event_date']`**:
    - 그룹화 작업 후 **`[]`**를 사용하여 열 인덱싱을 수행합니다. 이는 그룹화된 DataFrame에서 특정 열('event_date')을 선택한다는 의미입니다. DataFrame에 'groupby'를 적용한 다음 열 이름과 함께 '[]'를 사용하면 해당 특정 열에만 계산을 적용할 준비가 된 GroupBy 개체가 생성됩니다.

()와 []의 차이가 뭔지 헷갈렸었다

### **2356. Number of Unique Subjects Taught by Each Teacher**

```python
import pandas as pd

def count_unique_subjects(teacher: pd.DataFrame) -> pd.DataFrame:

    df = teacher.groupby('teacher_id')['subject_id'].nunique().reset_index()
    return df.rename(columns={'subject_id':'cnt'})
```

### **596. Classes More Than 5 Students**

```python
import pandas as pd

def find_classes(courses: pd.DataFrame) -> pd.DataFrame:
    sibal = courses.groupby('class')['student'].count().reset_index()
    
    return sibal[sibal['student']>=5][['class']]
```

### **586. Customer Placing the Largest Number of Orders**

```python
import pandas as pd

def largest_orders(orders: pd.DataFrame) -> pd.DataFrame:
    df = orders.groupby('customer_number').count().reset_index()
    df =  df.sort_values(by='order_number',ascending=False)[['customer_number']]
    return df.head(1)
```

### **1484. Group Sold Products By The Date**

```python
import pandas as pd

def categorize_products(activities: pd.DataFrame) -> pd.DataFrame:
    df = activities.groupby('sell_date')
    result = df.agg(
        num_sold = ('product','nunique'),
        products = ('product',lambda x: ",".join(sorted(set(x))))
    ).reset_index()
    return result.sort_values(by = ['sell_date'])
```

agg사용법

데이터프레임.groupby([컬럼1,컬럼2]).agg({계산하고싶은컬럼명1 : 집계함수 , 계산하고싶은컬럼명2 : 집계함수})

꽤 어려운 문제

### **1693. Daily Leads and Partners**

```python
import pandas as pd

def daily_leads_and_partners(daily_sales: pd.DataFrame) -> pd.DataFrame:
    
    df = daily_sales.groupby(['date_id','make_name']).agg({'lead_id':'nunique','partner_id':'nunique'}).reset_index()
    return df.rename(columns={'lead_id':'unique_leads','partner_id':'unique_partners'})
```