177. Nth Highest Salary

In [None]:
import pandas as pd

def nth_highest_salary(employee: pd.DataFrame, N: int) -> pd.DataFrame:
    employee.sort_values(by='salary',ascending=False,inplace=True)
    employee.drop_duplicates(subset='salary',inplace=True)
    a = employee['salary'].count()
    if N <= a and N>0 :
        x = employee.iloc[N-1]['salary']
    else :
        x = None
    return pd.DataFrame({'getNthHighestSalary(%d)'%N:[x]})

## None과 null의 차이가 뭐지
- 문제들을 풀며 null 값을 출력해야 할 때가 종종 있는데 문자 그대로 null 값을 입력하면 틀리고 None을 써야한다. 이 둘의 차이점이 뭔가.
    1. **`없음`**:
        - 'None'은 Python의 특수 상수입니다. 이는 싱글톤입니다. 즉, Python 런타임에 인스턴스가 하나만 있다는 의미입니다.
        - '아무것도 없다', '여기에는 가치가 없다'라는 뜻으로 사용됩니다. 일반적으로 값이 없거나 기본 상태가 없음을 나타내는 데 사용됩니다.
        - '없음'은 함수 인수, 반환 문, 변수 할당에 특정 값이 없음을 나타내기 위해 자주 사용됩니다.
        - 자체 데이터 유형 **`NoneType`**의 객체입니다.
        - 조건문에서는 'None'이 False로 처리됩니다.
        
        예:
        
        ```python
        pythonCopy code
        def function_that_returns_nothing():
            return None
        
        result = function_that_returns_nothing()
        if result is None:
            print("Received no result")
        
        ```
        
    2. **`널`**:
        - **`null`**은 기본 Python 개념이 아닙니다. 이는 JavaScript, Java, C# 및 SQL과 같은 다른 많은 프로그래밍 언어에서 null 또는 '값 없음' 상태를 나타내는 데 사용됩니다.
        - Python에서 **`null`**을 사용하려고 하면 이전에 **`null`**을 변수로 정의하지 않은 한 **`NameError`**가 발생합니다.
        
        예:
        
        ```python
        pythonCopy code
        # This will raise an error in Python
        value = null
        
        ```
        
    
    Python으로 작업할 때 항상 **`None`**을 사용하여 값이 없음을 나타냅니다. **`null`**을 사용하면 명시적으로 정의되지 않는 한 오류가 발생합니다. 이는 Python 프로그래밍에서 일반적이거나 권장되는 관행이 아닙니다. 대조적으로, 'null'이 정의된 개념인 데이터베이스나 언어 작업과 같은 맥락에서는 해당 시스템이나 언어의 관례에 따라 사용됩니다.
    
    ### 데이터프레임의 인덱스를 지정하지 않고 새로운 데이터프레임을 만들고싶다

```python

import pandas as pd

df = pd.DataFrame({'A': [1], 'B': [2]})
```

이 예에서는 각 스칼라 값 '1'과 '2'가 목록 안에 배치, 결과적으로 Pandas는 DataFrame에 하나의 행이 있어야 한다는 것을 이해하고 이 행에 자동으로 인덱스를 할당한다 ⇒ **리스트 사용**

176. Second Highest Salary

In [None]:
import pandas as pd

def second_highest_salary(employee: pd.DataFrame) -> pd.DataFrame:
    employee.sort_values(by='salary',ascending=False,inplace=True)
    employee.drop_duplicates(subset='salary',inplace=True)
    if len(employee['id']) >= 2 :
        h = employee.iloc[1]['salary']
    else :
        h = None    
    return pd.DataFrame({'SecondHighestSalary':[h]})/
# 좋은 풀이
import pandas as pd

def second_highest_salary(employee: pd.DataFrame) -> pd.DataFrame:
    if employee.salary.nunique() <= 1:
        rslt = None
    else:
        rslt = employee[['salary']].drop_duplicates().sort_values(['salary'], ascending=False, ignore_index=True).loc[1, 'salary']

    return pd.DataFrame([rslt], columns = ['SecondHighestSalary'])

[DataFrame 개수](https://9566.tistory.com/46)
184. Department Highest Salary

In [None]:
import pandas as pd

def department_highest_salary(employee: pd.DataFrame, department: pd.DataFrame) -> pd.DataFrame:
    if employee.empty or department.empty:
        return pd.DataFrame(columns=['Department','Employee', 'Salary'])
    
    # Merge the employee and department DataFrames on 'departmentId' and 'id' columns
    merged_df = employee.merge(department, left_on='departmentId', right_on='id', suffixes=('_employee', '_department'))
    
    # Use groupby to group data by 'departmentId' and apply a lambda function to get employees with highest salary in each group
    highest_salary_df = merged_df.groupby('departmentId').apply(lambda x: x[x['salary'] == x['salary'].max()])
    
    # Drop the duplicate 'departmentId' column and reset the index
    highest_salary_df = highest_salary_df.reset_index(drop=True)
    
    # Select the required columns and return the result
    result_df = highest_salary_df[['name_department', 'name_employee', 'salary']]
    
    # Rename the columns as specified
    result_df.columns = ['Department','Employee', 'Salary']
    
    return result_df

가장 어려웠던 문제 중 하나 merge와 groupby가 함께 쓰이고 생소한 함수들도 많이 쓰인다

reset_index(drop=True)

[[데이터분석] 데이터프레임 : 정렬 후 인덱스 재정렬 하기 - reset_index(drop = True)](https://www.dinolabs.ai/110)

### **178. Rank Scores**

[[파이썬 pandas] 데이터의 순위를 구하는 rank() 함수](https://hogni.tistory.com/48)

In [None]:
import pandas as pd
# 내림차순, 동일하면 같은 랭킹, 그다음은 다음 숫자여야한다
def order_scores(scores: pd.DataFrame) -> pd.DataFrame:
    scores_2 = scores[['score']].copy()
    scores_2 = scores_2.sort_values(by=['score'],ascending=False)
    scores_2['rank'] = scores_2['score'].rank(method='dense',ascending=False)
    return scores_2

196. Delete Duplicate Emails
drop_duplicates를 쓰는 단순한 문제

In [None]:
import pandas as pd

def delete_duplicate_emails(person: pd.DataFrame) -> None:
    person.sort_values(by='id',inplace = True)
    person.drop_duplicates(subset ='email',inplace=True)

1795. Rearrange Products Table
melt와 dropna가 처음 나왔다 그러나 사용 방법이 어렵지는 않다

melt와 merge가 혼동될 수 도 있을 것 같다

[09-11. 피벗해제 (melt)](https://wikidocs.net/154170)

[[Python pandas] 결측값 있는 행 제거, 결측값 있는 행 제거 : dropna(axis=0), dropna(axis=1)](https://rfriend.tistory.com/263)

In [None]:
def rearrange_products_table(products: pd.DataFrame) -> pd.DataFrame:
    rep = products.melt(id_vars='product_id',value_vars=['store1','store2','store3'],var_name='store',value_name='price')
    rep=rep.dropna(axis=0)
    return rep

1907. Count Salary Categories
len과 loc을 잘 활용해야한다

In [None]:
import pandas as pd

def count_salary_categories(accounts: pd.DataFrame) -> pd.DataFrame:
    salary = pd.DataFrame({'category': ['High Salary', 'Low Salary','Average Salary' ],
                           'accounts_count': [0, 0, 0]})
	salary.loc[0, 'accounts_count'] = len(accounts[accounts['income'] > 50000])
    salary.loc[1, 'accounts_count'] = len(accounts[accounts['income'] < 20000])
    salary.loc[2, 'accounts_count'] = len(accounts[(accounts['income'] >= 20000) & (accounts['income'] <= 50000)])
    
    return salary