In [260]:
import pandas as pd

data = {
    "Name": [
        "John",
        "Alice",
        "Bob",
        "Eve",
        "Charlie",
    ],
    "Gender": [
        "Male",
        "Female",
        "Male",
        "Female",
        "Male",
    ],
    "Occupation": [
        "Student",
        "Teacher",
        "Doctor",
        "Engineer",
        "Designer",
    ],
    "City": [
        "New York",
        "Los Angeles",
        "Chicago",
        "New York",
        "Los Angeles",
    ],
    "Email": [
        "john@example.com",
        "alice@example.com",
        "bob@domain.com",
        "eve@domain.com",
        "charlie@test.co.kr",
    ],
}

df = pd.DataFrame(data)

In [261]:
# 문자열 처리
# str 접근자 : 문자열 처리를 도와주는 도구
# df['열'].str.메서드()

# 1. 소문자로 변환
df["Gender"] = df["Gender"].str.lower()
# 대문자 : upper()

# 이메일에서 domain.com 포함한 행만 탐색
domain_contains_index = df["Email"].str.contains("domain.com")
print(df.loc[domain_contains_index])

# Name과 Email 만 출력
print(df.loc[domain_contains_index, ["Name", "Email"]])

  Name  Gender Occupation      City           Email
2  Bob    male     Doctor   Chicago  bob@domain.com
3  Eve  female   Engineer  New York  eve@domain.com
  Name           Email
2  Bob  bob@domain.com
3  Eve  eve@domain.com


In [262]:
# Email 열을 @ 기준으로 분할 str.split()

# df["Email"] = df["Email"].str.split("@")

# expand=True : 분할 결과를 데이터프레임으로 반환
# @을 기준으로 분할했을 때, 첫 번째 값을 Id 열을 생성해서 저장
df["Id"] = df["Email"].str.split("@", expand=True)[0]

# @을 기준으로 분할했을 때, 두 번째 값을 Domain 열을 생성해서 저장
df['Domain'] = df['Email'].str.split("@", expand=True)[1]

print(df)

      Name  Gender Occupation         City               Email       Id  \
0     John    male    Student     New York    john@example.com     john   
1    Alice  female    Teacher  Los Angeles   alice@example.com    alice   
2      Bob    male     Doctor      Chicago      bob@domain.com      bob   
3      Eve  female   Engineer     New York      eve@domain.com      eve   
4  Charlie    male   Designer  Los Angeles  charlie@test.co.kr  charlie   

        Domain  
0  example.com  
1  example.com  
2   domain.com  
3   domain.com  
4   test.co.kr  


In [263]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": [
            "low",
            "medium",
            "high",
            "low",
            "high",
            "medium",
            "low",
        ]
    }
)

In [264]:
# pd.Categorical(value, categories, ordered) 메서드

# 데이터 중 어떤 데이터를 범주형(category)으로 변환할건지 정의
# 순서형 데이터의 경우 순서도 정의
category_list = ["low", "medium", "high"]

df["등급"] = pd.Categorical(
    values=df["등급"],
    categories=category_list,
    ordered=True,  # 순서 부여
)

sorted_grade = df["등급"].sort_values()
print(sorted_grade)

0       low
3       low
6       low
1    medium
5    medium
2      high
4      high
Name: 등급, dtype: category
Categories (3, object): ['low' < 'medium' < 'high']


In [265]:
# pd.Categorical(value, categories, ordered) 메서드

# 데이터 중 어떤 데이터를 범주형(category)으로 변환할건지 정의
# 순서형 데이터의 경우 순서도 정의
category_list = ["low", "medium", "high"]

df["등급"] = pd.Categorical(
    values=df["등급"],
    categories=category_list,
    ordered=True,  # 순서 부여
)

# 범주형 자료형의 비교(필터링)
# medium 이상의 행만 출력

print(df[df["등급"] >= "medium"])

       등급
1  medium
2    high
4    high
5  medium


In [266]:
category_list = [
    "low",
    "medium",
]  # high를 지우면 low, medeum에 대해서만 범주형 자료로 사용하겠다는 뜻 : high = 결측치 처리

df["등급"] = pd.Categorical(
    values=df["등급"],
    categories=category_list,
    ordered=True,  # 순서 부여
)

sorted_grade = df["등급"].sort_values()
print(sorted_grade)

0       low
3       low
6       low
1    medium
5    medium
2       NaN
4       NaN
Name: 등급, dtype: category
Categories (2, object): ['low' < 'medium']


In [267]:
category_list = ["low", "high", "medium"]  # 적는 순서에 따라 우선순위가 달라짐

df["등급"] = pd.Categorical(
    values=df["등급"],
    categories=category_list,
    ordered=True,  # 순서 부여
)

sorted_grade = df["등급"].sort_values()
print(sorted_grade)

0       low
3       low
6       low
1    medium
5    medium
2       NaN
4       NaN
Name: 등급, dtype: category
Categories (3, object): ['low' < 'high' < 'medium']


In [268]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": ["1", "3", "2", "5", "4", "1", "3", "2", "5", "2", "4"],
    }
)



In [269]:
# 순서가 1 > 2 > 3 > 4 > 5인 범주형 데이터로 변환하세요.
category_list = ['5','4','3','2','1']

df["등급"] = pd.Categorical(
    values=df["등급"],
    categories=category_list,
    ordered=True,  # 순서 부여
)

In [270]:
# 3보다 큰 데이터(행)만 출력

print(df[df['등급'] > "3"])

  등급
0  1
2  2
5  1
7  2
9  2
