In [36]:
import pandas as pd

data = {
    "Name": [
        "John",
        "Alice",
        "Bob",
        "Eve",
        "Charlie",
    ],
    "Gender": [
        "Male",
        "Female",
        "Male",
        "Female",
        "Male",
    ],
    "Occupation": [
        "Student",
        "Teacher",
        "Doctor",
        "Engineer",
        "Designer",
    ],
    "City": [
        "New York",
        "Los Angeles",
        "Chicago",
        "New York",
        "Los Angeles",
    ],
    "Email": [
        "john@example.com",
        "alice@example.com",
        "bob@domain.com",
        "eve@domain.com",
        "charlie@test.co.kr",
    ],
}

df = pd.DataFrame(data)

In [37]:
# 문자열 처리
# str 접근자 : 문자열 처리를 도와주는 도구
# df["열"].str.메서드()

# 1. 소문자로 변환
df["Gender"] = df["Gender"].str.lower()

# 2. 이메일에서 domain.com 포함한 행만 탐색
# 2-1. 이메일에서 domain.com 포함한 행을 true 반환
domain_contains_index = df["Email"].str.contains("domain.com")


# 2-2. 2-1에서 얻은 데이터로 필터링
print(df.loc[domain_contains_index])

# 2-3. name과 이메일 열만 출력
print(df.loc[domain_contains_index, ["Name", "Email"]])

  Name  Gender Occupation      City           Email
2  Bob    male     Doctor   Chicago  bob@domain.com
3  Eve  female   Engineer  New York  eve@domain.com
  Name           Email
2  Bob  bob@domain.com
3  Eve  eve@domain.com


In [42]:
# email 열을 "@"를 기준으로 하여 분할 str.split()
df["Email"].str.split("@")

# 아이디와 도메인 열을 생성하여 각각 저장
df["Id"] = df["Email"].str.split("@",expand = True)[0]
df

Unnamed: 0,Name,Gender,Occupation,City,Email,Id
0,John,male,Student,New York,john@example.com,john
1,Alice,female,Teacher,Los Angeles,alice@example.com,alice
2,Bob,male,Doctor,Chicago,bob@domain.com,bob
3,Eve,female,Engineer,New York,eve@domain.com,eve
4,Charlie,male,Designer,Los Angeles,charlie@test.co.kr,charlie


In [12]:
# 범주형 자료형 변환
import pandas as pd

df = pd.DataFrame({"등급": ["low", "medium", "high", "low", "high", "medium", "low"]})

In [17]:
# pd.Categorical(values,categories, ordered) 메서드

#데이터 중 어떤 데이터를 범주형으로 변환할건지 정의
#순서형 데이터의 경우 순서도 정의



category_list = ["low","medium","high"]

df["등급"] = pd.Categorical(
    values = df["등급"],
    categories = category_list,
    ordered = True,
)

print(df.sort_values(by="등급"))
print(df["등급"].sort_values)


       등급
0     low
3     low
6     low
1  medium
5  medium
2    high
4    high
<bound method Series.sort_values of 0       low
1    medium
2      high
3       low
4      high
5    medium
6       low
Name: 등급, dtype: category
Categories (3, object): ['low' < 'medium' < 'high']>


In [21]:
import pandas as pd

df = pd.DataFrame({"등급": ["low", "medium", "high", "low", "high", "medium", "low"]})

# 범주 리스트
# 리스트 값 순서대로 범주형 데이터의 순서가 정해집니다.
grade_order = ["low", "medium", "high"]

df["등급"] = pd.Categorical(
    df["등급"],
    categories=grade_order,
    ordered=True,  # 범주형 데이터에 순서 부여
)

#범주형 자료형의 비교(필터링)
#등급이 medium 이상의 행만 출력
print(df[df['등급']>='medium'])

       등급
1  medium
2    high
4    high
5  medium


In [22]:
import pandas as pd

df = pd.DataFrame(
    {
        "등급": ["1", "3", "2", "5", "4", "1", "3", "2", "5", "2", "4"],
    }
)

In [31]:
order_ = ["1","2","3","4","5"]
df["등급"] = pd.Categorical(df["등급"],categories=order_,ordered = True)
print(df)
df[df["등급"]>"3"]

   등급
0   1
1   3
2   2
3   5
4   4
5   1
6   3
7   2
8   5
9   2
10  4


Unnamed: 0,등급
3,5
4,4
8,5
10,4
