In [3]:
import pandas as pd

# 데이터 프레임 생성
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})

In [4]:
# 값(셀) 선택 후 수정
# 행 레이블 1, 열 B의 데이터의 값을 200 수정
df.loc[1, "B"] = 200
print(df)

   A    B
0  1    4
1  2  200
2  3    6


In [5]:
# 열 전체의 값을 수정
df["B"] = 100
print(df)

   A    B
0  1  100
1  2  100
2  3  100


In [6]:
# 조건부 수정

# 선택, A 열 값이 3인 데이터를 출력
print(df.loc[df["A"] == 3])

# A열 값이 3인 A열의 데이터를 5로 수정
df.loc[df["A"] == 3, "A"] = 5
print(df)

   A    B
2  3  100
   A    B
0  1  100
1  2  100
2  5  100


In [7]:
# 레이블(라벨) 수정
# rename()

# A -> C
# axis = 1 -> 열 레이블 수정을 의미(axis = 0 : 행 레이블)
df2 = df.rename({"A": "C"}, axis=1)
print(df2)
# A -> C
# B -> D
df3 = df.rename(
    columns={"A": "C", "B": "D"}
)  # 그냥 이렇게 columns를 써서 하는게 더 직관적
# columns = {기존 열 레이블 : 수정할 열 레이블}

print(df3)

# 행 레이블 인자 index = {기존 행 레이블 : 수정할 행 레이블}

df4 = df.rename(index={1: "B", 2: "C"})
print(df4)

# 원래는 rename은 수정이 된 새로운 데이터프레임을 만들어 낸다. 원래 데이터를 수정하려면
# inplace = True : 원본 데이터프레임을 수정함
df.rename(index={0: "A"}, inplace=True)  # inplace = True : 원본 데이터프레임을 수정함

print(df)

   C    B
0  1  100
1  2  100
2  5  100
   C    D
0  1  100
1  2  100
2  5  100
   A    B
0  1  100
B  2  100
C  5  100
   A    B
A  1  100
1  2  100
2  5  100


In [8]:
# 열 자료형 수정

df = pd.DataFrame(
    {
        "A": [1, 2, 3],
        "B": [4.5, 5.5, 6.4],
    }
)

print(df["A"].astype(float))
# print(df)

# 자료형을 수정만 해주는 메서드
df["A"] = df["A"].astype(float)
df["B"] = df["B"].astype(int)
print(df)

0    1.0
1    2.0
2    3.0
Name: A, dtype: float64
     A  B
0  1.0  4
1  2.0  5
2  3.0  6


In [9]:
# 추가하기

df = pd.DataFrame(
    {
        "A": [1, 2, 3],
        "B": [4.5, 5.5, 6.4],
    }
)

# loc를 활용해서 행 레이블을 직접 입력
df.loc[99] = [99, 99]
print(df)

     A     B
0    1   4.5
1    2   5.5
2    3   6.4
99  99  99.0


In [10]:
# 2개의 데이터프레임을 합치는 방법

# 행 레이블(인덱스) 초기화 시킴

new_df = pd.DataFrame(
    {
        "A": [4],
        "B": [7.2],
    }
)

# pd.concat() 메서드
# pc.concat([데이터프레임1, 데이터프레임2])
# 새로운 데이터프레임을 생성해서 반환
# ignore_index = True : 새로운 데이터프레임을 만들 때 행 레이블(인덱스) 초기화 시킴

df2 = pd.concat([df, new_df], ignore_index=True)

print(df2)

df3 = pd.concat([df, new_df, df2], ignore_index=True)
print(df3)

    A     B
0   1   4.5
1   2   5.5
2   3   6.4
3  99  99.0
4   4   7.2
    A     B
0   1   4.5
1   2   5.5
2   3   6.4
3  99  99.0
4   4   7.2
5   1   4.5
6   2   5.5
7   3   6.4
8  99  99.0
9   4   7.2


In [11]:
# 열 추가하기

new_df = pd.DataFrame(
    {
        "A": [4],
        "B": [7.2],
    }
)

df["C"] = 0

print(df)

# 조건을 통한 불린형 값을 가진 열을 추가
df["E"] = df["A"] >= 2
print(df)

     A     B  C
0    1   4.5  0
1    2   5.5  0
2    3   6.4  0
99  99  99.0  0
     A     B  C      E
0    1   4.5  0  False
1    2   5.5  0   True
2    3   6.4  0   True
99  99  99.0  0   True


In [12]:
# 열 삭제하기

df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호"],
        "나이": [25, 40, 25, 50, 35, 33],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님"],
    }
)

# 열 삭제 : drop(columns = [])
# 행 삭제 : drop(index = [])
# inplace 인자가 존재한다. (원본 수정 유무)

df.drop(columns=["나이", "직업"], inplace=True)  # 나이와 직업 열 사라짐, 원본을 수정함
print(df)

    이름
0  홍길동
1  이순신
2  홍길동
3  이순신
4  강감찬
5  안창호


In [14]:
df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호"],
        "나이": [25, 40, 25, 50, 35, 33],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님"],
    }
)

print(df)
dropped_df = df.drop(index=[0, 1, 2])
print(dropped_df)

# 조건부 행 삭제

# 나이가 30 미만인 인덱스(행 레이블) 속성 추출

df[df["나이"] < 30].index  # 0,2번이 나이가 30 미만이다.

# 해당 인덱스(행 레이블) 삭제
dropped_df = df.drop(index=df[df["나이"] < 30].index)

print(dropped_df)

    이름  나이   직업
0  홍길동  25  개발자
1  이순신  40  선생님
2  홍길동  25  개발자
3  이순신  50   의사
4  강감찬  35   의사
5  안창호  33  선생님
    이름  나이   직업
3  이순신  50   의사
4  강감찬  35   의사
5  안창호  33  선생님
    이름  나이   직업
1  이순신  40  선생님
3  이순신  50   의사
4  강감찬  35   의사
5  안창호  33  선생님


In [15]:
import pandas as pd

df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호", "홍길동"],
        "나이": [25, 40, 25, 50, 35, 33, 25],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님", "개발자"],
    }
)

In [19]:
# 중복행 찾기
print(df.duplicated())

# 특정 열에 대한 중복행 찾기
print(df.duplicated(subset=["이름", "직업"]))

0    False
1    False
2     True
3    False
4    False
5    False
6     True
dtype: bool
0    False
1    False
2     True
3    False
4    False
5    False
6     True
dtype: bool


In [24]:
# 중복 행 삭제
# drop_duplicates()

new_df = df.drop_duplicates(inplace=False, ignore_index=True)
print(new_df)

"""
inplace = False : 기존 데이터프레임 수정하지 않고, 새로운 데이터프레임 반환
ignore_index = True : 삭제 후 새로운 인덱스 번호를 부여
"""

    이름  나이   직업
0  홍길동  25  개발자
1  이순신  40  선생님
2  이순신  50   의사
3  강감찬  35   의사
4  안창호  33  선생님


'\ninplace = False : 기존 데이터프레임 수정하지 않고, 새로운 데이터프레임 반환\nignore_index = True : 삭제 후 새로운 인덱스 번호를 부여\n'

In [33]:
# 직업에 대한 중복행을 삭제하세요.
# 인덱스 번호는 초기화하고, 기존 데이터프레임을 직접 수정하세요.

df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호", "홍길동"],
        "나이": [25, 40, 25, 50, 35, 33, 25],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님", "개발자"],
    }
)

df.drop_duplicates(
    subset=["직업"],
    ignore_index=True,
    inplace=True,
)

'''
keep : 어떤 중복 데이터를 유지할 것이냐?
1. first : 첫 번째 데이터를 유지하고 나머지 삭제(기본값)
2. last : 마지막 데잍만 유지하고 나머지 삭제
3. False : 모든 중복 데이터를 삭제
'''

print(df)

    이름  나이   직업
0  홍길동  25  개발자
1  이순신  40  선생님
2  이순신  50   의사
