In [20]:
import pandas as pd

# 데이터 프레임 생성
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})

In [4]:
# 값(셀) 선택 후 수정
# 행 레이블이 1이고 열이 B인 데이터의 값을 200으로 수정
df.loc[1, "B"] = 200
print(df)

   A    B
0  1    4
1  2  200
2  3    6


In [5]:
# 열 전체의 값을 수정
df["B"] = 100
print(df)

   A    B
0  1  100
1  2  100
2  3  100


In [10]:
# 조건부 수정

# 선택, A열 값이 3인 데이터를 출력
df.loc[df["A"] == 3]

# B열의 데이터를 3으로 수정
df.loc[df["A"] == 3, "A"] = 5

In [25]:
# 레이블 수정
# rename

# df2 = df.rename({"A":"C"},axis=1)
# print(df2)

df3 = df.rename(columns={"A": "D"})
df4 = df.rename(index={1: "A", 2: "B"})
print(df4)

df.rename(index={0: "A"}, inplace=True)

   A  B
0  1  4
A  2  5
B  3  6


In [30]:
df = pd.DataFrame({"A": [1, 2, 3], "B": [4.5, 5.5, 6.4]})

# 'A' 열을 float 변경하기
df["A"] = df["A"].astype(float)

# 'B' 열을 int로 변경하기
df["B"] = df["B"].astype(int)

print(df)

     A  B
0  1.0  4
1  2.0  5
2  3.0  6


In [32]:
# 추가하기
df = pd.DataFrame({"A": [1, 2, 3], "B": [4.5, 5.5, 6.4]})

df.loc[99] = [99, 99]
print(df)

     A     B
0    1   4.5
1    2   5.5
2    3   6.4
99  99  99.0


In [37]:
# 두개의 데이터프레임을 합치는 방법
df = pd.DataFrame({"A": [1, 2, 3], "B": [4.5, 5.5, 6.4]})

new_df = pd.DataFrame(
    {
        "A": [4],
        "B": [7.2],
    }
)

# pd.concat() 메서드
# pd.concat([데이터프레임1,데이터프레임2])

df2 = pd.concat([df, new_df], ignore_index=True)
print(df)
print(df2)

df3 = pd.concat([df, new_df, df2], ignore_index=True)
print(df3)

   A    B
0  1  4.5
1  2  5.5
2  3  6.4
   A    B
0  1  4.5
1  2  5.5
2  3  6.4
3  4  7.2
   A    B
0  1  4.5
1  2  5.5
2  3  6.4
3  4  7.2
4  1  4.5
5  2  5.5
6  3  6.4
7  4  7.2


In [40]:
# 열 추가하기
df = pd.DataFrame({"A": [1, 2, 3], "B": [4.5, 5.5, 6.4]})

df["C"] = 0
print(df)

# 조건을 통한 불린형 값을 가진 열을 추가
df["E"] = df["A"] >= 2
print(df)

   A    B  C
0  1  4.5  0
1  2  5.5  0
2  3  6.4  0
   A    B  C      E
0  1  4.5  0  False
1  2  5.5  0   True
2  3  6.4  0   True


In [42]:
# 열 삭제하기
df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호"],
        "나이": [25, 40, 25, 50, 35, 33],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님"],
    }
)

# 열 삭제, drop(columns=[])
# 행 삭제, drop(index=[])
# inplace 인자가 존재한다

df.drop(columns=["나이", "직업"], inplace=True)

In [None]:
# 행 삭제하기
df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호"],
        "나이": [25, 40, 25, 50, 35, 33],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님"],
    }
)


"""
dropped_df = df.drop(index=[0,1,2])
print(dropped_df)
"""

# 조건부 행 삭제

# 나이가 30미만인 인덱스(행 레이블) 속성 추출
drop_index = df[df["나이"] < 30].index

In [1]:
import pandas as pd

df = pd.DataFrame(
    {
        "이름": ["홍길동", "이순신", "홍길동", "이순신", "강감찬", "안창호", "홍길동"],
        "나이": [25, 40, 25, 50, 35, 33, 25],
        "직업": ["개발자", "선생님", "개발자", "의사", "의사", "선생님", "개발자"],
    }
)

In [3]:
df.duplicated()

df.duplicated(subset=['직업'])

0    False
1    False
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [None]:
new_df = drop_duplicates(inplace = False)

"""
inplace = False, 기존 데이터프레임을 수정하지 않고 새로운 데이터 프레임 반환
ignore_index = True, 삭제 후 새로운 인덱스 번호를 부여"""

"""
keep ; 어떤 중복 데이터를 유지할 것이냐
1. first : 첫번째 데이터만 유지하고 나머지 삭제(기본값)
2. last : 마지막 데이터만 유지하고 나머지 삭제
3. False : 모든 중복데이터를 삭제
"""

In [10]:
# 직업에 대한 중복행을 삭제
# 인덱스 번호는 초기화하고 기존 데이터프레임을 직접 수정하시오

new_=df.drop_duplicates(subset=["직업"],ignore_index=True,inplace=False,keep='first')
print(new_)

    이름  나이   직업
0  홍길동  25  개발자
1  이순신  40  선생님
2  이순신  50   의사
