In [128]:
import pandas as pd

In [129]:
#데이터 프레임 생성
df = pd.DataFrame(
    {
        "A" : [1,2,3],
        "B" : [4,5,6],
    }
)

In [130]:
# 'A' 열의 첫 번째 행 값을 100으로 변경
df.loc[0, "A"] = 100
df

Unnamed: 0,A,B
0,100,4
1,2,5
2,3,6


In [131]:
# 'B' 열의 첫번째 두번째 행을 1로 변경
df.loc[[0,1],"B"] = 1
df

Unnamed: 0,A,B
0,100,1
1,2,1
2,3,6


In [132]:
# 'A' 열의 모든 값을 10으로 변경
df.loc[:,"A"] = 10
df

Unnamed: 0,A,B
0,10,1
1,10,1
2,10,6


In [133]:
#B열의 데이터 중 10보다 작은 데이터를 10으로 수정
#1. 10보다 작은 B열의 데이터를 필터링
condition = df["B"] < 10
condition

0    True
1    True
2    True
Name: B, dtype: bool

In [134]:
#1. 이상치 수정
#이상치란, 키가 평균 173cm 누군가 키가 300cm 누군가 키가 10cm
#2. 값의 통일성을 위해
#지역 열이 있는데 어떤 데이터는 서울, 어떤 데이터는 서울 특별시, 어떤 데이터는 서울시

In [135]:
#열 "A"의 이름을 "가"로 수정
#기존 데이터 프레임을 수정하지 않는다
df = df.rename(columns={"A":"가"})
df

Unnamed: 0,가,B
0,10,1
1,10,1
2,10,6


In [136]:
#행 이름 '0'을 1로 수정
df.rename(index={0: 1})
#행 이름 '1'의 수가 2개
df
#행 이름 '1'을 선택?
df.loc[1]

가    10
B     1
Name: 1, dtype: int64

In [137]:
#데이터 타입을 수정
df = pd.DataFrame({"A" : [1,2,3], "B" : [4.5,5.5,6.4]})

#astype() : 해당 열의 데이터 타입을 변경한다.
df['A'] = df['A'].astype(float) #정수형인 A를 실수형으로 반환
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       3 non-null      float64
dtypes: float64(2)
memory usage: 180.0 bytes


Unnamed: 0,A,B
0,1.0,4.5
1,2.0,5.5
2,3.0,6.4


In [138]:
#행 추가하기
#concat() : 2개 이상의 데이터 프레임을 합치는 함수
#concat([기존 데이터프레임, 새로운 데이터프레임])

df = pd.DataFrame({"A" : [1,2,3], "B" : [4,5,6]})
new_df = pd.DataFrame({"A":[7],"B":[8]})

#ignore_index : 합친 후 행 이름을 초기화한다
df = pd.concat([df, new_df], ignore_index=True)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,7,8


In [139]:
#만약에 존재하지 않는 열에 대해 값을 저장하면?
df["C"] = 10
df

Unnamed: 0,A,B,C
0,1,4,10
1,2,5,10
2,3,6,10
3,7,8,10


In [140]:
#B열의 데이터가 짝수(2로 나눴을때 나머지가 0)라면
df["D"] = df["B"] % 2 ==0
df

Unnamed: 0,A,B,C,D
0,1,4,10,True
1,2,5,10,False
2,3,6,10,True
3,7,8,10,True


In [141]:
import numpy as np

condition = df["B"] % 2 == 0
df["E"] = np.where(condition, "짝수", "홀수")
df

Unnamed: 0,A,B,C,D,E
0,1,4,10,True,짝수
1,2,5,10,False,홀수
2,3,6,10,True,짝수
3,7,8,10,True,짝수


In [142]:
import pandas as pd

data = {
    "이름": [
        "김민수", "이지은", "박철수", "이지은", "김영수", 
        "김민수", "김민수", "정호석", "박현우", "이영희",
        "김민수", "이지은", "박철수", "정호석", "김영수",
        "김민수", "이지은", "박철수", "정호석", "김영수",
    ],
    "나이": [
        25, 30, 22, 30, 40,
        27, 33, 35, 45, 29,
        28, 31, 24, 38, 42,
        25, 30, 22, 35, 40
    ],
    "직업": [
        "학생", "공무원", "학생", "공무원", "회사원",
        "학생", "학생", "연구원", "공무원", "교사",
        "학생", "공무원", "학생", "연구원", "회사원",
        "학생", "공무원", "학생", "연구원", "회사원"
    ],
    "지역": [
        "서울", "부산", "광주", "부산", "대구",
        "서울", "인천", "대구", "부산", "울산",
        "서울", "부산", "광주", "대구", "서울",
        "광주", "부산", "대구", "서울", "인천"
    ],
    "점수": [
        85, 62, 58, 62, 55,
        85, 85, 45, 82, 90,
        85, 62, 58, 45, 55,
        85, 62, 58, 45, 55
    ]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업,지역,점수
0,김민수,25,학생,서울,85
1,이지은,30,공무원,부산,62
2,박철수,22,학생,광주,58
3,이지은,30,공무원,부산,62
4,김영수,40,회사원,대구,55
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
7,정호석,35,연구원,대구,45
8,박현우,45,공무원,부산,82
9,이영희,29,교사,울산,90


In [143]:
#drop() : 데이터 삭제
#drop(columns=[]) : 열삭제
#drop(index=[]) : 행삭제

#열삭제
df.drop(columns=['이름','직업']) #이름, 직업 열 삭제

Unnamed: 0,나이,지역,점수
0,25,서울,85
1,30,부산,62
2,22,광주,58
3,30,부산,62
4,40,대구,55
5,27,서울,85
6,33,인천,85
7,35,대구,45
8,45,부산,82
9,29,울산,90


In [144]:
#행삭제
df.drop(index=[0,1,2]) #0,1,2행 삭제

Unnamed: 0,이름,나이,직업,지역,점수
3,이지은,30,공무원,부산,62
4,김영수,40,회사원,대구,55
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
7,정호석,35,연구원,대구,45
8,박현우,45,공무원,부산,82
9,이영희,29,교사,울산,90
10,김민수,28,학생,서울,85
11,이지은,31,공무원,부산,62
12,박철수,24,학생,광주,58


In [145]:
#점수가 60미만인 행 삭제

#조건식
condition = df["점수"] < 60

#행을 선택(필터링)하고, index만 저장
#drop_index : 삭제할 행 이름(index) 목록이 저장
drop_index = df.loc[condition].index

df.drop(index=drop_index)

Unnamed: 0,이름,나이,직업,지역,점수
0,김민수,25,학생,서울,85
1,이지은,30,공무원,부산,62
3,이지은,30,공무원,부산,62
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
8,박현우,45,공무원,부산,82
9,이영희,29,교사,울산,90
10,김민수,28,학생,서울,85
11,이지은,31,공무원,부산,62
15,김민수,25,학생,광주,85


In [146]:
#duplicated() : 중복 행 확인하기
#첫 번째 등장하는 행은 중복으로 식별되지 않으며, 그 이후에 동일한 행이 나타나면 중복으로 식별
df.duplicated()
df.loc[[1,3,16]]

Unnamed: 0,이름,나이,직업,지역,점수
1,이지은,30,공무원,부산,62
3,이지은,30,공무원,부산,62
16,이지은,30,공무원,부산,62


In [147]:
# keep :  중복 행을 어떻게 식별할지 설정한다.
# keep='first' (기본값) : 첫 번째 등장을 제외한 나머지 중복을 True로 식별한다.
# keep='last' : 마지막 등장을 제외한 나머지 중복을 True로 식별한다.
# keep=False: 모든 중복 행을 True로 식별한다.
df.duplicated(keep="first")

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16     True
17    False
18    False
19    False
dtype: bool

In [148]:
#이름, 직업이 같은 경우 중복 처리
#즉, 일부 열에 대해서만 중복 처리
df.loc[df.duplicated(subset=["이름","직업"])]

Unnamed: 0,이름,나이,직업,지역,점수
3,이지은,30,공무원,부산,62
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
10,김민수,28,학생,서울,85
11,이지은,31,공무원,부산,62
12,박철수,24,학생,광주,58
13,정호석,38,연구원,대구,45
14,김영수,42,회사원,서울,55
15,김민수,25,학생,광주,85
16,이지은,30,공무원,부산,62


In [149]:
#중복 데이터 삭제
#drop_duplicates() : 모든 열이 동일한 중복 데이터를 삭제 
#기존 데이터프레임 삭제x
df.drop_duplicates

#keep인자
df.drop_duplicates(keep="last")

#subset인자 : 열을 선택해서 중복 행 찾음
#이름, 직업, 지역이 중복인 경우 삭제
df.duplicated(subset=["이름","직업","지역"])

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7     False
8     False
9     False
10     True
11     True
12     True
13     True
14    False
15    False
16     True
17    False
18    False
19    False
dtype: bool