In [2]:
import pandas as pd
import requests 

In [12]:
# 데이터 프레임 생성
df = pd.DataFrame(
    {
        "A": [1, 2, 3],
        "B": [4, 5, 6],
    }
)

# 'A' 열의 첫 번째 행 값을 0으로 변경
df.loc[0, "A"] = 0
df

Unnamed: 0,A,B
0,0,4
1,2,5
2,3,6


In [13]:
# 행 이름이 0, 1의 B열 데이터 수정 
df.loc[[0,1],'B'] = 1
df

Unnamed: 0,A,B
0,0,1
1,2,1
2,3,6


In [14]:
df.loc[[0,1],'B'] = [10, 20]
df

Unnamed: 0,A,B
0,0,10
1,2,20
2,3,6


In [15]:
# A열의 데이터를 모두 10으로 수정
df['A'] = 10 # df[:,'A'] = 10
df

Unnamed: 0,A,B
0,10,10
1,10,20
2,10,6


In [17]:
# B열의 데이터 중 10보다 작은 데이터를 10으로 수정
# 1. 10보다 작은 B열의 데이터를 필터링 
condition = df['B'] < 10 
condition
# 2. 필터링한 후 값 수정 
df.loc[condition, 'B'] = 10
df

Unnamed: 0,A,B
0,10,10
1,10,20
2,10,10


In [None]:
# 1. 이상치를 수정
# 2. 값의 통일성을 위해 

In [19]:
# 열 'A"이름을 '가'로 수정
df = df.rename(columns={'A':'가'})
df

Unnamed: 0,가,B
0,10,10
1,10,20
2,10,10


In [21]:
# 행 이름 0을 1 로 수정 
df = df.rename(index={0:1})
# 행 이름 '1'의 수가 2개 
df
# 행 이름 '1'을 선택 
df.loc[1]

Unnamed: 0,가,B
1,10,10
1,10,20


In [23]:
# 데이터 타입을 수정 
df = pd.DataFrame({"A": [1, 2, 3], "B": [4.5, 5.5, 6.4]})

# astype()
# 기존 데이터프레임을 수정하지 않는다.
# 'A' 열을 float 변경하기
df["A"] = df["A"].astype(float)

# 'B' 열을 int로 변경하기
df["B"] = df["B"].astype(int)
df

Unnamed: 0,A,B
0,1.0,4
1,2.0,5
2,3.0,6


In [25]:
# 행 추가하기
# concat() : 2개 이상의 데이터프레임을 합치는 함수 
df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
new_df = pd.DataFrame({"A": [7], "B": [8]})

# concat을 사용해서 두 데이터프레임 합치기
df = pd.concat([df, new_df], ignore_index=True)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,7,8


In [27]:
# 만약에 존재하지않는 열에 대해 값을 저장하면
# 새로운 열을 생성하고, 값을 저장 
df["C"] = 10
df

Unnamed: 0,A,B,C
0,1,4,10
1,2,5,10
2,3,6,10
3,7,8,10


In [30]:
# B열의 데이터가 짝수라면
condition = df["B"] % 2 == 0
df["D"] = condition
df

Unnamed: 0,A,B,C,D
0,1,4,10,True
1,2,5,10,False
2,3,6,10,True
3,7,8,10,True


In [34]:
import numpy as np
condition = df["B"] % 2 == 0
df["E"] =np.where(condition, "짝수","홀수")


In [35]:
df

Unnamed: 0,A,B,C,D,E
0,1,4,10,True,짝수
1,2,5,10,False,홀수
2,3,6,10,True,짝수
3,7,8,10,True,짝수


In [36]:
import pandas as pd

data = {
    "이름": [
        "김민수", "이지은", "박철수", "이지은", "김영수", 
        "김민수", "김민수", "정호석", "박현우", "이영희",
        "김민수", "이지은", "박철수", "정호석", "김영수",
        "김민수", "이지은", "박철수", "정호석", "김영수",
    ],
    "나이": [
        25, 30, 22, 30, 40,
        27, 33, 35, 45, 29,
        28, 31, 24, 38, 42,
        25, 30, 22, 35, 40
    ],
    "직업": [
        "학생", "공무원", "학생", "공무원", "회사원",
        "학생", "학생", "연구원", "공무원", "교사",
        "학생", "공무원", "학생", "연구원", "회사원",
        "학생", "공무원", "학생", "연구원", "회사원"
    ],
    "지역": [
        "서울", "부산", "광주", "부산", "대구",
        "서울", "인천", "대구", "부산", "울산",
        "서울", "부산", "광주", "대구", "서울",
        "광주", "부산", "대구", "서울", "인천"
    ],
    "점수": [
        85, 62, 58, 62, 55,
        85, 85, 45, 82, 90,
        85, 62, 58, 45, 55,
        85, 62, 58, 45, 55
    ]
}
df = pd.DataFrame(data)

In [38]:
# drop()
# drop(columns=[]) 열 삭제
# drop(index=[]) 행 삭제

# 열 삭제
df.drop(columns=["이름","직업"])

Unnamed: 0,나이,지역,점수
0,25,서울,85
1,30,부산,62
2,22,광주,58
3,30,부산,62
4,40,대구,55
5,27,서울,85
6,33,인천,85
7,35,대구,45
8,45,부산,82
9,29,울산,90


In [41]:
# 행 삭제
# 점수가 60 미만인 행을 삭제 
# 조건식
condition = df['점수'] < 60 

# 행을 선택 (필터링)
# drop_index : 삭제할 행 이름(index) 목록이 저장
drop_index = df.loc[condition].index

df.drop(index=drop_index)

Unnamed: 0,이름,나이,직업,지역,점수
0,김민수,25,학생,서울,85
1,이지은,30,공무원,부산,62
3,이지은,30,공무원,부산,62
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
8,박현우,45,공무원,부산,82
9,이영희,29,교사,울산,90
10,김민수,28,학생,서울,85
11,이지은,31,공무원,부산,62
15,김민수,25,학생,광주,85


In [43]:
df.duplicated()
df.loc[[3,16]]

Unnamed: 0,이름,나이,직업,지역,점수
3,이지은,30,공무원,부산,62
16,이지은,30,공무원,부산,62


In [48]:
# 이름, 직업이 같은 경우 중복 처리
# 즉, 일부 열에 대해서만 중복 처리
df.loc[df.duplicated(subset=['이름','직업'])]

Unnamed: 0,이름,나이,직업,지역,점수
3,이지은,30,공무원,부산,62
5,김민수,27,학생,서울,85
6,김민수,33,학생,인천,85
10,김민수,28,학생,서울,85
11,이지은,31,공무원,부산,62
12,박철수,24,학생,광주,58
13,정호석,38,연구원,대구,45
14,김영수,42,회사원,서울,55
15,김민수,25,학생,광주,85
16,이지은,30,공무원,부산,62


In [44]:
# 중복 데이터 중 첫 번째 데이터를 제외하고, True
df.duplicated(keep="first")

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16     True
17    False
18    False
19    False
dtype: bool

In [45]:
# 중복 데이터 중 마지막 데이터를 제외하고, True
print(df.duplicated(keep="last"))

0     False
1      True
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
dtype: bool


In [46]:
df.duplicated(keep=False)

0     False
1      True
2     False
3      True
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16     True
17    False
18    False
19    False
dtype: bool

In [51]:
# 중복 데이터 삭제
# 모든 열이 동일한 중복 데이터를 삭제
# 기존 데이터프레임 수정x
df.drop_duplicates()

# keep 인자
df.drop_duplicates(keep="last")
# subset 인자
# 이름, 직업, 지역이 중복인 경우 삭제 
df.drop_duplicates(subset=['이름','직업','지역'])

Unnamed: 0,이름,나이,직업,지역,점수
0,김민수,25,학생,서울,85
1,이지은,30,공무원,부산,62
2,박철수,22,학생,광주,58
4,김영수,40,회사원,대구,55
6,김민수,33,학생,인천,85
7,정호석,35,연구원,대구,45
8,박현우,45,공무원,부산,82
9,이영희,29,교사,울산,90
14,김영수,42,회사원,서울,55
15,김민수,25,학생,광주,85


### 실습

In [80]:
import pandas as pd
df2 = pd.read_csv('./data/titanic_2.csv')
df3 = pd.read_csv('./data/titanic_3.csv')

In [81]:
# concat 함수는 새로운 데이터프레임을 생성 
df = pd.concat([df2,df3], ignore_index=True)
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
893,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
894,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
895,0,2,male,21.0,1,0,11.5000,S,Second,man,True,,Southampton,no,False
896,0,3,male,42.0,0,0,7.5500,S,Third,man,True,,Southampton,no,True


In [82]:
df.loc[df.duplicated()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
47,1,3,female,,0,0,7.7500,Q,Third,woman,False,,Queenstown,yes,True
76,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True
77,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
87,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
95,0,3,male,,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
893,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
894,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
895,0,2,male,21.0,1,0,11.5000,S,Second,man,True,,Southampton,no,False
896,0,3,male,42.0,0,0,7.5500,S,Third,man,True,,Southampton,no,True


In [83]:
unique_df = df.drop_duplicates()
unique_df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [84]:
unique_df.drop(columns=['alive','embarked','class','deck','who'])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,adult_male,embark_town,alone
0,0,3,male,22.0,1,0,7.2500,True,Southampton,False
1,1,1,female,38.0,1,0,71.2833,False,Cherbourg,False
2,1,3,female,26.0,0,0,7.9250,False,Southampton,True
3,1,1,female,35.0,1,0,53.1000,False,Southampton,False
4,0,3,male,35.0,0,0,8.0500,True,Southampton,True
...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,False,Queenstown,False
887,1,1,female,19.0,0,0,30.0000,False,Southampton,True
888,0,3,female,,1,2,23.4500,False,Southampton,False
889,1,1,male,26.0,0,0,30.0000,True,Cherbourg,True


1. 열 **`fare`** 데이터 중 0인 행의 **`fare`** 값을 10으로 수정한다.
    - **`fare`** 을 기준으로 오름차순으로 정렬한 값을 출력해서 0인 행이 존재하는지 확인한다.


In [85]:
unique_df['fare'].sort_values()

179      0.0000
263      0.0000
271      0.0000
277      0.0000
302      0.0000
         ...   
438    263.0000
341    263.0000
679    512.3292
258    512.3292
737    512.3292
Name: fare, Length: 784, dtype: float64

In [86]:
# 요금이 0인 행을 선택
condition = unique_df["fare"] == 0

# 요금이 0인 행의 "fare" 열의 값을 10 수정
unique_df.loc[condition, "fare"] = 10

In [87]:
# 0이 있는지 확인
unique_df.sort_values(by="fare")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
378,0,3,male,20.0,0,0,4.0125,C,Third,man,True,,Cherbourg,no,True
872,0,1,male,33.0,0,0,5.0000,S,First,man,True,B,Southampton,no,True
326,0,3,male,61.0,0,0,6.2375,S,Third,man,True,,Southampton,no,True
843,0,3,male,34.5,0,0,6.4375,C,Third,man,True,,Cherbourg,no,True
818,0,3,male,43.0,0,0,6.4500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
341,1,1,female,24.0,3,2,263.0000,S,First,woman,False,C,Southampton,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True


In [88]:
# unique_df.loc[unique_df['fare'] == 0, 'fare'] = 10

2. 열 **`age`** 데이터 중 1보다 작은 행의 **`age`** 값을 1로 수정한다.
    - **`age`** 를 기준으로 오름차순으로 정렬한 값을 출력해서 1보다 작은 값이 존재하는지 확인한다.

In [89]:
unique_df['age'].sort_values()

803    0.42
755    0.67
469    0.75
78     0.83
831    0.83
       ... 
828     NaN
839     NaN
849     NaN
868     NaN
888     NaN
Name: age, Length: 784, dtype: float64

In [90]:
# age 1보다 작은 
condition = unique_df["age"] < 1

# age 값을 1로 수정 
unique_df.loc[condition, "age"] = 1

In [91]:
unique_df.sort_values(by="age")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
469,1,3,female,1.0,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
803,1,3,male,1.0,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
386,0,3,male,1.0,5,2,46.9000,S,Third,child,False,,Southampton,no,False
78,1,2,male,1.0,0,2,29.0000,S,Second,child,False,,Southampton,yes,False
755,1,2,male,1.0,1,1,14.5000,S,Second,child,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
828,1,3,male,,0,0,7.7500,Q,Third,man,True,,Queenstown,yes,True
839,1,1,male,,0,0,29.7000,C,First,man,True,C,Cherbourg,yes,True
849,1,1,female,,1,0,89.1042,C,First,woman,False,C,Cherbourg,yes,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True


In [92]:
# unique_df.loc[unique_df['age'] < 1,'age'] = 1

In [93]:
unique_df['fare'].sort_values()

378      4.0125
872      5.0000
326      6.2375
843      6.4375
818      6.4500
         ...   
27     263.0000
341    263.0000
737    512.3292
258    512.3292
679    512.3292
Name: fare, Length: 784, dtype: float64