In [57]:
# 참조 url
# https://wikidocs.net/136562
# https://yganalyst.github.io/data_handling/Pd_6/
# https://teddylee777.github.io/pandas/pandas-tutorial-03 (자세히)
# https://bigdaheta.tistory.com/41 (loc, iloc)

### dataset 에서 데이터 전처리에 필요한 함수
- head() 앞 부분 / tail () 뒷 부분 조회 --> default 옵션 값으로 5 개 행 조회
- info() --> 칼럼별 정보를 보여줌 ( 데이터의 갯수, 데이터 타입 확인)
   -  object 타입은 문자열이라고 생각 
   - category 타입은 문자열이지만 '남자/여자' 처럼 분류화 할 수 있는 칼럼
- describe() 각 칼럼에 대한 요약 통계 제공 --> 기본적으로 수치형 컬럼으로 보여줌
   -  문자열 컬럼으로 보려면 df.describe(include='object')
- value_counts()
   -  column 별 값의 분포를 확인할 때 사용 
   - ex) 남자, 여자, 아이의 데이터 분포를 확인 --> df['who'].value_counts()
   - ex) 탑승 항구별 승객 데이터 분포 확인 --> df['embark_town'].value_counts()
 
##### 속성:Attributes ( 속성 값은 함수형으로 조회 불가)
- df.ndim -> 차원
- df.shape -> (행,열) 순서로 출력
- df.index -> 기본 설정된 RangeIndex가 출력
- df.columns -> 열을 출력
- df.values -> 모든 값을 출력하며, numpy array 형식으로 출력
- df.T -> 전치(Transpose)는 Index와 Column의 축을 교환

##### 타입변환 (Astype) 
- df['pclass'].astype('float32).head()

##### 정렬(Sort)
- df.sort_index().head()
- index 기준으로 정렬함(기본 오름차순이 적용)
- 내림차순 정렬 --> ascending=False 를 옵션 값으로 설정
- sort_values : 값에 대한 정렬
   - 값을 기준으로 행을 정렬 
   - by에 기준이 되는 행을 설정 
         -> df.sort_values(by='age').head()
   - by에 2개 이상 컬럼을 지정하여 설정 가능  
         -> df.sort_values(by=['fare', 'age']).head()
   - 오름차순/내림차순을 컬럼 별로 지정 가능 
         -> df.sort_values(by=['fare', 'age'], ascending=[False, True]).head()

### Indexing, Slicing, 조건 필터링
##### 인덱싱은 특정 값을 추출
##### 슬라이싱은 특정 하나의 값이 아닌 범위로 지정하여 한번에 데이터를 추출
- loc 
    - 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터 추출
- iloc 
    - 컴퓨터가 읽기 좋은 방법으로(숫자로) 데이터가 있는 위치(순서)에 접근하는 방식

### loc와 iloc 정리
  -  loc[]에 하나의 값만 입력한다면 그에 해당되는 하나의 행만 뽑아 옴
      - <인덱싱> df1.loc[0] --> df 데이터 프레임에서 인덱스 이름이 0인 행만 출력
      - <슬라이싱> df1.loc[ : , : ] --> df1 데이터 프레임에서 전체 행, 전체 열을 가져와  
         - df1.loc[:,'Pclass] -> Pclass열의 전체 행 추출
         - df1.loc[:4, :'Age'] -> 0인것부터 4까지의 행 + 처음부터 Age까지의 열
         - 슬라이싱에서 :의 앞에 아무것도 안쓰면 첫번째 값부터 라는 의미
         - :의 뒤에 아무것도 안쓰면 끝까지 라는 의미
  
  -  iloc[]
      - <인덱싱> df1.iloc[0] --> 전체 데이터 프레임에서 0번째 행에 잇는 값들만 추출
        - df1.iloc[0,2] --> 0번째 행, 2번째 칼럼에 위치한 값
      
      - <슬라이싱> df.iloc[:5,:5] --> 처음부터 5번째 순서까지의 행 + 처음부터 5번째 순서까지의 열까지의 값들
        - 슬라이싱으로 범위 지정해줄 때는 마지막에 쓴 숫자 전까지 출력(항상 0부터 카운트)
        - df1.iloc[::2, :] --> 데이터프레임 df1에서 전체 값 중, 2간격으로 추출하고, 열은 전체 추출(전체 행 중에 짝수번째에 위치한 행들만 추출)

In [2]:
#  결측치(누락 데이터)와 중복 데이터를 처리하는 방법

import seaborn as sns
import pandas as pd
import numpy as np

df=sns.load_dataset('titanic') # 예제 데이터로 타이타닉 데이터 활용
df.head(15)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [4]:
# loc는 칼럼명 직접 표기, 특정 조건식 써줌으로써 사람이 읽기 쉽게 데이터 접근
df.loc[11,'class'] # first
df.loc[9,'class'] # second
df.loc[2,'class'] #third  
df.loc[2:5,['age','fare','who']] 

# 0행~ 5행까지 내용 출력 (슬라이싱)
   # 5가 숫자 5가 아닌 말그대로 age, fare, who 마냥 키워드로 생각하기
# df.loc[:5] # 0부터 5까지 추출 (범위 값 추출 -> 슬라이싱)
# df.loc[5] # 5행 내용만 출력 (특정 값 추출 -> 인덱싱)

Unnamed: 0,age,fare,who
2,26.0,7.925,woman
3,35.0,53.1,woman
4,35.0,8.05,man
5,,8.4583,man


In [14]:
# index (행) 2부터 5까지  (열) class : 부터~ deck 그 사이에 who, adult_male 포함하여 출력해줌
df.loc[2:5,'class':'deck'].head()

Unnamed: 0,class,who,adult_male,deck
2,Third,woman,False,
3,First,woman,False,C
4,Third,man,True,
5,Third,man,True,


In [18]:
# (:) 슬라이싱 할 때에 ioc는 처음(포함) : 끝(포함)

# df.iloc[:6] # 0번째 행부터 ~ 6번째 순서의 행까지 출력 -> 0,1,2..5(총 6번째)
# df.loc[:6] # 순서가 아닌 처음부터 ~ index 6 키워드까지 출력

# df.iloc[3:7] # 3번째 순서의 행부터 ~ 7번째 순서의 행까지 (index 3 ~ 6)
# df.loc[3:7] # index 3 부터 index 7까지

df.loc[:6,'class':'deck'] 

Unnamed: 0,class,who,adult_male,deck
0,Third,man,True,
1,First,woman,False,C
2,Third,woman,False,
3,First,woman,False,C
4,Third,man,True,
5,Third,man,True,
6,First,man,True,E


In [69]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [73]:
# ioc 조건 필터 --> boolean index를 만들어 조건에 맞는 데이터를 추출해 낼 수 있음
condition =df['who']=='man'
condition

0       True
1      False
2      False
3      False
4       True
       ...  
886     True
887    False
888    False
889     True
890     True
Name: who, Length: 891, dtype: bool

In [74]:
# 2가지 경우로 조건에 맞는 데이터 추출 
# case 1 : df[condition]
df[condition].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [75]:
# case 2 : df.loc[condition]
# loc를 사용하는 것을 추천  loc 안쓰면 값 대입시 issue 발생하기 때문
df.loc[condition].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [77]:
# who 가 man인 사람의 나이를 10으로 대입해라
df.loc[condition,'age']=10
df[condition].head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,10.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,10.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,10.0,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,10.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
12,0,3,male,10.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [79]:
# loc 다중 조건
# 조건 1 정의
condition1= (df['fare']>30) # 요금이 30 초과인 조건
condition2= (df['who']=='woman') # who가 woman인 조건

df.loc[condition1 & condition2] # 요금이 30초과이면서 who가 woman인 

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
25,1,3,female,38.0,1,5,31.3875,S,Third,woman,False,,Southampton,yes,False
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False


In [80]:
df.loc[condition1 | condition2]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,10.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


### 연습 문제 
##### 1) 다음 조건을 만족하는 코드를 입력하세요.
   - 나이가 30살 이상 남자 승객 조건 필터링
   - fare를 많이 낸 순서로 내림차순 정렬
   - 상위 10개를 출력
##### 2) 다음 조건을 만족하는 코드를 입력하세요.
   - 나이가 20살 이상 40살 미만인 승개
   - pclass가 1등급 혹은 2등급인 승객
   - 열(column)은 survived, pclass, age, fare 만 나오게 출력
   - 10개만 출력

In [85]:
df = sns.load_dataset("titanic")
# df.head()

con1 = (df['age']>=30) # 나이가 30살 이상 남자 승객
con2 = (df['who']=='man')

df.loc[con1 & con2].sort_values(by='fare', ascending=False).head(10)
         

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
438,0,1,male,64.0,1,4,263.0,S,First,man,True,C,Southampton,no,False
332,0,1,male,38.0,0,1,153.4625,S,First,man,True,C,Southampton,no,False
660,1,1,male,50.0,2,0,133.65,S,First,man,True,,Southampton,yes,False
390,1,1,male,36.0,1,2,120.0,S,First,man,True,B,Southampton,yes,False
659,0,1,male,58.0,0,2,113.275,C,First,man,True,D,Cherbourg,no,False
698,0,1,male,49.0,1,1,110.8833,C,First,man,True,C,Cherbourg,no,False
544,0,1,male,50.0,1,0,106.425,C,First,man,True,C,Cherbourg,no,False
224,1,1,male,38.0,1,0,90.0,S,First,man,True,C,Southampton,yes,False


In [86]:
con1 = (df['age']>=20)& (df['age']<40)
con2 = (df['pclass']<3)
df.loc[con1 & con2,['survived', 'pclass', 'age', 'fare']].head(10)

Unnamed: 0,survived,pclass,age,fare
1,1,1,38.0,71.2833
3,1,1,35.0,53.1
20,0,2,35.0,26.0
21,1,2,34.0,13.0
23,1,1,28.0,35.5
34,0,1,28.0,82.1708
41,0,2,27.0,21.0
53,1,2,29.0,26.0
56,1,2,21.0,10.5
61,1,1,38.0,80.0


##### iloc 데이터 프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출, 컴퓨터가 읽기 쉽게 숫자로 데이터가 있는 위치에 접근
  - df.iloc[행 인덱스, 열 인덱스]
  참조 https://gagadi.tistory.com/16

In [None]:
# 숫자로 순서 찾기
df1.iloc[:5,:5] # 5로 5번째 순서를 찾기

df1.iloc[::2, :] # 전체 행 중에 짝수번째에 위치한 행들만 출력
전체:끝:2간격, // 전체:끝:간격=생략
          행 , // 열
시작:끝:간격


# 결측치(누락 데이터 처리 순서)
## 데이터 탐색 df.info() >결측치 탐색 isnull() isnull().sum() > 결측치 제거 dropna() > 누락 데이터 치환 fillna()

In [10]:
# 데이터 탐색 
df.info()
# 총 15개의 변수(컬럼), 891개의 데이터(row)를 가지고 있고 
# age, deck, embarked, embark_town 열에 결측치가 존재함을 알 수 있다

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


##### deck열은 범주형(category) 변수이므로 value_counts 함수를 이용해 고유값의 개수를 확인함 여기서 dropna=False 옵션(default는 True)을 주면 누락데이터(NaN)의 개수도 함께 카운트 해줌

In [7]:
df['deck'].value_counts(dropna = False)  
# 누락데이터(NaN) --> 688개

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

In [13]:
# 결측치 탐색 : isnull(), notnull()
# isnull()함수는 판다스 데이터프레임 및 시리즈의 결측치(NaN)를
# 탐색해 결측치에 대해 True를 반환해줌 notnull()은 그 반대
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [15]:
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [17]:
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [18]:
# 결측치(누락데이터) 제거 : dropna()
df.dropna().info()
# dropna에 아무 옵션 없이 적용하면 하나라도 결측치(NaN)가 존재하면 
# 그 row는 삭제 해버림 모두 182로 똑같아짐

<class 'pandas.core.frame.DataFrame'>
Int64Index: 182 entries, 1 to 889
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     182 non-null    int64   
 1   pclass       182 non-null    int64   
 2   sex          182 non-null    object  
 3   age          182 non-null    float64 
 4   sibsp        182 non-null    int64   
 5   parch        182 non-null    int64   
 6   fare         182 non-null    float64 
 7   embarked     182 non-null    object  
 8   class        182 non-null    category
 9   who          182 non-null    object  
 10  adult_male   182 non-null    bool    
 11  deck         182 non-null    category
 12  embark_town  182 non-null    object  
 13  alive        182 non-null    object  
 14  alone        182 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 18.2+ KB


In [19]:
df.dropna(axis=1).info()
# axis=1(열) --> 열에 대해 적용하라는 뜼
# 결측치(NaN)가 존재하는 열은 삭제해버려서, 칼럼수가 15개에서 11개로 줄어듬

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   survived    891 non-null    int64   
 1   pclass      891 non-null    int64   
 2   sex         891 non-null    object  
 3   sibsp       891 non-null    int64   
 4   parch       891 non-null    int64   
 5   fare        891 non-null    float64 
 6   class       891 non-null    category
 7   who         891 non-null    object  
 8   adult_male  891 non-null    bool    
 9   alive       891 non-null    object  
 10  alone       891 non-null    bool    
dtypes: bool(2), category(1), float64(1), int64(4), object(3)
memory usage: 58.6+ KB


In [20]:
# thresh=500
df_thresh=df.dropna(axis=1, thresh=500)
df_thresh.info()
# 결측치(NaN)가 500개 이상인 열을 모두 삭제하라는 옵션
# 또한 열에 적용 하라는 axis=1 
# 생략하거나 axis=0이라면 행에 적용 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  embark_town  889 non-null    object  
 12  alive        891 non-null    object  
 13  alone        891 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(5)
memory usage: 79.4+ KB


In [25]:
# subset=['age'] 옵션
# subset='['age']옵션은 데이터프레임의 age열에 결측값이 1개라도 있으면
# 그 행을 drop하라는 옵션

df_age=df.dropna(subset=['age'], how='any', axis=0)

# how='any'와 axis=0은 default값으로 생략이 가능
# how='any'는 all로 줄수도 있는데 결측값이 모든 열 또는 행에 존재해야 drop하라는 의미

print(len(df_age), '\n')
print(df_age['age'].isnull().sum()) # 해당 열의 결측치는 없다는 것을 확인

714 

0


In [29]:
import seaborn as sns
df=sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
# 결측값 대체 함수 : fillna(결측값을 대체할 값)

In [32]:
print('*** 변경 전 ***')
print(df['age'].head(10))

평균_age =df['age'].mean()
df['age'].fillna(평균_age, inplace=True)

print('\n')
print('*** 변경 후 ***')
print(df['age'].head(10))

# 결측값이었던 index 5가 평균값(29.6,,)으로 치환 됨

*** 변경 전 ***
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64


*** 변경 후 ***
0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64


In [34]:
# 최빈값(top_Freq)으로 대체
df.info()
df['embark_town'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          891 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


Southampton    644
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64

In [9]:
# 해당 결측치 2개가 데이터프레임 내 어느 index(row 번호)에 해당하는지 탐색
df.index[df['embark_town'].isnull()] # -> 출력값 df_age=df.dropna(subset=['age'], how='any', axis=0)

print(df.loc[61])
print('\n')
print(df.loc[829])

survived            1
pclass              1
sex            female
age              38.0
sibsp               0
parch               0
fare             80.0
embarked          NaN
class           First
who             woman
adult_male      False
deck                B
embark_town       NaN
alive             yes
alone            True
Name: 61, dtype: object


survived            1
pclass              1
sex            female
age              62.0
sibsp               0
parch               0
fare             80.0
embarked          NaN
class           First
who             woman
adult_male      False
deck                B
embark_town       NaN
alive             yes
alone            True
Name: 829, dtype: object


In [38]:
print(df['embark_town'].describe()['top'])
print(df['embark_town'].value_counts(dropna=True).idxmax())

Southampton
Southampton


In [42]:
# describe() 범주형열에 대해 적용해서 얻게되는 top(최빈값) 사용 가능
# idmax() 데이터 프레임의 특정열(시리즈)에 대하여 가장 값이 큰 row의
# index를 반환한다. 따라서 value_counts()함수로 고유값의 개수를 구하고 최대값을 가지는 인덱스를 불러옴

most_freq = df['embark_town'].value_counts(dropna=True).idxmax()
df['embark_town'].fillna(most_freq, inplace = True)

print(df.loc[61])
print('\n')
print(df.loc[829])

# 원래 결측값(NaN)이 었던 61, 829행은 Southampton으로 치환되었음을 확인

survived                 1
pclass                   1
sex                 female
age                   38.0
sibsp                    0
parch                    0
fare                  80.0
embarked               NaN
class                First
who                  woman
adult_male           False
deck                     B
embark_town    Southampton
alive                  yes
alone                 True
Name: 61, dtype: object


survived                 1
pclass                   1
sex                 female
age                   62.0
sibsp                    0
parch                    0
fare                  80.0
embarked               NaN
class                First
who                  woman
adult_male           False
deck                     B
embark_town    Southampton
alive                  yes
alone                 True
Name: 829, dtype: object


In [None]:
# 이웃하고 있는 값으로 대체
# embark_town 열을 최빈값(top)이 아닌 이웃값으로 대체
# method='ffill'은 결측값의 바로 앞의 값으로
# method='bfill'은 결측값의 바로 뒤의 값으로 바꿔줌

In [44]:
import seaborn as sns
df=sns.load_dataset('titanic')

print('**  치환 전 **')
print(df['embark_town'][825:830])
print('\n')

df['embark_town'].fillna(method='ffill', inplace=True)

print("** 치환 후 **")
print(df['embark_town'][825:830])


**  치환 전 **
825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object


** 치환 후 **
825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object


### 중복 데이터
#### 중복 데이터 탐색 : duplicated()

In [11]:
import pandas as pd
df = pd.DataFrame({'c1' : ['a','a', 'b', 'a', 'b'], # 1열
                  'c2' : [1, 1, 1, 2, 2], # 2열
                   'c3' : [1, 1, 2, 2, 2]}) # 3열
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [46]:
# duplicated()함수는 row마다 중복값을 검사해주는 함수
# 아무 옵션을 적용하지 않으면 모든 컬럼(c1,c2,c3)에 대한
# 한 row마다 중복된 row인지 아닌지를 판별해준다.

In [49]:
# 첫번째 row가 나오고 
# 모두 같은 row가 한번 더 나올때, 그 row에 True를 반환
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

##### 헷갈릴 수 있는 duplicated() 개념
- 전에 나온 행들과 비교하여 중복되는 행이면 True, Fasle
- 첫 번째(0번째) 값은 항상 False
- 바로 전 행과만 비교하는게 아니라 처음 나오는 행인지, 나왔던 행인지를 비교
- 즉, False의 개수가 유니크한 값의 개수

In [50]:
#  depulicate -> 시리즈(데이터 프레임의 열)에 대해서도 적용 가능함
                # 0 1 2 3 4 5 6
test = pd.Series([3,1,2,1,2,2,3,])
test.duplicated()

0    False
1    False
2    False
3     True
4     True
5     True
6     True
dtype: bool

In [12]:
# 데이터프레임의 하나의 열에도 적용 가능

col_dup=df['c2'].duplicated()
col_dup

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

In [53]:
#  중복데이터 제거 : drop_duplicates()

import pandas as pd 

df = pd.DataFrame({'c1' : ['a','a', 'b', 'a', 'b'],
                  'c2' : [1, 1, 1, 2, 2],
                   'c3' : [1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [13]:
# drop_duplicates() 함수는 방금 duplicated() 함수에서 
# True를 반환했던 row를 제거해주는 역할을 함
# 즉, 중복행을 제거해주는 함수
df2=df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [56]:
# 특정 열을 기준으로 중복행 제거
# c2, c3열에 해당하는 중복행 1, 4행 제거
df3 =df.drop_duplicates(subset=['c2','c3']) # subset옵션 추가
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


In [7]:
import pandas as pd 

df = pd.DataFrame({'ID' : ['A','B', 'C', 'D', 'E', 'F'],
                  'MF' : ['F', 'F', 'M', 'F', 'M','M'],
                   'Age' : [25, 23, 27, 25, 28,27]})
df

Unnamed: 0,ID,MF,Age
0,A,F,25
1,B,F,23
2,C,M,27
3,D,F,25
4,E,M,28
5,F,M,27


In [11]:
# MF 칼럼만 지정하여 중복되는 행 제거
import pandas as pd
df.drop_duplicates(['MF'])

Unnamed: 0,ID,MF,Age
0,A,F,25
2,C,M,27


In [15]:
# MF, Age 2개의 칼럼을 지정하여 중복되는 행 제거

df.drop_duplicates(['MF', 'Age'])
#  4행 6행 출력 안됨

Unnamed: 0,ID,MF,Age
0,A,F,25
1,B,F,23
2,C,M,27
4,E,M,28


In [16]:
# 중복 데이터 전부 제거 :: False
df.drop_duplicates(['MF','Age'], keep=False) # 아예 안겹치게

Unnamed: 0,ID,MF,Age
1,B,F,23
4,E,M,28


In [17]:
# 맨 위 / 첫 번째 행 남기고 전부 제거 :: first
df.drop_duplicates(['MF','Age'],keep='first')

Unnamed: 0,ID,MF,Age
0,A,F,25
1,B,F,23
2,C,M,27
4,E,M,28


In [24]:
# 제거말고, 확인만 하고 싶을 때 duplicated 메소드를 사용한다.
# 중복 여부만 확인 (True or False)

# MF 열을 기준으로 중복 여부만 확인하기
a=df.duplicated(['MF'])
a # 여기서 a의 데이터타입은 Series

0    False
1     True
2    False
3     True
4     True
5     True
dtype: bool

In [28]:
df

Unnamed: 0,ID,MF,Age
0,A,F,25
1,B,F,23
2,C,M,27
3,D,F,25
4,E,M,28
5,F,M,27


In [27]:
# 중복 여부 칼럼 추가 (DataFrame 열 추가)
# pandas concat

# 원래 데이터프레임에 중복여부 칼럼 추가 => 새로운 데이터프레임 생성
df_a = pd.concat([df, a], axis=1)
df_a

Unnamed: 0,ID,MF,Age,0
0,A,F,25,False
1,B,F,23,True
2,C,M,27,False
3,D,F,25,True
4,E,M,28,True
5,F,M,27,True


In [32]:
# pandas rename
# 새로운 데이터프레임의 열 이름 바꾸기

df_a.rename(columns ={0:'A'}, inplace=True)
df_a

Unnamed: 0,ID,MF,Age,A
0,A,F,25,False
1,B,F,23,True
2,C,M,27,False
3,D,F,25,True
4,E,M,28,True
5,F,M,27,True
