# 파이썬 라이브러리 활용
> Pandas

## Series
데이터가 순차적으로 나열된 1차원 배열
* index와 value가 1:1 관계

In [42]:
import pandas as pd

In [43]:
# 1. 딕셔너리로 Series 생성
# 딕셔너리의 key는 Series의 인덱스와 대응
# 딕셔너리의 각 key에 매칭되는 value는 시리즈의 데이터 값으로 변환됨.
dict_data = {'a':1,'b':2,'c':3}

series_data = pd.Series(dict_data)

In [44]:
print(type(series_data))
print(series_data)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [45]:
# 2. 리스트로 Series 생성
# 리스트를 시리즈로 변환할 때는 딕셔너리의 키처럼 인덱스로 변환될 값이 없음.
# 인덱스를 별도로 지정하지않으면 디폴트로 정수형 위치 인덱스가 지정됨.
list_data = ['2022-10-11',3.14,'ABC',100,True]

series_data = pd.Series(list_data)

In [46]:
print(type(series_data))
print(series_data)

<class 'pandas.core.series.Series'>
0    2022-10-11
1          3.14
2           ABC
3           100
4          True
dtype: object


## DataFrame
* 행과 열로 만들어지는 2차원 배열
* 데이터프레임의 열: 각각의 Series 객체이다.

In [47]:
# 딕셔너리로 Dataframe 생성 
dict_data = {'c0':[1,2,3],
             'c1':[4,5,6],
             'c2':[7,8,9],
             'c3':[10,11,12],
             'c4':[13,14,15]
             }

df = pd.DataFrame(dict_data)

In [48]:
print(df)
print(type(df))

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15
<class 'pandas.core.frame.DataFrame'>


## 파일 불러오기
다양한 포맷의 외부 파일을 읽어와 데이터프레임으로 변환하는 함수가 제공된다

| File Format | Reader | Writer |
|-----------|----------:|-----------|
| CSV | read_csv | to_csv |
| Excel | read_excel | to_excel |
| JSON | read_json | to_json |
| SQL | read_sql | to_sql |
| HTML | read_html | to_html |



In [49]:
titanic = pd.read_csv('./titanic.csv')

In [50]:
import numpy as np

## 데이터 확인하기
- `.columns` : 컬럼명 확인
- `.head(n)` : 데이터의 상단 n개 행 출력(n 미기입시 디폴트 5)
- `.tail(n)` : 데이터의 하단 n개 행 출력(n 미기입시 디폴트 5)
- `.shape` : (행, 열) 크기 확인
- `.info()` : 데이터에 대한 전반적인 정보 제공
    - 행과 열의 크기
    - 컬럼명
    - 컬럼별 결측치
    - 컬럼별 데이터 타입

In [51]:
# 데이터의 컬럼명 확인
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [52]:
# .head() : 데이터의 상단 5개 행 출력
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [53]:
# .tail() : 데이터의 하단 5개 행 출력
titanic.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [54]:
# .shape :(행, 열) 크기 확인
titanic.shape

(891, 12)

In [55]:
# .info() :데이터에 대한 전반적인 정보 제공
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [56]:
# type() : 데이터 타입 확인
type(titanic)

pandas.core.frame.DataFrame

## 특정 열 선택
* DataFrame은 여러 Series로 이루어져 있으므로, 열 1개를 선택하면 시리즈 객체를 반환한다.
    * ['열이름']
    * .열이름

* 열 n개 선택 ==> DataFrame 객체 반환
    * [["열이름1","열이름2"]]
    * 열 1개도 시리즈가 아닌 데이터프레임 객체로 추출을 원한다면 2중 대괄호 사용!

In [57]:
# 열 1개 선택 = 시리즈(Series) 객체 반환
# ["열이름"]
names = titanic['Name']
names.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [58]:
# 데이터 타입과 크기 확인
print(type(names))
print(names.shape)

<class 'pandas.core.series.Series'>
(891,)


In [59]:
# 열 1개 선택 = 시리즈(Series) 객체 반환
# 도트(.) 다음에 열 이름을 입력
# 데이터 내용 확인
names = titanic.Name
names.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [60]:
# 열 n개 선택 = 데이터프레임(DataFrame) 객체 반환
# [["열이름1", "열이름2"]]
# "sex", "age" column만 추출하여 재 구성
# 데이터 내용 확인
passenger = titanic[["Sex", "Age"]]
passenger.head()


Unnamed: 0,Sex,Age
0,male,22.0
1,female,38.0
2,female,26.0
3,female,35.0
4,male,35.0


In [61]:
# 데이터 타입과 크기 확인
print(type(passenger))
print(passenger.shape)

<class 'pandas.core.frame.DataFrame'>
(891, 2)


## 데이터 필터링
* 불리언 인덱싱 <br>
True만 가진 행을 추출


* `.isin()`<br>
각각의 요소가 DataFrame 또는 Series에 존재하는지 파악하여 True | False 반환


* 불리언 인덱싱 + `.isin()`<br>
테이터의 특정 범위만 추출 - 결측치를 다루기 위해...


* `.isna()`<br>
결측 값 -> True, 그 외 False


* `.notna()`<br>
결측 값 -> False, 그 외 True

In [62]:
# 조건 : 35살 초과인 데이터 추출 (True, False 반환)
passenger['Age'] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [63]:
# 조건 : 35살 초과인 데이터 추출 
# 불리언(Boolean) 인덱싱 : 조건의 결과가 True 값인 행만 추출
above35 = passenger[passenger['Age'] > 35]

above35.head()

Unnamed: 0,Sex,Age
1,female,38.0
6,male,54.0
11,female,58.0
13,male,39.0
15,female,55.0


In [64]:
# 데이터 내용 확인
titanic.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [65]:
# .isin 함수는 각각의 요소가 데이터프레임 또는 시리즈에 존재하는지 파악하여 True/False 값 반환
# Pclass 변수의 값이 1일 경우, True/False 값 반환
titanic['Pclass'].isin([1])

0      False
1       True
2      False
3       True
4      False
       ...  
886    False
887     True
888    False
889     True
890    False
Name: Pclass, Length: 891, dtype: bool

In [66]:
# 불리언 인덱싱 + .isin( ) : 데이터의 특정 범위만 추출
# Pclass 변수의 값이 1일 경우만 추출하여 class1 저장
class1 = titanic[titanic['Pclass'].isin([1])]
class1.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


In [67]:
# 불리언 인덱싱 + .isin( ) : 데이터의 특정 범위만 추출
# Age 변수의 값이 20살부터 40살까지의 범위만 추출하여 age2040 저장
age2040 = passenger[passenger['Age'].isin(np.arange(20,41))]
age2040.head()

Unnamed: 0,Sex,Age
0,male,22.0
1,female,38.0
2,female,26.0
3,female,35.0
4,male,35.0


In [68]:
# 결측 값 파악을 위한 데이터 확인
passenger.head(7)

## 결측치 NaN 확인

Unnamed: 0,Sex,Age
0,male,22.0
1,female,38.0
2,female,26.0
3,female,35.0
4,male,35.0
5,male,
6,male,54.0


In [69]:
# .isna( ) : 결측 값은 True 반환, 그 외에는 False 반환
# .isna 함수는 데이터프레임 내에 결측 값을 확인하기 위해 사용
# 5번째 행은 NaN이므로 True 출력
passenger['Age'].isna()[0:7]

0    False
1    False
2    False
3    False
4    False
5     True
6    False
Name: Age, dtype: bool

In [70]:
ages = passenger[passenger['Age'].isna()]
ages

Unnamed: 0,Sex,Age
5,male,
17,male,
19,female,
26,male,
28,female,
...,...,...
859,male,
863,female,
868,male,
878,male,


In [71]:
# .notna( ) : 결측 값은 False 반환, 그 외에는 True 반환
# .notna 함수는 누락되지 않은 값을 찾기 위해 사용
# 5번째 행은 NaN이므로 False 출력
passenger['Age'].notna()[0:7]

0     True
1     True
2     True
3     True
4     True
5    False
6     True
Name: Age, dtype: bool

In [72]:
# Age가 결측값이 아닌 데이터들만 확인
ages = passenger[passenger['Age'].notna()]
ages

Unnamed: 0,Sex,Age
0,male,22.0
1,female,38.0
2,female,26.0
3,female,35.0
4,male,35.0
...,...,...
885,female,39.0
886,male,27.0
887,female,19.0
889,male,26.0


## 결측치 제거
- `.dropna( ) == .dropna(axis=0)`<br>
결측 값이 들어있는 행(axis=0) 전체 삭제

- `.dropna(axis=1)`<br>
결측 값이 들어있는 열(axis=1) 전체 삭제

- `.notna( )`<br>
결측 값은 False 반환, 그 외에는 True 반환

In [73]:
# .dropna(axis=0) : 결측 값이 들어있는 행 전체 삭제
titanic.dropna(axis=0)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [74]:
# .dropna(axis=1) : 결측 값이 들어있는 열 전체 삭제
titanic.dropna(axis=1)

## Age, Cabin 등 NaN가 존재하는 열 전체를 삭제함

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.2500
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.9250
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,0,113803,53.1000
4,5,0,3,"Allen, Mr. William Henry",male,0,0,373450,8.0500
...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,0,0,211536,13.0000
887,888,1,1,"Graham, Miss. Margaret Edith",female,0,0,112053,30.0000
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,1,2,W./C. 6607,23.4500
889,890,1,1,"Behr, Mr. Karl Howell",male,0,0,111369,30.0000


## 열 이름과 인덱스로 특정 행, 열 선택

| 구분 | 코드 |
|-----------|-----------|
| `.loc[]` | df.loc[행이름, 열이름] |
| `.iloc[]` | df.iloc[행번호, 열번호] |

열의 위치는 변동 가능성이 있어서 `.loc[]`을 쓰고는 함

In [75]:
# .loc[] : 행 이름과 열 이름을 사용
# 나이가 35세 초과인 사람의 이름과 나이 출력
names_above35 = titanic.loc[titanic['Age'] > 35, ['Name', 'Age']]
names_above35

Unnamed: 0,Name,Age
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0
6,"McCarthy, Mr. Timothy J",54.0
11,"Bonnell, Miss. Elizabeth",58.0
13,"Andersson, Mr. Anders Johan",39.0
15,"Hewlett, Mrs. (Mary D Kingcome)",55.0
...,...,...
865,"Bystrom, Mrs. (Karolina)",42.0
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",47.0
873,"Vander Cruyssen, Mr. Victor",47.0
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",56.0


In [77]:
# .iloc[] : 행 번호와 열 번호를 사용
# 1번째행부터 3번째행까지의 0번째 열의 값을 "No name" 변경
names_above35.iloc[np.arange(1,4), 0] = 'No name'
names_above35

Unnamed: 0,Name,Age
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0
6,No name,54.0
11,No name,58.0
13,No name,39.0
15,"Hewlett, Mrs. (Mary D Kingcome)",55.0
...,...,...
865,"Bystrom, Mrs. (Karolina)",42.0
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",47.0
873,"Vander Cruyssen, Mr. Victor",47.0
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",56.0


## 데이터 통계
- `.mean()`<br>
평균값

- `.median()`<br>
중앙값

- `.describe()`<br>
다양한 통계량 요약

- `.agg()`<br>
여러개의 열에 다양한 함수를 적용
    *   모든열에 여러 함수를 매핑 : group객체.agg([함수1, 함수2, 함수3, …])
    *   각 열마다 다른 함수를 매핑 : group객체.agg({‘열1’: 함수1, ‘열2’: 함수2, …})

- `.groupby()` ⭐️⭐️⭐️<br>
그룹별 집계

- `.value_counts()`<br>
값의 개수

In [78]:
# Age 변수의 평균 구하기
titanic['Age'].mean()

29.69911764705882

In [79]:
# Age 변수의 중앙값 구하기
titanic['Age'].median()

28.0

In [80]:
# describe() 함수를 통해 다양한 통계량 요약
# 특정 변수 "Age", "Fare" 추출
titanic[['Age', 'Fare']].describe()

Unnamed: 0,Age,Fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


In [82]:
# agg()를 통해 여러 개의 열에 다양한 함수를 적용
# 모든 열에 여러 함수를 매핑 : group객체.agg([함수1, 함수2, 함수3,…])
# 각 열마다 다른 함수를 매핑 : group객체.agg({‘열1’: 함수1, ‘열2’: 함수2, …})
titanic.agg({'Age': ['min', 'max', 'median', 'std'],
             'Fare': ['min', 'max', 'mean', 'median']})


Unnamed: 0,Age,Fare
min,0.42,0.0
max,80.0,512.3292
median,28.0,14.4542
std,14.526497,
mean,,32.204208


In [83]:
# groupby() 함수를 이용하여 그룹별 집계 <예제 1>
# groupby로 성별과 클래스로 묶어주고 나이와 요금의 평균 구하기
titanic.groupby(['Sex', 'Pclass'])[['Age', 'Fare']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Fare
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,34.611765,106.125798
female,2,28.722973,21.970121
female,3,21.75,16.11881
male,1,41.281386,67.226127
male,2,30.740707,19.741782
male,3,26.507589,12.661633


In [88]:
# groupby() 함수를 이용하여 그룹별 집계 <예제 2>
# groupby를 통해 성별을 묶은 다음, 생존율의 평균 구하기
survive = titanic.groupby('Sex')['Survived'].mean()
survive * 100

Sex
female    74.203822
male      18.890815
Name: Survived, dtype: float64

In [89]:
# .value_counts( ) 함수를 이용하여 개수 구하기
titanic['Pclass'].value_counts()

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

## 행, 열 추가와 삭제
| 구분 | 코드 |
|-----------|-----------|
| 행 추가 | `df.loc['행이름'] = 데이터` |
| 열 추가 | `df['열이름'] = 데이터` |

<br>

| 구분 | 코드 |
|-----------|-----------|
| 행 삭제 | `df.drop(index, axis=0)` |
| 열 삭제 | `df.drop(변수명, axis=1)` |

In [90]:
titanic.shape

(891, 12)

In [91]:
titanic.tail(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [102]:
# 행 추가 : DataFrame.loc[‘새로운 행 이름‘] = 데이터 값
# newRow 변수에 titanic 데이터의 0번째 행, 모든 열을 삽입(titanic.iloc[0,:])
# .loc 함수를 사용하여 891 이름을 가진 행 자리에 newRow 데이터 삽입

newRow = titanic.iloc[0, :]
titanic.loc[891] = newRow
titanic.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,3Pclass
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,9
891,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,9


In [93]:
titanic.shape

(892, 12)

In [104]:
# 열 추가 : DataFrame 객체[‘추가하려는 열 이름‘] = 데이터 값
# Pclass * 3 값을 새로운 '3Pclass' 열을 추가  
titanic['3Pclass'] = titanic['Pclass'] * 3

In [105]:
titanic['3Pclass']

0      9
1      3
2      9
3      3
4      9
      ..
886    6
887    3
888    9
889    3
890    9
Name: 3Pclass, Length: 891, dtype: int64

In [98]:
titanic.shape

(892, 13)

In [108]:
# drop 함수를 사용하여 880번째 행부터 889번째 행까지 삭제
titanic = titanic.drop(np.arange(880, 890), axis=0)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [106]:
# drop 함수를 사용하여 '3Pclass' 열 삭제
titanic = titanic.drop('3Pclass', axis=1)

In [107]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')