In [2]:
# pandas : 데이터 분석 라이브러리
import pandas as pd
# numpy : 수치 계산 라이브러리
import numpy as np
# matplotlib : 시각화 라이브러리
# 'plot' 함수는 Matplotlib의 서브모듈 'pyplot'에 있습니다. 따라서 올바른 import 문은 다음과 같습니다:
import matplotlib.pyplot as plt
# seaborn : 데이터 시각화 라이브러리
import seaborn as sns

# seaborn 시각화 스타일 지정 
sns.set_style('whitegrid')

# 데이터 불러오기 (폴더에서 불러오는 방법)
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# kaggle에 올라온 코드로 파일 불러오는 방법 (다음에 적용해 보고싶음)
# for dirname, _, filenames in os.walk('/home/iujeong/titanic/train.csv'):
#     for filename in filenames:
#         print(os.path.join(dirname, filename))

# train 데이터 확인
# train.shape : 행과 열의 개수 확인
# train.head() : 상위 5개의 행을 미리보기
print("Train shape : ", train.shape)
train.head()

Train shape :  (891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
# info()로 결측치 및 데이터 타입 확인
# 결측치 : 데이터에서 특정 정보가 누락된 것
# info() : 각 컬럼의 데이터타입(object, int, float 등)과 결측지(null) 수 확인
train.info()

# describe()로 기초 통계량
# describe() : 수치형 열에 대한 기초 통계 (평균, 표준편차, 최솟값, 최댓값 등)
train.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


총 행 개수 891, 총 컬럼 갯수 12개

💡 주요 관찰 포인트 :

dtypes: float64(2), int64(5), object(5)

1️⃣ float64(실수형 데이터) : Age(나이), Fare(티켓 가격)
2️⃣ int64(정수형 데이터) : PassengerId(승객별 고유 ID번호), Survived(생존 여부), Pclass(좌석 등급), SibSp(형제자매/배우자 수), Parch(부모/자식 수)
3️⃣ object(문자열 데이터) : Name(이름), Sex(성별), Ticket(티켓 번호), Cabin(객실 번호), Embarked(승선한 항구)

Age(나이)와 Cabin(객실 번호)에 결측치(데이터가 누락됨)가 많음 -> 왜??

** 나이 (891개 중에 714개만 있음, 177개의 결측치)
... 아마도 그 당시엔 신분증이 보편화 되지 않았을 가능성
... 구조된 사람들의 나이가 정확하게 기록되었을 가능성
... 사망한 사람들의 신원 확인이 어려움

** 객실 번호 (891개 중 204개만 존재, 687개의 결측치)
... 그때는 손으로 다 기록 했을텐데 침몰하면서 그 기록을 찾기 어렵지 않았을까
... 타이타닉 영화만 봐도 잭은 제대로된 티켓도 없이 탔던거 같은데(아닐수도)
... 고로 그 당시에 1, 2등급 티켓을 제외하곤 알기 힘들었을듯

** 승선한 항구 (891개 중 889개 존재, 2개의 결측치)
... 생각보다 결측치가 적음
... 기록 잘 했는가봄

-----------------------------------

count(데이터 갯수)
mean(평균)
std(표준편차, 데이터가 평균에서 얼마나 퍼져 있는지)
min(최소값)
25% 


참고 : https://qkrrmsdud.tistory.com/8