In [7]:
# 3.0 소개

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [11]:
# 3.1 데이터프레임 만들기

# 방법1: DataFrame 클래스를 사용해 비어 있는 데이터프레임을 만든 후 개별적으로 각 열 정의

import pandas as pd

dataframe = pd.DataFrame()

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]


dataframe


# 방법 2: 데이터프레임 객체를 만든 후 새로운 행을 아래에 추가

new_person = pd.Series(['Molly Mooney', 40, True],
             index=['Name', 'Age', 'Driver'])

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


In [16]:
# 데이터프레임 객체를 만들 때ㅐ 데이터를 전달하는 방법이 몇 가지 있습니다. 먼저 넘파이 배열을 주입하여 만들 수 있습니다. 
# 열 이름은 columns 매개변수에 지정합니다.

import numpy as np

data = [ ['Jacky Jackson', 38, True], ['Steve Stevenson', 25, False] ]

matrix = np.array(data)
pd.DataFrame(matrix, columns = ['Name', 'Age', 'Driver'])


# 원본 리스트를 전달하여 만들 수도 있습니다.
pd.DataFrame(data, columns= ['Name', 'Age', 'Driver'])



# 열 이름과 데이터를 매핑한 딕셔너리를 사용해 데이터프레임을 만들 수 있습니다.
data = {'Name': ['Jacky Jackson', 'Steve Stevenson'],
        'Age': [38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)



# 또는 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있습니다. index 매개변수에 인덱스를 따로 지정할 수도 있습니다.
data = [ {'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True},
         {'Name': 'Steve Stevenson', 'Age': 25, 'Driver': False} ]
pd.DataFrame(data, index=['row1', 'row2'])

Unnamed: 0,Name,Age,Driver
row1,Jacky Jackson,38,True
row2,Steve Stevenson,25,False


In [19]:
# 3.2 데이터 설명하기
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head(2)

dataframe.shape

dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [28]:
# 3.3 데이터프레임 탐색하기

import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

dataframe = pd.read_csv(url)

## 첫 번째 행 선택
dataframe.iloc[0]

# 콜론(:)을 사용하여 원하는 행의 슬라이스를 선택할 수 있습니다. 예를 들어 두 번째, 세 번째, 네 번째 행을 선택합니다.
dataframe.iloc[1:4]

## 네 개의 행 선택
dataframe.iloc[:4]

# 데이터프레임은 정수 인덱스를 가질 필요가 없습니다. 각 행이 고유해진다면 어떤 값이라도 데이터프레임의 인덱스로 설정할 수 있습니다.
# 예를 들어 승객 이름을 인덱스로 설정하고 이름을 사용하여 행을 선택할 수 있습니다.

## 인덱스 설정
dataframe = dataframe.set_index(dataframe['Name'])

## 행 확인
dataframe.loc['Allen, Miss Elisabeth Walton']


# loc는 데이터프레임의 인덱스가 레이블 (예를 들어 문자열) 일 때 사용합니다.

# iloc는 데이터프레임의 위치를 참조합니다. 예를 들어 iloc[0]는 정수 혹은 문자열 인덱스에 상관없이 첫 번째 행을 반환합니다.

# loc와 iloc 메서드의 슬라이싱은 넘파이와 달리 마지막 인덱스를 포함합니다. 슬라이싱을 사용해 열을 선택할 수도 있습니다.

## 'Allison, Miss Helen Loraine' 이전까지 행에서 Age 열과 Sex 열만 선택
dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']


# 데이터프레임 객체에 슬라이싱을 사용하면 행을 선택합니다. 이때는 마지막 인덱스를 포함하지 않습니다.
# 인데깅을 사용하면 열을 선택하며 여러 개의 열 이름을 리스트로 전달할 수도 있습니다.

## dataframe[:2] 와 동일
dataframe[:'Allison, Miss Helen Loraine']

dataframe[['Age', 'Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female
