### 데이터 랭글링
- 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 변환 과정을 광범위하게 의미하는 비공식적인 용어입니다.
- 데이터 랭글링에 사용되는 가장 일반적인 데이터 구조는 데이터 프레임이다.
- 데이터 프레임: 표 형식 데이터로 행과 열을 기반으로 한다.

### 데이터 프레임
- 각 행은 하나의 샘플에 해당한다. 각 열은 하나의 특성에 해당한다.
- 각 행은 인덱스 숫자를 가지고 각 열은 하나의 특성에 해당한다.
- 모든 특성(열)은 고유해야 한다. 겹치면 열을 삭제해야 한다.

In [6]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


책에 있는 주소는 이제 더 이상 사용이 안되므로 새로운 주소로 업데이트 했다.

In [9]:
import pandas as pd

dataframe = pd.DataFrame()   # 속이 빈 새로운 데이터 프레임을 생성했다.

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [12]:
new_person = pd.Series(['Molly Mooney', 40, True], index=['Name', 'Age', 'Driver'])   

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


Q. pd.DataFrame은 안되나?  
A. 바로 위의 명령어들을 보면 새로 원소를 추가할 때 열 이름을 입력해 주는데 Series는 index를 같이 입력해 줌으로써 그런 수고를 덜어준다.

### __데이터 프레임 객체 만드는 4가지 방법.__
1. 리스트로 만들어서 columns 인자와 함께 pd.DataFrame 사용하기

In [13]:
list1 = [['Jacky Jackson', 38, True], ['Steven Stevenson', 25, False]]
pd.DataFrame(list1, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


2. 열 이름과 데이터를 매핑한 딕셔너리로 만들기.

In [14]:
data = {'Name': ['Jacky Jackson', 'Steven Stevenson'],
        'Age':[38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


3. 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있으며 index(샘플을 나타내는 지수)를 따로 지정할 수 있다.

In [15]:
data = [{'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True}, {'Name': 'Steven Stevenson', 'Age': 25, 'Driver': False}]
pd.DataFrame(data, index=['sample1', 'sample2'])

Unnamed: 0,Name,Age,Driver
sample1,Jacky Jackson,38,True
sample2,Steven Stevenson,25,False
