## 데이터 랭글링
- 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 변환 과정을 광범위하게 의미하는 비공식적인 용어입니다.
- 데이터 랭글링에 사용되는 가장 일반적인 데이터 구조는 데이터 프레임이다.
- 데이터 프레임: 표 형식 데이터로 행과 열을 기반으로 한다.

## 데이터 프레임
- 각 행은 하나의 샘플에 해당한다. 각 열은 하나의 특성에 해당한다.
- 각 행은 인덱스 숫자를 가지고 각 열은 하나의 특성에 해당한다.
- 모든 특성(열)은 고유해야 한다. 겹치면 열을 삭제해야 한다.

In [2]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


책에 있는 주소는 이제 더 이상 사용이 안되므로 새로운 주소로 업데이트 했다.

In [3]:
import pandas as pd

dataframe = pd.DataFrame()   # 속이 빈 새로운 데이터 프레임을 생성했다.

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [4]:
new_person = pd.Series(['Molly Mooney', 40, True], index=['Name', 'Age', 'Driver'])   

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


Q. pd.DataFrame은 안되나?  
A. 바로 위의 명령어들을 보면 새로 원소를 추가할 때 열 이름을 입력해 주는데 Series는 index를 같이 입력해 줌으로써 그런 수고를 덜어준다.

## __데이터 프레임 객체 만드는 4가지 방법.__
1. 리스트로 만들어서 columns 인자와 함께 pd.DataFrame 사용하기

In [5]:
list1 = [['Jacky Jackson', 38, True], ['Steven Stevenson', 25, False]]
pd.DataFrame(list1, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


2. 열 이름과 데이터를 매핑한 딕셔너리로 만들기.

In [6]:
data = {'Name': ['Jacky Jackson', 'Steven Stevenson'],
        'Age':[38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


3. 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있으며 index(샘플을 나타내는 지수)를 따로 지정할 수 있다.

In [7]:
data = [{'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True}, {'Name': 'Steven Stevenson', 'Age': 25, 'Driver': False}]
pd.DataFrame(data, index=['sample1', 'sample2'])

Unnamed: 0,Name,Age,Driver
sample1,Jacky Jackson,38,True
sample2,Steven Stevenson,25,False


### 데이터 프레임 탐색하기
데이터프레임의 개별 데이터나 일부를 선택하고 싶다. -> loc나 iloc method를 통해 데이터 일부를 선택한다.
- iloc method는 숫자를 통해 검색
- loc method는 문자를 통해 검색

In [3]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

In [4]:
dataframe.iloc[1:3]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [5]:
dataframe.iloc[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [None]:
dataframe = dataframe.set_index(dataframe['Name'])

## 값 치환하기
데이터프레임에 있는 값을 바꾸고 싶다. -> 판다스에 있는 replace를 사용하자.

In [20]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe['Sex'].replace('female', 'Woman').head(5)

0    Woman
1    Woman
2     male
3    Woman
4     male
Name: Sex, dtype: object

- 동시에 여러 개의 값을 리스트를 통해 바꿀 수 있다.

In [9]:
dataframe['Sex'].replace(['female', 'male'], ['Woman', 'Man']).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

- 위의 내용들을 열을 선택해서 한 것이고 replace method는 데이터프레임 전체에서 값을 찾아서 바꿀 수 있다.

In [10]:
dataframe.replace(1, "one").head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,one,one
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,one
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,one
4,"Allison, Master Hudson Trevor",1st,0.92,male,one,0


- 여러 개의 열을 선택해서 값을 바꾸듯이 여러 개의 값을 선택해서 동일하게 바꿀 수 있다.

In [11]:
dataframe.replace(["female", 'male'], 'person').head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,person,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,person,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,person,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,person,1,0


- 혹은 딕셔너리로 여러 개의 값을 각자 다르게 바꿀 수 있다. 매핑을 통해서. map은 리스트의 요소를 지정된 함수로 처리해주는 함수. 리스트나 튜플 그리고 반복 가능한(iterable) 객체를 넣을 수 있다.

In [12]:
dataframe.replace({"female": 1, "male":0}).head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,1,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,0,1,0


### 조건에 해당하는 값 치환하기
열에서 조건에 해당하는 값을 치환하고 싶다. -> 판다스의 loc method를 사용하자.

In [28]:
import pandas as pd

dataframe1 = pd.read_csv(url)
dataframe1.loc[dataframe1["Age"] < 20, "Age"] = 'boys or girs'
dataframe1["Age"]

0                 29
1       boys or girs
2                 30
3                 25
4       boys or girs
            ...     
1308              27
1309              26
1310              22
1311              24
1312              29
Name: Age, Length: 1313, dtype: object

주의할 점이 있다. 명령어에서 조건만 쓰고 값을 입력하면 샘플의 전체 값이 변경되기 때문에 쉼표와 함께 조건문 옆에 값을 입력할 열의 이름 또한 입력해야 한다.

다른 방법으로 위와 동일한 변환을 해보겠다(.apply() method).

In [27]:
dataframe2 = pd.read_csv(url)
fix = lambda x: "Boys or Girs" if x < 20 else x
dataframe2["Age"] = dataframe2["Age"].apply(fix)
dataframe2["Age"]

0                 29
1       Boys or Girs
2                 30
3                 25
4       Boys or Girs
            ...     
1308              27
1309              26
1310              22
1311              24
1312              29
Name: Age, Length: 1313, dtype: object

### 열 이름 바꾸기.
판다스 데이터프레임의 열 이름을 바꾸고 싶다. -> rename method를 사용한다.

In [30]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.rename(columns={'PClass': 'Passenger Class'}).head(5)   # dictionary 형태임을 유의하라.

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


물론 여러 개의 이름을 바꾸는 것도 가능하다.

In [31]:
dataframe.rename(columns={'Name':'ID', "Sex":"Male or Female"}).head(5)

Unnamed: 0,ID,PClass,Age,Male or Female,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


반드시 columns 매개변수에 딕셔너리를 전달해야 한다.

- 전체 열의 이름을 동시에 바꿀 때. 키는 이전 열 이름을 사용하고 값은 비어있는 딕셔너리를 만드는 것이 편리하다.

In [32]:
import collections

column_names = collections.defaultdict(str)   # 초기값을 str로 설정했다.
for name in dataframe.columns:
    column_names[name]
    
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})