### 데이터 랭글링(Data Wrangling) 
#### 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 변환 과정. 잔처리의 한단계이지만 중요한 단계


In [1]:
import pandas as pd

#### 새로운 데이터 프레임 만들기

In [2]:
# 빈 데이터 프레인 만들기
dataframe = pd.DataFrame()

In [3]:
# 빈 데이터에 값 넣어주기
dataframe['Name'] = ['Jacky Jackson', 'Steve Steveson']
dataframe['Age']=[38,25]
dataframe['Driver']=[True,False]

In [4]:
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steve Steveson,25,False


In [20]:
# 데이터 프레임 안에 넣을 새로운 열 만들기
new_person = pd.Series(['Molly Mooney', 40, True],
             index = ['Name','Age','Driver'])

In [21]:
# 열 추가하기
dataframe.append(new_person,ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steve Steveson,25,False
2,Molly Mooney,40,True


### 데이터프레임 객체를 만들때 데이터를 전달하는 방법

In [22]:
import numpy as np

#### 넘파이 배열을 주입하기

In [23]:
data = [['Jacky Jackson']]

In [24]:
matrix = np.array(data)

In [26]:
# 열 이름은 columns 에 넣어준다
pd.DataFrame(matrix, columns = ['Name'])

Unnamed: 0,Name
0,Jacky Jackson


#### 원본 리스트 전달하기

In [28]:
pd.DataFrame(data,columns=['Name'])

Unnamed: 0,Name
0,Jacky Jackson


#### 열 이름과 데이터를 매핑한 딕셔너리 사용

In [33]:
data = {'Name': ['Jacky Jackson','Steve Stevenson'],
        'Age': [38, 25]}

In [34]:
pd.DataFrame(data)

Unnamed: 0,Name,Age
0,Jacky Jackson,38
1,Steve Stevenson,25


#### 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달

In [35]:
data=[ {'Name': 'Jacky Jackson', 'Age':38 },
       {'Name': 'Steve Steveson', 'Age': 25}]

In [39]:
# index 매개변수에 인덱스 따로 지정 가능
pd.DataFrame(data, index = ['row1', 'row2'])

Unnamed: 0,Name,Age
row1,Jacky Jackson,38
row2,Steve Steveson,25


# 데이터 프레임 특징

1)	데이터 . head(숫자) --- 위에서부터 보고싶은 행의 개수 지정
default 값은 5.  tail(숫자) 밑에서부터 보고싶은 행 지정 

2)	데이터 . shape  ---- 열과 행의 수 확인  ( row 행 , column 열)

3)	데이터 . describe()   ---- 숫자로 된 열의 통계 값 확인


# 데이터 프레임의 개별 데이터나 일부 선택하기

1)	loc 나 iloc 메소드 이용하기
	ex) 데이터 . iloc[0] ---- 첫번째 행 선택
    
2)	: (콜론) 으로 슬라이싱이 가능
	ex) 데이터 . iloc[1:4] ---- 두번째, 세번째, 네번째 행을 선택
    
3)	한 지점까지 모든 행 선택 가능
    ex) 데이터 . iloc[:4] ---- 다섯번쨰 행을 제외한 그전의 모든 행 선택
    
4)	행이 고유해지면 어떠한 값도 인덱스로 설정 가능
    ex) 데이터 = 데이터 . set_index(컬럼명)
   

# 데이터 프레임의 인덱스

1)	영문자와 숫자로 이루어진 고유한 문자열이거나 임의의 숫자

2)	loc ---- 인덱스, 컬럼명 아무거나 사용가능

3)	iloc ---- 인덱스 번호로만 사용가능(정수) 
      
4)	데이터 . loc [1:6] 을 하면 두번째부터 일곱번째까지 다 보여준다

5)	데이터 . iloc [1:6] 을 하면 두번째부터 여섯번째까지만 보여준다

6)	row를 뽑고나서 거기서 또 몇번째 column 까지만 보고싶을때는
데이터 . iloc['row':'row', 'column':'column'] 이렇게 적으면 어디서부터 어디까지의 row 중에서 어디서부터 어디까지의 column까지만 보여주게된다

7)	슬라이싱은 행을 선택, 인덱싱은 열을 선택


# 조건에 따라 데이터 프레임 행 선택 

1)	데이터 [ 데이터[‘컬럼명’] == ‘조건’ ]  --- 특정 컬럼이 조건을 만족하는 값들만 보여줌

2)	데이터 [ (데이터[‘컬럼명’] == ‘조건’) & (데이터[‘컬럼명’] >= 조건’) ] --- 두개의 조건을 다 만족하는 값들만 보여줌

3)	원본 데이터를 그대로 사용하기보단 조건을 통해서 필요한 값을 불러오는 것이 중요


# 값 치환하기

1) 데이터['컬럼명'] . replace('원래값' , '바꿀값')

2) 데이터['컬럼명'] . replace( ['원래값1' , '원래값2'] , ['바꿀값1' , '바꿀값2'] )

3) 데이터 . replace( '원래값' , '바꿀값')   ---  전체 데이터에서 원래값을 찾아서 그걸 바꿀값으로 바꿔줌

4) 데이터 . replace( ['원래값1' , '원래값2'] , 바꿀값)

5) 데이터 . replace( {'원래값1' : '바꿀값1', '원래값2' : '바꿀값2'} ) 

# 열 이름 바꾸기

1) 데이터 . rename ( columns = {원래이름 : 바꿀이름} )

2) 데이터 . rename ( columns = {원래이름1 : 바꿀이름1 , 원래이름2 : 바꿀이름2} )

3) 데이터 . columns 하게되면 모든 columns 이름이 나온다.
      
   그걸 복사한 후에 데이터 . columns = [ 'column이름' , 'column이름' , '바꿀이름' ] 이렇게 적어주면 기존이름에서 바꿀이름으로 바뀐다
   
   대신 이건 따로 저장하지 않아도 바로 저장되는거 주의

4) 데이터 . rename ( index = { 원래인덱스 : 바꿀인덱스 } ) 

5) 데이터 . rename (str.lower, axis = 'columns'혹은'index')

# 최솟값, 최댓값, 합, 평균 계산 및 개수 세기

1) 최솟값 = 데이터['컬럼명'] . min()

2) 최댓값 = 데이터['컬럼명'] . max()

3) 합 = 데이터['컬럼명'] . sum()

4) 평균 = 데이터['컬럼명'] . mean()

5) 카운트 = 데이터['컬럼명'] . count()

6) 이외에도 분산(var), 표준편차(std), 첨도(kurt), 비대칭도(skew), 평균의표준오차(sem), 최빈값(mode), 중간값(median) 많은 메서드 존재

7) 데이터 자체에 적용할 수 도 있다 ex) count() 

8) describe() 를 이용하여 한번에 확인 가능

# 고유한 값 찾기

1) 데이터 [컬럼명] . unique() ---- 고유값들을 모두 나열해서 보여줌

2) 데이터 [컬럼명] . value_counts() ---- 고유값들을 보여주고 등장 횟수를 보여줌

3) 데이터 [컬럼명] . nunique()  ----- 고유값 종류 갯수만 보여줌

4) nunique()를 했을 때 null 값들은 세지 않는다

# 누락된 값 다루기

1) 데이터 [컬럼명] . isnull() 혹은 isna() 

2) 만약 존재하던 값을 null 값으로 바꿔주고싶다면  데이터[컬럼명] = 데이터[컬럼명] . replace(기존값 , np.nan) 

3) pd.read_csv로 데이터를 불러올때 na_values = [NaN 으로 표시할 것] 하면 안에 문자가 null 값으로 인식됨

4) 똑같이 keep_default_na = 에서 False 로하면 null 값들이 NaN 으로 표시되지 않고 비어진다

5) na_filter = 를 False로해도 NaN 변환을 하지 않는다

# 열 삭제하기

1) 데이터 . drop ('컬럼명', axis = 1)

2) 데이터 . drop ([컬렴명1', '컬럼명2'], axis=1 ) 

3) 열의 이름이 없으면    데이터 . drop( 데이터.column[1], axis=1) 이렇게 지울수 있다

4) del 데이터[컬럼명] 으로 지울 수도 있고 inplace = True 를 통해 지운 값을 쭉 저장할수도있지만 권장하지 않는다

**3.11 행 삭제하기**

In [None]:
# 열 삭제 방식처럼 drop 함수 사용
dataframe.drop([0,1], axis=0).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


*행 삭제 시에는 불리언 조건을 사용해서 삭제하는 것이 더 실용적이다.*

In [None]:
# 불리언 조건을 사용하여 행을 삭제
dataframe[dataframe['Sex']!='female'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [None]:
dataframe[dataframe['Name']!='Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [None]:
dataframe[dataframe['Survived']==1].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


*행 인덱스를 사용하여 하나의 행을 삭제할 수도 있다.*

In [None]:
dataframe[dataframe.index!=0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0






**3.12 중복된 행 삭제하기**

In [None]:
# drop_duplicates 매서드 사용 : 행별로 중복데이터 검토, 중복데이터 삭제한 Dataframe 반환
dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# drop_duplicates는 모든 열이 완벽히 동일한 행만 삭제

print("원본 데이터프레임 행의 수:", len(dataframe))
print("중복 삭제 후 행의 수:", len(dataframe.drop_duplicates()))

원본 데이터프레임 행의 수: 1313
중복 삭제 후 행의 수: 1313


In [None]:
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [None]:
dataframe.drop_duplicates(subset=['Sex'],keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


*중복 행을 삭제하기 전, 행의 중복 여부를 판별할 수 있는 메서드 duplicated*

In [None]:
# duplicated 메서드를 사용해서 행의 중복 여부를 판별

dataframe.duplicated(subset=['Sex'])

0       False
1        True
2       False
3        True
4        True
        ...  
1308     True
1309     True
1310     True
1311     True
1312     True
Length: 1313, dtype: bool

In [None]:
dataframe.duplicated(subset=['Sex','Survived'])

0       False
1       False
2       False
3        True
4       False
        ...  
1308     True
1309     True
1310     True
1311     True
1312     True
Length: 1313, dtype: bool

**3.13 값에 따라 행을 그룹핑하기**

*특정 값을 기준으로 개별 행을 그룹핑하는 groupby 사용*

In [None]:
dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc50fa7e0f0>

In [None]:
# groupby는 각 그룹에 적용할 연산을 함께 쓴다.
dataframe.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [None]:
dataframe.groupby('Survived').count()

Unnamed: 0_level_0,Name,PClass,Age,Sex,SexCode
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,863,863,443,863,863
1,450,450,313,450,450


In [None]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [None]:
dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

**3.14 시간에 따라 행을 그룹핑하기**

*resample 메서드를 사용해 시간 간격에 따라 행을 그룹핑한다*




In [None]:
# 날짜 범위 생성
time_index=pd.date_range('11/01/2020', periods=100000, freq='30s')

# 데이터프레임 생성
dataframe=pd.DataFrame(index=time_index)

# 난숫값으로 열 생성
dataframe['Sale_Amount']=np.random.randint(1,10,100000)

In [None]:
dataframe.head(3)

Unnamed: 0,Sale_Amount
2020-11-01 00:00:00,7
2020-11-01 00:00:30,6
2020-11-01 00:01:00,5


In [None]:
# 주 단위로 행을 그룹핑한 다음 합 계산
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2020-11-01,14598
2020-11-08,100808
2020-11-15,100182
2020-11-22,101417
2020-11-29,100829
2020-12-06,82555


In [None]:
# 2주 그룹핑, 평균 계산
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2020-11-01,5.06875
2020-11-15,4.984871
2020-11-29,5.016022
2020-12-13,5.009405


In [None]:
# 1달 그룹핑, 행 카운트
dataframe.resample('M').count()

Unnamed: 0,Sale_Amount
2020-11-30,86400
2020-12-31,13600


In [None]:
dataframe.resample('M',label='left').count()

Unnamed: 0,Sale_Amount
2020-10-31,86400
2020-11-30,13600


In [None]:
dataframe.resample('MS').count()

Unnamed: 0,Sale_Amount
2020-11-01,86400
2020-12-01,13600


In [None]:
# 날짜 범위 생성
time_index=pd.date_range('11/01/2020', periods=10, freq='1d')

# 데이터프레임 생성
dataframe=pd.DataFrame(index=time_index)

# 난숫값으로 열 생성
dataframe['Sale_Amount']=np.random.randint(1,10,10)

In [None]:
dataframe

Unnamed: 0,Sale_Amount
2020-11-01,9
2020-11-02,2
2020-11-03,7
2020-11-04,5
2020-11-05,9
2020-11-06,1
2020-11-07,1
2020-11-08,1
2020-11-09,7
2020-11-10,4


In [None]:
dataframe.resample('W').count()

Unnamed: 0,Sale_Amount
2020-11-01,1
2020-11-08,7
2020-11-15,2


In [None]:
dataframe.resample('W',label='left').count()

Unnamed: 0,Sale_Amount
2020-10-25,1
2020-11-01,7
2020-11-08,2


3.15 열 원소 순회하기

In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

In [None]:
dataframe.head()

In [None]:
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5)

In [None]:
dataframe.head()

In [None]:
#'name'이라는 열의 0~2행 출력
for name in dataframe['Name'][0:2]:
    print(name.upper())

3.16 모든 열 원소에 함수 적용하기 

In [None]:
def uppercase(x):
    return x.upper()
dataframe['Name'].apply(uppercase)[0:2]

In [None]:
#먼저 Survived 열 출력해보기 
dataframe['Survived'][0:10]

In [None]:
dataframe['Survived'].map({1:'Live', 0:'Dead'})[:5]

In [None]:
dataframe['Age'][0:10]

In [None]:
(dataframe['Age'].apply(lambda x, age: x <age, age =30)[:5]

In [None]:
#apply 프레임 전체에 적용가능 각 열마나 가장 큰 값 출력해줌 
dataframe.apply(lambda x: max(x))

 3. 17 그룹에 함수 적용하기

In [None]:
#성으로 두 개의 그룹 생김 > female, male이 행이 됨
dataframe.groupby('Sex').apply(lambda x: x.count())

 3.18 데이터프레임 연결하기 

In [None]:
data_a = {'id':['1', '2','3'],
          'first':['Alex', 'Amy', 'Allen'],
          'last': ['Anderson', 'Ackerman', 'Ali']}
dataframe_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])

data_b = {'id':['4', '5','6'],
          'first':['Billy', 'Brian', 'Bran'],
          'last': ['Bonder', 'Black', 'Balwner']}
dataframe_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])

pd.concat([dataframe_a, dataframe_b], axis=0)

In [None]:
pd.concat([dataframe_a, dataframe_b], axis=1)

In [None]:
row = pd.Series([10, 'Chris', 'Chillon'], index =['id', 'first', 'last'])
dataframe_a.append(row, ignore_index = True)