# 넘파이 (numpy)
- 기본 객체 형태 ndarray
- 머신러닝의 기본 입출력 형태 
- 텐서플로와 호환 가능
## 기능
- np.array([],[])
- ndarray.shape, ndarray.ndim, type(ndarray), ndarray.dtype
- np.arange(), np.zeros(), np.ones()
- ndarray.reshape
- 인덱싱
- np.sort(ndarray), ndarray.sort(), ndarray.argsort()
- np.dot(A,B), np.transpose(A)

In [5]:
import numpy as np

### 넘파이의 기반 데이터 타입 ndarray

In [48]:
# 생성
array1 = np.array([[1,2,3],[4,5,6]])

# 형태
print(array1.shape)
# 타입 확인
print(type(array1))
# 차원 확인
print(array1.ndim)

(2, 3)
<class 'numpy.ndarray'>
2


### ndarray의 데이터 타입
- 숫자형 int, unsigned int형, float형(실수), complex형( 큰 숫자, 정밀도)
- 연산은 특성산 같은 데이터 타입만 가능
- 한 개의 ndarray객체에 int와 float이 같이 있을 수 없다.


In [49]:
# ndarray 내의 데이터 타입은 dtype 속성으로 확인 가능
list1 = [1,2,3]
array1 = np.array(list1)
print(type(list1))
print(type(array1))
print(array1.dtype) #ndarray의 값이 모두 인트형

<class 'list'>
<class 'numpy.ndarray'>
int32


In [52]:
# int형과 str형 섞인 경우
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2,array2.dtype)

print('='*30)
# int형과 float형 섞인 경우
list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3,array3.dtype)

# 데이터 타입이 섞인 경우 더 큰 데이터 타입으로 변환 

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [55]:
# ndarray내 데이터 값의 타입변경 astype()
print(array1)
array_float = array1.astype('float64')
print(array_float,array_float.dtype)

[1 2 3]
[1. 2. 3.] float64


### ndarray 편리하게 생성하기
- arange: range()와 유사한 기능 => arrange를 range()로 표현
- zeros: shape 값 입력시 모든 값을 0으로 채운 ndarray 반환
- ones : shape 값 입력시 모든 값을 1로 채운 ndarray 반환

In [56]:
# arnage 
# 0부터 시작
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.shape, sequence_array.dtype)

[0 1 2 3 4 5 6 7 8 9]
(10,) int32


In [58]:
# zeros
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.shape, zero_array.dtype)

print('='*50)
# ones
one_array = np.ones((3,2),dtype='int32')
print(one_array)
print(one_array.shape, one_array.dtype)



[[0 0]
 [0 0]
 [0 0]]
(3, 2) int32
[[1 1]
 [1 1]
 [1 1]]
(3, 2) int32


### ndarray의 차원과 크기 변경 reshape()

In [66]:
array1 = np.arange(10)
print('array1 \n',array1)

array2 = array1.reshape(2,5)
print('array2 \n', array2)

array3 = array2.reshape(5,2)
print('array3 \n', array3)

print('숫자의 길이로 만들수 없는 차원은 불가능 ')
print(array1.reshape(4,3))

array1 
 [0 1 2 3 4 5 6 7 8 9]
array2 
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
숫자의 길이로 만들수 없는 차원은 불가능 


ValueError: cannot reshape array of size 10 into shape (4,3)

- -1을 인자로 사용해 ndarray 효율적으로 변환
- 행이나 열중 원하는 형태를 입력한 후 -1을 다른 인자로 사용하면 자동으로 차원을 맞춰 생성(size 변경)
- 불가능한 차원은 만들지 못함
- 여러 개의 ndarray는 conca이나 stack을 통해 결합 그경우 reshape 기능을 통해 변환
- reshape(-1,1)을 통해 어떤 형태라도 하나의 칼럼을 가지는 ndarray로 변환
- reshape(-1,1)을 사용해 3차원을 2차원으로, 2차원을 1차원으로 변환
- tolist() 메서드를 이요해 리스트 자료형으로 변환

In [75]:
# reshape(x,-1)
print('array1 \n',array1)

array2 = array1.reshape(5,-1)
print('array2 \n', array2)

array3 = array2.reshape(-1,5)
print('array3 \n', array3)

array1 
 [0 1 2 3 4 5 6 7]


ValueError: cannot reshape array of size 8 into shape (5,newaxis)

In [87]:
# reshape(-1,1), tolist
array1 = np.arange(8)
print(array1)

array3d = array1.reshape(2,2,2)
print('\n3차원',array3d)
print(array3d.tolist())

# 3차원 ndarray를 2차원으로 변환
array5 = array3d.reshape(-1,1)
print('2차원')
print(array5.tolist(), array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print(array1.tolist(),array1.shape)
print(array6.tolist(), array1.shape)

[0 1 2 3 4 5 6 7]

3차원 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
[[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
2차원
[[0], [1], [2], [3], [4], [5], [6], [7]] (8, 1)
[0, 1, 2, 3, 4, 5, 6, 7] (8,)
[[0], [1], [2], [3], [4], [5], [6], [7]] (8,)


### ndarray의 데이터 세트 선택하기 - 인덱싱(indexing)
- 인덱싱은 항상 0부터 시작
- 특정 데이터만 추출 : 0이 제일 앞의 수, -1이 제일 뒤의 수
- 슬라이싱 : 종료 인덱스 -1 까지 인덱싱 
- 팬시 인덱싱 : 일정 인덱싱 집합을 리스트 또는 ndarray 형태ㅐ로 지정 
- 불린 인덱싱 : True of False 값 사용 

In [95]:
# 단일 값 추출
array1 = np.arange(9)
print(array1[2]) #3번째 위치의 값 출력

# 맨 뒤의 값 -1 인덱싱
print(array1[-1])

# 인덱싱을 이용한 값 변경
array1[3] = 8
print(array1)

2
8
[0 1 2 8 4 5 6 7 8]


In [99]:
# 다차원 
array2d = array1.reshape(3,3)
print(array2d)

print(array2d[0,0])
print(array2d[0,2])
print(array2d[2,2])

[[0 1 2]
 [8 4 5]
 [6 7 8]]
0
2
8


- axis0: 행방향 ↓
- axis1: 열방향 →
- 3차원일 경우 axis2 추가

In [108]:
# 슬라이싱
print(array2d)
print('='*30)
print(array2d[0:2,0:2])
print('='*30)
print(array2d[:,1])
print('='*30)
print(array2d[:,1:])
print('='*30)
print(array2d[:,:1])
print('='*30)
print(array2d[:2,0])



[[0 1 2]
 [8 4 5]
 [6 7 8]]
[[0 1]
 [8 4]]
[1 4 7]
[[1 2]
 [4 5]
 [7 8]]
[[0]
 [8]
 [6]]
[0 8]


In [115]:
# 팬시 인덱싱 
array1 = np.arange(start=1,stop=10)
print(array1)
array2d = array1.reshape(3,-1)
array3 = array2d[[0,1],2]
print(array3.tolist())

array4 = array2d[[0,1],0:2]
print(array4.tolist())

# 팬시와 슬라이싱 단일 모두 혼용 가능 

[1 2 3 4 5 6 7 8 9]
[3, 6]
[[1, 2], [4, 5]]


In [120]:
# 불린 인덱싱 
array3 = array1[array1>5]
print(array1>5)
print(array3)

# []안에 필터링 조건 기재
# False값 무시하고 True값만 저장
# 저장된 인덱스 데이터 세트로 ndarray 조회 

[False False False False False  True  True  True  True]
[6 7 8 9]


## 행렬의 정렬 sort(), argsort()
- ndarray 정렬
- np.sort() : 원본 행렬은 그대로 유지
- ndarray.sort(): 원본 행렬을 정렬 
- 둘 다 기본적으로 오름차순 정렬 내림차순 정렬시 [::-1] 사용 

In [138]:
origin = [3,1,7,5]
print('원본 행렬', origin)
print('='*30)

print('np.sort(origin)')
sort_array1 = np.sort(origin)
print('원본데이터는 그대로',origin)
print('반환값: ', sort_array1)
print('='*30)

print('origin.sort()')
sort_array2 = origin.sort()
print('원본데이터 정렬',origin)
print('반환값: ', sort_array2)
print('='*30)

sort_array1_desc = np.sort(origin)[::-1]
print('내림차순 by np.sort',sort_array1_desc)
print('내림차순 by ndarray.sort',origin[::-1])


원본 행렬 [3, 1, 7, 5]
np.sort(origin)
원본데이터는 그대로 [3, 1, 7, 5]
반환값:  [1 3 5 7]
origin.sort()
원본데이터 정렬 [1, 3, 5, 7]
반환값:  None
내림차순 by np.sort [7 5 3 1]
내림차순 by ndarray.sort [7, 5, 3, 1]


- 행렬이 2차원 이상일 경우 axis 축 값 설정을 통해 로우 방향, 컬럼 방향 정렬 수행

In [142]:
array2d = np.array([[8,12],[7,1]])
print(array2d)

array_axis0 = np.sort(array2d,axis=0)
print('axis=0 정렬 \n',array_axis0)

array_axis1 = np.sort(array2d,axis=1)
print('axis=1 정렬 \n',array_axis1)

[[ 8 12]
 [ 7  1]]
axis=0 정렬 
 [[ 7  1]
 [ 8 12]]
axis=1 정렬 
 [[ 8 12]
 [ 1  7]]


### argsort() 정렬된 행렬의 인덱스를 반환하기
- 원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스 필요할 때
- argsort()기능 활용
- 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환

In [162]:
origin = np.array([3,1,9,5])
sort_indices = np.argsort(origin)
print(sort_indices)
print(origin) # 원본데이터에는 변화 없음 

origin.sort()
print(origin)

print(origin[sort_indices])

# 내림차순의 경우
origin = np.array([3,1,9,5])
sort_indices_desc = np.argsort(origin)[::-1]
print(sort_indices_desc)

[1 0 3 2]
[3 1 9 5]
[1 3 5 9]
[3 1 9 5]
[2 3 0 1]


In [166]:
name_array = np.array(['SeoMhin','KimSJ','O.skn','JYP','holavla'])
score_array = np.array([45,65,100,23,79])

rank = score_array.argsort()[::-1]
print(rank)
name_array[rank]

[2 4 1 0 3]


array(['O.skn', 'holavla', 'KimSJ', 'SeoMhin', 'JYP'], dtype='<U7')

## 선형대수 연산 - 행렬 내적과 전치 행렬 구하기 
- np.dot(A,B)
- np.transpose(A)

In [167]:
# 행렬 내적(행렬 곱)
A = np.arange(1,7).reshape(2,3)
B = np.arange(7,13).reshape(3,2)
dot_product = np.dot(A,B)
print(dot_product)

[[ 58  64]
 [139 154]]


In [169]:
# 전치 행렬(행과 열 원소 위치 교환)
np.transpose(A)

array([[1, 4],
       [2, 5],
       [3, 6]])

# 판다스 Pandas
- 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능 제공 
- DataFrame이 핵심, 개별 데이터를 고유하게 식별하는 Index, 하나의 칼럼인 Series
## 기능
- pd.read_csv, pd.read_table, pd.read_fwf
- df.shape, df.describe(), df.info(), df['column'].value_counts()
- pd.DataFrame(list, columns=name_list),pd.DataFrame(ndarray, columns=name_list),pd.DataFrame(dict)
- df.values, df.values.tolist()
- df['column']
- df.drop(labels = None, axis=0, index=None, columns=None, inplace=False, errors='raise')
- df.index.values, df.reset_index(inplace=False)
- df.iloc[위치기반], df.loc[명칭기반], df.[boolean]
- df.sort_values()
    - by=['컬럼명']: 컬럼을 기준으로 정렬, 
    - ascending=False: 내림차순, 
    - inplace=True: 호출한 DataFrame에 정렬 결과 적용 
- df.min(), df.max(), df.sum(), df.count()
- df.groupby(by='컬럼명')
- df.groupby('컬럼명')['컬럼명'].agg([min,max]), 
    - dict = {'컬럼명1':'함수1', '컬럼명2':'함수2','컬럼명3':'함수3'}
    - df.groupby('컬럼명').agg(dict)
- df.isna().sum(), df.fillna(채울값,inplace=False)
- lambda 인자: 적용할 수식
    - df['컬럼명'].apply(lambda 인자: True시 반환 값 if 조건식 else False시 반환 값)
    - df['컬럼명'].apply(lambda 인자: 적용할 함수)

In [1]:
import pandas as pd

In [None]:
# 데이터 로딩 
read_csv() # , 로 구분, 인자 sep 보유
read_table() # \t로 구분(탭)
read_fwf() # 고정 길이 기반의 칼럼 포맷 로딩 용 

In [2]:
titanic_df = pd.read_csv('C:\\Users\\01048\\Desktop\\machine_learning\\perfect_guide\\dataset\\titanic\\train.csv')
print('titanic 변수 type:',type(titanic_df))
print('DataFrame 크기', titanic_df.shape)
titanic_df.head(3) # 상위 몇개의 로우 표시

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>
DataFrame 크기 (891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [5]:
titanic_df.info()
# 전체 row,col의 개수
# 특성(컬럼)별 데이터 타입 확인 
# 타 특성과 숫자 안맞는 것 결측값 존재
# 특성별 요약 제공

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [7]:
titanic_df.describe()
# 대략적인 분포 확인 
# count - Not Null인 데이터 개수
# Passengerid의 경우 ID식별 용이라 의미 있는 데이터가 아니다. 

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [4]:
# 범주형 변수의 개수 확인
value_counts = titanic_df['Pclass'].value_counts()
value_counts
# DataFrame에서는 제공하지 않는 Series 기능

# DataFrame의 인덱스
# 고유성만 보장된다면 인덱스에 값 할당도 가능하다. 

3    491
1    216
2    184
Name: Pclass, dtype: int64

### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환
- DataFrame은 칼럼명 존재 
- columns 기능을 통해 이름 지정 필요

In [11]:
# ndarray 변환
name = np.array(['horyeong','seongjun','JYP','O.skn','mhin'])
col1 = ['age']
age = np.array([26,26,22,28,95])
age_reshape = age.reshape(-1,5)


df1 = pd.DataFrame(age,columns= col1)
df2 = pd.DataFrame(age_reshape, columns=name)
print(df1)
print(df2)

In [13]:
# 리스트 변환
list1 = [[1,2,3],[4,5,6]]
col = ['col1','col2','col3']
df3 = pd.DataFrame(list1,columns = col)
print(df3)

   col1  col2  col3
0     1     2     3
1     4     5     6


In [14]:
# 딕셔너리 
dict = {'col1':[1,11],'col2':[2,22],'col3':[3,33]}
df_dict = pd.DataFrame(dict)
print(df_dict)

   col1  col2  col3
0     1     2     3
1    11    22    33


In [23]:
# ndarray로 변환
array1 = df_dict.values
print(type(array1),array1.shape)

# list로 변환
list2 = df_dict.values.tolist()
print(list2,type(list2))

<class 'numpy.ndarray'> (2, 3)
[[1, 2, 3], [11, 22, 33]] <class 'list'>


### DataFrame의 칼럼 데이터 세트 생성과 수정 

In [36]:
# 칼럼 추가
titanic_df['Age_0'] = 0

# 칼럼 끼리의 연산
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
print(titanic_df.head(3))

# 칼럼의 수정
titanic_df['Age_by_10'] = titanic_df['Age_by_10']+100

print(titanic_df.head(3))


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   

   Parch            Ticket     Fare Cabin Embarked  Age_0  Age_by_10  \
0      0         A/5 21171   7.2500   NaN        S      0      220.0   
1      0          PC 17599  71.2833   C85        C      0      380.0   
2      0  STON/O2. 3101282   7.9250   NaN        S      0      260.0   

   Family_No  
0          2  
1          2  
2          1  
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   

                                                Name

### DataFrame 기술 통계기능
- info(), describe(), value_counts(),

In [40]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
 12  Age_0        891 non-null    int64  
 13  Age_by_10    714 non-null    float64
 14  Family_No    891 non-null    int64  
dtypes: float64(3), int64(7), object(5)
memory usage: 104.5+ KB


### DataFrame 데이터 삭제
- axis=0 로우 삭제(컬럼 명), axis=1 칼럼 삭제(로우 인덱스) 
- inplace = True 원본 데이터 삭제

In [29]:
titanic_drop_df = titanic_df.drop('Age_0',axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [42]:
# inplac = True 원본데이터 수정 
drop_result = titanic_df.drop(['Age_0','Age_by_10','Family_No'],inplace=True, axis=1)
print('반환 값', drop_result)
titanic_df.head(3)

반환 값 None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [43]:
# row 삭제
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',15)
print(titanic_df.head(3))
print('='*30)
titanic_df.drop([1,2,3],inplace=True,axis=0)
print(titanic_df.head(3))

   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
   PassengerId  Survived  Pclass            Name   Sex   Age  SibSp  Parch     Ticket    Fare Cabin Embarked
0            1         0       3  Braund, Mr....  male  22.0      1      0  A/5 21171  7.2500   NaN        S
4            5         0       3  Allen, Mr. ...  male  35.0      0      0     373450  8.0500   NaN        S
5            6         0       3  Moran, Mr. ...  male   NaN      0      0     330877  8.4583   NaN        Q


### Index 객체 

In [46]:
# 원본 데이터 리셋
titanic_df = pd.read_csv('C:\\Users\\01048\\Desktop\\machine_learning\\perfect_guide\\dataset\\titanic\\train.csv')

In [48]:
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
print(indexes.values) #ndarray로 전환

RangeIndex(start=0, stop=891, step=1)
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 

In [49]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [50]:
# 인덱스 값은 임의로 변경 불가
indexes[0] = 5

TypeError: Index does not support mutable operations

In [51]:
# DataFrame 및 Series에 reset_index() 수행시 인덱스를 연솟 숫자 형으로 할당, 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [53]:
print('### Before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('객체 변수 타입',type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)

new_value_counts.drop('index',inplace=True, axis=1)
print(new_value_counts)

### Before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
객체 변수 타입 <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
   Pclass
0     491
1     216
2     184


## 데이터 셀렉션 및 필터링
- 직접 인덱싱, ix 인덱싱은 사용하지 말자!
- df.iloc[ ] : 위치 기반 인덱싱 - integer, integer 형의 슬라이싱, 팬시 리스트 값 입력 
    - [0,0]이 원점
    - 인덱스 이름이 아닌 위치!!
- df.loc[row인덱스명, 컬럼 이름] : 명칭 기반 인덱싱

In [56]:
print('단일 칼럼 추출 \n', titanic_df['Pclass'].head(3)) #컬럼명 
print('여러 칼럼 추출 \n', titanic_df[['Age','Pclass']].head(3))
print(' 슬라이싱 추출 \n', titanic_df[0:2]) # 로우개수

# 직접 인덱싱하는 방법은 사용하지말자!

단일 칼럼 추출 
 0    3
1    1
2    3
Name: Pclass, dtype: int64
여러 칼럼 추출 
     Age  Pclass
0  22.0       3
1  38.0       1
2  26.0       3
 슬라이싱 추출 
    PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch     Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0  A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0   PC 17599  71.2833   C85        C


In [65]:
data = {'Name':['ho','o.skn','mihn','ksj','JYP'], 'Year':[2020,2011,2016,2015,2015], 'Gender':['male','male','female','male',"male"]}
data_df = pd.DataFrame(data,index=[1,2,3,4,5])

In [68]:
data_df

Unnamed: 0,Name,Year,Gender
1,ho,2020,male
2,o.skn,2011,male
3,mihn,2016,female
4,ksj,2015,male
5,JYP,2015,male


In [75]:
print(data_df.iloc[1,0]) #위치기반
print(data_df.loc[1,'Name']) #명칭기반 

o.skn
ho


- 일반적인 슬라이싱 [a:b]는 a부터 (b-1)까지 의미한다.
- 하지만 명칭기반 슬라이싱[A:B]는 A부터 B까지(포함해서) 의미

In [79]:
print('위치 기반: \n',data_df.iloc[1:3,0])
print('명칭 기반:\n',data_df.loc[1:3,'Name'])

위치 기반: 
 2    o.skn
3     mihn
Name: Name, dtype: object
명칭 기반:
 1       ho
2    o.skn
3     mihn
Name: Name, dtype: object


### 불린 인덱싱
- 사실상 가장 많이 사용하는 인덱싱 방법

In [80]:
# 타이타닉 데이터 중 60세 이상만 조회
titanic_df[titanic_df['Age']>=60]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
366,367,1,1,"Warren, Mrs...",female,60.0,1,0,110813,75.25,D37,C


In [83]:
# Age가 60 이상인 승객의 나이와 이름
titanic_df[titanic_df['Age']>=60][['Age','Name']].head(3)

Unnamed: 0,Age,Name
33,66.0,"Wheadon, Mr..."
54,65.0,"Ostby, Mr. ..."
96,71.0,Goldschmidt...


In [88]:
# 여러가지 조건
# 60세이상, Pclass가1, 성별 여성
titanic_df[(titanic_df['Age']>=60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs...",female,60.0,1,0,110813,75.25,D37,C
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


### 정렬, Aggregation함수, GroupBy 적용
- DataFrame, Series의 정렬은 df.sort_values()
    - by=['컬럼명']: 컬럼을 기준으로 정렬, 
    - ascending=False: 내림차순, 
    - inplace=True: 호출한 DataFrame에 정렬 결과 적용 
- df.min(), df.max(), df.sum(), df.count()
- df.groupby(by='컬럼명')
- df.groupby('컬럼명')['컬럼명'].agg([min,max]), 
    - dict = {'컬럼명1':'함수1', '컬럼명2':'함수2','컬럼명3':'함수3'}
    - df.groupby('컬럼명').agg(dict)

In [3]:
# Name 컬럼 기준으로 오름차순 정렬
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S


In [5]:
# Pclass, Name을 기준으로 내림차순 정렬
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


In [6]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [8]:
# 여러개 칼럼에 적용
titanic_df[['Age','Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

- df.groupby(by='컬럼명') 입력시 대상 칼럼으로 groupby 실행 후 반환
- groupby후 aggregaion 적용시 대상 칼럼 제외 Aggregation함수 적용

In [9]:
titanic_groupby = titanic_df.groupby(by='Pclass')
titanic_groupby.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S


In [10]:
titanic_groupby = titanic_df.groupby(by='Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [14]:
# groupby, aggregation 적용 후 특정 칼럼만 인덱싱
titanic_groupby = titanic_df.groupby(by='Pclass')[['PassengerId','Survived']].count()
titanic_groupby.head(3)

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [15]:
# Aggregation 함수 여러개 적용
titanic_df.groupby('Pclass')['Age'].agg([min,max])

Unnamed: 0_level_0,min,max
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.92,80.0
2,0.67,70.0
3,0.42,74.0


In [16]:
# 딕셔너리 생성을 통한 컬럼별 aggregation 함수 적용
agg_format = {'Age':'max','SibSp':'sum','Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### 결손 데이터(결측값) 처리하기
- 결손 데이터는 NaN으로 표기 
- 머신러닝 알고리즘은 NaN 처리하지 않음 => 대체 필요 
- 100개 중 NaN이 10개라면 90개 데이터에 대한 평균 출력 
- df.isna(), df.fillna()

In [18]:
# 결손데이터 확인 - True False값 반환
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [19]:
# 칼럼별 결측치 개수 확인
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [20]:
# 결손 데이터 대체하기
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)
# Cabin 컬럼의 결측 데이터 C000으로 대체

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


In [21]:
# inplace = True 입력시 원본데이터 수정
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean()) #Age 컬럼의 결측값 평균으로 대체
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       2
dtype: int64

### apply lambda 식으로 데이터 가공
- 함수형 프로그래밍 지원 용도
- def기능을 통한 함수 정의 대신 사용가능

In [23]:
# :를 통해서 입력인자와 계산식 분리
lambda_square = lambda x: x**2
lambda_square(4)

16

In [24]:
# 여러개의 인자 사용시 map()함수 사용 
a = [1,2,3]
squres = map(lambda x:x**2,a)
list(squres)

[1, 4, 9]

In [26]:
# 컬럼의 모든 데이터 lambda식 적용시 apply함수 사용
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x:len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [28]:
# if else절 사용을 통한 가공 
# lambda 인자: True시 반환값 if 조건 else False 시 반환값
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else 'Adult')
titanic_df['Child_Adult'].head(8)

0    Adult
1    Adult
2    Adult
3    Adult
4    Adult
5    Adult
6    Adult
7    Child
Name: Child_Adult, dtype: object

In [30]:
# if 조건 여러가지일때
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else('Adult' if x<60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      782
Child       83
Elderly     26
Name: Age_cat, dtype: int64

In [31]:
# 함수 생성을 통한 lambda식 응용
def get_category(age):
    cat=''
    if age<=15: cat = 'Baby'
    elif age<= 12: cat = 'Child'
    elif age<= 18: cat = 'Teenager'
    elif age<= 25: cat = 'student'
    elif age <=35: cat = 'Young Adult'
    elif age <=60: cat = 'Adult'
    else: cat = 'Elderly'
    
    return cat

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: get_category(x))
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
