### 파이썬 기반의 머신러닝과 생태계 이해
# **판다스 - 데이터 핸들링**
## **<목차>**
#### 1. **판다스의 시작 - 파일을 DataFrame으로 로딩, 기본 API**
#### 2. **DataFrame 과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환**
#### 3. **DataFrame 의 칼럼 데이터 세트 생성과 수정**
#### 4. **DataFrame 데이터 삭제**
#### 5. **Index 객체**
#### 6. **데이터 셀렉션 및 필터링**
#### 7. **정렬, Aggregation 함수, GroupBy 적용**
#### 8. **결손 데이터 처리하기**
#### 9. **apply lambda 식으로 데이터 가공**

## **1. 판다스의 시작 - 파일을 DataFrame으로 로딩, 기본 API**

#### 판다스란 csv, tab 과 같은 다양한 유형의 분리 문자로 칼럼을 분리한 파일을 손쉽게 Dataframe으로 로딩할 수 있게 해줌.

In [35]:
# 판다스 & 넘파이 로딩
import pandas as pd
import numpy as np

#### - 판다스는 다양한 포맷으로 된 파일을 dataframe 으로 로딩할 수 있는 편리한 API 를 제공
#### - csv 파일 : 칼럼을 ',' 로 구분한 파일 포맷

### **read_csv()**
#### 어떤 필드 구분 문자 기반의 파일 포맷도 Dataframe 으로 변환 가능. sep 으로 구분문자 입력
#### 가장 중요한 인자는 filepath. 로드하려는 데이터 파일의 경로를 포함한 파일명을 로딩
#### ex) read_csv('파일명' , sep = '\t')
#### pd.read_csv() 는 호출 시 파일 명 인자로 들어온 파일을 로딩해 Dataframe 객체로 반환
#### 맨 앞부분은 판다스의 index 객체 값

In [20]:
# 다른 저장위치 titanic csv 파일 다운받기
titanic_df=pd.read_csv(r'C:\Users\ADMIN\PycharmProjects\ESAA\data\train.csv') # read_csv(r'파일위치') 필요함
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [21]:
# 같은 디렉토리 내 csv 파일 다운받기
titanic_df = pd.read_csv('train.csv')
print('titanic 변수 type:', type(titanic_df))
titanic_df

FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'

### **Dataframe.head()**
#### dataframe 맨 앞에 있는 n개의 로우를 반환
#### default 는 5개. () 내에 지정가능

In [22]:
# .head() 사용
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### **.shape**
#### Dataframe 의 행과 열 크기를 알아볼 수 있음.
#### dataframe 의 행과 열을 튜플 형태로 반환한다.

In [23]:
# .shape 사용
print('Dataframe 크기 :', titanic_df.shape)

Dataframe 크기 : (891, 12)


### **info(), describe()**
#### info () : 전체 row 수, 칼럼별 데이터 타입, null 데이터 개수, 칼럼 타입 등을 알 수 있다
#### describe() : n-percentile, 평균, 최대, 최솟값 알 수 있음. 근데 오직 숫자형 칼럼의 분포도만 조사. object 타입 ( 문자열 타입) 은 출력 하지 않음.
#### describe() 는 개략적인 수준의 분포도를 확인할 수 있어 유용하다
#### 또한 describe() 는 해당 칼럼이 숫자형인지 카테고리 인지 알 수 있음.

In [25]:
# info() & dsecribe() 사용
titanic_df.info()
titanic_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### **value_counts()**
#### 그 전에, dataframe 의 [] 연산자 내부에 칼럼명을 입력하면, Series 형태로 특정 칼럼 데이터 세트가 반환된다.
#### value_counts() : Series 에만 가능한 함수로, 지정된 칼럼의 데이터 값 건수를 반환한다. 데이터 분포도를 확인하는데 매우 유용한 함수
#### value_counts() 함수는 많은 건수 순서로 정렬되어 값을 반환한다
#### value_counts() 가 반환하는 데이터 타입 역시 Series 객체이다.

In [27]:
# series 에만 적용할 수 있는 value_counts() 함수
value_counts=titanic_df['Pclass'].value_counts()
print(value_counts) # 단순히 인덱스가 0부터 시작하는 숫차값이 아님.

# dataframe 의 [] 연산자에 칼럼을 지정하면 해당 칼럼에 해당하는 series 객체가 반환됨
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass)) # series 타입으로 반환됨

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


### **Series와 seires, dataframe 의 인덱스**
#### series는 index와 단 한 개의 칼럼으로 구성된 데이터 세트이다.
#### 모든 series와 dataframe 은 반드시 인덱스를 가진다.
#### 인덱스는 단순히 순차 값과 같은 의미없는 식별자만 할당하는 것이 아니라, 위의 예제 value_counts() 에서 보았던 것 처럼, 고유성이 보장된다면 의미있는 데이터값 할당도 가능하다.
#### 인덱스는 dataframe, series 가 만들어진 후에도 변경가능하다.
#### 인덱스는 숫자형 뿐 아니라 문자열도 가능하다. (단 고유성은 보장되어야함)

In [28]:
titanic_pclass.head()
print(type(value_counts))

<class 'pandas.core.series.Series'>


## 2. **DataFrame 과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환**

### **넘파이, ndarray, 리스트, 딕셔너리를 dataframe으로 변환하기
#### dataframe 은 리스트와 넘파이 ndarry와 달리 '칼럼명'을 가지고 있다
#### 따라서 dataframe으로 변환할 때는 '칼럼명' 을 지정해줘야 함.
#### 지정하지 않으면 자동으로 칼럼명 할당

### **변환 시 유의사항**
#### dataframe은 기본적으로 행과 열을 가지는 2차원 데이터
#### 따라서 2차원 이하의 데이터들만 dataframe 으로 변환될 수 있다. (3차원 불가)

### **pd.DataFrame()**
#### 이 때, D, F 는 대문자여야 한다!


In [39]:
# array 1 만들기
col_name1=['col1']
list1 = [1,2,3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)

# 리스트에서 Dataframe 생성
dt_list1 = pd.DataFrame(list1, columns=col_name1) # 대문자 조심
print('1차원 리스트로 만든 dataframe : \n', dt_list1) # 1차원 데이터 였으므로, 칼럼 1개

# 넘파이 ndarray 를 이용해 dataframe 생성
dt_array1=pd.DataFrame(array1, columns=col_name1) # 대문자 조심
print('1차원 ndarray 로 만든 Datafrmae:\n', dt_array1)

array1 shape: (3,)
1차원 리스트로 만든 dataframe : 
    col1
0     1
1     2
2     3
1차원 ndarray 로 만든 Datafrmae:
    col1
0     1
1     2
2     3


In [44]:
# 3개의 칼럼명이 필요한 array 를 dataframe으로 바꾸기
col_name2 = ['col1', 'col2', 'col3']

# 2행, 3열 형태의 리스트와 ndarray 를 생성한 뒤 이를 Dataframe 으로 변환
list2 = [[1,2,3],
        [11,12,13]]
array2 = np.array(list2)
print('array2 shape :', array2.shape)
df_list2 = pd.DataFrame(list2, columns = col_name2)
print('2차원 리스트로 만든 Dataframe:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame : \n', df_array2)

array2 shape : (2, 3)
2차원 리스트로 만든 Dataframe:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    12    13


In [45]:
# Key 는 문자열 칼럼명으로 매핑, Value 는 리스트 형(또는 ndarray) 칼럼 데이터로 매핑
dict = {'col':[1,11], 'col2':[2,22], 'col3':[3,33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col  col2  col3
0    1     2     3
1   11    22    33


In [47]:
# Dataframe 을 ndarray 로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [48]:
# Dataframe 을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입 : ', type(list3))
print(list3)

# Dataframe 을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입 :  <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


## 3. **DataFrame 의 칼럼 데이터 세트 생성과 수정**

In [49]:
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [50]:
# 새로운 칼럼 만들기 , 기존 칼럼 series의 데이터를 이용해
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [51]:
# 기존 칼럼 값 일괄적으로 업데이트
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


## 4. **DataFrame 데이터 삭제**

In [52]:
# .drop() 을 사용하여 칼럼(또는 행) 삭제 하기
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [53]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis =1, inplace=True)
print('inplace=True 로 drop 후 반환된 값 :', drop_result)
titanic_df.head(3)

inplace=True 로 drop 후 반환된 값 : None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [55]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))
titanic_df.drop([0,1,2], axis=0, inplace=True)
print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


## 5. **Index 객체**

In [56]:
# 원본 파일 다시 로딩
titanic_df = pd.read_csv(r'C:\Users\ADMIN\PycharmProjects\ESAA\data\train.csv')

# Index 객체 추출
indexes = titanic_df.index
print(indexes)

# Index 객체를 실제 값 array 로 변환
print('Index 객체 array값 : \n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값 : 
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 2

In [58]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [59]:
# 이러면 에러 : 인덱스 객체는 함부로 변경 불가
indexes[0] = 5

TypeError: Index does not support mutable operations

In [60]:
series_fair = titanic_df['Fare']
print('Fair max :', series_fair.max())
print('Fair sum :', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series +3:\n', (series_fair + 3).head(3))

Fair max : 512.3292
Fair sum : 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series +3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [61]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [62]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체변수 타입:', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입 :', type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입 : <class 'pandas.core.frame.DataFrame'>


## 6. **데이터 셀렉션 및 필터링**

In [73]:
print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n 여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('[] 안에 숫자 index는 Keyerror 로 오류 발생:\n', titanic_df[0])

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

 여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

In [68]:
titanic_df[ 0:2 ] # 숫자를 넣으면 오류가 생긴다고 했는데, 인덱스 형태로 변환 가능한 표현식은 [] 내에 입력할 수 있다.
titanic_df[titanic_df['Pclass']==3].head(3) # [] 내 불린 인덱싱

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


In [69]:
data = {'Name':['Chulmin', 'Eunkyung', 'Jinwoong', 'Soobeom'],
        'Year':[2011,2016,2015,2015],
        'Gender':['Male', 'Female', 'Male', 'Male']}
data_df=pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [75]:
# data_df 를 reset_index()로 새로운 숫자형 인덱스를 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})

# 인덱스 값에 1을 더해 1부터 시작하는 새로운 인덱스값 생성
data_df_reset.index = data_df_reset.index+1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [71]:
data_df.iloc[0,0]

'Chulmin'

In [74]:
# 다음은 오류 발생
data_df.iloc[0, 'Name']
# 다음도 오류 발생
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [76]:
data_df_reset.iloc[0,1]

'Chulmin'

In [77]:
data_df.loc['one', 'Name']

'Chulmin'

In [78]:
data_df_reset.loc[1,'Name']

'Chulmin'

In [79]:
# 다음 코드는 오류 발생
data_df_reset.loc[0, 'Name']

KeyError: 0

In [80]:
print('위치 기반 iloc slicing\n', data_df.iloc[0:1,0], '\n')
print('명칭 기반 loc slicing\n', data_df.loc['one':'two', 'Name']) # 종료 값 포함

위치 기반 iloc slicing
 one    Chulmin
Name: Name, dtype: object 

명칭 기반 loc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


In [81]:
print(data_df_reset.loc[1:2, 'Name'])

1     Chulmin
2    Eunkyung
Name: Name, dtype: object


In [82]:
titanic_df = pd.read_csv(r'C:\Users\ADMIN\PycharmProjects\ESAA\data\train.csv')
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [83]:
titanic_df[titanic_df['Age']>60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [84]:
titanic_df.loc[titanic_df['Age']>60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [85]:
titanic_df[(titanic_df['Age']>60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [86]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


## 7. **정렬, Aggregation 함수, GroupBy 적용**

In [87]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [88]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending = False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


In [89]:
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [90]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

In [91]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

pandas.core.groupby.generic.DataFrameGroupBy


In [92]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [93]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [94]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [96]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


## 8. **결손 데이터 처리하기**

In [99]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [100]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [101]:
titanic_df['Cabin']= titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [102]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## 9. **apply lambda 식으로 데이터 가공**

In [103]:
lambda_square = lambda x : x **2
print('3의 제곱은 :', lambda_square(3))

3의 제곱은 : 9


In [105]:
a=[1,2,3]
squares = map(lambda x: x**2, a)
list(squares)

TypeError: 'list' object is not callable