# **01-04. Pandas(판다스)**
pg. 39(57)~86(104)

판다스는 행(Row)x열(Column)으로 구성되어있는 2차원 데이터를 효율적으로 가공/처리할 수 있는 '데이터 핸들링'을 가능하게 해준다. 판다스는 파이썬의 리스트, 컬렉션, 넘파이 등 내부 데이터 뿐만 아니라 csv, tab과 같은 다양한 분리 문자로 칼럼을 분리한 파일을 DataFrame으로 변경 및 로딩해서 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어준다. 판다스는 많은 부분이 저수준 API가 대부분인 넘파이를 기반으로 작성되어 고수준 API를 제공한다.


판다스의 핵심 객체는 DataFrame이다.

-DataFrame: 행과 열로 이루어진 2차원 데이터

-Index: 개별 데이터를 고유하게 식별하는 Key값

-Series: 칼럼이 하나인 DataFrame

### 목차

---

- 파일을 DataFrame으로 로딩하기
- DataFrame <-> 리스트, 딕셔너리, ndarray(넘파이)
- DataFrame에서 칼럼 데이터 세트 생성하기, 수정하기
- DataFrame에서 데이터 삭제하기
- Index 객체
- 데이터 selection 및 filtering
- 정렬, Aggregation 함수, GroupBy 적용
- 결손 데이터 처리하기
- apply lambda식으로 데이터 가공
   
---



### **파일을 DataFrame으로 로딩하기**

- read_csv(), read_table(), read_fxf() 등의 함수 존재

   (read_csv()의 디폴트 필드 구분 문자는 콤마(','), read_table()의 디폴트 필드 구분 문자는 탭('\t').

   그외 차이점은 없음. 인자로 sep='\t' 추가함으로써 구분 문자 변경)

- read_csv()로 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환 가능.

In [6]:
import pandas as pd

In [7]:
titanic_df = pd.read_csv(r'/titanic_train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [8]:
# type(DataFrame) 결과는 <class 'pandas.core.frame.DataFrame'>
print('titanic 변수 type:', type(titanic_df))

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


In [9]:
# shape변수: 열과 행 크기를 튜플 형태로 리턴함.
print('Dataframe 크기:', titanic_df.shape)

Dataframe 크기: (891, 12)


In [10]:
# info() 메서드: 총 데이터 건수, 데이터 타입, Null 건수
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [11]:
# describe() 메서드: 숫자형 칼럼의 개략적인 수준의 분포도
# count는 Not Null의 데이터 건수
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [12]:
# value_counts() 메서드: 지정된 칼럼의 데이터값 건수. value_counts() 메서드는 자주 사용되는 유용한 함수이기 때문에 잘 알아두기
# Series의 Index는 고유성이 보장된다면 의미있는 데이터값 할당도 가능.
value_counts=titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
Pclass
3    491
1    216
2    184
Name: count, dtype: int64


In [13]:
print('titanic_df 데이터 건수:', titanic_df.shape)
print('기본 설정인 dropna=True로 value_counts()')
# value_counts()는 디폴트로 dropna=True이므로 value_counts(dropna=True)와 동일
print(titanic_df['Embarked'].value_counts())
print(titanic_df['Embarked'].value_counts(dropna=False))

titanic_df 데이터 건수: (891, 12)
기본 설정인 dropna=True로 value_counts()
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64
Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64


### **DataFrame <-> 리스트, 딕셔너리, 넘파이 ndarray**

- 사이킷런의 API는 기본적으로 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분. DataFrame <-> ndarray 변환 익숙하게.
- DataFrame은 리스트, ndarray와 다르게 칼럼명을 꼭 가지고 있음. DataFrame으로 변환 시 칼럼명을 지정하지 않으면 자동으로 칼럼명이 할당됨.

**리스트, 딕셔너리, 넘파이 ndarray -> DataFrame **



In [14]:
import numpy as np

col_name1=['col1']   # 1차원 형태의 데이터이기 떄문에 칼럼명 힌 개만 필요.
list1=[1,2,3]
array1=np.array(list1)
print('array1 shape:', array1.shape)

#리스트를 이용해 data frame 생성.
df_list1=pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)

#넘파이 ndarray를 이용해 data frame 생성.
df_array1=pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [15]:
# 3개의 column명이 필요함.
col_name2=['col1','col2', 'col3']

# 2x3 형태의 리스트로 ndarray 생성한 뒤 이를 data frame으로 변환.
list2=[[1,2,3],
       [11,12,13]]
array2=np.array(list2)
print('array2 shape:', array2.shape)

df_list2=pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 Data Frame:\n', df_list2)

df_array2=pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n',df_array2)

array2 shape: (2, 3)
2차원 리스트로 만든 Data Frame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [16]:
# 딕셔너리를 DataFrame으로 변환
# Key는 문자열 칼럼명으로 매핑, Value는 리스트형(또는 ndarray) 칼럼 데이터로 매핑
dict={'col1':[1,11], 'col2':[2,22], 'col3':[3,33]}
df_dict=pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


**DataFrame -> 리스트, 딕셔너리, 넘파이 ndarray **

In [17]:
#DataFrame을 ndarray로 변환
array=df_dict.values
print('df_dict.values 타입:', type(array), 'df_dict.values shape:', array.shape)
print(array)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [18]:
#DataFrame을 리스트로 변환
list3=df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

#DataFrame을 딕셔너리로 변환
dict3=df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### **DataFrame에서 칼럼 데이터 세트 생성하기, 수정하기**
- DataFrame['칼럼명']=데이터값 형식



In [19]:
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [20]:
titanic_df['Age_by_10']=titanic_df['Age']*10
titanic_df['Family_No']=titanic_df['SibSp']+titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [21]:
titanic_df['Age_by_10']=titanic_df['Age_by_10']+100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [22]:
titanic_drop_df=titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [23]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


### **DataFrame에서 데이터 삭제하기**

- drop() 메서드 사용
- DataFrame.drop(**labels=None, axis=0**, index=None, columns=None, level=None, **inplace=False**, errors='raise') 형태
   - axis：DataFrame의 로우를 삭제할 때는 axis=0, 칼럼을 삭제할 때는 axis=l로 설정

   - 원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶다면 inplace=False로 설정 (디폴트 값이 False임)

     예: titanic_drop_df = titanic_df.drop(' Age_0', axis=1, inplace=False)

   - 원본 DataFrame에 드롭된 결과를 적용할 경우에는 inplace=True를 적용

     예: titanic_df.drop('Age_0', axis=l, inplace=True)

   - 원본 DataFrame에서 드롭된 DataFrame을 다시 원본 DataFrame 객체 변수로 할당하면 원본 DataFrame에서 드롭된 결과를 적용할 경우와 같음 (단, 기존 원본 DataFrame 객체 변수는 메모리에서 추후 제거됨).

     예: titanic_df = titanic_df.drop('Age_0', axis=1, inplace=False )



In [24]:
drop_result=titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값:', drop_result)
titanic_df.head(3)

inplace=True로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [25]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('### before axis 0 drop ###')
print(titanic_df.head(3))

titanic_df.drop([0,1,2], axis=0, inplace=True)

print('### after axis 0 drop ###')
print(titanic_df.head(3))

### before axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
### after axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


### **Index 객체**
- Index 객체: DataFrame, Series의 레코드를 고유하게 식별하는 객체
- DataFrame.index.values로 실제 값 array로 변환 가능. (DataFrame.index.values는 1차원인 array이기 때문에 ndarray와 유사하게 슬라이싱 가능.)
- 다만, 한번 만들어진 Index 객체는 함부로 변경 불가능.
- Index 객체는 오로지 식별용으로 사용됨.(연산함수 적용 불가)
- DataFrame.reset_index() 메서드는 새롭게 인덱스를 연속 숫자 형으로 할당. Series에 reset_index()를 적용하면 기존 인덱스가 칼럼으로 추가되어 Series가 아닌 칼럼이 2개인 DataFrame으로 반환됨. 여기서, reset_index(drop=True)로 설정하면 기존 인덱스는 삭제되어 그대로 Series로 유지됨.

In [26]:
#원본 파일 다시 로딩
titanic_df=pd.read_csv(r'/titanic_train.csv')

#Index 객체 추출
indexes=titanic_df.index
print(indexes)

#Index 객체를 실제 값 array로 변환
print('Index 객체 array 값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array 값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 23

In [27]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [28]:
indexes[0]=5

TypeError: Index does not support mutable operations

In [29]:
series_fair=titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n', (series_fair+3).head(3))

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [30]:
titanic_reset_df=titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [31]:
print('### before reset_index ###')
value_counts=titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:', type(value_counts))
new_value_counts=value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:', type(new_value_counts))

### before reset_index ###
Pclass
3    491
1    216
2    184
Name: count, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   Pclass  count
0       3    491
1       1    216
2       2    184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


### **데이터 Selection 및 Filtering**
- 넘파이의 데이터 셀렉션: '[ ]'연산자 사용
  
  판다스의 데이터 셀렉션: iloc[ ], loc[ ] 연산자 사용

  * DataFrame 뒤에 있는 [ ]는 칼럼만 지정할 수 있는 '칼럼 지정 연산자'에 사용하거나 불린 인덱스 용도로만 사용해야함. 넘파이의 [ ]는 행,열의 위치, 슬라이싱 범위 지정 가능. 넘파이의 [ ]나 Series의 [ ]와는 다름.
  
   (DataFrame['column1','column2']같이 이용, DataFrame[0,0], DataFrame[[0,1,2]]은 오류.)



In [32]:
print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

In [33]:
# titanic_df의 처음 2개의 데이터 추출, but 사용하지 않는 것이 좋음.
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [34]:
titanic_df[titanic_df['Pclass']==3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


**DataFrame의 iloc[ ], loc[] 연산자**

iloc[ ]와 loc[ ]를 이해하기 위해서는 '명칭 기반 인덱싱'과 '위치 기반 인덱싱'의 차이를 먼저 이해해야 한다. DataFrame의 인덱스나 칼럼명으로 데이터에 접근하는 것은 '명칭 기반 인덱싱'이다. 0부터 시작하는 행, 열의 위치 좌표에만 의존하는 것이 '위치 기반 인덱싱'이다.

   - iloc[ ]: 위치 기반 인덱싱 방법. 행과 열의 좌표 위치에 해당하는 값으로 정숫값으로 지정해야함.
   - loc[ ]: 명칭 기반 인덱싱 방법. 인덱스 값으로 행의 위치를, 칼럼의 명칭으로 열의 위치를 지정해야함.


** 주의점 **


  - 개별 또는 여러 칼럼 값 전체를 추출하고자 한다면 iloc[ ]나 loc[ ]를 사용하지 않고 data_df[‘Name’]과 같이 DataFramef['칼럼명']만으로 충분하다. 하지만 행과 열을 함께 사용하여 데이터를 추출해야 한다면 iloc[ ]나 loc[ ]를 사용해야 한다.

  - 명칭 기반 인덱싱에서 슬라이싱을 '시작점:종료점'으로 지정할 때 시작점에서 종료점을 포함한 위치에 있는 데이터를 반환한다.




In [35]:
data={'Name':['Chulmin', 'Eunkyung', 'Jinwoong', 'Soobeom'],
      'Year':[2011, 2016, 2015, 2015],
      'Gender':['Male', 'Female', 'Male', 'Male']}
data_df=pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [36]:
# iloc[] 연산자
data_df.iloc[0,0]

'Chulmin'

In [37]:
# 아래 코드는 오류를 발생.
data_df.iloc[0, 'Name']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [38]:
# 아래 코드는 오류를 발생
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [39]:
print("\n 맨 마지막 칼럼 데이터 [:, -1]\n", data_df.iloc[:, -1])
print("\n 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1]\n", data_df.iloc[:, :-1])


 맨 마지막 칼럼 데이터 [:, -1]
 one        Male
two      Female
three      Male
four       Male
Name: Gender, dtype: object

 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1]
            Name  Year
one     Chulmin  2011
two    Eunkyung  2016
three  Jinwoong  2015
four    Soobeom  2015


In [40]:
# loc[] 연산자
data_df.loc['one', 'Name']

'Chulmin'

In [41]:
# 다음 코드는 오류를 발생.
data_df.loc[0, 'Name']

KeyError: 0

In [42]:
print('위치 기반 iloc slicing\n', data_df.iloc[0:1, 0], '\n')
print('명칭 기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

위치 기반 iloc slicing
 one    Chulmin
Name: Name, dtype: object 

명칭 기반 loc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


**불린 인덱싱**
- [ ], loc[ ]에서 지원, iloc[ ]은 지원X
- 객체 타입은 DataFrame

In [43]:
titanic_df=pd.read_csv(r'/titanic_train.csv')
titanic_boolean=titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [44]:
titanic_df[titanic_df['Age']>60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [45]:
titanic_df.loc[titanic_df['Age']>60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [46]:
titanic_df[(titanic_df['Age']>60)&(titanic_df['Pclass']==1)&(titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [47]:
cond1=titanic_df['Age']>60
cond2=titanic_df['Pclass']==1
cond3=titanic_df['Sex']=='female'
titanic_df[cond1&cond2&cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


### **정렬, Aggregation 함수, GroupBy 적용**

In [48]:
#sort_values() 메서드
titanic_sorted=titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [49]:
titanic_sorted=titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


In [50]:
#Aggregation 함수 용
titanic_df.count()

Unnamed: 0,0
PassengerId,891
Survived,891
Pclass,891
Name,891
Sex,891
Age,714
SibSp,891
Parch,891
Ticket,891
Fare,891


In [51]:
titanic_df[['Age', 'Fare']].mean()

Unnamed: 0,0
Age,29.699118
Fare,32.204208


In [52]:
#groupby() 적용
titanic_groupby=titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [53]:
titanic_groupby=titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [54]:
titanic_groupby=titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [55]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

  titanic_df.groupby('Pclass')['Age'].agg([max, min])
  titanic_df.groupby('Pclass')['Age'].agg([max, min])


Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [56]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### **결손 데이터 처리하기**
- isna(), fillna()

In [57]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [58]:
titanic_df.isna().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,177
SibSp,0
Parch,0
Ticket,0
Fare,0


In [59]:
titanic_df['Cabin']=titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [60]:
titanic_df['Age']=titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked']=titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,0
SibSp,0
Parch,0
Ticket,0
Fare,0


### **apply lambda식으로 데이터 가공**
- apply 함수에 lamda식을 결합하여 DataFrame이나 Series의 레코드별로 데이터를 가공.
- 복잡한 데이터 가공이 필요할 때 어쩔 수 없이 사용.

In [61]:
def get_square(a):
    return a**2

print('3의 제곱은:', get_square(3))

3의 제곱은: 9


In [62]:
lambda_square=lambda x: x**2
print('3의 제곱은:', lambda_square(3))

3의 제곱은: 9


In [63]:
a=[1,2,3]
sqaures=map(lambda x: x**2, a)
list(sqaures)

[1, 4, 9]

In [64]:
titanic_df['Name_len']=titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [65]:
titanic_df['Child_Adult']=titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [66]:
titanic_df['Age_cat']=titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else ('Adult' if x<=60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Unnamed: 0_level_0,count
Age_cat,Unnamed: 1_level_1
Adult,786
Child,83
Elderly,22


In [67]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성.
def get_category(age):
    cat=''
    if age<=5: cat='Baby'
    elif age<=12: cat='Child'
    elif age<=18: cat='Teenager'
    elif age<=25: cat='Student'
    elif age<=35: cat='Young Adult'
    elif age<=60: cat='Adult'
    else: cat='Elderly'

    return cat

# lambda 식에 위에서 생성한 get_category() 함수를 반환값으로 지정.
# get_category(X)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat']=titanic_df['Age'].apply(lambda x: get_category(x))
titanic_df[['Age', 'Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult


# **scikit-learn(사이킷런)**

In [68]:
pip install scikit-learn==1.0.2

Collecting scikit-learn==1.0.2
  Downloading scikit_learn-1.0.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10 kB)
Downloading scikit_learn-1.0.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.5/26.5 MB[0m [31m61.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.3.2
    Uninstalling scikit-learn-1.3.2:
      Successfully uninstalled scikit-learn-1.3.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
bigframes 1.15.0 requires scikit-learn>=1.2.2, but you have scikit-learn 1.0.2 which is incompatible.[0m[31m
[0mSuccessfully installed scikit-learn-1.0.2


In [69]:
import sklearn
print(sklearn.__version__)

1.0.2
