# **판다스(Pandas)**

# [개념정리]

**판다스란?**
- 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
- 내부데이터와 CSV 등의 파일을 쉽게 DataFrame으로 변경하여 데이터의 가공, 분석을 편리하게 수행할 수 있게 만들어줌
- 판다스의 핵심 객체는 DataFrame으로, 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공함

  : read_csv(),  read_table(), read_fwf()

**판다스시작 - 파일을 DataFrame으로 로딩, 기본 API**
- 판다스 모듈 임포트 : **Import pandas as pd**
-** DataFrame.shape()**: DataFrame의 행과 열을 튜플 형태로 반환함
- **DataFrame.info()**: 총 데이터건수, 데이터 타입, Null 건수를 알 수 있음
- **DataFrame['칼럼명']**: 칼럼명을 입력하면 해당 칼럼 데이터에 해당하는 Series 객체를 반환함
- **DataFrame.describe()**: 숫자형 칼럼에 대한 개략적인 데이터 분포를 확인 가능함
- **value_counts()** : 반환된 Series 객체에 해당 매서드를 호출하면 해당 칼럼값의 유형과 건수 확인 가능
  - 지정된 칼럼의 데이터값 건수를 반환함
  - 반환하는 데이터 타입은 Series임 (왼쪽: 인덱스값, 오른쪽: 데이터값)
  - Null 값을 무시하고 결괏값을 내놓기 쉬우므로 **dropna** 인자를 통하여 Null값을 포함하여 계산할지 판단해야 함
  (dropna의 디폴트 값: True)
    - dropna=True : Null 값을 무시하고 개별 데이터 값의 건수를 계산함
    - dropna=False : Null 값을 포함하여 개별 데이터 값의 건수를 계산함   

** 인덱스
- 숫자형 뿐만 아니라 문자열도 가능하며, 의미 있는 데이터값 할당도 가능함
- 반드시 고유성이 보장되어야 함
- DataFrame, Series가 만들어진 후에도 변경 가능함

**DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환**
- DataFrame과 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등은 상호 변환 가능

1) 넘파이 ndarray, 파이썬 리스트, 딕셔너리를 DataFrame으로 변환하기
- 변환할 칼럼명을 지정 (지정하지 않으면 자동으로 칼럼명 할당)
- 판다스 DataFrame 생성인자 data는 리스트, 딕셔너리, 넘파이 ndarray를 입력받고 생성인자 columns는 칼럼명 리스트를 입력받아 DataFrame 생성 가능

** DataFrame은 2차원 데이터이기 때문에 2차원 이하의 데이터만 DataFrame으로 변경 가능

2) DataFrame을 넘파이 ndarray, 파이썬 리스트, 딕셔너리로 변환하기
- DataFrame을 넘파이 ndarray로 변환 : DataFrame 객체의 values를 이용하여 쉽게 변환 가능
- DataFrame을 리스트로 변환 : value로 얻은 ndarray에 tolist()를 호출
- DataFrame을 딕셔너리로 변환 : DataFrame 객체의 to_dict()호출

  ** 인자로 'list'를 입력하면 닥셔너리의 값이 리스트 형으로 반환됨

**DataFrame의 칼럼 데이터 세트 생성과 수정**
- **[ ]연산자 이용**
- 칼럼 Series에 값을 할당하고 DataFrame에 추가
  - DataFrame[ ] 내에 새로운 칼럼명을 입력하고 값을 할당해주면 됨
  - 기존 칼럼 Series의 데이터를 이용하여 새로운 칼럼 Series 형성 가능
  - 기존 칼럼의 값도 일괄 업데이트 가능

**DataFrame 데이터 삭제**
- **drop() 메서드 이용**
- drop()에서 중요한 파라미터: labels, axis, inplace
  - **labels**: drop할 칼럼명 작성
  - **axis**: 특정 칼럼 또는 특정행을 drop할 때 이용
    (axis0: 로우축, axis1: 칼럼축)
  - **Inplace** (디폴트값: False)
    - Inplace=False : 원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받음
    - Inplace=True : 자신의 DataFrame의 데이터를 삭제함

     ** 여러 칼럼을 삭제하고 싶으면 리스트 형태로 삭제하고자 하는 칼럼명을 labels 파라미터로 입력
    - 원본 DataFrame에서 드롭된 DataFrame을 다시 원본 DataFrame 객체 변수로 할당하면 원본 DataFrame에서 드롭된 결과를 적용하는 경우와 동일 (단, 기존 원본 DataFrame 객체변수는 메모리에서 추후 제거됨)

**Index 객체**
- DataFrame, Series의 레코드를 고유하게 식별하는 객체

  : DataFrame.index 또는 Series.index 속성을 통해 Index 객체만 추출
- 식별성 데이터를 1차원 array로 가지며 ndarray와 유사하게 단일값 반환, 슬라이싱 가능
- 한 번 만드어진 DataFrame, Series의 Index 객체는 변경 불가능
- Series 객체의 경우,Index 객체를 포함하나 연산함수를 적용할 땐 Index는 연산에서 제외되고 식별용으로만 사용됨
- **reset_index()** : 인덱스를 연속 숫자형으로 새롭게 할당
  - 연속된 int 숫자형 데이터가 아닌 데이터를 다시 연속 int 숫자형 데이터로 형성할 때 사용
  - 기존 인덱스가 존재하는 경우 : 기존 인덱스는 'index'라는 새로운 칼럼명으로 추가
  - Series 객체에 reset_index()를 적용하면 새로운 연속 숫자형 인덱스가 형성

   -> 기존 인덱스는 'index' 칼럼명으로 추가되며 변수 타입이 'DataFrame'으로 변환

  - drop=True 설정 시, 기존 인덱스는 새로운 칼럼으로 추가되지 않고 삭제(drop)됨

    -> 변수 타입이 'Series'로 유지

**데이터 셀렉션 및 필터링**
- DataFrame 뒤의 **[ ] 연산자** 특징
  - DataFrame 바로 뒤의 [ ]연산자는 넘파이의 [ ]나 Series의 [ ]와는 다름
  - DataFrame 바로 뒤의 [ ] 내 입력값은 칼럼명(또는 칼럼의 리스트)을 지정하여 칼럼 지정 연산에 사용하거나 불린 인덱스 용도로만 사용해야 함
  - DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터를 추출하는 것은 지양하는 것이 좋음

1) DataFrame **iloc[ ] 연산자**
- iloc[ ]는 위치 기반 인덱싱 방식으로 동작

  ** 위치 기반 인덱싱 : 행과 열 위치를 0을 출발점으로 하는 세로축, 가로축을 좌표 정숫값으로 지정하는 방식
- 위치 기반 인덱싱만 허용하기 때문에 행과 열의 좌표 위치에 해당하는 값으로 정숫값 또는 정수형 슬라이싱, 팬시 리스트값을 입력해야 함
- 만일 iloc[ ]에 DataFrame의 인덱스 값이나 칼럼명을 입력하면 오류가 발생함

2) DataFrame **loc[ ] 연산자**
- 명칭(label) 기반 데이터 추출
- loc[인덱스값, 칼럼명] 형식으로 데이터 추출 가능
  - 행 위치에 DataFrame의 인덱스 값이 들어가므로 반드시 인덱스 값을 확인하여 대입
- loc[ ]에 슬라이싱(:)을 적용하는 경우 종료값 -1이 아닌 종료 값까지 포함하는 것을 의미함

< **[ ], iloc[ ], loc[ ]의 특징과 주의사항**>
- 개별 또는 여러 칼럼 값 전체를 추출하고자 한다면 iloc[ ]나 loc[ ]을 사용하지 않고 data_df['Name']과 같이 DataFrame['칼럼명']만으로 충분함. 하지만 행과 열을 함께 사용하여 데이터를 추출하고자 할 땐 iloc[ ]이나 loc[ ] 사용
- iloc[ ]와 loc[ ]를 이용하기 위해서는 명칭 기반 인덱싱과 위치기반 인덱싱의 차이를 먼저 이해해야 함
  - 명칭 기반 인덱싱: DataFrame의 인덱스나 칼럼명으로 데이터에 접근하는 방법
  - 위치 기반 인덱싱: 0부터 시작하는 행, 열의 위치 좌표에만 의존하는 방법
- iloc[ ]는 위치 기반 인덱싱만 가능하기 때문에 행과 열 위치 값으로 정수형 값을 지정하여 원하는 데이터를 반환함
- loc[ ]는 위치 기반 인덱싱만 가능하여 행 위치에 DataFrame 인덱스가 오고 열 위치에는 칼럼명을 지정하여 원하는 데이터를 반환함
- 명칭 기반 인덳싱에서 슬라이싱을 '시작점:종료점'으로 지정하는 경우, 시작점에서 종료점을 포함한 위치에 있는 데이터를 반환함

3) **불린 인덱싱**
- 다재다능하고 유연하여 편리한 데이터 필터링 방식
- 처음부터 가져올 값을 조건으로 [ ] 내에 입력하여 원하는 값을 필터링할 수 있음
- [ ], loc[ ]에서 공통으로 지원 (단, iloc[ ]은 미지원)
- 복합 조건의 결합
  - and 조건일 때는 &
  - or 조건일 때는 |
  - Not 조건일 때는 ~

**정렬, Aggregation 함수, GroupBy 적용**

1) DataFrame, Series의 정렬 - sort_values()
- 주요 입력 파라미터: by, ascending, inplace
  - **by**: 특정 칼럼 입력 시 해당 칼럼으로 정렬 수행
  - **Ascending** (디폴트값: True)
    - ascending=True : 오름차순 정렬
    - ascending=False : 내림차순 정렬
  - **Inplace** (디폴트값: False)
    - inplace=False : sort_value()를 호출한 DataFrame은 그대로 유지하고 정렬된 DataFrame을 결과로 반환
    - inplace=True : 호출한 DataFrame의 정렬 결과를 그대로 적용

2) Aggregation 함수 적용
- **min(), max(), sum(), count()**
- SQL의 aggregation 함수 적용과 유사
- 단, DataFrame에서 바로 aggregation을 호출하면 모든 칼럼에 해당 aggregation을 적용함

  ** count()의 경우 Null값은 반영하지 않음

3) Groupyby( ) 적용
- DataFrame에 groupby() 사용시 입력 파라미터 by에 칼럼을 입력하면 대상 칼럼으로 groupby 적용
- DataFrame에 groupby() 호출 시 DataFrameGroupBy라는 또 다른 형태의 DataFrame을 반환

  ** 이때 반환된 결과에 aggregation 함수를 호출하면 groupby() 대상 칼럼을 제외한 모든 칼럼에 aggregation 함수가 적용됨

**결손 데이터 처리하기**
- 결손 데이터 : 칼럼에 값이 없는 NULL인 경우를 의미하며, 넘파이의 NaN으로 표시
- 머신러닝 알고리즘은 NaN값을 처리하지 않아 다른 값으로 대체 필요
- 평균, 총합 등의 함수 연산에서 제외됨

1) isna()로 결손 데이터 여부 확인
- isna() :모든 칼럼의 값이 NaN인지 아닌지를 True, False로 알려주는 API
- 결손 데이터의 개수는 isna().sum()으로 구함

-> sum()을 호출하면 True는 내부적으로 숫자 1로, False는 숫자 0으로 변환되며 결손 데이터의 개수를 구할 수 있음

2) fillna()로 결손 데이터 대체하기
- **fillna()**: 결손 데이터를 편리하게 다른 값으로 대체할 수 있는 API
- fillna()를 이용할 때 반환 값을 다시 받거나 inplace=True 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경됨


**Apply lambda식으로 데이터 가공**
- 판다스는 apply 함수에 lambda 식을 결합하여 DataFrame이나 Series의 레코드별 데이터를 가공하는 기능을 제공함
- 복잡한 데이터 가공이 필요한 경우 사용
- lambda 식의 특징
  - 기본 구조: '**lambda 입력인자 : 입력인자를 기반으로 한 계산식**' (호출 시 계산 결과가 반환)
  - lambda 식을 이용할 때, 여러 개의 값을 입력 인자로 사용해야 하는 경우에는 map()함수를 결합하여 사용
  - if else를 지원하나 if절의 경우 if식보다 반환값을 먼저 기술해야 함


---

# [코드필사]

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import pandas as pd

In [4]:
titanic = '/content/drive/MyDrive/Colab Notebooks/titanic_train.csv'
titanic_df = pd.read_csv(titanic)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [5]:
titanic_df = pd.read_csv(titanic)
print('titanic 변수 type:', type(titanic_df))
titanic_df

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
print('DataFrame 크기: ', titanic_df.shape)

DataFrame 크기:  (891, 12)


In [None]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

Pclass
3    491
1    216
2    184
Name: count, dtype: int64


In [None]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [None]:
titanic_pclass.head()

Unnamed: 0,Pclass
0,3
1,1
2,3
3,1
4,3


In [None]:
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
Pclass
3    491
1    216
2    184
Name: count, dtype: int64


In [None]:
print('titanic_df 데이터 건수:', titanic_df.shape[0])
print('기본 설정인 dropna=True로 calue_counts()')
# value_counts()는 디폴트로 dropna=True이므로 Value_counts(dropna=True)와 동일.
print(titanic_df['Embarked'].value_counts())
print(titanic_df['Embarked'].value_counts(dropna=False))

titanic_df 데이터 건수: 891
기본 설정인 dropna=True로 calue_counts()
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64
Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64


In [None]:
import numpy as np

col_name1=['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)
# 리스트를 이용해 DataFrame 생성.
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
# 넘파이 ndarray를 이용해 DataFrame 생성.
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [None]:
# 3개의 칼럼명이 필요함.
col_name2 = ['col1', 'col2', 'col3']

# 2행*3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환
list2 = [[1, 2, 3], [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape)
df_list2 = pd.DataFrame(list2, columns = col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [None]:
# Key는 문자열 칼럼명으로 매핑, Value는 리스트 형(또는 ndarrray) 칼럼 데이터로 매핑
dict = {'col1' : [1, 11], 'col2':[2, 22], 'col3': [3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


In [None]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [None]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


In [None]:
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [None]:
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [None]:
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [None]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [None]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값:', drop_result)
titanic_df.head(3)

inplace=True로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0, 1, 2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


In [None]:
# 원본 파일 다시 로딩
titanic_df = pd.read_csv(titanic)
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 array로 변환
print('Index 객체 array값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [None]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [None]:
indexes[0] = 5

TypeError: Index does not support mutable operations

한 번 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없습니다. 따라서 위와 같은 경우에는 TypeError가 뜨게 됩니다.

In [8]:
series_fair = titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n', (series_fair + 3).head(3))

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [10]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [12]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:', type(new_value_counts))

### before reset_index ###
Pclass
3    491
1    216
2    184
Name: count, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   Pclass  count
0       3    491
1       1    216
2       2    184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


In [13]:
print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[ ['Survived', 'Pclass']].head(3))
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

titanic_df[0]이 오류가 나타난 이유는 DataFrame 뒤 []에는 칼럼명을 지정해야 하는데 0은 칼럼명이 아니기 때문이다.

In [14]:
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [15]:
titanic_df[ titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
data = {'Name': ['Chulmin','Eunkung', 'Jinwoong', 'Soobeom'], 'Year': [2011, 2016, 2015, 2015], 'Gender': ['Male', 'Female', 'Male', 'Male']}
data_df = pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df



Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [7]:
data_df.iloc[0, 0]

'Chulmin'

In [8]:
# 아래 코드는 오류를 발생시킵니다.
data_df.iloc[0, 'Name']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

iloc[행 위치 정숫값, 열위치 정숫값]과 같이 명확하게 DataFrame의 행 위치와 열 위치를 좌표 정숫값 형태로 입력하여 해당 위치에 있는 데이터를 가지고 올 수 있다. 하지만 위와 같이 iloc[ ]에 DataFrame의 인덱스나 칼럼명을 입력하면 오류를 발생시킨다. 여기선 열 위치에 위치 정숫값이 아닌 칼럼 명칭을 입력했기 때문에 ValueError가 발생하였다.

In [9]:
# 아래 코드는 오류를 발생합니다.
data_df.iloc['one', 0]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

해당 코드 역시 iloc[ ]의 행 위치에 DataFrame의 인덱스 값인 'one'을 입력하여 오류가 발생되었다.

In [10]:
print('\n 맨 마지막 칼럼 데이터 [:, -1] \n', data_df.iloc[:-1])
print('\n 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1] \n', data_df.iloc[: , :-1])


 맨 마지막 칼럼 데이터 [:, -1] 
            Name  Year  Gender
one     Chulmin  2011    Male
two     Eunkung  2016  Female
three  Jinwoong  2015    Male

 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1] 
            Name  Year
one     Chulmin  2011
two     Eunkung  2016
three  Jinwoong  2015
four    Soobeom  2015


In [11]:
data_df.loc['one', 'Name']

'Chulmin'

In [12]:
# 다음 코드는 오류를 발생 시킵니다.
data_df.loc[0, 'Name']

KeyError: 0

loc[ ]는 명칭 기반으로 열 위치에 '칼럼명'이 들어가거나 '인덱스 값'이 들어갈 수 있는데, 인덱스는 일반적으로 0부터 시작하는 정숫값인 경우가 많기 때문에 실제 인덱스 값을 확인하지 않고 loc[ ]행 위치에 무턱대고 정수값을 입력하여 오류가 날 수 있다. 위의 코드 역시 첫번째 행 위치의 인덱스 값을 0으로 착각하고 0을 입력하였으나 data_df는 0을 인덱스 값으로 가지고 있지 않기에 오류를 발생시킨 것이다.

In [14]:
print('위치기반 iloc slicing\n', data_df.iloc[0:1, 0], '\n')
print('명칭기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

위치기반 iloc slicing
 one    Chulmin
Name: Name, dtype: object 

명칭기반 loc slicing
 one    Chulmin
two    Eunkung
Name: Name, dtype: object


In [16]:
titanic_df = pd.read_csv(titanic)
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [17]:
titanic_df[titanic_df['Age'] > 60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [18]:
titanic_df.loc[titanic_df['Age'] > 60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [19]:
titanic_df[ (titanic_df['Age'] >60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [20]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [22]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S


In [23]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


In [24]:
titanic_df.count()

Unnamed: 0,0
PassengerId,891
Survived,891
Pclass,891
Name,891
Sex,891
Age,714
SibSp,891
Parch,891
Ticket,891
Fare,891


In [25]:
titanic_df[['Age', 'Fare']].mean()

Unnamed: 0,0
Age,29.699118
Fare,32.204208


In [26]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [27]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [29]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [30]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

  titanic_df.groupby('Pclass')['Age'].agg([max, min])
  titanic_df.groupby('Pclass')['Age'].agg([max, min])


Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [31]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


In [32]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [33]:
titanic_df.isna().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,177
SibSp,0
Parch,0
Ticket,0
Fare,0


In [34]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


In [35]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,0
SibSp,0
Parch,0
Ticket,0
Fare,0


In [36]:
def get_square(a):
  return a**2

print('3의 제곱은:', get_square(3))

3의 제곱은: 9


In [37]:
lambda_square = lambda x : x**2
print('3의 제곱은:', lambda_square(3))

3의 제곱은: 9


In [38]:
a = [1, 2, 3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [39]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [40]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [41]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else ('Adult' if x <= 60 else 'Elderly'))

titanic_df['Age_cat'].value_counts()

Unnamed: 0_level_0,count
Age_cat,Unnamed: 1_level_1
Adult,786
Child,83
Elderly,22


In [48]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성
def get_category(age):
  cat = ''
  if age <= 5: cat = 'Baby'
  elif age <= 12: cat = 'Child'
  elif age <= 18: cat = 'Teenager'
  elif age <= 25: cat = 'Student'
  elif age <= 35: cat = 'Young Adult'
  elif age <= 60: cat = 'Adult'
  else: cat = 'Elderly'

  return cat

# lambda 식에 위에서 생성한 get_category() 함수를 반환값으로 지정.
# get_category(X)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
