# Pandas

In [11]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [12]:
import pandas as pd

In [13]:
pd.__version__

'2.2.2'

## pandas 객체 소개 - Series, DataFrame,

### Pandas Series 객체

In [18]:
import pandas as pd

In [38]:
# 인덱싱된 데이터의 1찬원 배열, 리스트나 배열로부터 만듬
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [39]:
# - Series는 일련의 값과 인덱스를 모두 감싸고 있으며, 각각 values와 index 속성으로 접근, values는 NumPy 배열

In [40]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [41]:
data.index # index는 pd.Index 타입의 배열과 비슷한 객체

RangeIndex(start=0, stop=4, step=1)

In [42]:
data[1], type(data) # NumPy 배열과 마찬가지로 데이터는 친숙한 파이썬 대괄호 표기법을 통해 연결된 인덱스로 접근 가능

(0.5, pandas.core.series.Series)

In [27]:
data[1:3] # Pandas Series가 1차원 NumPy 배열보다 훨씬 더 일반적이고 유연

1    0.50
2    0.75
dtype: float64

### Series: 일반화된 NumPy 배열

In [29]:
# 근본적인 차이 : 인덱스 존재 여부, NumPy 배열에는 값에 접근하는 데 사용되는 암묵적으로 정의된 정수형 인덱스가 있음
#                 Pandas Series에는 값에 연결된 명시적으로 정의된 인덱스가 있음
# 추가적인 기능을 제공 -> ex) 인덱스는 정수일 필요가 없음, 어떤 값으로도 구성 가능

In [31]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [32]:
data['b']

0.5

In [35]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7]) # 인접하지 않거나 연속적이지 않은 인덱스 사용 가능
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [36]:
data[5]

0.5

### Series: 특수한 딕셔너리

In [43]:
# 딕셔너리: 일련의 임의의 값에 임의의 키를 매핑하는 구조, Series는 타입이 지정된 키를 일련의 타입이 지정된 값에 매핑하는 구조
# Pandas Series 타입이 지정, 특정 연산에서 NumPy 배열 뒤의 타입 특정 컴파일된 코드가 그것을 파이썬 리스트보다 더 효율적으로 만들어 주는 것처럼
# Pandas Series의 타입 정보는 특정 연산에서 파이썬 딕셔너리보다 Pandas Series를 훨씬 더 효율적으로 만듬

In [64]:
population_dict = {'California' : 38332521,
                   'Texas' : 26448193,
                   'New York' : 19651127,
                   'Florida' : 19552860,
                   'Illinois' : 12882135} 
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [46]:
# Series는 인덱스가 정렬된 키에서 추출되는 경우에 생성, 거기서부터 딕셔너리 스타일로 아이템에 접근 가능
population['California']

38332521

In [49]:
population['California' : 'Illinois'] # 딕셔너리와 달리 Series는 슬라이싱 같이 배열 스타일의 연산도 지원, 'California' ~ 'Illinois'

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Series 객체 구성하기

In [51]:
# pd.Series(data, index=index) : index는 선택 인수, data는 많은 요소 중 하나일 수 있음

In [52]:
pd.Series([2, 4, 6]) # data는 리스트나 NumPy 배열일 수 있고, 그런 경우 index는 정수가 기본

0    2
1    4
2    6
dtype: int64

In [54]:
pd.Series(5, index=[100, 200, 300]) # data는 지정된 인덱스를 채우기 위해 반복되는 스칼라 값일 수 있음

100    5
200    5
300    5
dtype: int64

In [56]:
pd.Series({2:'a', 1:'b', 3:'c'}) # data는 딕셔너리일 수도 있는데, 그 경우 index는 기본적으로 딕셔너리 키를 정렬

2    a
1    b
3    c
dtype: object

In [58]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) # 인덱스를 명시적으로 설정, Series를 명시적으로 정의된 키로만 채울 수 있음

3    c
2    a
dtype: object

## Pandas DataFrame 객체 ex) 엑셀

In [59]:
# NumPy 배열의 일반화된 버전이나 파이썬 딕셔너리의 특수한 버전으로 생각 할 수 있음

### DataFrame: 일반화된 NumPy 배열

In [61]:
# 유연한 행 인덱스와 유연한 열 이름을 가진 2차원 배열
# 정렬된 1차원 열의 연속으로 볼 수 있듯이, DataFrame은 정렬된 Series 객체의 연속으로 볼 수 있음
# '정렬'은 같은 인덱스를 공유한다는 뜻

In [65]:
# Series 구성
area_dict = {'California' : 423967,
             'Texas' : 695662,
             'New York' : 141297,
             'Florida' : 170312,
             'Illinois' : 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [73]:
# 딕셔너리를 사용, 2차원 객체를 구성
states = pd.DataFrame({'population' : population,
                      'area' : area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [68]:
state.index # DataFrame도 인덱스 레이블에 접근할 수 있는 index 속성을 가지고 있음

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [70]:
state.columns # DataFrame은 열 레이블을 가지고 있는 Index 객체인 column 속성을 가지고 있음

Index(['population', 'area'], dtype='object')

### DataFrame: 특수한 딕셔너리

In [71]:
# 딕셔너리의 특수 버전, DataFrame은 열 이름을 열 데이터로 이뤄진 Series에 매핑
# ex) 'area'속성을 질의하면 앞에서 본 면적을 담고 있는 Series 객체를 반환

In [74]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [75]:
# 2차원 NumPy 배열에서는 data[0]이 첫 번째 행을 반환
# DataFrame의 경우에는 data['col0'] 이 첫 번째 열을 반환
# 일반화된 배열보다 일반화된 딕셔너리로 보는 것이 더 적합

### DataFrame 객체 구성하기

In [77]:
# 단일 Series 객체에서 구성하기
# DataFrame은 Series 객체의 집합체로서 열 하나짜리 DataFrame은 단일 Series로부터 구성 가능

In [78]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [79]:
# 딕셔너리의 리스트에서 구성하기
# 리스트 컴프리헨션을 사용해 데이터 만들 수 있음

In [95]:
df = pd.read_csv('data/president_heights.csv')
df.head()

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183


In [96]:
import numpy as np

In [97]:
np.array(df['height(cm)'])

array([189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175,
       178, 183, 193, 178, 173, 174, 183, 183, 168, 170, 178, 182, 180,
       183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188,
       188, 182, 185], dtype=int64)

In [101]:
np.average(df['height(cm)'])

179.73809523809524

In [99]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   order       42 non-null     int64 
 1   name        42 non-null     object
 2   height(cm)  42 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ KB


In [100]:
df.describe()

Unnamed: 0,order,height(cm)
count,42.0,42.0
mean,22.47619,179.738095
std,13.152461,7.015869
min,1.0,163.0
25%,11.25,174.25
50%,22.0,182.0
75%,33.75,183.0
max,44.0,193.0


In [102]:
# df = pd.read_csv('data/president_heights.csv')
# df.head()
# np.average(df['height(cm)'])
# df.info()
# df.describe()

## Pandas Index 객체

In [104]:
# Series와 DataFrame 객체가 데이터를 참조하고 수정하게 해주는 명시적인 인덱스를 포함
# Index 객체는 그 자체로 흥미로운 구조체, 불변의 배열 or 정렬된 집합(Index 객체가 중복되는 값을 포함할 수 있으므로 기술적으로 중복집합)
# Index 객체에서 사용할 수 있는 연산에 몇 가지 흥미로운 결과를 살펴봄

In [105]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### Index: 불변의 배열

In [106]:
# Index 객체는 여러 면에서 배열처럼 동작, ex) 표준 파이썬 인덱싱 표기법을 사용해 값이나 슬라이스를 가져올 수 있음

In [107]:
ind[1]

3

In [108]:
ind[::2]

Index([2, 5, 11], dtype='int64')

In [110]:
print(ind.size, ind.shape, ind.ndim, ind.dtype) # Index 객체에는 NumPy 배열에서 익숙한 속성이 많이 있음

5 (5,) 1 int64


In [113]:
ind[1] = 0 # Index 객체와 NumPy 배열의 한 가지 차이점 : Index 객체는 일반적인 방법으로는 변경 불가, 불변의 값
# 불변성 : 예기치 않은 인덱스 변경으로 인한 부작용 없이 여러 DataFrame과 배열 사이에서 인덱스를 더 안전하게 공유 가능

TypeError: Index does not support mutable operations

### Index: 정렬된 집합

In [114]:
# Pandas 객체는 집합 연산의 여러 측면에 의존하는 데이터세트 간의 조인과 같은 연산을 할 수 있게 하려고 고안
# Index 객체는 대체로 파이썬에 내장된 set 데이터 구조에서 사용하는 표기법을 따름
# 합집합, 교집합, 차집합을 비롯해 그 밖의 조합들이 익숙한 방식으로 계산

In [116]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [119]:
indA & indB, indA.intersection(indB) # 교집합

(Index([0, 3, 5, 7, 9], dtype='int64'), Index([3, 5, 7], dtype='int64'))

In [120]:
indA | indB, indA.difference(indB) # 합집합

(Index([3, 3, 5, 7, 11], dtype='int64'), Index([1, 9], dtype='int64'))

In [121]:
indA ^ indB # 대치 차집합(두 집합의 상대 여집합의 합-옮긴이)

Index([3, 0, 0, 0, 2], dtype='int64')

## 데이터 인덱싱과 선택

In [123]:
# 인덱싱(arr[2, 1])과 슬라이싱(arr[:, 1:5]), 마스킹(arr[arr > 0]), 팬시 인덱싱(arr[0, [1, 5]]), 조합(arr[:, [1, 5
# Pandas Series와 DataFrame 객체의 값에 접ㄱ느하고 그 값을 수정하는 도구

### Series에서 데이터 선택

In [124]:
# Series: 딕셔너리 - 딕셔너리와 마찬가지로 키의 집합을 값의 집합에 매핑
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [127]:
data['b'] # 키/인덱스와 값을 조사하기 위해 딕셔너리와 유사한 파이썬 표현식과 메서드를 사용 가능

0.5

In [128]:
'a' in data

True

In [130]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [134]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [131]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [132]:
# Series 객체는 딕셔너리와 유사한 구문을 사용해 수정 가능
# 새로운 인덱스 값에 할당함으로써 Series를 확장 가능

In [146]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [None]:
# 객체의 변경이 쉽다는 것은 편리한 특징, 그 내부에서 Pandas가 이 변경에 수반돼야 할 메모리 배치와 데이터 복사에 대한 결정을 수행
# 일반적으로 사용자는 이러한 이슈에 대해 걱정할 필요가 없다

In [135]:
data > 20000

a    False
b    False
c    False
d    False
dtype: bool

In [138]:
xxx_mask = data > 20000

In [141]:
data[xxx_mask]

Series([], dtype: float64)

In [143]:
df = pd.read_csv('data/president_heights.csv')

In [144]:
df.loc[40, 'name' : 'height']

name          George W. Bush
height(cm)               182
Name: 40, dtype: object

In [145]:
df.iloc[40, 1:2]

name    George W. Bush
Name: 40, dtype: object

In [150]:
data = pd.read_csv('data/titanic.csv')
data

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


In [152]:
data.values

array([[0, 3, 'Mr. Owen Harris Braund', ..., 1, 0, 7.25],
       [1, 1, 'Mrs. John Bradley (Florence Briggs Thayer) Cumings', ...,
        1, 0, 71.2833],
       [1, 3, 'Miss. Laina Heikkinen', ..., 0, 0, 7.925],
       ...,
       [0, 3, 'Miss. Catherine Helen Johnston', ..., 1, 2, 23.45],
       [1, 1, 'Mr. Karl Howell Behr', ..., 0, 0, 30.0],
       [0, 3, 'Mr. Patrick Dooley', ..., 0, 0, 7.75]], dtype=object)

In [162]:
# DataFrame 1
pop_dict = {'Cal': 38000000,

            'Tex': 2640000,

            'NY': 1960000,

            'Flo': 1950000,

            'Ill': 1280000}

pop = pd.Series(pop_dict)

In [163]:
area_dict = {'Cal': 420000,

            'Tex': 690000,

            'NY': 141000,

            'Flo': 170000,

            'Ill': 149000}

area = pd.Series(area_dict)



df = pd.DataFrame({'pop' : pop, 'area': area})

df.head(), df.columns, len(df)

(          pop    area
 Cal  38000000  420000
 Tex   2640000  690000
 NY    1960000  141000
 Flo   1950000  170000
 Ill   1280000  149000,
 Index(['pop', 'area'], dtype='object'),
 5)

In [158]:
# DataFrame2

df = pd.read_csv('data/president_heights.csv', names=['order', 'name', 'height'])

df.head()

Unnamed: 0,order,name,height
0,order,name,height(cm)
1,1,George Washington,189
2,2,John Adams,170
3,3,Thomas Jefferson,189
4,4,James Madison,163


In [159]:
# DataFrame3

titanic_df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## DataFrame에서 데이터 선택

In [154]:
# DataFrame은 여러 면에서 2차원 배열이나 구조화된 배열과 비슷, 다른 면에서는 동일 인덱스를 공유하는 Series 구조체의 딕셔너리와 비슷
# 이런 구조체에서 데이터를 선택하는 법 살펴봄

In [155]:
# DataFrame: 딕셔너리
# DataFrame이 관련 Series 객체의 딕셔너리라는 것, 미국 주의 면적과 인구 예제

In [165]:
# DataFrame의 열을 이루는 각 Serise는 열 이름으로 된 딕셔너리 스타일의 인덱싱을 통해 접근 가능
df['area']

Cal    420000
Tex    690000
NY     141000
Flo    170000
Ill    149000
Name: area, dtype: int64

In [166]:
df.area

Cal    420000
Tex    690000
NY     141000
Flo    170000
Ill    149000
Name: area, dtype: int64

In [167]:
# 열 이름이 문자열이 아니거나 DataFrame의 메서드와 충돌할 때는 이 속성 스타일로 접근x
# DataFrame은 pop() 메서드를 가지고 있음, df.pop은 'pop' 열이 아니라 그 메서드를 가리킴

In [168]:
df.pop is df['pop']

False

In [169]:
# 속성을 통해 열을 할당 x (즉, data.pop = z가 아니라 data['pop'] = z를 사용)

In [171]:
df['density'] = df['pop'] / df['area'] # Series 객체와 마찬가지로 이 딕셔너리 형태의 구문은 객체를 변경할 때도 사용 가능
df                                     # Series 객체 간에 요소 단위로 산술 연산을 하는 간단한 구문

Unnamed: 0,pop,area,density
Cal,38000000,420000,90.47619
Tex,2640000,690000,3.826087
NY,1960000,141000,13.900709
Flo,1950000,170000,11.470588
Ill,1280000,149000,8.590604


In [176]:
df.density, type(df.density)

(Cal    90.476190
 Tex     3.826087
 NY     13.900709
 Flo    11.470588
 Ill     8.590604
 Name: density, dtype: float64,
 pandas.core.series.Series)

In [172]:
df.head()

Unnamed: 0,pop,area,density
Cal,38000000,420000,90.47619
Tex,2640000,690000,3.826087
NY,1960000,141000,13.900709
Flo,1950000,170000,11.470588
Ill,1280000,149000,8.590604


### DataFrame: 2차원 배열

In [178]:
df.values

array([[3.80000000e+07, 4.20000000e+05, 9.04761905e+01],
       [2.64000000e+06, 6.90000000e+05, 3.82608696e+00],
       [1.96000000e+06, 1.41000000e+05, 1.39007092e+01],
       [1.95000000e+06, 1.70000000e+05, 1.14705882e+01],
       [1.28000000e+06, 1.49000000e+05, 8.59060403e+00]])

In [179]:
df_np = df.values
type(df.values), df_np.shape, df_np.T.shape # col 과 row의 뒤 바뀜

(numpy.ndarray, (5, 3), (3, 5))

In [180]:
df_np.T

array([[3.80000000e+07, 2.64000000e+06, 1.96000000e+06, 1.95000000e+06,
        1.28000000e+06],
       [4.20000000e+05, 6.90000000e+05, 1.41000000e+05, 1.70000000e+05,
        1.49000000e+05],
       [9.04761905e+01, 3.82608696e+00, 1.39007092e+01, 1.14705882e+01,
        8.59060403e+00]])

In [184]:
df.values[0:3, 1:3]

array([[4.20000000e+05, 9.04761905e+01],
       [6.90000000e+05, 3.82608696e+00],
       [1.41000000e+05, 1.39007092e+01]])

In [182]:
df['area']

Cal    420000
Tex    690000
NY     141000
Flo    170000
Ill    149000
Name: area, dtype: int64

In [194]:
df.loc[df.area > 200000] # 리턴 타입 : DataFrame

Unnamed: 0,pop,area,density
Cal,38000000,420000,90.47619
Tex,2640000,690000,3.826087


In [191]:
df.iloc[:3, :2], type(df.iloc)

(          pop    area
 Cal  38000000  420000
 Tex   2640000  690000
 NY    1960000  141000,
 pandas.core.indexing._iLocIndexer)

In [193]:
(df.area > 10000) & (df.area < 200000)

Cal    False
Tex    False
NY      True
Flo     True
Ill     True
Name: area, dtype: bool

## Pandas에서 데이터 연산하기

In [196]:
# NumPy의 기본 중 하나는 기본 산술 연산(덧셈, 뺄셈, 곱셈 등)과 복잡한 연산(삼각함수, 지수와 로드함수 등) 모두에서 요소 단위의 연산을 빠르게 수행 할 수 있음
# Pandas는 NumPy로부터 이 기능의 대부분을 상속
# 몇 가지 유요한 특수 기능을 포함
# 부정 함수와 삼각함수 같은 단항 연산의 경우에는 이 유니버셜 함수가 결과물에 인덱스와 열 레이블을 보존
# 덧셈과 곱셈 같은 이항 연산의 경우 Pandas가 유니버셜 함수에 객체를 전달할 때 자동으로 인덱스를 정렬
# Pandas를 이용하면 데이터의 맥락을 유지, 다른 소스에서 가져온 데이터를 결합하는 작업(둘 다 원시 NumPy 배열로는 오류가 발생하기 쉬운 작업)을 근본적으로 실패할 일이 없다
# 1차원 Series 구조체와 2차원 DataFrame 구조체 사이에 잘 정의된 연산 확인

## 유니버설 함수: 인덱스 보존

In [197]:
# Pandas는 NumPy와 함께 작업하도록 설계됐기 때문에 NumPy의 유니버설 함수가 Pandas Series와 DataFrame 객체에 동작

In [201]:
import pandas as pd
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [202]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])

In [203]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [204]:
np.exp(ser) # NumPy 유니버설 함수를 이 객체 중 하나에 적용하면 그 결과는 인덱스가 그대로 보존된 다른 Pandas객체가 될 것

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [205]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


## 유니버설함수: 인덱스 정렬

In [206]:
# 두 개의 Series 또는 DataFrame 객체에 이항 연산을 적용하는 경우, Pandas는 연산을 수행하는 과정에서 인덱스를 정렬
# 불완전한 데이터로 작업할 때 매우 편리

### Series에서 인덱스 정렬

In [207]:
# 두 개의 다른 데이터 소스를 결합, 미국 주에서 면적 기준 상위 세 개의 주와 인구 기준 상위 세 개의 주를 찾는다고 가정

In [208]:
area = pd.Series({'Alaska' : 1723337,
                  'Texas' : 695662,
                  'California' : 423967}, name='area')
population = pd.Series({'California' : 38332521,
                        'Texas' : 26448193,
                        'New York' : 19651127}, name='population')

In [212]:
population / area # 결과 : 두 입력 배열의 인덱스의 합집합을 담고 있음, 이 인덱스에 표준 파이썬 집합 연산을 사용해 결정
                  # 둘 중 하나라도 값이 없는 항목 : Pandas가 누락된 데이터를 표시하는 방식에 따라 NaN, 즉, '숫자가 아님' 표시
                  # 이 인덱스 매칭은 파이썬에 내장된 산술 표현식에 대해서도 같은 방식으로 구현

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [213]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [216]:
# 연산자 대신에 적절한 객체 메서드를 사용해 채우기 값을 수정 가능
# A.add(B)를 호출하면 A + B를 호출하는 것과 같지만, A나 B에서 누락된 요소의 채우기 값을 선택해 명시적으로 지정 가능

In [217]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### DataFrame에서 인덱스 정렬

In [220]:
# DataFrame에서 연산을 수행할 때 열과 인덱스 모두에서 비슷한 유형의 정렬이 발생

In [225]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,5,9
1,3,17


In [226]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,9,1,9
1,3,7,6
2,8,7,4


In [227]:
A + B

Unnamed: 0,A,B,C
0,6.0,18.0,
1,10.0,20.0,
2,,,


In [228]:
A.add(B)

Unnamed: 0,A,B,C
0,6.0,18.0,
1,10.0,20.0,
2,,,


## 누락된 데이터 처리하기

In [229]:
# 현실 세계의 데이터는 깨끗하거나 형태가 단일한 경우가 드물다는 것, 데이터세트는 데이터가 어느 정도 누락돼 있는 경우가 많음
# 데이터 소스가 다르면 전혀 다른 방식으로 데이터가 누락 됐다는 뜻일 수도 있음
# 누락 데이터를 처리하는 파이썬의 내장된 Pandas 도구 몇 가지를 설명

## Pandas에서 누락된 데이터

In [231]:
# Pandas에서 누락된 값을 처리하는 방식은 Pandas의 기반이 되는 NumPy 패키지가 부동 소수점이 아닌 다른 데이터 타입에는 NA 값 표기법이 기본으로 없다는 사실로 인해 제약을 받음
# Pandas가 값없음을 표시하기 위해 각 데이터 타입에 비트 패턴을 지정하는 R의 방식이 다루기가 까다로움 -> R은 4 개의 기본 데이터 타입, NumPy는 많은 데이터 타입
# NumPy의 모든 데이터 타입에 대해 특정 비트 패턴을 예약하게 되면 다양한 데이터 타입에 대한 여러가지 연산으로 많은 오버헤드가 발생, 해결하기 위해 새로운 유형의 NumPy 패키지가 필요
# 작은 데이터 타입(=8비트 정수)에서 마스크로 사용하기 위해 1비트를 별도로 뺀다면 표현할 수 있는 값의 범위가 상당히 줄어듬
# 제약과 장단점 때문에 Pandas에는 널 값을 저장하고 조작한는 두 가지 '모드' 존재
# - 기본모드 : 센티널 기반 누락 데이터 체꼐를 사용, 데이터 타입에 따라 센티널 값이 NaN 또는 None으로 설정
# - Pandas에서 제공하는 널 값이 들어갈 수 있는 데이터 타입(dtype)을 사용하는 것, 마스크 배열이 함께 생성되어 누락된 항목을 추적, 누락된 항목은 특수한 pd.NA 값으로 사용자에게 표시


In [232]:
import numpy as np
import pandas as pd

In [233]:
vals1 = np.array([1, None, 2, 3])
vals1

array([1, None, 2, 3], dtype=object)

In [234]:
%timeit np.arange(1E6, dtype=int).sum()

1.16 ms ± 25.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [235]:
%timeit np.arange(1E6, dtype=object).sum()

35.5 ms ± 683 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [236]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [238]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

In [239]:
1 + np.nan

nan

In [240]:
0 + np.nan

nan

In [241]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

In [242]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

In [243]:
pd.Series([1, np.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [245]:
x = pd.Series(range(2), dtype=int)
x

0    0
1    1
dtype: int32

In [247]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

In [248]:
titanic_df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

## Pandas의 널러블(Nullable) 데이터 타입

In [249]:
# 초기 버전 Pandas에서는 NaN과 None을 센티널 값으로 사용하는 것이 누락 데이터를 표현 -> 암시적 타입 캐스팅과 관련하여 어려움 ex) 누락된 데이터가 있는 실수 배열을 표현할 방법이 x
# 문제 해결 : Pandas는 나중에 널러블 데이터 타입을 추가, 이름의 대소문자로 일반 데이터 타입과 널러블 데이터 타입을 구별하는 방식(np.int32 -> pd.Int32), 특별히 요청한 경우에만 사용

In [250]:
pd.Series([1, np.nan, 2, None, pd.NA], dtype='Int32')

0       1
1    <NA>
2       2
3    <NA>
4    <NA>
dtype: Int32

## 널 값 연산하기

In [251]:
# isnull(), notnull(), dropna(), fillna()

In [253]:
# 널 값 탐지
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [254]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [255]:
# 널 값 제거하기
data.dropna()

0        1
2    hello
dtype: object

In [258]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [261]:
df.dropna() # DataFrame에서는 단일 값만 삭제x, 전체 행이나 전체 열을 삭제하는 것만 가능

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [262]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [263]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [264]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [265]:
data.fillna(0)

0        1
1        0
2    hello
3        0
dtype: object

In [266]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [267]:
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [270]:
data.ffill() # forward

0        1
1        1
2    hello
3    hello
dtype: object

In [271]:
data.bfill() # back

0        1
1    hello
2    hello
3     None
dtype: object

In [273]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [274]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [276]:
titanic_df_ff = titanic_df.ffill()
titanic_df_ff

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,C85,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,C123,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,C50,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,19.0,1,2,W./C. 6607,23.4500,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [7]:
import pandas as pd
import numpy as np

In [8]:
titanic_df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

In [9]:
avg_age = np.nanmean(titanic_df.Age.values)
new_df = titanic_df.Age.fillna(avg_age)

In [10]:
new_df

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: Age, Length: 891, dtype: float64

In [11]:
new_df.info()

<class 'pandas.core.series.Series'>
RangeIndex: 891 entries, 0 to 890
Series name: Age
Non-Null Count  Dtype  
--------------  -----  
891 non-null    float64
dtypes: float64(1)
memory usage: 7.1 KB


In [12]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
