In [1]:
import pandas as pd
import numpy as np

# 결측값 처리

## 숫자형 자료형에 문자열이 들어있는 경우

- 숫자형으로 변경하되, 에러가 발생되는 (결측)값은 `NaN`으로 변경

    `df['num'] = pd.to_numeric(df['num'], errors='coerce')`

    `NaN`이 들어 있는 경우 `sum()`과 같은 연산시 에러가 발생하지 않는다
---    
- `groupby()`에서 유의 사항

    `NaN`이 있는 `row`의 `drop` 옵션을 설정해야 함, 기본은 drop 임

In [2]:

df = pd.DataFrame([1,'-',-2], columns = ['num']

)
df

Unnamed: 0,num
0,1
1,-
2,-2


In [3]:
# df.num.sum()
# TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   num     3 non-null      object
dtypes: object(1)
memory usage: 156.0+ bytes


In [5]:
# df.num.astype('int')
# ValueError: invalid literal for int() with base 10: '-'

In [6]:
df['num'] = pd.to_numeric(df['num'], errors='coerce')
df

Unnamed: 0,num
0,1.0
1,
2,-2.0


In [7]:
df.sum()

num   -1.0
dtype: float64

In [8]:
type(df)

pandas.core.frame.DataFrame

In [9]:
df.num = df.num.fillna(0)
df.num

0    1.0
1    0.0
2   -2.0
Name: num, dtype: float64

In [10]:
df.sum()

num   -1.0
dtype: float64

In [18]:
# 멀티인덱스 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}
index = pd.MultiIndex.from_tuples([('x', 'foo'), ('x', 'bar'), ('y', 'foo'), ('y', 'bar')], names=['index1', 'index2'])
df = pd.DataFrame(data, index=index)

In [19]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
index1,index2,Unnamed: 2_level_1,Unnamed: 3_level_1
x,foo,1,5
x,bar,2,6
y,foo,3,7
y,bar,4,8


In [20]:
# 멀티인덱스를 사용한 loc 인덱싱
result = df.loc[('x', 'foo')]

print(result)

A    1
B    5
Name: (x, foo), dtype: int64


In [21]:
# 멀티인덱스를 사용한 xs 인덱싱
result = df.xs(key='foo', level='index2')

print(result)

        A  B
index1      
x       1  5
y       3  7


In [23]:
# # 인덱서를 사용한 멀티인덱스 인덱싱
# result = df.loc[('x', 'foo'):('y', 'foo')]

# print(result)

In [25]:
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [10, 15, 20, 25, 30, 35]}
df = pd.DataFrame(data)

df

Unnamed: 0,Category,Value
0,A,10
1,B,15
2,A,20
3,B,25
4,A,30
5,B,35


In [32]:
# 'Category' 열을 기준으로 데이터프레임을 그룹화
grouped = df.groupby('Category')
grouped.get_group('B')

Unnamed: 0,Category,Value
1,B,15
3,B,25
5,B,35


In [28]:
# 그룹별 크기 출력
print(grouped.size())

Category
A    3
B    3
dtype: int64


In [29]:
# 그룹별 평균 출력
print(grouped.mean())

          Value
Category       
A          20.0
B          25.0


In [33]:
grouped.groups

{'A': [0, 2, 4], 'B': [1, 3, 5]}