In [3]:
import numpy as np
import pandas as pd
from numpy.array_api import trunc


# Pandas Series 객체

In [4]:
# Series는 인덱싱된 데이터의 1차원 배열이다
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
# values는 NumPy 배열이다.
print(data.values)

[0.25 0.5  0.75 1.  ]


### Series: 일반화된 NumPy 배열

In [9]:
# Series는 인덱스로 문자열을 사용할 수 있다
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])

print(data)
print(data['a'])

# 인접하지 않거나 연속적이지 않은 인덱스를 사용할 수 도 있다
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 7, 9])
print(data)
print(data[2])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.25
2    0.25
5    0.50
7    0.75
9    1.00
dtype: float64
0.25


# Pandas DataFrame 객체

### DataFrame: 일반화된 NumPy 배열

#### Series가 1차원 배열이라면, DataFrame은 2차원 배열이라고 볼 수 있다

In [21]:
F_dict = {'a' : 123, 'b' : 456, 'c' : 789, 'd' : 101112}
S_dict = {'a' : 111, 'b' : 222, 'c' : 333, 'd' : 444}

F_D = pd.Series(F_dict)
S_D = pd.Series(S_dict)

Frame = pd.DataFrame({'first' : F_D, 'second' : S_D})

print(Frame, '\n')
print(Frame.index)
print(Frame.columns , '\n')
print(Frame['first'])

    first  second
a     123     111
b     456     222
c     789     333
d  101112     444 

Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['first', 'second'], dtype='object') 

a       123
b       456
c       789
d    101112
Name: first, dtype: int64


# Pandas Index 객체

### 인덱서: loc, iloc

In [23]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])

# 인덱싱할 때 명시적인 인덱스 사용
print(data[1])

# 슬라이싱할 때 암묵적 인덱스 사용
print(data[1:3])

a
3    b
5    c
dtype: object


In [33]:
# loc 속성은 언제나 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게 한다
print(data.loc[1])
print(data.loc[1:3], '\n')

# iloc 속성은 인덱싱과 슬라이싱에서 언제나 암묵적인 파이썬 스타일의 인덱스를 참조하게 해준다
print(data.iloc[1])
print(data.iloc[1:3])

a
1    a
3    b
dtype: object 

b
3    b
5    c
dtype: object


# 누락된 데이터 처리하기

### NaN: 누락된 숫자 데이터

In [41]:
val = np.array([1, np.nan, 3, 4])
print(val.dtype, '\n')

# NaN이 포함된 산술 연산의 결과는 NaN이 된다
print(1 + np.nan)
print(0 * np.nan)
print(val.min(), '\n')

# 누락된 값을 무시하는 몇 가지 특별한 집계 연산
print(np.nansum(val), np.nanmin(val), '\n')

float64 

nan
nan
nan 

8.0 1.0 



### 널 값 연산하기

#### isnull() : 누락 값을 가리키는 부울 마스크를 생성
#### notnull() : isnull()의 역
#### dropna() : 데이터에 필터를 적용한 버전을 반환
#### fillna() : 누락 값을 채우거나 전가된 데이터 사본을 반환

In [44]:
data = pd.Series([1, np.nan, 'hello', None])

print(data.isnull(), '\n')
print(data[data.notnull()], '\n')
print(data.dropna(), '\n')

0    False
1     True
2    False
3     True
dtype: bool 

0        1
2    hello
dtype: object 

0        1
2    hello
dtype: object


In [53]:
df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]])

# DataFrame에서는 단일 값만 삭제할 수 없다
print(df.dropna(), '\n')
print(df.dropna(axis='columns'))


# how = 'all'을 통해 모두 널 값인 행이나 열만 삭제할 수 있다
df[3] = np.nan

print(df)
print(df.dropna(axis='columns', how='all'))


# 조금 더 세부적으로 제어하기 위해 thresh 매개변수를 통해 행이나 열에서 널이 아닌 값이 최소 몇 개가 있어야하는지 지정할 수 있다
print(df.dropna(axis='rows', thresh=3))

     0    1  2
1  2.0  3.0  5 

   2
0  2
1  5
2  6
     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN
     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6
     0    1  2   3
1  2.0  3.0  5 NaN


### 널 값 채우기

In [64]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))

print(data, '\n')
print(data.fillna(0), '\n')

# 이전 값으로 채우기
print(data.fillna(method='ffill'), '\n')

# 다음에 오는 값으로 채우기
print(data.fillna(method='bfill'), '\n')


a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64 

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64 

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64 

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64 



  print(data.fillna(method='ffill'), '\n')
  print(data.fillna(method='bfill'), '\n')


# 데이터세트 결합: Concat, Append

In [70]:
# DataFrame 생성 함수
def make_df(cols, ind):
    data = {c : [str(c) + str(i) for i in ind]
                for c in cols}
    return pd.DataFrame(data, ind)

make_df('ABC', range(3))


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### pd.concat을 이용한 간단한 연결  

In [73]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

print(pd.concat([ser1, ser2]), '\n')

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

# 기본적으로 연결은 행 단위(즉, axis = 0)로 일어난다
print(pd.concat([df1, df2]), '\n')

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object 

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4 



### 인덱스 복제

In [81]:
# Pandas는 복제된 인덱스를 가지더라도 인덱스를 유지한다
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index

print(x)
print(y)
print(pd.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3
ValueError: Indexes have overlapping values: Index([0, 1], dtype='int64')


In [82]:
# 인덱스 반복을 에러로 잡는다
try:
    # verify_integrity는 중복 인덱스가 있을 때 예외가 발생한다. 
    pd.concat([x, y], verify_integrity=True)

except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Index([0, 1], dtype='int64')


In [83]:
# 인덱스를 무시
pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [84]:
# 다중 인덱스 키 추가
pd.concat([x, y], keys=['x', 'y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


### 조인을 이용한 연결

In [93]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])

print(df5)
print(df6)
print(pd.concat([df5, df6]), '\n')

# 기본적으로 조인은 입력 열의 합집합(join = 'outer')이지만, join = 'inner'를 사용해 이를 열의 교집합으로 바꿀 수 있다.
print(pd.concat([df5, df6], join='inner'), '\n')

# 또는 join_axes 인수를 사용해 남은 열의 인덱스를 직접 지정하는 것이다.
# join_axes는 이제 사용하지 않으므로 reindex를 사용한다
print(pd.concat([df5, df6]).reindex(df5.columns), '\n')

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4 

    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4 

     A    B    C    D
A  NaN  NaN  NaN  NaN
B  NaN  NaN  NaN  NaN
C  NaN  NaN  NaN  NaN 

