# Pandas

In [2]:
import pandas as pd
import numpy as np
pd.__version__

'1.3.5'

In [2]:
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data = pd.Series([0.25,0.5,0.75,1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

#### Dictionary

In [15]:
# Dictionary
pop_dict ={'CA':5423967,'TX':1695662,'NY':1441297,'FL':1703512}
pop = pd.Series(pop_dict)
pop

CA    5423967
TX    1695662
NY    1441297
FL    1703512
dtype: int64

In [16]:
pop['CA':'NY']

CA    5423967
TX    1695662
NY    1441297
dtype: int64

## DataFrame
---

In [18]:
area_dict = {'CA':423967,'TX':695662,'NY':141297,'FL':170312}
area = pd.Series(area_dict)
print(area)
#DataFrame
states = pd.DataFrame({'population':pop,'area':area})
print(states)

CA    423967
TX    695662
NY    141297
FL    170312
dtype: int64
    population    area
CA     5423967  423967
TX     1695662  695662
NY     1441297  141297
FL     1703512  170312


In [24]:
states['population'] # columns unlike Numpy

CA    5423967
TX    1695662
NY    1441297
FL    1703512
Name: population, dtype: int64

#### DataFrame Object

In [None]:
#단일 Series 객체에서 구성하기
pd.DataFrame(pop, columns=['population'])

#Series 객체의 딕셔너리에서 구성하기
pd.DataFrame({'population':pop,'area':area})

In [30]:
#딕셔너리의 리스트에서 구성하기
data = [{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [27]:
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}]) # 누락되어도 Nan으로 채움

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [36]:
#2D NumPy 배열에서 구성하기
print(np.random.rand(3,2))
pd.DataFrame(np.random.rand(3,2), columns=['foo','bar'], index=[1,2,3])

[[0.15739402 0.67885821]
 [0.08736875 0.81903316]
 [0.02245636 0.33608647]]


Unnamed: 0,foo,bar
1,0.292743,0.805718
2,0.76362,0.084421
3,0.633496,0.496579


In [40]:
ind = pd.Index([2,3,4,5,7])
print(ind)
print(ind[1])
ind[1]=0 #ERROR

Int64Index([2, 3, 4, 5, 7], dtype='int64')
3


TypeError: Index does not support mutable operations

## Data Indexing and Selection
---
### Series: 1차원 배열

In [None]:
#명시적 인덱스로 슬라이싱
data['a':'c'] # a b c  dtype:float64
#암묵적 인덱스로 슬라이싱
data[0:2] # a b  dtype:float64
#마스킹
data[(data>0.3)&(data<0.8)] # b 0.50 c 0.75  dtype:float64
#팬시 인덱싱
data[['a','e']] # a e  dtype:float64

### loc & iloc
정수 인덱스 사용 시
혼선 방지를 위해 암묵적인 index가 아닌
명시적인 인덱스를 참조하는 특별한 인덱서 loc
암묵적인 파이썬 스타일을 참조하는 인덱서 iloc

In [4]:
data = pd.Series(['a','b','c'],index=[1,3,5])
print(data.loc[1])  #명시적 인덱스
print(data.iloc[1]) #암묵적 인덱스

a
b


### DataFrame: Dictionary

In [52]:
area = pd.Series({'CA':423967,'TX':695662,'NY':141297,'FL':170312})
pop  = pd.Series({'CA':397423967,'TX':2915664546,'NY':215654646,'FL':20201246})
data = pd.DataFrame({'area':area,'pop':pop})
data

Unnamed: 0,area,pop
CA,423967,397423967
TX,695662,2915664546
NY,141297,215654646
FL,170312,20201246


In [53]:
# Dictionary Indexing: get col
print(data['area'])
print(data.area)

CA    423967
TX    695662
NY    141297
FL    170312
Name: area, dtype: int64
CA    423967
TX    695662
NY    141297
FL    170312
Name: area, dtype: int64


In [54]:
#pop은 존재하는 method이므로 주의
data.pop is data['pop']

False

In [73]:
# 객체 변경(Col Addition)
data['density'] = data['pop']/data['area']
# data.pop('density trial')
# data['pop rank'] = np.argsort(data['pop'])+1 WRONG: Shows original index place after ordering
data['pop rank'] = data['pop'].rank(ascending=False).astype(int)
data

Unnamed: 0,area,pop,density,pop rank
CA,423967,397423967,937.393634,2
TX,695662,2915664546,4191.208584,1
NY,141297,215654646,1526.250706,3
FL,170312,20201246,118.613169,4


In [67]:
np.argsort(data['pop'])

CA    3
TX    2
NY    0
FL    1
Name: pop, dtype: int64

In [77]:
ordered_indices = data['pop'].sort_values(ascending=False).index
ordered_indices

Index(['TX', 'CA', 'NY', 'FL'], dtype='object')

In [78]:
print(data.values)
print(data.values[:,2])
print(np.argsort(data.values[:,2]))

[[4.23967000e+05 3.97423967e+08 9.37393634e+02 2.00000000e+00]
 [6.95662000e+05 2.91566455e+09 4.19120858e+03 1.00000000e+00]
 [1.41297000e+05 2.15654646e+08 1.52625071e+03 3.00000000e+00]
 [1.70312000e+05 2.02012460e+07 1.18613169e+02 4.00000000e+00]]
[ 937.39363441 4191.20858405 1526.25070596  118.61316877]
[3 0 2 1]


In [79]:
# DataFrame의 행과 열 바꿈
data.T

Unnamed: 0,CA,TX,NY,FL
area,423967.0,695662.0,141297.0,170312.0
pop,397424000.0,2915665000.0,215654600.0,20201250.0
density,937.3936,4191.209,1526.251,118.6132
pop rank,2.0,1.0,3.0,4.0


In [15]:
data.values[0]

array([4.23967000e+05, 3.97423967e+08, 9.37393634e+02])

In [25]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
CA,423967,397423967
TX,695662,2915664546
NY,141297,215654646


In [30]:
#마스킹과 팬시 인덱싱 결합
data.loc[data.density>120,['pop','density']]

Unnamed: 0,pop,density
TX,2915664546,4191.208584
NY,215654646,1526.250706


In [29]:
# 값변경
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density,pop rank
CA,423967,397423967,90.0,4
TX,695662,2915664546,4191.208584,3
NY,141297,215654646,1526.250706,1
FL,170312,20201246,118.613169,2


## Pandas에서 데이터 연산하기
---
Preserve index and columns label in the output
### Universial Function: Preserving Index

In [68]:
import pandas as pd
import numpy as np

In [69]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [70]:
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [71]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [72]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### Universial Function: Index Alignment

In [93]:
area = pd.Series({'CA':423967,'TX':695662,'AL':1722312},name='area')
population  = pd.Series({'CA':397423967,'TX':2915664546,'NY':215654646}, name='population')
print(population/area)
# 결과는 인덱스의 합집합 : Alignment
# area.index | population.index ERROR
area.index.union(population.index)

AL            NaN
CA     937.393634
NY            NaN
TX    4191.208584
dtype: float64


Index(['AL', 'CA', 'NY', 'TX'], dtype='object')

In [97]:
A=pd.Series([2,4,6],index=[0,1,2])
B=pd.Series([1,3,5],index=[1,2,3])
print(A+B) # <=> A.add(B)
print(A.add(B,fill_value=0)) #NaN값 없이 채워서

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64
0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64


#### DataFrame Index Alignment (2D matrix)

In [112]:
A = pd.DataFrame(rng.randint(0,20,(2,2)),columns=list('AB'))
B = pd.DataFrame(rng.randint(0,10,(3,3)),columns=list('BAC'))
print(A)
print(B)
print(A+B)

   A   B
0  0  11
1  7  10
   B  A  C
0  2  0  7
1  2  2  0
2  4  9  6
     A     B   C
0  0.0  13.0 NaN
1  9.0  12.0 NaN
2  NaN   NaN NaN


In [115]:
print(A.stack().mean())
fill = A.stack().mean() #A행을 쌓아서 계산한 평균값
A.add(B, fill_value = fill)

7.0


Unnamed: 0,A,B,C
0,0.0,13.0,14.0
1,9.0,12.0,7.0
2,16.0,11.0,13.0


#### DataFrame Calc

In [118]:
df = pd.DataFrame(A,columns=list('QRST'))
df=df.iloc[0] #기본 연산 행방향
print(df) 
print(df.subtract(df['R'],axis=0)) #열방향

Q   NaN
R   NaN
S   NaN
T   NaN
Name: 0, dtype: float64
Q   NaN
R   NaN
S   NaN
T   NaN
Name: 0, dtype: float64


## Null DATA
---
Sentinel: Na를 나타내는 특정값 (NaN(누락 숫자), None(Python 객체), NA) <br>
isnull(), notnull() <br>
dropna()  : filter NA data <br>
fillna(x) : fill x in place of NA <br>

In [123]:
?

In [124]:
pd.Series([1,np.nan,2,None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [128]:
data=pd.Series([1,np.nan,2,None,pd.NA],dtype='Int32') #dtype='int32'의 nullabletype이 NA로
data

0       1
1    <NA>
2       2
3    <NA>
4    <NA>
dtype: Int32

In [130]:
data.isnull()

0    False
1     True
2    False
3     True
4     True
dtype: bool

## Hierarchinal Indexing ( Multi-indexing )
---
https://jakevdp.github.io/PythonDataScienceHandbook/03.05-hierarchical-indexing.html
### A Multiply Indexed Series

#### Bad Way

In [131]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [133]:
%xmode plain

Exception reporting mode: Plain


In [137]:
pop[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

#### Better Way

In [141]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [142]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

#### MultiIndex as extra dimension

In [145]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [146]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [147]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [150]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


### Methods of MultiIndex Creation

In [151]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.613532,0.936232
a,2,0.967165,0.02247
b,1,0.51216,0.510689
b,2,0.935814,0.269496


In [None]:
?

#### MultiIndex for columns

In [152]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,40.0,36.7,28.0,35.9,38.0,37.0
2013,2,25.0,37.4,40.0,36.9,51.0,36.8
2014,1,39.0,36.0,44.0,37.4,38.0,38.4
2014,2,26.0,38.0,41.0,38.1,54.0,37.1


### Indexing and Slicing a MultiIndex

In [153]:
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [154]:
pop['California',2000]

33871648

## Rearranging Multi-Indices
### Sorted and unsorted indices
the **Cartesian** product of two sets A and B, denoted A × B, is the set of all ordered __pairs__ (a, b) <br>
\<pairs> tuple ≡ record <br>
set -> relation -> table <br>

In [156]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]]) #cartesian product
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.223658
      2      0.604139
c     1      0.971990
      2      0.621318
b     1      0.854499
      2      0.104241
dtype: float64

In [157]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)
    # Not sorted

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [160]:
# Able to use slicing after sorting
data = data.sort_index()
print(data)
print(data['a':'b'])

char  int
a     1      0.223658
      2      0.604139
b     1      0.854499
      2      0.104241
c     1      0.971990
      2      0.621318
dtype: float64
char  int
a     1      0.223658
      2      0.604139
b     1      0.854499
      2      0.104241
dtype: float64


char  int
a     1      0.223658
      2      0.604139
b     1      0.854499
      2      0.104241
dtype: float64

## Combining Datasets: Concat and Append

https://jakevdp.github.io/PythonDataScienceHandbook/03.06-concat-and-append.html

데이터 전처리(Data Wrangling)는 원시 데이터를 정제하고 변형하여 분석에 더 적합하고 구조화된 형태로 만드는 프로세스를 의미합니다. 이는 탐색적 데이터 분석(EDA)이나 머신 러닝 모델을 구축하기 전의 데이터 준비 과정에서 중요한 단계로, 데이터를 이해하기 쉽고 분석에 용이한 형태로 만드는 것이 목표입니다.<br>

데이터 전처리에 포함되는 일반적인 작업 및 기술은 다음과 같습니다: <br>

1. **데이터 정제:**
   - 결측치 처리: 결측값 보완하거나 해당 행/열 제거.
   - 이상치 처리: 분석을 왜곡할 수 있는 이상치 식별 및 처리.

2. **데이터 변환:**
   - 범주형 변수 인코딩: 범주형 변수를 수치적으로 변환(원-핫 인코딩 등).
   - 스케일링 및 정규화: 수치형 특성을 비슷한 척도로 조정.
   - 특성 엔지니어링: 새로운 특성 생성 또는 기존 특성 변형.

3. **데이터 병합 및 결합:**
   - 데이터셋 결합: 공통 열을 기준으로 데이터셋 병합 또는 연결.
   - 조인 수행: 공통 열을 기준으로 데이터셋 결합.

4. **데이터 형태 변경:**
   - 피봇팅 및 멜팅: 데이터의 구조를 분석에 적합하게 변경.
   - 데이터프레임 재구조화: 스택이나 언스택과 같은 연산을 사용하여 데이터의 레이아웃 변경.

5. **시계열 데이터 처리:**
   - 날짜 파싱: 날짜 문자열을 날짜 형식으로 변환.
   - 시계열 데이터 리샘플링 및 집계.

6. **중복 처리:**
   - 중복 레코드 식별 및 제거.

7. **텍스트 데이터 처리:**
   - 토큰화: 텍스트를 단어나 구절로 분할.
   - 불용어 및 구두점 제거.
   - 텍스트 정규화: 소문자 변환, 강세 제거 등.

8. **데이터 분포 왜곡 처리:**
   - 로그 변환: 수치 변수의 왜곡된 분포 해결.

9. **데이터 유효성 검사:**
   - 데이터의 일관성과 정확성 확인.

10. **비정형 데이터 처리:**
    - 텍스트, 이미지, 오디오 등의 비정형 데이터의 정제 및 전처리.

데이터 전처리를 위한 인기 있는 도구로는 Python의 pandas, R의 dplyr, 데이터베이스 쿼리를 위한 SQL 등이 있습니다. 효과적인 데이터 전처리는 원시 데이터로부터 의미 있는 통찰을 추출하고 신뢰할 수 있는 모델을 구축하기 위해 필수적입니다.

In [161]:
import pandas as pd
import numpy as np

In [162]:
# making DataFrame
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {col: [str(col) + str(idx) for idx in ind]
            for col in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [169]:
data = {col: [str(col) + str(idx) for idx in range(3)]
            for col in 'ABC'}
pd.DataFrame(data, range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
