# 판다스: 2차원 정형데이터(테이블, 표, 테이터 프레임)

- 기본단위: Series
- 1차원 자료 구조
- 하나의 데이터 타입 허용

## 기본

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [3]:
Series([1,2,3,4])

s1=Series([1,2,3,4])
s2=Series([1,2,3,'4'])
s3=Series([1,2,3,4], index=['a','b','c','d'])
# s3=Series([1,2,3,4],['a','b','c','d'])
Series(s3,index=['A','B','C','D']) #이미 인덱스가 존재하는 경우

A   NaN
B   NaN
C   NaN
D   NaN
dtype: float64

In [4]:
#색인(indexing)

s1[0]        #1(차원 축소 일어남>> scalar 값)
s1[0:1]      #차원 축소 x (Series로 변환)
# 0    1
# dtype: int64

s1[[0,3]]    #차원 축소 x (Series로 변환)
# 0    1
# 3    4
# dtype: int64

s3['a']
s3[['a','c']]
# a    1
# c    3
# dtype: int64

s3['a':'c']   #문자의 연속 추출은 마지막 범위 포함
# a    1
# b    2
# c    3
# dtype: int64

s1>2
# 0    False
# 1    False
# 2     True
# 3     True
# dtype: bool
s1[s1>2]
# 2    3
# 3    4
# dtype: int64

s3.b   #2>> key indexing

2

In [5]:
#연산
s1+1

s4=Series([10,20,30,40])
s5=Series([10,20,30,40],index=['c','d','e','f'])

s1+s4 #key 가 같은 값끼리 연산 가능
s3+s5 #Key 가 없는 경우 모두 NAN변환
# a     NaN     #NA: 값이 없는거
# b     NaN     #NaN: 값을 결정하는 과정에 뭔가가 없는것
# c    13.0
# d    24.0
# e     NaN
# f     NaN
s3.add(s5,fill_value=0)
# 양쪽 모두 존재하지 않는 key 일 경우
# NAN 반환되는 거 방지하기 위해 fill_value 사용 적극 추천
s3.sub(s5,fill_value=0) #-연산
s3.mul(s5,fill_value=1) #*연산
s3.div(s5,fill_value=1) #/연

a    1.000000
b    2.000000
c    0.300000
d    0.200000
e    0.033333
f    0.025000
dtype: float64

In [6]:
#기본 메서드
s1.dtype #데이터 타입 출력
s1.index #인덱스 출력
s3.values # 값(value) 출력

s3[['c','d','a','b']] #색인 사용 배치 순서 변경
s3.reindex(['c','d','b','a']) #메소드로 배치 순서 변경

s3.index=['A','B','C','D'] #인덱스 수정
s3

s3[0]=10#값 수정
s3

A    10
B     2
C     3
D     4
dtype: int64

## DataFrame


- 차원 자료구조(행열 구조)



In [7]:
#생성
d1={'name':['smith','hwang'],'sal':[900,1800]}
d1

d2=DataFrame(d1)
d2
#     name   sal
# 0  smith   900
# 1  hwang  1800

d3= DataFrame(np.arange(1,7).reshape(2,3), index=['a','b'], columns=['col1','col2','cal3'])
d3
#    col1  col2  cal3
# a     1     2     3
# b     4     5     6
np.arange(1,7).reshape(2,3)

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 색인(indexing)

d3.col1
d3['col1']
# a    1
# b    4
# Name: col1, dtype: int32

# iloc,loc

# iloc: positional indexing
# loc: label indexing
d3
d3.iloc[:,0]
d3.iloc[:,0:3]
d3.iloc[:,[0,-1]]

d3.loc[:,['col1','cal3']]

Unnamed: 0,col1,cal3
a,1,3
b,4,6


In [9]:
#조건색인 처리
d3.loc[d3.col1==1,:]

Unnamed: 0,col1,col2,cal3
a,1,2,3


In [10]:
#기본 메서드
d3.dtypes     #각 컬럼 별 데이터 타입 확인
d3.index
d3.columns
d3.values

d3.columns=['A','B','C'] #컬럼 이름 변경

In [11]:
#연산
d3 +10

d4=DataFrame({'A':[10,40],'B':[20,30],'C':[30,80]}, index=['a','b'])
d5=DataFrame({'A':[10,40],'B':[20,30]}, index=['a','b'])

d3
d3+d5
d3.add(d5,fill_value=0)

Unnamed: 0,A,B,C
a,11,22,3.0
b,44,35,6.0


# 문자열 메서드

## 기본 메서드:벡터 연산 불가능(매 원소마다 반복 불가)


In [13]:
'abc'.upper()
'a/b/c'.split('/')

l1=['abc','def']
l2=['a/b/c','d/e/f']

l1.upper()  #불가
l2.upper()  #불가

list(map(lambda x: x.upper(),l1))
list(map(lambda x: x.split('/'),l2))

[['a', 'b', 'c'], ['d', 'e', 'f']]

## pandas 메서드


- 벡터화 내장(매 원소마다 반복 가능)
- Series, DataFrame 적용가능

In [15]:
# 1)split
Series(l1)
# 0    abc
# 1    def
# dtype: object

s1=Series(l1)
s2=Series(l2)

s2
# 0    a/b/c
# 1    d/e/f
# dtype: object

s2.split('/')  #불가
s2.str.split('/') #가능
# 0    [a, b, c]
# 1    [d, e, f]
# dtype: object

#대소치환
s1.str.upper()     #대문자
s1.str.lower()     #소문자
s1.str.title()
# 0    Abc
# 1    Def
# dtype: object

#replace(치환)
s1.str.replace('a','A') #문자열 치환
s1.str.replace('a','')  #문자열 삭제

0     bc
1    def
dtype: object

In [16]:
#[예제] 천단위 구분기호 처리
s3=Series(['1,200','3,000','4,000'])
# 0    1,200
# 1    3,000
# 2    4,000
# dtype: object
s3.str.replace(',','').astype(int).sum()

8200

### 패턴 확인: startswith, endswith, contains

In [17]:
s1.str.startswith('a')
# 0     True
# 1    False
# dtype: bool
s1[s1.str.startswith('a')] #s1 각 원소에서 a로 시작하는 원소 추출
s1[s1.str.endswith('c')]   #s1 각 원소에서 c로 끝나는 원소 추출
s1[s1.str.contains('c')]   #s1 각 원소에서 c를 포함하는 원소 추출

#문자열 크기 len()
s1.str.len()      #각 원소의 크기
#count
Series(['aabca','abcsa']).str.count('a')
#문자열 제거
Series(['     cd     ','          df ']).str.strip()
Series(['     cd     ','          df ']).str.strip().str.len()

s1.str.strip('a') #문자열 제거
Series(['aasdadsaasd','abaaaaabaaaas']).str.strip('a')       #문자열 제거(중간값 삭제 불가)
Series(['aasdadsaasd','abaaaaabaaaas']).str.replace('a','')  #all a 제거

#find: 위치값 리턴
s3=Series(['abc@nave.com','nadaink@naver.com'])
s3.str.find('@')

#문자열 색인(추출)
'abcdef'[0:3]
s3[0:1]
# 0    abc@nave.com
# dtype: object
s3.str[0:3] #Series 에서 각 원소마다 1~3번까지의 문자열 추출

0    abc
1    nad
dtype: object

In [21]:
#[예제]: 이메일 아이디 추출
s3=Series(['abc@nave.com','nadainkyu@naver.com'])

list(s3.map(lambda x: x[:x.find('@')]))
list(map(lambda x,y: x[0:y],s3,s3.str.find('@')))

['abc', 'nadainkyu']

In [22]:
#문자열 삽입 pad

s1.str.pad(5,            #문자열수
           'left',       #위치
           '!')          #삽입 문자
# 0    !!abc
# 1    !!def
# dtype: object

#문자열 결합 cat
'a'+'b'
'a'*3

s4=Series(['abc','def','123'])
s4.str.cat()        #Series 내 서로 다른 원소 결합
s4.str.cat(sep='/') #Series 내 서로 다른 원소 /로 구분 결합

s5=Series([['a','b','c'],['d','e','f']])
# 0    [a, b, c]
# 1    [d, e, f]
# dtype: object
s5.str.join(sep='') #Series 내 각 원소 내부의 문자열 결합
# 0    abc
# 1    def
# dtype: object
s5.str.join(sep='\'')

0    a'b'c
1    d'e'f
dtype: object

# 산술연산 메서드

In [23]:
df1 = DataFrame(np.arange(1,17).reshape(4,4))

dir(df1)

df1
df1.sum(axis=0)  # 행별(서로 다른 행끼리)
df1.sum(axis=1)  # 컬럼별(서로 다른 열끼리)

df1.iloc[:,0].sum()
df1.iloc[:,0].mean()

df1.iloc[0,0] = np.nan
df1
df1.iloc[:,0].mean()
# skipna = True (default) 자동으로 NaN 무시하고 연산

# 평균값(최대 또는 최소) 대치

df1.iloc[:,0].isnull()   # 조건(boolean)
# 0     True
# 1    False
# 2    False
# 3    False
# Name: 0, dtype: bool

df1.iloc[:,0][df1.iloc[:,0].isnull()] = df1.iloc[:,0].mean()

df1.isnull()
df1[df1.notnull()]   # 데이터프레임 전체에서 NaN 값 확인 

df1.iloc[:,0].var() # 10.666666666666666 >> 분산
df1.iloc[:,0].std() # 3.265986323710904 >> 표준편차 
df1.iloc[:,0].min() # 5.0 >> 최소값
df1.iloc[:,0].max() # 13.0 >> 최대값
df1.iloc[:,0].median() # 9.0 >> 중위수(중앙값)

(df1.iloc[:,0] >= 10).sum()  # 1 >> 조건에 만족하는 개수 확인

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


1

# 치환 삭제 메서드

## 기본 문자열 메서드

기본 파이썬 제공

문자열에서 호출 가능

벡터 연산(각 원소별 반복 처리) 불가

오직 문자열 치환만 가능(숫자치환, NA 치환 불가능)

In [None]:
'abcd'.replace('a','A') # 'Abcd'  >> a를 A로 치환 
'abcd'.replace('a','')  # 'bcd' >> 공백으로 치환
'abcd1'.replace(1, '')  # 숫자를 찾아서 치환하는 거 안됨
# TypeError: replace() argument 1 must be str, not int
' bcd1'.replace('', 1)  # 숫자로 치환하는 거 안됨 

['abcd','abcde','aabb'].replace(',','')
# AttributeError: 'list' object has no attribute 'replace'
# list 는 replace 호출 불가 

# for 문 활용 

outlist = []
for i in ['abcd','abcde','aabb']:
    outlist.append(i.replace('a','A'))

print(outlist)

# ['Abcd', 'Abcde', 'AAbb']

# map함수 
f1 = lambda x : x.replace('a','A')
list(map(f1,['abcd','abcde','aabb']))
# ['Abcd', 'Abcde', 'AAbb']

['abcd','abcde','aabb'].map(f1)
# AttributeError: 'list' object has no attribute 'map'
# list 객체는 map 함수 호출 불가 

['abcd','abcde','aabb'].map(f1) # 호출 불가 
Series(['abcd','abcde','aabb']).map(f1) # Series는 호출 가능(method chaining)

# 0     Abcd
# 1    Abcde
# 2     AAbb
# dtype: object

Series(['abcd','abcde','aaaab',np.nan]).map(lambda x: x.replace(np.nan,''))
# TypeError: replace() argument 1 must be str, not float
# 문자열(str) 이여야 함

## str.replace

pandas 제공(Series 객체만 호출 가능)

벡터화 내장된 문자열 메서드

문자열 호출 가능

벡터 연산(각 원소별 반복 처리) 가능

오직 문자열 치환만 가능(숫자 치환, NA 치환 불가)

숫자로 구성된 Series 적용 불가



In [None]:
df1 = DataFrame([['1,200','1,300'],['1,400','1,500']])
df1
#        0      1
# 0  1,200  1,300
# 1  1,400  1,500

df1.replace(',','')  # what? 변화 없음 ',' 로 생긴 값을 삭제하는 의미 
#        0      1
# 0  1,200  1,300
# 1  1,400  1,500

df2 = DataFrame([['1,200',','],['1,400','1,500']])
df2
#        0      1
# 0  1,200      ,
# 1  1,400  1,500

df2.replace(',','')
#        0      1
# 0  1,200       
# 1  1,400  1,500

df3 = DataFrame([['1200','1300'],['1400','.']], columns =['a','b'])
df3
df3.replace('.', np.nan)  # '.' 와 완전히 일치하는 값은 NaN 치환
#       a     b
# 0  1200  1300
# 1  1400   NaN

df3.replace(['.','1400','?','!'], np.nan)
#       a     b
# 0  1200  1300
# 1   NaN   NaN

In [None]:
#[연습 문제]: df1 에 천단위 구분기호 제거 후 모두 숫자 변경 
df1
df1.replace(',','')

df1.str.replace(',','')
df1.str.replace(',', '').astype('int64')
# AttributeError: 'DataFrame' object has no attribute 'str'

df1.applymap(lambda x: int(x.replace(',','')))
# scala 에서는 문자열이 아닌 숫자로 변경해야 함 
#       0     1
# 0  1200  1300
# 1  1400  1500

df1.applymap(lambda x: int(x.replace(',',''))).sum()


# 우리 동료 코드 
copy_df1=df1
for i in range(0,len(df1)):
    copy_df1[i] = df1[i].str.replace(',','')
print(copy_df1)


df1 = DataFrame([['1,200','1,300'],['1,400','1,500']])
for i in range(len(df1)):
    if df1[i].all() != 'int':
        df1[i] = df1[i].str.replace(',', '').astype('int')
    else:
        pass
print(df1)