## 판다스
- 판다스는 데이터 작업에 사용되는 라이브러리로 데이터 분석, 정리, 탐색, 조작을 위한 기능이 포함되어 있다.
- 판다스를 사용하면 빅데이터 분석은 물론 통계 이론에 기반한 데이터 분석이 가능하다.
- 판다스는 정제되지 않은 데이터를 정리하여 가독성과 연관성이 높은 데이터로 만들 수 있다.
- 판다스는 결측치, 중복, 불균형 데이터와 같이 잘못된 값을 포함하는 행을 삭제 및 변경할 수도 있다.

In [11]:
## 판다스 기본 형태
import pandas as pd

city = {
    '도시': ['서울','부산','울산'],
    '인구':[940,330,110]
}


df = pd.DataFrame(city)
df

Unnamed: 0,도시,인구
0,서울,940
1,부산,330
2,울산,110


In [13]:
import pandas as pd
city = ['서울','부산','울산']
df = pd.Series(city)
df

0    서울
1    부산
2    울산
dtype: object

In [15]:
df = pd.Series(city,index = ['a','b','c'])
df

a    서울
b    부산
c    울산
dtype: object

In [17]:
df['a']

'서울'

In [19]:
df['b']

'부산'

In [23]:
import pandas as pd
city = {'서울':940,'부산':330,'울산':110}
df =pd.Series(city)
df

서울    940
부산    330
울산    110
dtype: int64

In [25]:
df['서울']

940

In [75]:
import pandas as pd
data =[10, 20, 30, 40]
series= pd.Series(data)
series

0    10
1    20
2    30
3    40
dtype: int64

In [35]:
data =[10, 20, 30, 40]
index=['a','b','c','d']
series= pd.Series(data, index=index)
series

a    10
b    20
c    30
d    40
dtype: int64

In [37]:
print("Mean:",series.mean())  #평균
print("Sum:",series.sum())    #합계 
print("Max:",series.max())    #최대값
print("Standard Deviation:",series.std())  #표준편차

Mean: 25.0
Sum: 100
Max: 40
Standard Deviation: 12.909944487358056


In [39]:
# 원소 접근
series["c"]

30

In [41]:
# 특정조건 요소 선택
filered = series[series>20]
print(filered)

c    30
d    40
dtype: int64


In [43]:
series['c'] = 100
series

a     10
b     20
c    100
d     40
dtype: int64

In [47]:
# 원소 추가
series['e'] = 50
print(series)

a     10
b     20
c    100
d     40
e     50
dtype: int64


In [55]:
series = series.drop('a')
print(series)

b     20
c    100
d     40
e     50
dtype: int64


In [89]:
data2 =[5, 15, 25, 35]
series =pd.Series(data2,index=['b','c','d','e'])
result =series +series2
print(result)
                               

b    10
c    30
d    50
e    70
dtype: int64


In [63]:
date_range =pd.date_range(start='2023-01-01',periods=5)
date_range

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05'],
              dtype='datetime64[ns]', freq='D')

In [65]:
time_series = pd.Series([1,3,5,7,9], index=date_range)
time_series

2023-01-01    1
2023-01-02    3
2023-01-03    5
2023-01-04    7
2023-01-05    9
Freq: D, dtype: int64

In [None]:
# 시리즈(1차원)를 데이터 프레임(2차원)으로 변환
df = time_series.to_frame(name='Values')
df

## 판다스 데이터 프레임(DataFrame)
- 일반적으로 판다스에서는 데이터프레임이라고 하는 2차원 배열(행,열 구성)을 사용한다.
- 데이터프레임은 2차원 배열 또는 행열로 구성된 2차원 테이블 구조를 가진다.
- 딕셔너리(Dicitionary) 형태의 데이터로 데이터프레임을 만들 수 있다.
- 두 개의 시리즈가 모여서 데이터프레임을 생성하는 것과 같다.
- 딕셔너리의 키(Key)값은 컬럼명(필드명)으로 생성

In [92]:
import pandas as pd
city = {
    '도시':['서울','부산','울산'],
    '인구':[940,330,110]
}
df= pd.DataFrame(city)
df

Unnamed: 0,도시,인구
0,서울,940
1,부산,330
2,울산,110


In [94]:
df['도시']  # 필드명

0    서울
1    부산
2    울산
Name: 도시, dtype: object

In [96]:
df.loc[0] # loc를 사용하면 행단위로 나온다

도시     서울
인구    940
Name: 0, dtype: object

In [98]:
df.loc[[0]]  # [[]]형태로 사용하면 데이터 프레임형태로 나온다

Unnamed: 0,도시,인구
0,서울,940


In [110]:
df.loc[[0,2]]

Unnamed: 0,도시,인구
0,서울,940
2,울산,110


In [116]:
df.iloc[0:3]

Unnamed: 0,도시,인구
0,서울,940
1,부산,330
2,울산,110


In [122]:
import pandas as pd
city = {
    '도시':['서울','부산','울산'],
    '인구':[940,330,110]
}
df=pd.DataFrame(city,index=['1등','2등','3등'])
df

Unnamed: 0,도시,인구
1등,서울,940
2등,부산,330
3등,울산,110


In [126]:
df.loc[['1등']]

Unnamed: 0,도시,인구
1등,서울,940


In [274]:
import pandas as pd
data = [['김민재', 27, 75, 5428000],
        ['이강인', 22, 57, 3428000],
        ['박찬호', 50, 91, 8428000],
        ['차범근', 70, 80, 4428000],
        ['추신수', 43, 100, 4528000],
        ['손흥민', 31, 72, 7028000],
        ['황희찬', 28, 69, 2528000]]
df = pd.DataFrame(data,columns=["성명",'나이','몸무게','급여'])
df

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000
3,차범근,70,80,4428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [None]:
df[['성명','급여']]

In [147]:
df.성명

0    김민재
1    이강인
2    박찬호
3    차범근
4    추신수
5    손흥민
6    황희찬
Name: 성명, dtype: object

In [140]:
# df['성명','급여']  # [] 두 개 이상 컬럼을 반드시 [[  ]]  형식으로

## loc: location의 약자로 하나 이상의 지정된 행과 열
- .loc[행]
- .loc[행,열]

In [152]:
df.loc[[1,3]]

Unnamed: 0,성명,나이,몸무게,급여
1,이강인,22,57,3428000
3,차범근,70,80,4428000


In [158]:
df.loc[0:2]

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000


In [164]:
df.loc[[0],['성명']]

Unnamed: 0,성명
0,김민재


In [167]:
df.loc[[0,2],['성명','나이']]

Unnamed: 0,성명,나이
0,김민재,27
2,박찬호,50


In [173]:
df.loc[0:3,['성명','나이']]

Unnamed: 0,성명,나이
0,김민재,27
1,이강인,22
2,박찬호,50
3,차범근,70


In [175]:
df.loc[:3,['성명']]

Unnamed: 0,성명
0,김민재
1,이강인
2,박찬호
3,차범근


In [177]:
df.loc[[0,1,3]]

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
3,차범근,70,80,4428000


In [179]:
df.loc[0:3]  

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000
3,차범근,70,80,4428000


In [181]:
df.iloc[0:3]  # 인덱스 기준

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000


In [183]:
df.loc[0,'급여']

5428000

In [191]:
df.iloc[0,3]

5428000

In [193]:
df.loc[:3,['성명']]

Unnamed: 0,성명
0,김민재
1,이강인
2,박찬호
3,차범근


In [197]:
df.iloc[:3,[0]]

Unnamed: 0,성명
0,김민재
1,이강인
2,박찬호


In [199]:
# 인덱스 0, 1, 3번 행과 0,3 번째 컬럼('성명','급여')을 찾는 방법을 비교한다/
df.loc[[0,1,3],['성명','급여']]

Unnamed: 0,성명,급여
0,김민재,5428000
1,이강인,3428000
3,차범근,4428000


In [203]:
df.iloc[[0,1,3],[0,3]]

Unnamed: 0,성명,급여
0,김민재,5428000
1,이강인,3428000
3,차범근,4428000


In [205]:
df.loc[[0,1,3],'성명':'급여'] # ,을 찍으면 필요한 기능만 가져올수 있음 :을 사용하면 슬라이싱 기능을 사용함

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
3,차범근,70,80,4428000


- loc: 행 인덱스명,컬럼명 접근(명으로 접근)
- iloc: 행 인덱스번호, 컬럼 인덱스 접근(번호로 접근)
- 개별 접근: 대괄호 사용
- 범위(슬라이싱)접근: 대괄호 사용안함

In [209]:
df.iloc[:3,:2]

Unnamed: 0,성명,나이
0,김민재,27
1,이강인,22
2,박찬호,50


In [211]:
df.iloc[:,:3]

Unnamed: 0,성명,나이,몸무게
0,김민재,27,75
1,이강인,22,57
2,박찬호,50,91
3,차범근,70,80
4,추신수,43,100
5,손흥민,31,72
6,황희찬,28,69


In [213]:
df.iloc[::2,:]

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
2,박찬호,50,91,8428000
4,추신수,43,100,4528000
6,황희찬,28,69,2528000


In [215]:
df

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000
3,차범근,70,80,4428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [227]:
# '나이' 컬럼데이터에서 30 이상
df.loc[df['나이']>=30]

Unnamed: 0,성명,나이,몸무게,급여
2,박찬호,50,91,8428000
3,차범근,70,80,4428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000


In [221]:
# '나이' 컬럼의 데이터에서 30 이상이고 35이하
# 조건이 두개 이상일 경우 각각 조건을()묶는다
df.loc[(df['나이']>=30) & (df['나이']<=35)]

Unnamed: 0,성명,나이,몸무게,급여
5,손흥민,31,72,7028000


In [233]:
df.loc[df['급여']>=5000000,['성명']]

Unnamed: 0,성명
0,김민재
2,박찬호
5,손흥민


In [235]:
df.loc[df['급여']>=5000000,'성명':'몸무게']

Unnamed: 0,성명,나이,몸무게
0,김민재,27,75
2,박찬호,50,91
5,손흥민,31,72


In [243]:
df['체질량']=''
df

Unnamed: 0,성명,나이,몸무게,급여,체질량
0,김민재,27,75,5428000,
1,이강인,22,57,3428000,
2,박찬호,50,91,8428000,
3,차범근,70,80,4428000,
4,추신수,43,100,4528000,
5,손흥민,31,72,7028000,
6,황희찬,28,69,2528000,


In [249]:
df.loc[df['몸무게']>80,['체질량']] = '비만'
df

Unnamed: 0,성명,나이,몸무게,급여,체질량
0,김민재,27,75,5428000,
1,이강인,22,57,3428000,
2,박찬호,50,91,8428000,비만
3,차범근,70,80,4428000,
4,추신수,43,100,4528000,비만
5,손흥민,31,72,7028000,
6,황희찬,28,69,2528000,


### df.drop: 특정 행과 컬럼을 삭제
        * axis=0: 세로축(행)
        * axis=1: 가로축(열)

In [254]:
df.drop(['몸무게','체질량'],axis=1)

Unnamed: 0,성명,나이,급여
0,김민재,27,5428000
1,이강인,22,3428000
2,박찬호,50,8428000
3,차범근,70,4428000
4,추신수,43,4528000
5,손흥민,31,7028000
6,황희찬,28,2528000


In [258]:
df2 = df.drop(['몸무게','체질량'],axis=1)
df2

Unnamed: 0,성명,나이,급여
0,김민재,27,5428000
1,이강인,22,3428000
2,박찬호,50,8428000
3,차범근,70,4428000
4,추신수,43,4528000
5,손흥민,31,7028000
6,황희찬,28,2528000


In [270]:
df.drop(['몸무게','체질량'],axis=1, inplace=True)

In [272]:
df

Unnamed: 0,성명,나이,급여
0,김민재,27,5428000
1,이강인,22,3428000
2,박찬호,50,8428000
3,차범근,70,4428000
4,추신수,43,4528000
5,손흥민,31,7028000
6,황희찬,28,2528000


In [276]:
df

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
2,박찬호,50,91,8428000
3,차범근,70,80,4428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [292]:
df.drop(0)   ### 기본값 : axis=0, 행, 0: 인덱스명
#df.drop(0, axis=0)

Unnamed: 0,성명,나이,몸무게,급여
1,이강인,22,57,3428000
2,박찬호,50,91,8428000
3,차범근,70,80,4428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [304]:
df.drop(df.index[2:4]) # 행의 범위를 지정해서 삭제()

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [306]:
df.drop(df.iloc[2:4].index) # 행의 범위를 지정해서 삭제(df.iloc[].index를 활용)

Unnamed: 0,성명,나이,몸무게,급여
0,김민재,27,75,5428000
1,이강인,22,57,3428000
4,추신수,43,100,4528000
5,손흥민,31,72,7028000
6,황희찬,28,69,2528000


In [308]:
df.iloc[:,[0,1,3]]

Unnamed: 0,성명,나이,급여
0,김민재,27,5428000
1,이강인,22,3428000
2,박찬호,50,8428000
3,차범근,70,4428000
4,추신수,43,4528000
5,손흥민,31,7028000
6,황희찬,28,2528000


In [310]:
df.iloc[:,[0,1,3]].drop("나이",axis=1)

Unnamed: 0,성명,급여
0,김민재,5428000
1,이강인,3428000
2,박찬호,8428000
3,차범근,4428000
4,추신수,4528000
5,손흥민,7028000
6,황희찬,2528000


## .str() 메서드

*[문자열 추출]
- .str.len(): 각 문자열의 길이를 반환한다.
- .str.split(): 문자열을 특정 구분자를 기준으로 분할한다.
- .str.get(): 문자열의 특정 위치에 있는 문자를 반환한다.

*[문자열 변환]
- .str.lower(): 모든 문자열을 소문자로 변환한다.
- .str.upper(): 모든 문자열을 대문자로 변환한다.
- .str.capitalize(): 각 문자열의 첫 문자를 대문자로 변환한다.

*[문자열 처리]
- .str.contains(): 특정 문자열이 포함되어 있는지 확인한다.
- .str.replace(): 특정 문자열을 다른 문자열로 대체다.
- .str.findall(): 정규 표현식과 일치하는 모든 문자열을 리스트로 반환한다.
- .str.strip(): 문자열 양 끝에 포함된 공백을 재거

In [379]:
import pandas as pd
data =['김예찬, m, 부장, 010-1234-5678, 서울시 강남구 삼성동',
       '이하은, f, 인턴, 010-8765-4321, 부산시 해운대구 우동',
       '박지현, f, 과장, 010-1357-2468, 대구시 수성구 범어동',
       '최준호, m, 임시, 010-1928-3746, 인천시 연수구 송도동',
       '김예서, f, 과장, 010-2846-5937, 천안시 서북구 두정동'
      ]
data
pd.DataFrame(data)

Unnamed: 0,0
0,"김예찬, m, 부장, 010-1234-5678, 서울시 강남구 삼성동"
1,"이하은, f, 인턴, 010-8765-4321, 부산시 해운대구 우동"
2,"박지현, f, 과장, 010-1357-2468, 대구시 수성구 범어동"
3,"최준호, m, 임시, 010-1928-3746, 인천시 연수구 송도동"
4,"김예서, f, 과장, 010-2846-5937, 천안시 서북구 두정동"


In [381]:
df = pd.DataFrame(data, columns=['직원데이터'])
df

Unnamed: 0,직원데이터
0,"김예찬, m, 부장, 010-1234-5678, 서울시 강남구 삼성동"
1,"이하은, f, 인턴, 010-8765-4321, 부산시 해운대구 우동"
2,"박지현, f, 과장, 010-1357-2468, 대구시 수성구 범어동"
3,"최준호, m, 임시, 010-1928-3746, 인천시 연수구 송도동"
4,"김예서, f, 과장, 010-2846-5937, 천안시 서북구 두정동"


In [383]:
# expand=True 는 각 행의 문자열을 분할한 다음, 분할된 각각의 데이터를 별도의 컬럼으로 저장한다.
df =df['직원데이터'].str.split(',',expand=True)
df

Unnamed: 0,0,1,2,3,4
0,김예찬,m,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,f,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,f,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,m,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,f,과장,010-2846-5937,천안시 서북구 두정동


In [385]:
df.columns =['성명','성별','직급','전화번호','주소']
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,m,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,f,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,f,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,m,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,f,과장,010-2846-5937,천안시 서북구 두정동


In [387]:
df['성별']=df['성별'].str.upper()
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,M,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,F,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,F,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,M,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,F,과장,010-2846-5937,천안시 서북구 두정동


In [389]:
df['성별'] = df['성별'].str.replace('M','Male')

In [391]:
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,Male,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,F,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,F,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,Male,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,F,과장,010-2846-5937,천안시 서북구 두정동


In [393]:
df['성별'] = df['성별'].str.replace('F','Female')
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,Male,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,Female,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,Female,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,Male,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,Female,과장,010-2846-5937,천안시 서북구 두정동


In [395]:
df['성별'] = df['성별'].str.replace('Male','남성').str.replace('Female','여성')
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,여성,인턴,010-8765-4321,부산시 해운대구 우동
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,남성,임시,010-1928-3746,인천시 연수구 송도동
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동


In [397]:
df['직급'] = df['직급'].str.replace('인턴|임시','사원',regex=True)
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동


In [407]:
df['성별'].str.contains('여성')


0    False
1     True
2     True
3    False
4     True
Name: 성별, dtype: bool

In [409]:
df[df['성별'].str.contains('여성')]

Unnamed: 0,성명,성별,직급,전화번호,주소
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동


In [411]:
df[df['성별'].str.contains('남성')]

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동


In [421]:
df['관리자'] = df['직급'].str.contains('과장')

In [423]:
df

Unnamed: 0,성명,성별,직급,전화번호,주소,관리자
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동,False
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동,False
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동,True
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동,False
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동,True


In [429]:
df[df['관리자']== True]

Unnamed: 0,성명,성별,직급,전화번호,주소,관리자
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동,True
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동,True


In [431]:
df= df.drop(columns="관리자")

In [433]:
df

Unnamed: 0,성명,성별,직급,전화번호,주소
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동


In [441]:
df['주소'].str[:4]

0     서울시
1     부산시
2     대구시
3     인천시
4     천안시
Name: 주소, dtype: object

In [443]:
df['도시'] = df['주소'].str[:4]

In [445]:
df

Unnamed: 0,성명,성별,직급,전화번호,주소,도시
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동,서울시
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동,부산시
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동,대구시
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동,인천시
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동,천안시


In [447]:
df['주소'] = df['주소'].str.strip()
df

Unnamed: 0,성명,성별,직급,전화번호,주소,도시
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동,서울시
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동,부산시
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동,대구시
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동,인천시
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동,천안시


In [449]:
df['주소'].str.split(' ',expand=True)


Unnamed: 0,0,1,2
0,서울시,강남구,삼성동
1,부산시,해운대구,우동
2,대구시,수성구,범어동
3,인천시,연수구,송도동
4,천안시,서북구,두정동


In [451]:
df[['시','구','동']] = df['주소'].str.split(' ',expand=True)

In [453]:
df

Unnamed: 0,성명,성별,직급,전화번호,주소,도시,시,구,동
0,김예찬,남성,부장,010-1234-5678,서울시 강남구 삼성동,서울시,서울시,강남구,삼성동
1,이하은,여성,사원,010-8765-4321,부산시 해운대구 우동,부산시,부산시,해운대구,우동
2,박지현,여성,과장,010-1357-2468,대구시 수성구 범어동,대구시,대구시,수성구,범어동
3,최준호,남성,사원,010-1928-3746,인천시 연수구 송도동,인천시,인천시,연수구,송도동
4,김예서,여성,과장,010-2846-5937,천안시 서북구 두정동,천안시,천안시,서북구,두정동


In [2]:
import os
print(os.getcwd())

D:\study\jupyter\202412\20241213
