In [23]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

In [10]:
def convert_category_into_integer(df: pd.DataFrame, columns: list):
    """
    주어진 DataFrame의 특정 열들을 범주형에서 정수형으로 변환합니다.
    
    Parameters:
    - df (pd.DataFrame): 변환할 데이터프레임
    - columns (list): 범주형에서 정수형으로 변환할 열 이름의 리스트
    
    Returns:
    - pd.DataFrame: 변환된 데이터프레임
    - dict: 각 열에 대해 적합한 LabelEncoder 객체를 포함하는 딕셔너리
    """
    label_encoders = {}  # 각 열의 LabelEncoder 객체를 저장할 딕셔너리입니다.
    
    for column in columns:
        # 각 열에 대해 LabelEncoder 객체를 생성합니다.
        label_encoder = LabelEncoder()
        
        # LabelEncoder를 사용하여 해당 열의 범주형 데이터를 정수형으로 변환합니다.
        df.loc[:, column] = label_encoder.fit_transform(df[column])
        
        # 변환된 LabelEncoder 객체를 딕셔너리에 저장합니다.
        label_encoders.update({column: label_encoder})
    
    # 변환된 데이터프레임과 LabelEncoder 객체를 포함하는 딕셔너리를 반환합니다.
    return df, label_encoders


In [14]:
data = pd.read_csv('./data/Bank Customer Churn Prediction.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customer_id       10000 non-null  int64  
 1   credit_score      10000 non-null  int64  
 2   country           10000 non-null  object 
 3   gender            10000 non-null  object 
 4   age               10000 non-null  int64  
 5   tenure            10000 non-null  int64  
 6   balance           10000 non-null  float64
 7   products_number   10000 non-null  int64  
 8   credit_card       10000 non-null  int64  
 9   active_member     10000 non-null  int64  
 10  estimated_salary  10000 non-null  float64
 11  churn             10000 non-null  int64  
dtypes: float64(2), int64(8), object(2)
memory usage: 937.6+ KB


In [19]:
data = data.drop(columns = ['customer_id'])

In [25]:
data, _ = convert_category_into_integer(data, ('country', 'gender'))
train, temp = train_test_split(data, test_size=0.4)
valid, test = train_test_split(temp, test_size=0.5)

In [24]:
st = StandardScaler()
train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']] = st.fit_transform(train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']])
test.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']] = st.transform(test.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']])

 -0.29492438]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']] = st.fit_transform(train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']])
  0.37703391]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']] = st.fit_transform(train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']])
  1.04415638]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']] = st.fit_transform(train.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']])
  0.24114557]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  test.loc[:, ['credit_score', 'age', 'tenure', 'balance',

In [None]:
data.loc[:, ['credit_score', 'age', 'tenure', 'balance','estimated_salary']]

In [8]:
data = sns.load_dataset('tips')

In [9]:
data['size'].unique()

array([2, 3, 4, 1, 6, 5])

In [11]:
train.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2458    False
2459    False
2460    False
2461    False
2462    False
Length: 2463, dtype: bool

In [3]:
test = pd.read_csv('./test_data/test_data.csv')
test.describe()

Unnamed: 0,air_inflow,air_end_temp,out_pressure,motor_current,motor_rpm,motor_temp,motor_vibe,type
count,7389.0,7389.0,7389.0,7389.0,7389.0,7389.0,7389.0,7389.0
mean,2.103129,49.042735,0.69984,27.417935,2373.820003,65.771623,3.345523,2.957369
std,1.163998,8.686208,0.005377,13.234089,687.737182,7.741473,0.644199,2.229811
min,0.34,32.08,0.49,5.37,1200.0,50.42,1.97,0.0
25%,1.28,41.51,0.7,17.2,1774.0,59.11,2.89,1.0
50%,1.94,48.76,0.7,26.17,2355.0,65.52,3.26,3.0
75%,2.77,56.58,0.7,35.86,2972.0,72.44,3.73,5.0
max,6.24,65.54,0.7,74.0,3564.0,82.39,6.26,7.0


In [4]:
market = pd.read_csv('./test_data/data_1.csv')


  market = pd.read_csv('./test_data/data_1.csv')


In [96]:
market.isna().sum().value_counts()

0         27
91         2
460437     2
30         2
451345     1
75547      1
29         1
399916     1
240972     1
142577     1
Name: count, dtype: int64

In [18]:

#2. 컬럼별 결측치의 합이 500인 미만의 컬럼을 선택 후 dropna()를 했을 때 row의 수는?
#표준산업분류코드         91
# 표준산업분류명          91

460346

In [93]:
market = market.dropna(subset=['표준산업분류명', '표준산업분류코드'])

In [35]:
market['상권업종대분류코드'].unique()

array(['I2', 'I1', 'P1', 'M1', 'G2', 'N1', 'S2', 'L1', 'R1', 'Q1'],
      dtype=object)

In [36]:
market

<class 'pandas.core.frame.DataFrame'>
Index: 460346 entries, 0 to 460436
Data columns (total 39 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   상가업소번호     460346 non-null  object 
 1   상호명        460346 non-null  object 
 2   지점명        9089 non-null    object 
 3   상권업종대분류코드  460346 non-null  object 
 4   상권업종대분류명   460346 non-null  object 
 5   상권업종중분류코드  460346 non-null  object 
 6   상권업종중분류명   460346 non-null  object 
 7   상권업종소분류코드  460346 non-null  object 
 8   상권업종소분류명   460346 non-null  object 
 9   표준산업분류코드   460346 non-null  object 
 10  표준산업분류명    460346 non-null  object 
 11  시도코드       460346 non-null  int64  
 12  시도명        460346 non-null  object 
 13  시군구코드      460346 non-null  int64  
 14  시군구명       460346 non-null  object 
 15  행정동코드      460346 non-null  int64  
 16  행정동명       460346 non-null  object 
 17  법정동코드      460346 non-null  int64  
 18  법정동명       460346 non-null  object 
 19  지번코드       460346 non-null  

In [38]:
market['시군구명'].unique()

array(['광진구', '중구', '노원구', '양천구', '강서구', '송파구', '구로구', '강남구', '영등포구',
       '금천구', '마포구', '성동구', '중랑구', '서초구', '동작구', '은평구', '동대문구', '서대문구',
       '도봉구', '종로구', '성북구', '강동구', '용산구', '관악구', '강북구'], dtype=object)

In [51]:
market['상호명']

0              영자's곱창
1               호텔클로이
2           나라차중계태권도장
3               이상한스냅
4                 토끼정
             ...     
460432    마스터부동산중개사무소
460433     그릿뷰티아카데미학원
460434          최지원렌탈
460435        매직노래연습장
460436            곱창꾼
Name: 상호명, Length: 460346, dtype: object

In [65]:
market.columns

Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
       '상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
       '시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
       '대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
       '건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
       '호정보', '경도', '위도'],
      dtype='object')

In [97]:
market.iloc[:, 0:10]

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드
0,MA0101202210A0037544,영자's곱창,,I2,음식,I201,한식,I20109,곱창 전골/구이,I56111
1,MA0101202210A0097916,호텔클로이,,I1,숙박,I101,일반 숙박,I10102,여관/모텔,I55102
2,MA0101202210A0096343,나라차중계태권도장,,P1,교육,P106,기타 교육,P10601,태권도/무술학원,P85611
3,MA0101202210A0093845,이상한스냅,,M1,과학·기술,M113,사진 촬영,M11301,사진촬영업,M73303
4,MA010120220805430767,토끼정,,I2,음식,I201,한식,I20101,백반/한정식,I56111
...,...,...,...,...,...,...,...,...,...,...
460432,MA0101202310A0038359,마스터부동산중개사무소,,L1,부동산,L102,부동산 서비스,L10203,부동산 중개/대리업,L68221
460433,MA0101202310A0035270,그릿뷰티아카데미학원,,P1,교육,P106,기타 교육,P10625,기타 기술/직업 훈련학원,P85669
460434,MA0101202310A0078533,최지원렌탈,,S2,수리·개인,S205,가전제품 수리,S20501,가전제품 수리업,S95310
460435,MA0101202310A0059884,매직노래연습장,,R1,예술·스포츠,R104,유원지·오락,R10407,노래방,R91223


In [107]:
market['상권업종소분류명'].unique()

array(['곱창 전골/구이', '여관/모텔', '태권도/무술학원', '사진촬영업', '백반/한정식', '치킨', '약국',
       '광고 대행업', '자동차 대여업', '카페', '기타 기술/직업 훈련학원', '피자', '여성 의류 소매업',
       '닭/오리고기 구이/찜', '빵/도넛', '마사지/안마', '자동차 정비소', '부동산 중개/대리업', '변호사',
       '돼지고기 구이/찜', '레크리에이션 교육기관', '시계/귀금속 소매업', '경영 컨설팅업', '족발/보쌈',
       '패션/섬유/기타 전문 디자인업', '핸드폰 소매업', '국수/칼국수', '기타 의류 소매업', '요가/필라테스 학원',
       '떡/한과', '중고 상품 소매업', '김밥/만두/분식', '편의점', '생맥주 전문', '당구장', '신발 소매업',
       '요리 주점', '세무사', '골프 연습장', '애완동물/애완용품 소매업', '일반 유흥 주점', '헬스장',
       '세탁소', '기타 예술/스포츠 교육기관', '사업/무형 재산권 중개업', '건축 설계 및 관련 서비스업',
       '가방 소매업', '미용실', '치과의원', '베트남식 전문', '의류/이불 수선업', '노래방', '펜션',
       '기타 교육지원 서비스업', '건축물 일반 청소업', '네일숍', '피부 관리실', '토스트/샌드위치/샐러드',
       '기타 엔지니어링 서비스업', '인테리어 디자인업', '전시/컨벤션/행사 대행 서비스업',
       '건물 및 토목 엔지니어링 서비스업', '시각 디자인업', '기타 개인/가정용품 대여업', '중국집', '변리사',
       '상용 인력 공급 및 인사관리 서비스업', '예술품 소매업', '입시·교과학원', '화장품 소매업', '구내식당',
       '주류 소매업', '남성 의류 소매업', '그 외 기타 교육기관', '고용 알선업', '건강보조식품 소매업',
       '슈퍼마켓', '운전학원',

In [120]:
import numpy as np

Series([], Name: count, dtype: int64)

In [132]:
market.isna().sum().values

array([     0,      0, 451345,      0,      0,      0,      0,      0,
            0,     91,     91,      0,      0,      0,      0,      0,
            0,      0,      0,      0,      0,      0,      0,  75547,
            0,     29,      0,     30, 399916,     30, 240972,      0,
            0,      0, 460437, 142577, 460437,      0,      0])

In [136]:
market.columns[29]

'건물관리번호'

In [7]:
market = market.dropna(subset=['표준산업분류코드', '표준산업분류명','도로명코드', '건물본번지','건물관리번호'])


In [8]:
market['상권업종대분류코드'].value_counts() / len(market)

상권업종대분류코드
I2    0.273612
G2    0.214542
M1    0.187205
S2    0.101261
P1    0.056476
L1    0.050986
N1    0.046504
R1    0.039525
Q1    0.016692
I1    0.013198
Name: count, dtype: float64

In [9]:
market.query('`상권업종소분류명` == "편의점" and `시도명` == "서울특별시"')['상호명'].value_counts().index

Index(['씨제이올리브영', '세븐일레븐', '씨유', '이마트24', 'GS25', '지에스25', '미니스톱', '더까까주까',
       '신구멍가게24', '세븐일레븐서초',
       ...
       '세븐일레븐노원문고점', '지에스25문래공원점', '세븐일레븐장안현대홈타운점', '세븐일레븐잠실고분로점',
       '세븐일레븐문래SK점', '세븐일레븐여의도시범아파트점', '지에스25잠실현대점', '씨유성내최고점', '세븐뉴스타점',
       '이마트24서울창업'],
      dtype='object', name='상호명', length=8105)

In [10]:
market.query('`상권업종소분류명` == "편의점" and `시도명` == "서울특별시"')['상호명'].str.extract('(씨유|세븐일레븐|GS|지에스|세븐|CU|cu|이마트24)').value_counts().sum()

np.int64(8318)

In [164]:
market.query('`상권업종소분류명` == "편의점" and `시도명` == "서울특별시"')['상호명']

43          세븐일레븐구로드림
259         씨유공릉철길공원점
278           씨유홍대으뜸점
351           이마트24신촌
366       지에스25상계1단지점
             ...     
460326     지에스25잠실현대점
460337        씨유성내최고점
460363         세븐뉴스타점
460415       씨유왕십리현대점
460427        지에스25정릉
Name: 상호명, Length: 9429, dtype: object

In [179]:
market.query(f'`경도` > {b} and `위도` > {a}')['시군구명'].value_counts().sum()

np.int64(120815)

In [11]:
market['시군구명'].unique()

array(['광진구', '중구', '노원구', '양천구', '강서구', '송파구', '구로구', '강남구', '영등포구',
       '금천구', '마포구', '성동구', '중랑구', '서초구', '동작구', '은평구', '동대문구', '서대문구',
       '도봉구', '종로구', '성북구', '강동구', '용산구', '관악구', '강북구'], dtype=object)

In [189]:
market.filter(items=['시군구명', '위도', '경도']).query('`시군구명` == "중구"').위도.mean()

np.float64(37.563129118638855)

In [13]:
data = market.filter(items=['시군구명', '위도', '경도'])

In [14]:
a =[data.query(f'`시군구명` == "{i}"').위도.mean()for i in market['시군구명'].unique()]
b = [data.query(f'`시군구명` == "{i}"').경도.mean()for i in market['시군구명'].unique()]

In [16]:
pd.DataFrame(b, index= market['시군구명'].unique())

Unnamed: 0,0
광진구,127.08157
중구,126.99367
노원구,127.06849
양천구,126.858493
강서구,126.838012
송파구,127.114997
구로구,126.874851
강남구,127.043842
영등포구,126.907167
금천구,126.891388


In [228]:
pd.DataFrame(a, index= market['시군구명'].unique() )

Unnamed: 0,0
광진구,37.546111
중구,37.563129
노원구,37.646992
양천구,37.528014
강서구,37.554562
송파구,37.500641
구로구,37.493595
강남구,37.506382
영등포구,37.51778
금천구,37.470491


In [209]:
float(a[0])

37.546111079847954

In [173]:
market['위도'].mean()

np.float64(37.54036628755497)

In [174]:
market['경도'].mean()

np.float64(126.99267895578541)

In [224]:
x =[i for i in market.filter(items=['상호명', '시군구명']).상호명.value_counts().index if len(i) >= 10]