In [26]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family

plt.rc("font", family=get_font_family())

In [92]:
plt.rc('axes', unicode_minus=False)

In [29]:
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

In [71]:
df = pd.read_csv("data/소상공인시장진흥공단_상가(상권)정보_인천_202203.csv", encoding='utf-8')
df.shape

(106896, 39)

In [64]:
pd.options.display.max_columns = 39

In [None]:
df.head()

In [None]:
df.tail()

In [74]:
df.index

RangeIndex(start=0, stop=106896, step=1)

In [None]:
df.columns

In [None]:
df.info()

In [None]:
df.dtypes

In [81]:
n = df.isnull().sum()

In [None]:
n.sort_values().plot.barh(figsize=(7, 8))

In [96]:
import missingno as msno

In [None]:
msno.matrix(df)

In [None]:
msno.heatmap(df)

In [None]:
msno.dendrogram(df)

In [103]:
not_use = n.sort_values(ascending=False).head(9)

In [106]:
not_use_col = not_use.index

In [110]:
print(df.shape)
df = df.drop(not_use_col, axis=1)
print(df.shape)

(106896, 39)
(106896, 30)


In [112]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106896 entries, 0 to 106895
Data columns (total 30 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   상가업소번호     106896 non-null  int64  
 1   상호명        106896 non-null  object 
 2   상권업종대분류코드  106896 non-null  object 
 3   상권업종대분류명   106896 non-null  object 
 4   상권업종중분류코드  106896 non-null  object 
 5   상권업종중분류명   106896 non-null  object 
 6   상권업종소분류코드  106896 non-null  object 
 7   상권업종소분류명   106896 non-null  object 
 8   시도코드       106896 non-null  int64  
 9   시도명        106896 non-null  object 
 10  시군구코드      106896 non-null  int64  
 11  시군구명       106896 non-null  object 
 12  행정동코드      106896 non-null  int64  
 13  행정동명       106858 non-null  object 
 14  법정동코드      106864 non-null  float64
 15  법정동명       106864 non-null  object 
 16  지번코드       106896 non-null  int64  
 17  대지구분코드     106896 non-null  int64  
 18  대지구분명      106896 non-null  object 
 19  지번본번지      106896 non-n

In [114]:
cols = df.columns
cols

Index(['상가업소번호', '상호명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드', '상권업종중분류명',
       '상권업종소분류코드', '상권업종소분류명', '시도코드', '시도명', '시군구코드', '시군구명', '행정동코드',
       '행정동명', '법정동코드', '법정동명', '지번코드', '대지구분코드', '대지구분명', '지번본번지', '지번주소',
       '도로명코드', '도로명', '건물본번지', '건물관리번호', '도로명주소', '구우편번호', '신우편번호', '경도',
       '위도'],
      dtype='object')

In [122]:
cols_code = cols[cols.str.contains("코드|번호")]
cols_code

Index(['상가업소번호', '상권업종대분류코드', '상권업종중분류코드', '상권업종소분류코드', '시도코드', '시군구코드',
       '행정동코드', '법정동코드', '지번코드', '대지구분코드', '도로명코드', '건물관리번호', '구우편번호',
       '신우편번호'],
      dtype='object')

In [128]:
print(df.shape)

(106896, 16)
