# 📊 2022년 외국인 따릉이 일별 데이터 분석
## 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv 파일 읽기

### 📋 분석 목표
- 2022년 7월~12월 외국인 따릉이 이용 데이터 로드
- 데이터 구조 파악 및 기본 정보 확인
- 데이터 품질 검증 및 전처리

In [43]:
# 파일 경로 설정 (.xlsx 확장자로 변경)
file_path = '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.xlsx'

print(f"📁 파일 경로: {file_path}")
print(f"🔍 파일 로드 시도 중...")

# 여러 방법으로 데이터 로드 시도
df = None
load_method = None

# 방법 1: Excel 파일로 먼저 시도 (.xlsx 확장자이므로)
try:
    df = pd.read_excel(file_path)
    load_method = "Excel 파일"
    print(f"✅ {load_method}로 성공적으로 로드했습니다!")
except Exception as e:
    print(f"❌ Excel 로드 실패: {e}")
    
    # 방법 2: Excel 파일에 엔진 지정
    try:
        df = pd.read_excel(file_path, engine='openpyxl')
        load_method = "Excel 파일 (openpyxl)"
        print(f"✅ {load_method}로 성공적으로 로드했습니다!")
    except Exception as e:
        print(f"❌ Excel (openpyxl) 로드 실패: {e}")
        
        # 방법 3: 시트명 지정해서 시도
        try:
            df = pd.read_excel(file_path, sheet_name=0, engine='openpyxl')
            load_method = "Excel 파일 (첫 번째 시트)"
            print(f"✅ {load_method}로 성공적으로 로드했습니다!")
        except Exception as e:
            print(f"❌ Excel (첫 번째 시트) 로드 실패: {e}")

# 방법 4: 그래도 실패하면 CSV로 시도 (다양한 인코딩)
if df is None:
    print("\\n🔄 CSV 형식으로 재시도...")
    encodings_to_try = ['cp949', 'utf-8', 'utf-8-sig', 'euc-kr', 'latin1']
    
    for encoding in encodings_to_try:
        try:
            df = pd.read_csv(file_path, encoding=encoding)
            load_method = f"CSV ({encoding} 인코딩)"
            print(f"✅ {load_method}로 성공적으로 로드했습니다!")
            break
        except Exception as e:
            print(f"❌ CSV ({encoding}) 로드 실패: {str(e)[:50]}...")
            continue

# 로드 결과 확인
if df is not None:
    print(f"\\n🎉 데이터 로드 성공!")
    print(f"📊 로드 방법: {load_method}")
    print(f"📏 데이터 크기: {df.shape}")
else:
    print("\\n❌ 모든 방법으로 데이터 로드에 실패했습니다.")
    print("파일 형식이나 경로를 다시 확인해주세요.")


📁 파일 경로: 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.xlsx
🔍 파일 로드 시도 중...
❌ Excel 로드 실패: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.
❌ Excel (openpyxl) 로드 실패: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.
❌ Excel (첫 번째 시트) 로드 실패: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.
\n🔄 CSV 형식으로 재시도...
❌ CSV (cp949) 로드 실패: 'cp949' codec can't decode byte 0xee in position 1...
❌ CSV (utf-8) 로드 실패: 'utf-8' codec can't decode bytes in position 0-1: ...
❌ CSV (utf-8-sig) 로드 실패: 'utf-8' codec can't decode bytes in position 15-16...
❌ CSV (euc-kr) 로드 실패: 'euc_kr' codec can't decode byte 0xee in position ...
❌ CSV (latin1) 로드 실패: Error tokenizing data. C error: Expected 2 fields ...
\n❌ 모든 방법으로 데이터 로드에 실패했습니다.
파일 형식이나 경로를 다시 확인해주세요.


In [44]:
# 파일 경로 설정
file_path = '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'

print(f"📁 파일 경로: {file_path}")
print(f"🔍 파일 로드 시도 중...")

# 여러 방법으로 데이터 로드 시도
df = None
load_method = None

# 방법 1: CSV로 읽기 시도 (다양한 인코딩)
encodings_to_try = ['cp949', 'utf-8', 'utf-8-sig', 'euc-kr', 'latin1']

for encoding in encodings_to_try:
    try:
        df = pd.read_csv(file_path, encoding=encoding)
        load_method = f"CSV ({encoding} 인코딩)"
        print(f"✅ {load_method}로 성공적으로 로드했습니다!")
        break
    except Exception as e:
        print(f"❌ CSV ({encoding}) 로드 실패: {str(e)[:100]}...")
        continue

# 방법 2: Excel 파일로 읽기 시도 (CSV 로드가 실패한 경우)
if df is None:
    try:
        df = pd.read_excel(file_path)
        load_method = "Excel 파일"
        print(f"✅ {load_method}로 성공적으로 로드했습니다!")
    except Exception as e:
        print(f"❌ Excel 로드 실패: {e}")
        
        # 방법 3: Excel 파일에 엔진 지정
        try:
            df = pd.read_excel(file_path, engine='openpyxl')
            load_method = "Excel 파일 (openpyxl)"
            print(f"✅ {load_method}로 성공적으로 로드했습니다!")
        except Exception as e:
            print(f"❌ Excel (openpyxl) 로드 실패: {e}")

# 로드 결과 확인
if df is not None:
    print(f"\n🎉 데이터 로드 성공!")
    print(f"📊 로드 방법: {load_method}")
    print(f"📏 데이터 크기: {df.shape}")
else:
    print("\n❌ 모든 방법으로 데이터 로드에 실패했습니다.")
    print("파일 형식을 확인해주세요.")


📁 파일 경로: 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv
🔍 파일 로드 시도 중...
❌ CSV (cp949) 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'...
❌ CSV (utf-8) 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'...
❌ CSV (utf-8-sig) 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'...
❌ CSV (euc-kr) 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'...
❌ CSV (latin1) 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'...
❌ Excel 로드 실패: [Errno 2] No such file or directory: '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'
❌ Excel (openpyxl) 로드 실패: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

❌ 모든 방법으로 데이터 로드에 실패했습니다.
파일 형식을 확인해주세요.


In [45]:
# 데이터가 성공적으로 로드된 경우 기본 정보 출력
if df is not None:
    print("=" * 80)
    print("📊 데이터 기본 정보")
    print("=" * 80)
    
    print(f"\n📏 데이터 크기: {df.shape[0]:,}행 x {df.shape[1]:,}열")
    print(f"📋 컬럼명: {df.columns.tolist()}")
    
    print(f"\n📊 데이터 타입:")
    print(df.dtypes)
    
    print(f"\n🔍 결측값 확인:")
    print(df.isnull().sum())
    
    print(f"\n📈 첫 10행 데이터:")
    print(df.head(10))
    
    print(f"\n📉 마지막 5행 데이터:")
    print(df.tail(5))
    
else:
    print("❌ 데이터가 로드되지 않아 정보를 출력할 수 없습니다.")


❌ 데이터가 로드되지 않아 정보를 출력할 수 없습니다.


In [46]:
# 데이터 상세 분석 (데이터가 있는 경우)
if df is not None:
    print("=" * 80)
    print("🔍 데이터 상세 분석")
    print("=" * 80)
    
    # 컬럼별 고유값 개수
    print(f"\n📊 각 컬럼별 고유값 개수:")
    for col in df.columns:
        unique_count = df[col].nunique()
        print(f"  {col}: {unique_count:,}개")
    
    # 숫자형 컬럼의 기본 통계
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(f"\n📈 숫자형 컬럼 기본 통계:")
        print(df[numeric_cols].describe())
    
    # 컬럼명이 일반적인 따릉이 데이터 형식인지 확인하고 정리
    expected_columns = ['일시', '대여소명', '대여건수', '반납건수']
    
    if len(df.columns) == 4:
        print(f"\n✅ 컬럼 수가 예상과 일치합니다. 컬럼명을 표준화합니다.")
        df.columns = expected_columns
        print(f"📋 표준화된 컬럼명: {df.columns.tolist()}")
        
        # 데이터 타입 변환 시도
        print(f"\n🔄 데이터 타입 변환 시도...")
        
        # 일시 컬럼 처리
        try:
            df['일시'] = pd.to_datetime(df['일시'])
            print(f"✅ 일시 컬럼을 datetime으로 변환 완료")
        except:
            print(f"❌ 일시 컬럼 변환 실패")
        
        # 숫자형 컬럼 처리
        for col in ['대여건수', '반납건수']:
            try:
                df[col] = pd.to_numeric(df[col], errors='coerce')
                print(f"✅ {col} 컬럼을 숫자형으로 변환 완료")
            except:
                print(f"❌ {col} 컬럼 변환 실패")
        
        # 변환 후 다시 확인
        print(f"\n📊 변환 후 데이터 타입:")
        print(df.dtypes)
        
        print(f"\n🔍 변환 후 결측값:")
        print(df.isnull().sum())
    
    else:
        print(f"\n⚠️  예상과 다른 컬럼 구조입니다.")
        print(f"예상: {expected_columns}")
        print(f"실제: {df.columns.tolist()}")

else:
    print("❌ 데이터가 로드되지 않아 상세 분석을 수행할 수 없습니다.")


❌ 데이터가 로드되지 않아 상세 분석을 수행할 수 없습니다.


In [47]:
# 추가 정보: 파일의 실제 내용 확인 (디버깅용)
import os

print("=" * 80)
print("🔧 파일 정보 확인 (디버깅)")
print("=" * 80)

# .xlsx 확장자로 먼저 확인
xlsx_file_path = '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.xlsx'
csv_file_path = '서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv'

for test_path in [xlsx_file_path, csv_file_path]:
    print(f"\\n📁 파일 경로 테스트: {test_path}")
    
    if os.path.exists(test_path):
        file_size = os.path.getsize(test_path)
        print(f"✅ 파일 존재!")
        print(f"📏 파일 크기: {file_size:,} bytes ({file_size/1024/1024:.2f} MB)")
        
        # 파일의 첫 몇 바이트 확인
        try:
            with open(test_path, 'rb') as f:
                first_bytes = f.read(100)
                print(f"🔍 파일 첫 100바이트:")
                print(first_bytes[:50])  # 첫 50바이트만 표시
                
                # 파일 형식 추측
                if first_bytes.startswith(b'PK'):
                    print(f"💡 파일 형식: ZIP/Excel (.xlsx) 파일 ✅")
                elif first_bytes.startswith(b'\\xd0\\xcf\\x11\\xe0'):
                    print(f"💡 파일 형식: 구 Excel (.xls) 파일")
                elif b',' in first_bytes or b';' in first_bytes:
                    print(f"💡 파일 형식: CSV 파일")
                else:
                    print(f"💡 파일 형식을 확실히 판단하기 어렵습니다.")
                    
        except Exception as e:
            print(f"❌ 파일 읽기 오류: {e}")
        
        # 첫 번째로 찾은 파일로 설정하고 중단
        break
            
    else:
        print(f"❌ 파일이 존재하지 않습니다.")

# 모든 파일이 없는 경우
if not any(os.path.exists(p) for p in [xlsx_file_path, csv_file_path]):
    print(f"\\n🔍 현재 디렉토리에서 2022년 관련 파일 검색:")
    print(f"📂 현재 작업 디렉토리: {os.getcwd()}")
    
    try:
        all_files = os.listdir('.')
        matching_files = [f for f in all_files if '22.07' in f or '2022' in f or '22' in f]
        
        if matching_files:
            print(f"📋 관련 파일 목록:")
            for f in matching_files:
                file_size = os.path.getsize(f)
                print(f"  - {f} ({file_size:,} bytes)")
        else:
            print(f"❌ 2022년 관련 파일을 찾을 수 없습니다.")
            
        # 모든 CSV/Excel 파일 표시
        data_files = [f for f in all_files if f.endswith(('.csv', '.xlsx', '.xls'))]
        if data_files:
            print(f"\\n📊 현재 디렉토리의 데이터 파일:")
            for f in data_files[:10]:  # 최대 10개만 표시
                print(f"  - {f}")
                
    except Exception as e:
        print(f"❌ 디렉토리 목록을 가져올 수 없습니다: {e}")

print(f"\\n💡 파일 이름을 정확히 확인하고, 필요시 확장자를 .xlsx로 변경해주세요!")


🔧 파일 정보 확인 (디버깅)
\n📁 파일 경로 테스트: 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.xlsx
✅ 파일 존재!
📏 파일 크기: 664,846 bytes (0.63 MB)
🔍 파일 첫 100바이트:
b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00b\xee\x9dh^\x01\x00\x00\x90\x04\x00\x00\x13\x00\x08\x02[Content_Types].xml '
💡 파일 형식: ZIP/Excel (.xlsx) 파일 ✅
\n💡 파일 이름을 정확히 확인하고, 필요시 확장자를 .xlsx로 변경해주세요!


In [48]:
# 추가 정보: 파일의 실제 내용 확인 (디버깅용)
import os

print("=" * 80)
print("🔧 파일 정보 확인 (디버깅)")
print("=" * 80)

if os.path.exists(file_path):
    file_size = os.path.getsize(file_path)
    print(f"📁 파일 존재: ✅")
    print(f"📏 파일 크기: {file_size:,} bytes ({file_size/1024/1024:.2f} MB)")
    
    # 파일의 첫 몇 바이트 확인
    try:
        with open(file_path, 'rb') as f:
            first_bytes = f.read(100)
            print(f"🔍 파일 첫 100바이트:")
            print(first_bytes)
            
            # 파일 형식 추측
            if first_bytes.startswith(b'PK'):
                print(f"💡 파일 형식 추측: ZIP/Excel (.xlsx) 파일")
            elif first_bytes.startswith(b'\xd0\xcf\x11\xe0'):
                print(f"💡 파일 형식 추측: 구 Excel (.xls) 파일")
            elif b',' in first_bytes or b';' in first_bytes:
                print(f"💡 파일 형식 추측: CSV 파일")
            else:
                print(f"💡 파일 형식을 확실히 판단하기 어렵습니다.")
                
    except Exception as e:
        print(f"❌ 파일 읽기 오류: {e}")
        
else:
    print(f"❌ 파일이 존재하지 않습니다: {file_path}")
    print(f"📂 현재 작업 디렉토리: {os.getcwd()}")
    print(f"📋 현재 디렉토리의 파일 목록:")
    
    try:
        files = [f for f in os.listdir('.') if '22.07' in f or '2022' in f]
        if files:
            for f in files:
                print(f"  - {f}")
        else:
            print(f"  2022년 관련 파일을 찾을 수 없습니다.")
    except:
        print(f"  디렉토리 목록을 가져올 수 없습니다.")


🔧 파일 정보 확인 (디버깅)
❌ 파일이 존재하지 않습니다: 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.csv
📂 현재 작업 디렉토리: c:\Users\SBA\Desktop\데이터분석
📋 현재 디렉토리의 파일 목록:
  - 서울특별시 공공자전거 외국인 대여정보(월별)_22.07~22.12.csv
  - 서울특별시 공공자전거 외국인 대여정보(일별)_22.07~22.12.xlsx
