# 데이터 핸들링
- 데이터 분석을 위한 기본 개념과 Python에서 데이터 다루는 법 학습

## 데이터 사이언스
- 데이터를 수집, 처리, 분석하여 가치 있는 정보를 도출하는 과정

## 데이터의 핸들링의 중요성
- 데이터를 올바르게 다루지 않으면 분석 결과를 신뢰할 수 없음
- 잘 정리된 데이터는 더 나은 모델과 의사 결정을 가능하게 함

## 데이터 종류
1. 정형 데이터: 테이블 형테 (엑셀, 관계형 데이터베이스 등)
2. 반정형 데이터: 구조가 있지만 유연함 (JSON, XML, 로그 데이터 등)
3. 비정형 데이터: 텍스트, 이미지, 오디오, 영상 등

## 데이터 분석 기본 프로세스
1. 데이터 수집: 웹 크롤링, 데이터베이스, API 등
2. 데이터 전처리: 결측치(비어있는 값) 처리, 중복 제거, 정규화 등
3. 탐색적 데이터 분석: 시각화 및 패턴 분석
4. 데이터 모델링: 머신러닝, 통계 분석, 딥러닝
5. 결과 해석 및 시각화

## 주요 사용하는 Python 라이브러리
- Numpy: 다차원 배열, 수치 연산
- Pandas: 데이터 프레임 이용한 데이터 조작
- Matplotlib/Seaborn: 데이터 시각화
- Scikit-learn: 머신러닝 및 모델링
- BeautifulSoup/Selenium: 웹 크롤링

In [None]:
# colab 사용시 환경 드라이버
from google.colab import drive
drive.mount('/content/drive')

# Pandas 란?
- 데이터 분석을 위한 Python 라이브러리, 테이블 형태의 데이터를 쉽게 조작하고 분석 가능
- Dataframe 메서드로 엑셀과 비슷한 표 데이터 다룰 수 있음

## Pandas의 데이터 종류
- Series: 1차원배열
- Dataframe: 2차원배열
- 각 인덱스를 가지고 있고, 순서를 나타내는 숫자, 사전형에서 사용하는 키 인덱스 모두 포함

## Pandas 주요 기능
1. 데이터 로딩 및 저장
    - CSV, 엑셀, 데이터베이스 등 데이터 파일 불러오고, 분석 결과를 원하는 포맷으로 저장
2. 데이터 변환
    - 필터링: 원하는 데이터만 골라내는 역할
    - 정렬: 특정 기준에 따라 데이터 나타냄
    - 그룹화: 특정 항목 기준으로 데이터 묶어서 통계화
3. 결측치(비어있는 값) 처리
4. 데이터시각화



In [2]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# series 생성
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s);

a    10
b    20
c    30
d    40
dtype: int64


In [4]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)
print(df)

    이름  나이  점수
0  홍길동  25  90
1  이몽룡  22  85
2  성춘향  24  88


In [5]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)

print(df.info()) # 데이터 구조 확인
print(df.describe()) # 통계 요약

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   점수      3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes
None
              나이         점수
count   3.000000   3.000000
mean   23.666667  87.666667
std     1.527525   2.516611
min    22.000000  85.000000
25%    23.000000  86.500000
50%    24.000000  88.000000
75%    24.500000  89.000000
max    25.000000  90.000000


In [6]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)
df.index = ['학생1', '학생2', '학생3']

print(df) # 데이터 인덱스 조회

      이름  나이  점수
학생1  홍길동  25  90
학생2  이몽룡  22  85
학생3  성춘향  24  88


In [21]:
# EXCEL 데이터 생성
import pandas as pd
# import os

# 예제 데이터 생성
data = {
    '이름': ['홍길동', '이몽룡', '성춘향', '변학도', '박문수'],
    '나이': [25, 22, 24, 27, 26],
    '점수': [90, 85, 88, 76, 95],
    '도시': ['서울', '부산', '서울', '대구', '광주']
}

# 데이터 프레임 생성
df = pd.DataFrame(data)

# csv 파일로 저장

# 로컬인경우 표현하실분
path = './week2_data'
# os.makedirs(path, exist_ok=True)
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'
# df.to_excel(f'{path}/pandas_example2.xlsx', sheet_name='학생정보')  # 코랩용
df.to_excel(f'{path}/pandas_example2.xlsx', sheet_name='학생정보', engine='openpyxl') # 주피터노트용



In [None]:
#  데이터 생성
import pandas as pd
# import os

# 예제 데이터 생성
data = {
    '이름': ['홍길동', '이몽룡', '성춘향', '변학도', '박문수'],
    '나이': [25, 22, 24, 27, 26],
    '점수': [90, 85, 88, 76, 95],
    '도시': ['서울', '부산', '서울', '대구', '광주']
}

# 데이터 프레임 생성
df = pd.DataFrame(data)

# csv 파일로 저장

# 로컬인경우 표현하실분
path = './week2_data'
# os.makedirs(path, exist_ok=True)
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'
df.to_csv(f'{path}/pandas_example1.csv', index=False, encoding='utf-8-sig')


In [16]:
# CSV 데이터 불러오기
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# os.makedirs(path, exist_ok=True)
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'

df = pd.read_csv(f'{path}/pandas_example1.csv')
print(df.head()) # 상위 5개 행 출력


    이름  나이  점수  도시
0  홍길동  25  90  서울
1  이몽룡  22  85  부산
2  성춘향  24  88  서울
3  변학도  27  76  대구
4  박문수  26  95  광주


In [22]:
# Excel 데이터 불러오기
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# os.makedirs(path, exist_ok=True)
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'

df = pd.read_excel(f'{path}/pandas_example2.xlsx')
print(df.head()) # 상위 5개 행 출력


   Unnamed: 0   이름  나이  점수  도시
0           0  홍길동  25  90  서울
1           1  이몽룡  22  85  부산
2           2  성춘향  24  88  서울
3           3  변학도  27  76  대구
4           4  박문수  26  95  광주


In [23]:
import pandas as pd

data = {
    '이름': ['홍길동', '이몽룡', '성춘향', '변학도', '박문수'],
    '나이': [25, 22, 24, 27, 26],
    '점수': [90, 85, 88, 76, 95],
    '도시': ['서울', '부산', '서울', '대구', '광주']
}

# 데이터 프레임 생성
df = pd.DataFrame(data)

# 로컬인경우 표현하실분
path = './week2_data'
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'


# 데이터 저장하기
df.to_csv(f'{path}/pandas_example3.csv', index=False)
df.to_excel(f'{path}/pandas_example4.xlsx', index=False)

### 데이터 확인 방법

| 명령어(함수 및 속성)     | 설명                                       |
|---------------------------|--------------------------------------------|
| `info()`                  | 데이터 변수 확인                          |
| `head()`                  | 첫번째부터 n행 확인 (기본값 n=5)          |
| `tail()`                  | 마지막부터 n행 확인 (기본값 n=5)         |
| `describe()`              | 숫자형 데이터 확인                        |
| `shape`                   | 데이터의 행, 열 크기 확인                 |
| `index`                   | 데이터프레임의 인덱스 확인                |
| `columns`                 | 데이터프레임의 컬럼 명 확인               |
| `dtypes`                  | 데이터프레임 자료형 확인                  |
| `sort_values()`           | 데이터를 크기순으로 정렬하여 확인         |
| `value_counts()`          | 데이터 빈도수 확인                        |
| `unique()`                | 컬럼의 고유값 확인                        |

### 데이터 통계 출력 함수 - describe() 정보 확인

| 출력     | 설명                           |
|----------|--------------------------------|
| `count`  | 데이터 개수                    |
| `mean`   | 평균                           |
| `std`    | 표준편차                       |
| `min`    | 최소값                         |
| `25%`    | 1사분위수: 하위 25%            |
| `50%`    | 2사분위수: 하위 50% (중앙값)   |
| `75%`    | 3사분위수: 하위 75%            |
| `max`    | 최대값                         |


### 데이터 타입 확인

| 타입         | 설명                  |
|--------------|-----------------------|
| `int64`      | 정수형                |
| `float64`    | 실수형                |
| `bool`       | 부울형                |
| `datetime64` | 날짜 표현             |
| `object`     | 문자열 또는 복합형    |
| `category`   | 카테고리형            |


### 데이터 정렬
- sort_values() 함수 사용해서 데이터 크기순으로 정렬
- DataFrame.sort_values(by=[‘정렬변수1’, ‘정렬변수2’,], ascending=False,
inplace=True)
>- inplace=True : 정렬 결과가 동일한 데이터프레임 이름으로 저장
>- ascending=True : 디폴트가 오름차순 정렬로 생략 가능
>- 내림차순일 때 ascending=False 사용



### 불 인덱싱
- []와 논리연산자를 이용시 각 행의 조건에 맞는지 True, False로 확인
- 여러 조건을 동시에 충족하는 행 추출 시 and 연산자(&) 이용한 조건식 나열
- 여러 조건 중 하나 이상을 충족하는 행 추출 시 or 연산자(|) 이용한 조건식 나열
- 각 조건식을 괄호 (())로 묶어줌



In [44]:
# 데이터 프레임 만들기 (csv)
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'

# csv파일 불려와 데이터플레임 생성
filename = f'{path}/pandas_example5.csv'
df = pd.read_csv(filename)
# df

# 변수 속성 확인
# 컬럼명, 자료형, null 여부, 행과 열의 크기 등 정보 표시
# df.info()

# 상위 5개행 출력
# df.head()

# 상위 n개행 출력 - 7개
# df.head(7)

# 하위 n개행 출력 - 7개
# df.tail(7)

# 데이터 통계 출력 - 요약 통계량 확인 (수치형 컬럼)
# df.describe()

# 데이터 통계 출력 - 요약 통계량 확인하기 (문자형 컬럼)
# df.describe(include='object')

# 데이터 행/열 크기 확인 - 프레임 크기 (행, 열) 확인 가능
# df.shape

# 데이터 인덱스/컬럼 명 확인 - index와 columns 속성
# df.index

# 데이터 인덱스/컬럼 명 확인 - 해당 데이터 프레임 컬럼명 확인 가능
# df.columns

# 데이터 타입 확인 - 각 컬럼의 데이터 타입 확인 가능
# df.dtypes

# 오름차순 정렬 'Salary' 기준
# df.sort_values('Salary')

# 'JoinData' 컬럼 값의 크기 따라 내림 차순으로 정렬
# df.sort_values('JoinDate', ascending=False)

# 데이터 빈도수 출력 - unique value들의 빈도수 출력함
# cnt = df['Department'].value_counts()
# pd.DataFrame(cnt)

# 데이터 고윳값 출력 - 컬럼 고유값 출력
df['Department'].unique()


array(['Sales', 'Marketing', 'HR', 'Development', 'Finance'], dtype=object)

In [58]:
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'


# 엑셀 파일 불려와 데이터 프레임 생성
filename = f'{path}/pandas_example6.xlsx'
df = pd.read_excel(filename)
# df.head()

# 단일 컬럼 선택
# df['평균기온']  # 평균기온 컬럼명만


# 컬럼(열) 선택 - 전체 행 중 여러 컬럼 선택1 -  [] 버전
# df[['최저기온', '최고기온']] # 최저기온, 최고기온 추출


# 컬럼(열) 선택 - 전체 행 중 여러 컬럼 선택2 -  loc[] 버전
# df.loc[:, ['날짜', '최고기온']] # 날짜, 최고기온 추출

# 컬럼(열) 선택 - 전체 행 중 여러 컬럼 선택2 -  loc[] 버전
# df.loc[0:3, ['날짜', '최고기온']] # 날짜, 최고기온 추출


# 레이블 or 조건 표현 선택 - 인덱스 지정 후 컬럼 선택
# df.index=df['날짜']
# df.loc['2023-01-27', ['최저기온', '최고기온']]


# 레이블 or 조건 표현 선택 - 조건을 충족하는 행 선택 (평균기온이 5도 이상)
# df.loc[df['평균기온']>=5]

# 레이블 or 조건 표현 선택 - 조건을 충족하는 행 선택 (평균기온이 5도 이상인 최고 기온만)
# df.loc[df['평균기온']>=5, ['최고기온']]

# 불 인덱싱 1 - 조건에 맞는 데이터 선택 [] - 최고 기온이 10도 이상일때
# w = df['최고기온'] >= 10
# df[w]

# 불 인덱싱 2 -조건에 맞는 행에서 특정 컬럼 선택 [] - 최고 기온이 10도 이상일때 최저기온/최고기온만 출력
# w = df['최고기온'] >= 10
# df[w][['최저기온', '최고기온']]

# 불 인덱싱 3 - 조건에 맞는 데이터 선택 [] - 가장 최고 기온이 높은 데이터만 출력
w = df['최고기온'] == df['최고기온'].max()
df[w]



Unnamed: 0,날짜,평균기온,최저기온,최고기온
1,2023-01-02,9.3,8.1,13.1
7,2023-01-08,9.7,5.2,13.1


### 컬럼 삭제 함수 (Pandas)

| 매개변수       | 설명                                |
|----------------|-------------------------------------|
| `labels`       | 삭제할 레이블 명과 axis 지정        |
| `axis`         | 0: index / 1: columns labels        |
| `index`        | 삭제할 인덱스 명 입력               |
| `columns`      | 삭제할 컬럼 명 입력                 |
| `level`        | 멀티인덱스의 레벨 지정              |
| `inplace`      | `True`일 경우 원본 변경             |
| `errors`       | 오류 출력 여부                      |

In [70]:
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'


# 엑셀 파일 불려와 데이터 프레임 생성
filename=f'{path}/pandas_example7.xlsx'
df = pd.read_excel(filename)
# df

# 여러 컬럼 삭제하기 - 브랜드, 납품날짜 삭제
df.drop(['브랜드', '납품날짜'], axis=1, inplace=True)
# df.columns

# 컬럼이름 변경 후 확인하기
df.columns=['제품이름', '제품종류', '행사상품', '가격', '소비기한']
# df.head()

# 컬럼 데이터형 확인하기
# df.dtypes

# 데이터 그룹핑 - 한 열을 기준으로 그룹화하기
newdata=df.groupby('제품종류').size()
newdata


제품종류
간편식사    2
디저트     5
스낵      3
음료      4
즉석식품    6
dtype: int64

### 예제 실습 데이터셋 Titanic 설명

| 변수명        | 변수 설명                    |
|---------------|-----------------------------|
| `PassengerID` | 승객번호                    |
| `Survived`    | 생존 여부                   |
| `Pclass`      | 객실 등급                   |
| `name`        | 승객 이름                   |
| `Sex`         | 성별                        |
| `Age`         | 나이                        |
| `SibSp`       | 함께 탑승한 형제와 배우자   |
| `Parch`       | 함께 탑승한 사람 수         |
| `Ticket`      | 티켓 번호                   |
| `Fare`        | 탑승 요금                   |
| `Cabin`       | 객실 번호                   |
| `Embarked`    | 탑승 항구 (`C`, `Q`, `S`)   |



In [97]:
import pandas as pd

# 로컬인경우 표현하실분
path = './week2_data'
# 코랩인경우
# path = '/content/drive/MyDrive/★ 클뉴즈sw/인공지능(AI) 교육/코랩실습/2주차/week2_data'


# csv 파일 불려와 데이터 프레임 생성
filename=f'{path}/pandas_example8.csv'
df = pd.read_csv(filename)
# df.head()

# Embarked 결측 데이터 확인
# df[df['Embarked'].isna()]

# 컬럼별 결측 데이터 갯수 확인하기
# df.isnull().sum()

# 결측 데이터 포함된 컬럼 삭제  - Cabin 기준
# df.drop('Cabin', axis=1, inplace=True)
# df.columns

# 결측 데이터 최빈값 찾기
embarked_mode = df['Embarked'].mode()
# embarked_mode

# 결측 데이터 최빈값으로 대처하기
df['Embarked'].fillna(embarked_mode[0])
# df.isnull().sum()

# 결축 데이터 - 평균값으로 대처
avg = df['Age'].mean()
df['Age'] = df['Age'].fillna(avg)
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

# 참조

## value_counts()와 groupby() 비교

https://colab.research.google.com/drive/1iAL5AskwWqUwmLyUmcJ_O0fDIHDaAPb9?usp=sharing