# 데이터 핸들링
- 데이터 분석을 위한 기본 개념과 Python에서 데이터 다루는 법 학습

## 데이터 사이언스
- 데이터를 수집, 처리, 분석하여 가치 있는 정보를 도출하는 과정

## 데이터의 핸들링의 중요성
- 데이터를 올바르게 다루지 않으면 분석 결과를 신뢰할 수 없음
- 잘 정리된 데이터는 더 나은 모델과 의사 결정을 가능하게 함

## 데이터 종류
1. 정형 데이터: 테이블 형테 (엑셀, 관계형 데이터베이스 등)
2. 반정형 데이터: 구조가 있지만 유연함 (JSON, XML, 로그 데이터 등)
3. 비정형 데이터: 텍스트, 이미지, 오디오, 영상 등

## 데이터 분석 기본 프로세스
1. 데이터 수집: 웹 크롤링, 데이터베이스, API 등
2. 데이터 전처리: 결측치(비어있는 값) 처리, 중복 제거, 정규화 등
3. 탐색적 데이터 분석: 시각화 및 패턴 분석
4. 데이터 모델링: 머신러닝, 통계 분석, 딥러닝
5. 결과 해석 및 시각화

## 주요 사용하는 Python 라이브러리
- Numpy: 다차원 배열, 수치 연산
- Pandas: 데이터 프레임 이용한 데이터 조작
- Matplotlib/Seaborn: 데이터 시각화
- Scikit-learn: 머신러닝 및 모델링
- BeautifulSoup/Selenium: 웹 크롤링

In [None]:
# colab 사용시 환경 드라이버
from google.colab import drive
drive.mount('/content/drive')

# Pandas 란?
- 데이터 분석을 위한 Python 라이브러리, 테이블 형태의 데이터를 쉽게 조작하고 분석 가능
- Dataframe 메서드로 엑셀과 비슷한 표 데이터 다룰 수 있음

## Pandas의 데이터 종류
- Series: 1차원배열
- Dataframe: 2차원배열
- 각 인덱스를 가지고 있고, 순서를 나타내는 숫자, 사전형에서 사용하는 키 인덱스 모두 포함

## Pandas 주요 기능
1. 데이터 로딩 및 저장
    - CSV, 엑셀, 데이터베이스 등 데이터 파일 불러오고, 분석 결과를 원하는 포맷으로 저장
2. 데이터 변환
    - 필터링: 원하는 데이터만 골라내는 역할
    - 정렬: 특정 기준에 따라 데이터 나타냄
    - 그룹화: 특정 항목 기준으로 데이터 묶어서 통계화
3. 결측치(비어있는 값) 처리
4. 데이터시각화



In [2]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# series 생성
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s);

a    10
b    20
c    30
d    40
dtype: int64


In [4]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)
print(df)

    이름  나이  점수
0  홍길동  25  90
1  이몽룡  22  85
2  성춘향  24  88


In [5]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)

print(df.info()) # 데이터 구조 확인
print(df.describe()) # 통계 요약

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   점수      3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes
None
              나이         점수
count   3.000000   3.000000
mean   23.666667  87.666667
std     1.527525   2.516611
min    22.000000  85.000000
25%    23.000000  86.500000
50%    24.000000  88.000000
75%    24.500000  89.000000
max    25.000000  90.000000


In [6]:
# pandas 라이브러리 불러오기
# 미리 !pip install pandas 로 설치 후 사용할것
import pandas as pd

# dataframe 생성
data = {'이름': ['홍길동', '이몽룡', '성춘향'],
        '나이': [25, 22, 24],
        '점수': [90, 85, 88]}
df = pd.DataFrame(data)
df.index = ['학생1', '학생2', '학생3']

print(df) # 데이터 인덱스 조회

      이름  나이  점수
학생1  홍길동  25  90
학생2  이몽룡  22  85
학생3  성춘향  24  88


In [None]:
# CSV 데이터 생성

import pandas as pd

# 예제 데이터 생성
data = {
    '이름': ['홍길동', '이']
}
