# 데이터 사이언스와 통계분석

**데이터 사이언스**는 주어진 데이터로부터 의미 있는 정보를 추출하고 활용하는 학문 분야다.
현대 정보화 사회에서 데이터를 효과적으로 다루는 능력은 필수 역량이 되었다.

데이터 분석 방식의 발전:
- 전통적 접근: 통계학, 확률론, 수학을 이용한 이론적 분석
- 현대적 접근: 머신러닝, 딥러닝 등 컴퓨팅 기술을 활용한 대규모 데이터 분석

빅데이터 시대를 거쳐 AI 기술혁신 시대에 진입하면서 데이터 사이언스의 중요성이 급증했다.
ChatGPT, Gimini, 생성형 AI 등 첨단 AI 기술도 대규모 데이터와 통계적 원리에 기반하고 있다.

**데이터 사이언스의 기초는 통계분석이다.** 통계분석의 원리를 명확히 이해할 때, 데이터 속 숨겨진 패턴과 인사이트를 효과적으로 발견할 수 있으며, 
AI 기술을 올바르게 활용하고 신뢰할 수 있는 능력을 갖추게 된다.

## 강의 학습 목표

이 강의를 통해 다음을 학습한다.

- 파이썬 기초 프로그래밍: 리스트, 사전, 넘파이 배열 다루기
- 데이터 처리: 판다스를 이용한 데이터 조작
- 데이터 시각화: 1차원, 2차원 데이터 시각화
- 통계 기초: 데이터 대표값, 기댓값, 분산
- 확률분포: 이산, 연속, 정규분포
- 표본과 모집단: 표본분포, 표본추출
- 가설검정: 통계적 검증
- 상관관계 분석: 선형 상관관계

## 선수 지식 및 학습 방법

가. 필요한 기초
- 기초 파이썬 문법 (변수, 함수, 반복문)
- 확률과 통계 기본 개념

나. 학습 방법
- 각 노트북은 이론 설명과 실습 코드로 구성
- 직접 코드를 실행하며 학습하기
- 제공되는 데이터셋으로 실습 예제 따라하기
- AI 도구에게 질문 하기
- 각 파트 완료 후 개념 정리하기

## AI 도구 활용

강의노트의 개념과 실습을 바탕으로, 학생이 스스로 데이터 사이언스 기초를 학습하도록 AI 도구 활용법을 안내한다.  
특히 AI 도구를 활용한 질문과 답변을 통해 더 깊은 이해로 이어지도록 돕는다.

AI 도구를 잘 쓰려면 아래를 기억하면 된다.

- 무엇을 알고 싶은지 먼저 한 문장으로 정리하기
- 데이터/변수/입력 형식 같은 배경 정보를 함께 알려주기
- 나온 결과는 직접 확인하고 근거(통계, 코드)를 살펴보기
- 한 번에 많이 묻지 말고, 작은 단계로 나누어 질문하기
- 개인정보·민감정보는 입력하지 않기

개발자들의 AI 도구의 활용도에 대한 보다 자세한 이야기는 [StackOverflow 개발자 설문조사 2025](https://survey.stackoverflow.co/2025/ai/)를 참고한다.

## 파이썬 통계분석

파이썬<font size='2'>Python</font>은 현재 데이터 분석 및 머신러닝 분야에서 
가장 많이 사용되는 프로그래밍언어다.

아래 그림은 프로그래밍에 입문할 때 가장 배우고 싶어하는 라이브러리로 
넘파이<font size='2'>Numpy</font>, 판다스<font size='2'>Pandas</font>, 파이토치<font size='2'>PyTorch</font>,
텐서플로우<font size='2'>TensorFlow</font>, 사이킷런<font size='2'>Scikit-Learn</font> 등 파이썬 라이브러리가 절대적임을 보여준다.

<div align="center"><img src="https://github.com/codingalzi/statsRev/blob/master/jupyter-book/images/wanted_libraries.png?raw=true" style="width:600px"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://survey.stackoverflow.co/2024/technology#most-popular-technologies-misc-tech-learn">Stack Overflow 개발자 설문조사 2024</a>&gt;</div></p>

## 파이썬 주요 라이브러리

데이터 사이언스 분야에서 유용하게 사용되는 주요 파이썬 라이브러리는 다음과 같다.

* 데이터 처리, 시각화 등에 필요한 라이브러리
    * [넘파이<font size='2'>NumPy</font>](https://numpy.org)
    * [판다스<font size='2'>Pandas</font>](https://pandas.pydata.org)
    * [맷플롯립<font size='2'>Matplotlib</font>](https://matplotlib.org)

* 통계, 확률 등에 유용한 라이브러리
    * [싸이파이<font size='2'>SciPy</font>](https://scipy.org)
    * [스탯츠모델스<font size='2'>statsmodels</font>](https://www.statsmodels.org/stable/index.html)

* 머신러닝, 데이터 분석 등에 유용한 라이브러리
    * [사이킷런<font size='2'>scikit-learn</font>](https://scikit-learn.org/)
    * [텐서플로우<font size='2'>TensorFlow</font>](https://www.tensorflow.org/)
    * [파이토치<font size='2'>PyTorch</font>](https://pytorch.org/)
    * [케라스<font size='2'>Keras</font>](https://keras.io/)    

여기서는 주로 넘파이<font size='2'>NumPy</font>, 
판다스<font size='2'>Pandas</font>, 
맷플롯립<font size='2'>matplotlib</font>을 
활용한다.

- 넘파이: 효율적이고 빠른 다차원 배열<font size='2'>array</font> 지원
- 판다스: 테이블 데이터를 매우 효율적으로 다룰 수 있는 데이터프레임 지원
- 맷플롯립: 유용한 데이터 시각화 API 지원