# 데이터 분석
## jupyter 사용
**설치**  
`>pip install jupyter`  

**Jupyter 실행**  
`>jupyter lab`  

## 단축키  
**모드 전환**  
`enter`: 셀 모드 -> 코드 모드  
`esc`: 코드 모드 -> 셀 모드

**공통**  
`ctrl + Enter`: 현재 셀을 실행.  
`shift + Enter`: 현재 셀을 실행하고 다음 셀로 이동.(없으면 생성)  

**셀 모드**  
`a`: 위에 셀 추가  
`b`: 아래에 셀 추가  
`dd`: 셀 삭제  
`m`: 코드 -> 마크다운  
`y`: 마크다운 -> 코드  
`c`: 셀 복사  
`v`: 셀 붙여넣기  
`x`: 셀 잘라내기



데이터 프레임: 파이썬 기본 내장 데이터 구조가 아니다. 행과 열 구조를 표현하는 데이터프레임 구조이다.

열: 속성/컬럼/변수와 동일.
행: 케이스/로/클래스와 동일.

데이터 분석의 가치는 어떤 현상이 어떤 조건에 따라 변화되는지 발견하는 것이다.  

빅데이터: 수십 테라바이트, DB 같은 정형 데이터가 아닌 비정형데이터(사진, 동영상, 음성 등 정의할 수 없는 데이터), 수집/저장/분석이 어려운 방대한 양의 데이터.

In [4]:
import pandas as pd

## 데이터 프레임 생성

In [9]:
df = pd.DataFrame({'name' : ['김지훈', '이유진', '박동현', '김민지'],
                   'english' : [90, 80, 60, 70],
                   'math' : [50, 60, 100, 20]})
df

Unnamed: 0,name,english,math
0,김지훈,90,50
1,이유진,80,60
2,박동현,60,100
3,김민지,70,20


데이터 프레임은 2차원 표, 테이블 데이터를 만드는 데이터 구조이고  
딕셔너리를 넣어주면 딕셔너리의 키가 df의 속성(열, 변수)가 되고  
value는 특정 속성의 값이 된다.  

## 속성값 조회

In [7]:
df['name']

0    김지훈
1    이유진
2    박동현
3    김민지
Name: name, dtype: object

데이터프레임의 특정 속성(열)을 조회하면 그 열에 해당하는 모든 값이 `시리즈` 형태로 담겨진다.  

시리즈는 하나의 행에 대한 연결된 데이터.  
Pandas는 DataFrame과 Series 구조를 제공한다.

## 합계 구하기

In [11]:
sum(df['english'])

300

대상 속성 시리즈의 내부 요소를 모두 합한 값을 반환한다.  

데이터 프레임을 사용하면 2중 for문을 써서 2중 리스트를 조회해야하는 경우를 줄여준다.

In [15]:
sum(df['english']) / len(df['english'])

75.0

In [13]:
#df2 = pd.DataFrame({'name' : ['김', '이'], 'eng' : [1, 2, 3]})  # 오류 발생

데이터 프레임을 생성할 때는 행과 열의 개수를 맞춰야 한다.  

## Excel 파일 불러오기

In [17]:
df_exam = pd.read_excel('excel_exam.xlsx')
df_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [20]:
sum(df_exam['english']) / 20

84.9

In [19]:
sum(df_exam['math']) / 20

57.45

In [21]:
x = [1, 2, 3, 4, 5]
len(x)

5

len() 함수는 시리즈뿐만 아니라 DF에서도 사용할 수 있다.  
이때 행 갯수를 반환한다.  

In [22]:
sum(df_exam['english']) / len(df_exam)

84.9

## Header 설정하기


In [23]:
df_exam_novar = pd.read_excel('../data/excel_exam_novar.xlsx')
df_exam_novar

Unnamed: 0,1,1.1,50,98,50.1
0,2,1,60,97,60
1,3,2,25,80,65
2,4,2,50,89,98
3,5,3,20,98,15
4,6,3,50,98,45
5,7,4,46,98,65
6,8,4,48,87,12


Header가 없는 데이터를 불러오게 되면 의도와 다른 문제가 생긴다.  

In [27]:
df_exam_novar = pd.read_excel('../data/excel_exam_novar.xlsx', header=None)
df_exam_novar

Unnamed: 0,0,1,2,3,4
0,1,1,50,98,50
1,2,1,60,97,60
2,3,2,25,80,65
3,4,2,50,89,98
4,5,3,20,98,15
5,6,3,50,98,45
6,7,4,46,98,65
7,8,4,48,87,12


In [34]:
# 시트명으로 데이터 불러오기
df_exam = pd.read_excel('../data/excel_exam.xlsx', sheet_name='Sheet1')
df_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


sheet_name에 매개변수에 0~n을 입력하거나  
실제 sheet 이름을 넣어서 불러올 수 있다.

## CSV 파일 불러오기

In [36]:
df_csv_exam = pd.read_csv('../data/exam.csv')
df_csv_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [37]:
# 데이터를 저장할 수 있다.
df_csv_exam.to_csv('my_csv.csv')