## Pandas 설치 및 활용

In [1]:
import pandas as pd

### 데이터 프레임을 생성하고 일부분 살펴보기

In [4]:
# pandas의 Data Frame 생성
names = ['Bob', 'Jessica', 'Mary', 'John', 'Mel']
births = [968, 155, 77, 578, 973]
custom = [1, 5, 25, 13, 23232]

BabyDataSet = list(zip(names,births))
df = pd.DataFrame(data = BabyDataSet, columns = ['Names', 'Births'])

df.head()

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,77
3,John,578
4,Mel,973


### 데이터 프레임의 기본 정보 출력하기

In [5]:
# 데이터 프레임의 열 타입 정보 출력
df.dtypes

Names     object
Births     int64
dtype: object

In [6]:
# 데이터 프레임의 인덱스 정보 출력
df.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
# 데이터 프레임의 열 형태 정보 출력
df.columns

Index(['Names', 'Births'], dtype='object')

### 데이터 프레임의 인덱스 선택하기

In [8]:
# 0~3번째 인덱스 선택
df[0:3]

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,77


In [9]:
#Births 열이 100보다 큰 데이터를 선택
df[df['Births'] > 100]

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
3,John,578
4,Mel,973


In [11]:
# 데이터 프레임에서의 평균값 계산
df.mean()

Births    550.2
dtype: float64

# Numpy의 설치와 활용

#### Numpy(Numerical Python) 수치 계싼을 위해 만들어진 파이썬 라이브러리이다.
#### 배열 개념으로 변수를 사용하여 백터, 행렬 등의 연산을 쉽고 빠르게 수행하도록 지원한다.
#### 데이터 분석이라는 언어는 기본적으로 자료구조로 넘파이 배열을 가지고 있다.


### pandas library 불러오기

In [1]:
import numpy as np

### numpy 배열 생성하기

In [3]:
# 이 배열은 넘파이 배열이며 파이썬의 기본 자료구조와는 다른 데이터 타입이다.
arr1 = np.arange(15).reshape(3, 5)
arr1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### numpy 배열 정보 확인하기

In [4]:
arr1.shape

(3, 5)

In [6]:
arr1.dtype

dtype('int32')

### 다른 형태의 배열 생성하기
#### zeros() 함수로 데이터를 생성할 수 있다. zeors() 함수는 0으로 채워진 넘파이 배열을 생성하는 함수이다.  
#### 1을 채워 주는 역할을 하는 함수는 ones()이다.

In [8]:
arr3 = np.zeros((3, 4))
arr3

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 넘파이 배열을 이용한 사칙연산 수행하기

In [13]:
arr4 = np.array([
    [1, 2, 3],
    [4, 5, 6]
], dtype = np.float64)

arr5 = np.array([
    [7, 8, 9],
    [10, 11, 12]
], dtype = np.float64)

#4칙연산 출력
print("arr4 + arr5 = \n" , arr4+arr5 , "\n")
print("arr4 - arr5 = \n" , arr4-arr5 , "\n")
print("arr4 * arr5 = \n" , arr4*arr5 , "\n")
print("arr4 / arr5 = \n" , arr4/arr5 , "\n")

arr4 + arr5 = 
 [[ 8. 10. 12.]
 [14. 16. 18.]] 

arr4 - arr5 = 
 [[-6. -6. -6.]
 [-6. -6. -6.]] 

arr4 * arr5 = 
 [[ 7. 16. 27.]
 [40. 55. 72.]] 

arr4 / arr5 = 
 [[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]] 



### tip 넘파이 라이브러리는 dot() 함수를 이용한 행렬 연산 등 데이터 분석에 필요한 많은 기능을 제공하고 있다.