### 참고) module 모듈
module : 어떤 것의 일부분 또는 조각

* import 모듈명

  import 모듈명 as 별명
  
  
* 모듈명.함수()


* from 모듈명 import 함수명1, 함수명2, 함수명3

  from 모듈명 import

# Numpy
* Numerical Python 의 약어로 파이썬으로 고성능 수치 계산을 쉽고 빠르게 할 수 있도록 만든 패키지
* Numpy 홈페이지 : http://www.numpy.org
* 아나콘다 배포판에는 Numpy 가 포함되어 있음

## 배열 (Array)
* **순서가 있는 같은 종류(같은 데이터 타입)**의 데이터가 저장된 집합
* 많은 숫자 데이터를 하나의 변수에 넣고 관리할 때 사용
* 리스트와 유사하나 **리스트보다 작은 메모리**를 차지하며 **빠르게 데이터 처리**가 가능

다차원 데이터, 수치 데이터를 효과적으로 처리

#### <font color='blue'> 리스트와의 차이점
* 배열은 **모든 원소가 같은 자료형** 이어야 함
* 배열의 **크기는 고정**되어있으며 생성 후 원소 개수를 바꿀 수 없음

In [1]:
import numpy as np

### 1차원 배열

In [15]:
data1 = [0, 1, 2, 3, 4, 5] # list 데이터 타입 (int)
a1 = np.array(data1) #array로 변환
a1

array([0, 1, 2, 3, 4, 5])

In [16]:
data2 = [0.1, 5.4, 12, 0.5] # int/float 혼합
a2 = np.array(data2)
a2 # 모두 실수형으로 변환 : 더 큰 사이즈의 datatype으로 변환

array([ 0.1,  5.4, 12. ,  0.5])

In [17]:
a1 = np.array(data1, dtype = float) # 타입변환
a1

array([0., 1., 2., 3., 4., 5.])

In [18]:
a1.dtype

dtype('float64')

### 배열 생성
- np.arange (범위 지정)
- np.linspace (범위 지정)  **# arange와 다르게 stop 원소 포함**
- np.array (직접 지정)

In [19]:
a1 = np.arange(0, 10, 2) # range함수와 유사
a1

array([0, 2, 4, 6, 8])

In [20]:
a2 = np.arange(1, 10)
a2

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
a3 = np.arange(5)
a3

array([0, 1, 2, 3, 4])

In [24]:
arr1 = np.linspace(1, 10, 10)
arr1

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [25]:
arr2 = np.linspace(0, np.pi, 12)
arr2

array([0.        , 0.28559933, 0.57119866, 0.856798  , 1.14239733,
       1.42799666, 1.71359599, 1.99919533, 2.28479466, 2.57039399,
       2.85599332, 3.14159265])

In [22]:
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### 2차원 배열 (mxn)
- 생성: np.reshape(m,n)

_주의 : 1차원 배열의 원소 개수와 reshape(m,n) 의 m x n 의 개수가 같아야 함_

In [23]:
b1 = np.arange(12).reshape(4,3)
b1

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [3]:
np.ones(6).reshape(3,2)

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [49]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 통계를 위한 연산
sum(), mean(), std(), var(), min(), max(), cumsum(), cumprod() 등

In [28]:
arr = np.arange(1,6)
arr

array([1, 2, 3, 4, 5])

In [29]:
arr.cumsum() # 누적합

array([ 1,  3,  6, 10, 15], dtype=int32)

In [30]:
arr.cumprod() # 누적곱

array([  1,   2,   6,  24, 120], dtype=int32)

## 난수 배열 생성하기

`np.random.rand()` : [0,1) 사이의 **실수** 난수 배열

`np.random.randint()` : [low, high) 사이의 **정수** 난수 배열

low 가 생략되면 0, size 가 생략되면 1 개 난수 생성

In [11]:
np.random.seed(10) #씨드 박기

In [12]:
r_num1 = np.random.rand()
r_num1

0.771320643266746

In [15]:
r_num2 = np.random.rand(10) # 2*3 배열
r_num2

array([0.72175532, 0.29187607, 0.91777412, 0.71457578, 0.54254437,
       0.14217005, 0.37334076, 0.67413362, 0.44183317, 0.43401399])

In [14]:
np.random.randint(10, size = (3,4))

array([[8, 9, 0, 8],
       [6, 4, 3, 0],
       [4, 6, 8, 1]])

In [43]:
np.random.randint(1,30)

9

# Pandas
* 데이터 분석과 처리를 쉽게 할 수 있게 도와주는 라이브러리( Python의 R화라고 생각하면 편리)
* pandas 홈페이지: http://pandas.pydata.org
* 아나콘다 배포판에 포함.

**라이브러리(library)란?**<br>
다른 프로그램의 구성 요소로 사용하기 위해 미리 만들어 둔 프로그램 조각이다. 즉, 자주 사용하는 기능을 모듈·패키지로 만들어 둔 것이다.

In [16]:
import pandas as pd

## pandas의 자료구조
pandas는 기본적으로 정의되는 자료구조 Series와 DataFrame을 사용

Series: DataFrame의 한 column

In [50]:
a=pd.Series([1,2,3])
print(a)

0    1
1    2
2    3
dtype: int64


### DataFrame
- 표(Table)와 같은 2차원 데이터를 처리
- index(행), columns(열)

### DataFrame 생성 방법

In [51]:
# np.array로 지정
data_num = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
pd.DataFrame(data_num) # index와 column 자동생성

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [53]:
# 인덱스와 컬럼 지정
index_date = pd.date_range('2020-01-13', periods=3)
columns_list = ['A', 'B', 'C']

pd.DataFrame(data_num, index=index_date, columns=columns_list)

Unnamed: 0,A,B,C
2020-01-13,1,2,3
2020-01-14,4,5,6
2020-01-15,7,8,9


In [48]:
# Dictionary 지정
data_dic = {'id' : ['A23', 'C43', 'A23', 'A23', 'C43'],
            'year' : [2019, 2019, np.nan, 2020, 2020],
            'sales' : np.random.randint(0, 500, size = 5)}
df = pd.DataFrame(data_dic)
df

Unnamed: 0,id,year,sales
0,A23,2019.0,46
1,C43,2019.0,127
2,A23,,487
3,A23,2020.0,169
4,C43,2020.0,393


In [55]:
# 컬럼 순서를 지정하고 할때
pd.DataFrame(data_dic, columns=['sales','id','year'])

Unnamed: 0,sales,id,year
0,46,A23,2019.0
1,127,C43,2019.0
2,487,A23,
3,169,A23,2020.0
4,393,C43,2020.0


In [17]:
# index 지정
pd.DataFrame(data_dic, index=['a','b','c','d','e'])
df.index=['a','b','c','d','e']
df

NameError: name 'data_dic' is not defined

In [58]:
# 열 삭제
del df['year']
df

Unnamed: 0,id,sales
a,A23,46
b,C43,127
c,A23,487
d,A23,169
e,C43,393


In [59]:
# 열 추가
df['year']=[2019, 2019, np.nan, 2020, 2020]
df

Unnamed: 0,id,sales,year
a,A23,46,2019.0
b,C43,127,2019.0
c,A23,487,
d,A23,169,2020.0
e,C43,393,2020.0


### 연습문제)
다음자료를 이용하여 데이터 프레임을 만들어주세요.

In [58]:
birds = ['갈매기','비둘기','까치','까마귀','가마우지','거위']

In [19]:
df= pd.DataFrame({'code': np.arange(1,7), 'species':birds})
df

NameError: name 'birds' is not defined

### DataFrame 정보 얻기

In [18]:
df.info()

NameError: name 'df' is not defined

In [69]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [70]:
df.index.values #인덱스 값

array([0, 1, 2, 3, 4, 5], dtype=int64)

In [71]:
df.columns #열

Index(['code', 'species'], dtype='object')

In [72]:
df.values #행

array([[1, '갈매기'],
       [2, '비둘기'],
       [3, '까치'],
       [4, '까마귀'],
       [5, '가마우지'],
       [6, '거위']], dtype=object)

In [20]:
#따로 지정
table_data = {'연도': [2015, 2016, 2016, 2017, 2017],
                '지사': ['한국', '한국', '미국', '한국','미국'],
                '고객 수': [200, 250, 450, 300, 500]}

df2 = pd.DataFrame(table_data)

ind = df2.index
col = df2.columns
val =  df2. values

In [21]:
df2

Unnamed: 0,연도,지사,고객 수
0,2015,한국,200
1,2016,한국,250
2,2016,미국,450
3,2017,한국,300
4,2017,미국,500


In [22]:
df2.shape #(행, 열)

(5, 3)

In [23]:
len(df2) #행

5

In [24]:
df2.size

15

In [25]:
df2.describe() # 요약 통계치 (결측치 제외)

Unnamed: 0,연도,고객 수
count,5.0,5.0
mean,2016.2,340.0
std,0.83666,129.421791
min,2015.0,200.0
25%,2016.0,250.0
50%,2016.0,300.0
75%,2017.0,450.0
max,2017.0,500.0


In [27]:
# 결측치 유무 판단하는 법 
df2.isnull().sum().sort_values(ascending=False) # 내림차순

고객 수    0
지사      0
연도      0
dtype: int64

In [80]:
df2.dtypes

연도       int64
지사      object
고객 수     int64
dtype: object

In [81]:
df2.dtypes.value_counts()

int64     2
object    1
dtype: int64

#### 저장된 csv파일을 DataFrame으로 불러오기
df=pd.read_csv('파일명.csv', encoding='인코딩방식')
#### DataFrame을 csv파일에 저장하기
df.to_csv('파일명.csv')

In [28]:
%pwd #내 directory

'C:\\Users\\USER\\Desktop\\BOAZ\\BOAZ 15기 멘토멘티\\2주차'

In [30]:
df=pd.read_csv('C:\Users\USER\Desktop\BOAZ\BOAZ 15기 멘토멘티\2주차\교통사고_데이터.csv', encoding='CP949') #맥은 UTF-8을 해야 한글이 깨지지 않음
df

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (<ipython-input-30-3ae19c79afec>, line 1)

In [29]:
df.to_csv('교통사고_데이터2.csv')
#같은 디렉토리에 저장됨!

NameError: name 'df' is not defined

## DataFrame Indexing & Slicing

**df.loc[]:** 실제 인덱스 이름으로 인덱싱 <br/>

**df.iloc[]:** 인덱스 숫자로 인덱싱 <br/>

`display()`: (예쁘게) 출력해주는 함수

In [31]:
df = pd.DataFrame({'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                    'year': [2000, 2001, 2002, 2001, 2002],
                    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})
df.index=['a','b','c','d','e']
df

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7
c,Ohio,2002,3.6
d,Nevada,2001,2.4
e,Nevada,2002,2.9


In [32]:
display(df.loc['c','pop'])
display(df.iloc[2,2])

3.6

3.6

In [34]:
df.iloc[:,[1,2]] 

Unnamed: 0,year,pop
a,2000,1.5
b,2001,1.7
c,2002,3.6
d,2001,2.4
e,2002,2.9


In [35]:
df.loc[:,['year','pop']]

Unnamed: 0,year,pop
a,2000,1.5
b,2001,1.7
c,2002,3.6
d,2001,2.4
e,2002,2.9


In [36]:
#2개의 차이는? 
display(df['year'])
display(df[['year']])

a    2000
b    2001
c    2002
d    2001
e    2002
Name: year, dtype: int64

Unnamed: 0,year
a,2000
b,2001
c,2002
d,2001
e,2002


In [19]:
df['state','pop']
#error: why?
#Series는 여러 줄이 불가능하다

KeyError: ('state', 'pop')

In [37]:
df[['state','pop']]
#DataFrame 형태

Unnamed: 0,state,pop
a,Ohio,1.5
b,Ohio,1.7
c,Ohio,3.6
d,Nevada,2.4
e,Nevada,2.9


### 조건에 맞는 행/열만 추출하기
- `df.loc[]`
- `df.query(" ")`

In [38]:
df.loc[df.year > 2001]

Unnamed: 0,state,year,pop
c,Ohio,2002,3.6
e,Nevada,2002,2.9


In [39]:
df.query('year > 2001')

Unnamed: 0,state,year,pop
c,Ohio,2002,3.6
e,Nevada,2002,2.9


In [40]:
df.query('year in [2000, 2001] & state == "Ohio"')

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7


In [47]:
a = 'Nevada'
df.query('state == @a') #앞에 @안쓰면 오류나요

Unnamed: 0,state,year,pop
d,Nevada,2001,2.4
e,Nevada,2002,2.9
