# Chapter 2. 파이썬과 주피터 노트북 기초

## 4. numpy와 pandas 기본

### 2.4.1 분석을 위한 추가 기능 설치

#### numpy
    * 배열(ndarray) 데이터를 다루는 클래스를 주로 사용
    * 행렬 연산에 강한 패키지
    
#### pandas
    * 데이터프레임이라는 데이터 관리에 강한 클래스

In [1]:
import numpy as np
import pandas as pd

### 2.4.3 리스트

In [2]:
sample_list = [1,2,3,4,5]
sample_list

[1, 2, 3, 4, 5]

### 2.4.4 행과열

In [3]:
sample_array = np.array([1,2,3,4,5])
sample_array

array([1, 2, 3, 4, 5])

In [4]:
sample_array + 2

array([3, 4, 5, 6, 7])

In [5]:
sample_array * 2

array([ 2,  4,  6,  8, 10])

In [6]:
np.array([1 ,2, "A"])

array(['1', '2', 'A'], dtype='<U11')

In [7]:
# 2차원 배열
sample_array_2 = np.array(
    [[1,2,3,4,5],
     [6,7,8,9,10]])
sample_array_2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [9]:
# 행 수(2행), 열 수(5열) 확인
sample_array_2.shape

(2, 5)

### 2.4.6 등차수열을 만드는 방법

    * start: 시작위치
    * stop: 종료위치(배열에 포함되지 않음)
    * step: 차잇값

In [10]:
np.arange(start = 1, stop = 6, step = 1)

array([1, 2, 3, 4, 5])

In [11]:
np.arange(start = 0.1, stop = 0.8, step = 0.2)

array([0.1, 0.3, 0.5, 0.7])

In [12]:
np.arange(0.1, 0.8, 0.2)

array([0.1, 0.3, 0.5, 0.7])

### 2.4.7 여러 가지 배열을 만드는 방법

In [13]:
# 같은 값의 반복
np.tile("A", 5)

array(['A', 'A', 'A', 'A', 'A'], dtype='<U1')

In [14]:
# 0을 4개 넣은 배열
np.tile(0, 4)

array([0, 0, 0, 0])

In [15]:
# 함수 사용
np.zeros(4)

array([0., 0., 0., 0.])

In [16]:
# 2차원 배열 [행 수, 열 수]
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
# 1로만 된 배열
np.ones(3)

array([1., 1., 1.])

### 2.4.8 슬라이싱

In [18]:
# 1행만 있는 배열
d1_array = np.array([1,2,3,4,5])
d1_array

array([1, 2, 3, 4, 5])

In [19]:
# 첫 번째 요소 꺼내기
d1_array[0]

1

In [20]:
# 2~3번째 요소 꺼내기
d1_array[1:3]

array([2, 3])

In [21]:
# 2차원 배열
d2_array = np.array(
    [[1,2,3,4,5],
    [6,7,8,9,10]])
d2_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [24]:
# 1행 4열의 데이터 꺼내기(주의: 인덱스는 0부터 시작)
d2_array[0, 3]

4

In [25]:
# 콜론을 이용하여 꺼내기
d2_array[1, 2:4]

array([8, 9])

### 2.4.9 데이터프레임

In [26]:
sample_df = pd.DataFrame({
    'col1' : sample_array, 
    'col2' : sample_array * 2,
    'col3' : ["A", "B", "C", "D", "E"]
})
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [27]:
sample_df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


### 2.4.10 파일을 읽어 들이는 방법

In [28]:
file_data = pd.read_csv("2-4-1-sample_data.csv")
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [23]:
type(file_data)

pandas.core.frame.DataFrame

### 2.4.11 데이터프레임 병합

In [29]:
df_1 = pd.DataFrame({
    'col1' : np.array([1, 2, 3]),
    'col2' : np.array(["A", "B", "C"])
})
df_2 = pd.DataFrame({
    'col1' : np.array([4, 5, 6]),
    'col2' : np.array(["D", "E", "F"])
})

In [30]:
# 세로방향 병합
print(pd.concat([df_1, df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [31]:
# 가로방향 병합
print(pd.concat([df_1, df_2], axis = 1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


### 2.4.12 데이터프레임 열에 대해 작업하기

In [32]:
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [33]:
# 열 이름 지정해서 호출 : 점(.) 사용
print(sample_df.col2)

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [34]:
# 열 이름 지정해서 호출 : 대괄호 사용
print(sample_df["col2"])

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [35]:
# 복수의 열 추출
print(sample_df[["col2", "col3"]])

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


In [36]:
# 특정 열 제외하고 출력
print(sample_df.drop("col1", axis = 1))

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


### 2.4.13 데이터프레임 행에 대해 작업하기

In [40]:
# 처음 3개 행만 가져오기 : head()
print(sample_df.head(n = 3))

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C


In [41]:
# 최초 1행만 꺼내기 : query
print(sample_df.query('index == 0'))

   col1  col2 col3
0     1     2    A


In [42]:
# col3 열에서 값이 A인 행만 찾고 싶은 경우
print(sample_df.query('col3 == "A"'))

   col1  col2 col3
0     1     2    A


In [43]:
# OR 조건: 여러 개 조건 지정
print(sample_df.query('col3 == "A" | col3 == "D"'))

   col1  col2 col3
0     1     2    A
3     4     8    D


In [44]:
# AND 조건
print(sample_df.query('col3 == "A" & col1 == 3'))

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [45]:
# 행과 열 모두에 조건 지정
print(sample_df.query('col3 == "A"')[["col2", "col3"]])

   col2 col3
0     2    A


### 2.4.14 시리즈

In [38]:
type(sample_df)

pandas.core.frame.DataFrame

In [46]:
# pandas 데이터프레임에서 1열만 추출하면 시리즈라는 열 데이터형으로 바뀜
type(sample_df.col1)

pandas.core.series.Series

In [47]:
# 시리즈를 배열로 변환: np.array의 인수로 시리즈형 변수를 넘김
type(np.array(sample_df.col1))

numpy.ndarray

In [48]:
type(sample_df.col1.values)

numpy.ndarray

### 2.4.15 함수의 도움말

In [42]:
help(sample_df.query)

Help on method query in module pandas.core.frame:

query(expr, inplace=False, **kwargs) method of pandas.core.frame.DataFrame instance
    Query the columns of a frame with a boolean expression.
    
    .. versionadded:: 0.13
    
    Parameters
    ----------
    expr : string
        The query string to evaluate.  You can refer to variables
        in the environment by prefixing them with an '@' character like
        ``@a + b``.
    inplace : bool
        Whether the query should modify the data in place or return
        a modified copy
    
        .. versionadded:: 0.18.0
    
    kwargs : dict
        See the documentation for :func:`pandas.eval` for complete details
        on the keyword arguments accepted by :meth:`DataFrame.query`.
    
    Returns
    -------
    q : DataFrame
    
    Notes
    -----
    The result of the evaluation of this expression is first passed to
    :attr:`DataFrame.loc` and if that fails because of a
    multidimensional key (e.g., a DataFrame) 