In [3]:
import pandas as pd  # 데이터프레임 사용 가능
import numpy as np  # 다차원 배열을 쉽고 효율적으로 처리

In [4]:
# 데이터를 분석하려면 데이터프레임 형태로 만들면 됨.
# 행(인스턴스, 실제값), 열(속성, 특성)을 가지는 2차원이 되게 됨.
# 파이썬에서는 데이터분석시 사용하는 2차원을 다루기 위해서 클래스(부품)을 만들었음.

In [26]:
dics = {"name" : ["홍길동", "박길동", "김길동", "송길동"], "age" : [10, 20, 30, 40]}
df = pd.DataFrame(dics)
df

Unnamed: 0,name,age
0,홍길동,10
1,박길동,20
2,김길동,30
3,송길동,40


In [27]:
# 위 코드와 같은 방식
name_values = ["홍길동", "박길동", "김길동", "송길동"]
age_values = [10, 20, 30, 40]
df3 = pd.DataFrame({"name" : name_values, "age" : age_values})
df3

Unnamed: 0,name,age
0,홍길동,10
1,박길동,20
2,김길동,30
3,송길동,40


In [14]:
# 인덱스가 자동증가해서 붙어있는 부품: 데이터프레임
df.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
df_index = df.index.tolist()  # tolist(): 리스트 타입으로 변경, 비파괴함수
# 인덱스만 목록으로 가지고 오고 싶으면 list로 변경

df_index

[0, 1, 2, 3]

In [30]:
type(df.index)  # RangeIndex 부품, class

pandas.core.indexes.range.RangeIndex

In [31]:
df.name

0    홍길동
1    박길동
2    김길동
3    송길동
Name: name, dtype: object

In [34]:
# 시리즈를 데이터프레임으로 변경할 수 있다.
df_name = df['name'].to_frame()
df_name
type(df_name)

pandas.core.frame.DataFrame

In [17]:
df['name']

0    홍길동
1    박길동
2    김길동
3    송길동
Name: name, dtype: object

In [18]:
type(df['name'])  # 데이터프레임 안에서 나머지 열은 시리즈임

pandas.core.series.Series

In [28]:
# 데이터프레임은 RangeIndex, Series의 결합임
# 시리즈는 인덱스와 array객체의 결합(시리즈는 작은 데이터프레임)

In [20]:
df['name'].index

RangeIndex(start=0, stop=4, step=1)

In [22]:
df_name_list = df['name'].index.tolist()
df_name_list

[0, 1, 2, 3]

In [23]:
df['name'].values  # 인덱스를 제외한 값들만 가져옴

array(['홍길동', '박길동', '김길동', '송길동'], dtype=object)

In [24]:
df_name_values = df['name'].values.tolist()
df_name_values

['홍길동', '박길동', '김길동', '송길동']

# 데이터프레임을 만드는 방법
***
### dic사용
### csv, excel 파일 읽어오기
### df에 values, column을 지정

In [25]:
df2 = pd.DataFrame(data = [['홍길동', 100], ['김길동', 200]], columns = ['name', 'age'])  # 데이터와 컬럼을 지정해줄 수 있음
df2                                                                              

Unnamed: 0,name,age
0,홍길동,100
1,김길동,200


In [35]:
data = [100, 200, 300]
sum(data)

600

In [36]:
max(data)

300

In [None]:
# ndarray: 다양한 차원의 데이터(배열)를 하나의 클래스로 다루기 위해서 만들어졌음
# n: 숫자
# d: dimension, 차원
# array: 배열

In [38]:
arr1 = np.arange(15)  # 0~14까지의 연속된 값을 만들어주는 함수, 1차원
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [39]:
arr1_reshape = arr1.reshape(3,5)  # 3행 5열, reshape: 원하는 차원(모양)으로 변환!
arr1_reshape

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [41]:
type(arr1_reshape)

numpy.ndarray

In [42]:
# mask 마스킹
mask = np.zeros(5)
mask

array([0., 0., 0., 0., 0.])

In [43]:
mask2 = np.zeros((3, 4))
mask2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [44]:
arr2 = np.array(
    [[1, 2, 3],[4, 5, 6]
    ], dtype=np.float64)  # 2차원 배열, 타입은 float64
arr2

array([[1., 2., 3.],
       [4., 5., 6.]])

In [45]:
arr3 = np.array(
    [[7, 8, 9],[10, 11, 12]
    ], dtype=np.float64)  # 2차원 배열, 타입은 float64
arr3

array([[ 7.,  8.,  9.],
       [10., 11., 12.]])

In [47]:
# 행렬의 연산을 할 수 있음
arr2 + arr3

array([[ 8., 10., 12.],
       [14., 16., 18.]])

In [48]:
arr2 * arr3

array([[ 7., 16., 27.],
       [40., 55., 72.]])

In [49]:
arr2 - arr3

array([[-6., -6., -6.],
       [-6., -6., -6.]])

In [50]:
arr2 / arr3

array([[0.14285714, 0.25      , 0.33333333],
       [0.4       , 0.45454545, 0.5       ]])

In [57]:
np.random.randint(10)  # 10까지의 랜덤한 숫자 출력

9

In [None]:
# 벡터: 같은 타입의 데이터가 들어있는 목록

In [58]:
# enumerate 연습
for i, item in enumerate(df['name'], 0):
    print(i, ":", item)

0 홍길동
1 박길동
2 김길동
3 송길동
