In [63]:
import pandas as pd
import numpy as np

In [64]:
# 데이터를 분석하려면 데이터프레임 형태로 만들면 됨.
# 행(인스턴스, 실제 값)과 열(속성, 특성)을 가지는 2차원이 됨.
# 파이썬에서는 데이터 분석시 사용하는 2차원을 다루기위해서 클래스(부품)을 만들었음.

In [65]:
dics = {'name':['홍길동', '박길동', '김길동', '송길동'], 'age':['10', '20', '30', '40']}
df = pd.DataFrame(dics)
df

Unnamed: 0,name,age
0,홍길동,10
1,박길동,20
2,김길동,30
3,송길동,40


In [98]:
for i, item in enumerate(df['name'], 1):
    print(i, ':', item)

1 : 홍길동
2 : 박길동
3 : 김길동
4 : 송길동


In [66]:
name_values = ['홍길동', '박길동', '김길동', '송길동']
age_values = ['10', '20', '30', '40']
df3 = pd.DataFrame({'name' : name_values, 'age' : age_values})
df3

Unnamed: 0,name,age
0,홍길동,10
1,박길동,20
2,김길동,30
3,송길동,40


In [67]:
# 인덱스가 자동 증가해서 붙어 있는 부품 : 데이터프레임
df.index

RangeIndex(start=0, stop=4, step=1)

In [68]:
df_index = df.index.tolist()
df_index
# df.index.tolist() 비파괴 함수 바꾸려면 다시 넣어주어야함.
# 인덱스만 목록으로 가지고 오고 싶으면 list로 변경해서 사용.

[0, 1, 2, 3]

In [69]:
type(df.index) # RangeIndex 부품, class

pandas.core.indexes.range.RangeIndex

In [70]:
df.name

0    홍길동
1    박길동
2    김길동
3    송길동
Name: name, dtype: object

In [71]:
# 시리즈를 데이터프레임으로 변경할 수 있다.
df_name = df['name'].to_frame()
df_name
type(df_name)

pandas.core.frame.DataFrame

In [72]:
df['name']

0    홍길동
1    박길동
2    김길동
3    송길동
Name: name, dtype: object

In [73]:
type(df['name']) 
# 데이터프레임 안에서 나머지 열은 시리즈.
# 리스트보다 훨씬 많은 것들을 담을 수 있기 때문

pandas.core.series.Series

In [74]:
# 데이터프레임은 RangeIndex, Series의 결합.
# 시리즈는 인덱스와 리스트(array객체)의 결합.

In [75]:
df['name'].index

RangeIndex(start=0, stop=4, step=1)

In [76]:
df_name_list = df['name'].index.tolist()
df_name_list

[0, 1, 2, 3]

In [77]:
df['name'].values

array(['홍길동', '박길동', '김길동', '송길동'], dtype=object)

In [78]:
# Series를 리스트로 변환, 인덱스가 생략한 형태의 리스트가 됨.
df_name_values2 = df['name'].values.tolist()
df_name_values2

['홍길동', '박길동', '김길동', '송길동']

## 데이터 프레임을 만드는 방법
***
### dic사용
### csv, excel파일 읽어오기
### df에 values, column을 지정

In [79]:
df2 = pd.DataFrame(data = [['홍길동', 100], ['김길동', 200]], columns=['name', 'age'])
df2

Unnamed: 0,name,age
0,홍길동,100
1,김길동,200


In [80]:
df2.columns.tolist()

['name', 'age']

In [81]:
data = [100, 200, 300] # 1차원인 리스트
sum(data)

600

In [82]:
max(data)

300

In [83]:
# ndarray : 다양한 차원의 데이터(배열)를 하나의 클래스로 다루기 위해서 만들어졌음.
# n : 숫자
# d : dimension, 차원
# array : 배열

In [84]:
arr1 = np.arange(15)
arr1
# 0 ~ 14까지의 연속된 값을 만들어주는 함수.
# 리스트를 만들어줌. array객체로

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [85]:
arr1_reshape = arr1.reshape(3, 5)
arr1_reshape
# 원하는 차원(모양)으로 만들기 위해 모양을 바꾸어줌. -> 3행 5열

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [86]:
type(arr1_reshape)

numpy.ndarray

In [87]:
# mask
mask = np.zeros(5)
mask

array([0., 0., 0., 0., 0.])

In [88]:
mask2 = np.zeros((3,4))
mask2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [89]:
arr2 = np.array([
    [1, 2, 3], [4, 5, 6]
], dtype=np.float64)
arr2

array([[1., 2., 3.],
       [4., 5., 6.]])

In [90]:
arr3 = np.array([
    [7, 8, 9], [10, 11, 12]
], dtype=np.float64)
arr3

array([[ 7.,  8.,  9.],
       [10., 11., 12.]])

In [91]:
# 행렬의 연산을 할 수 있음.

In [92]:
arr2+arr3

array([[ 8., 10., 12.],
       [14., 16., 18.]])

In [93]:
arr2*arr3

array([[ 7., 16., 27.],
       [40., 55., 72.]])

In [94]:
arr2-arr3

array([[-6., -6., -6.],
       [-6., -6., -6.]])

In [95]:
np.random.rand(20)

array([0.69929728, 0.41226119, 0.54343729, 0.76594086, 0.09888148,
       0.76419157, 0.06220912, 0.82206977, 0.50214317, 0.90580779,
       0.0322723 , 0.86548238, 0.31822063, 0.6974134 , 0.28456424,
       0.08258224, 0.60940637, 0.48123105, 0.87373921, 0.88046079])

In [96]:
np.random.randint(45)

6