# 할당과 복사

In [1]:
my_list1 = [1, 2, 3]

my_list1은 1,2,3 원소를 가진 리스트([1,2,3])를 참조하고 있다.

In [3]:
my_list2 = my_list1

In [4]:
print(my_list1)
print(my_list2)

[1, 2, 3]
[1, 2, 3]


my_list1과 my_list2는 같은 리스트이기 떄문에 한 쪽이 변경되면 다른 쪽도 변경되는 것처럼 보인다.

In [5]:
my_list2.append(4)

In [6]:
print(my_list1)
print(my_list2)

[1, 2, 3, 4]
[1, 2, 3, 4]


------------------- 윗 내용이 할당! 할당하면 원본도 바뀐다.

# 복사

In [7]:
my_list_original = [10, 20, 30]

In [10]:
#1 copy() 함수 활용하여 리스트 복사
my_list_copy = my_list_original.copy()
my_list_copy.append(4)

print(my_list_original)
print(my_list_copy)

[10, 20, 30]
[10, 20, 30, 4]


In [11]:
#2 slice 기법 활용하여 리스트 복사
my_list_slice = my_list_original[:]
my_list_slice.append(40)

print(my_list_original)
print(my_list_slice)

[10, 20, 30]
[10, 20, 30, 40]


# 딕셔너리
딕셔너리의 문법과 데이터 분석을 위해 쓰는 pandas의 사용법이 매우 유사함.

In [14]:
my_dict = {
    "name": "소민호",
    "age" :33
}

print(my_dict)

{'name': '소민호', 'age': 33}


In [15]:
print(my_dict['name'])

소민호


In [16]:
print(my_dict['age'])

33


### 데이터 추가 및 수정의 문법은 동일함.

In [17]:
my_dict['email'] = 'hee@naver.com'
print(my_dict)

# 데이터 추가

{'name': '소민호', 'age': 33, 'email': 'hee@naver.com'}


In [18]:
my_dict['age'] = 34
print(my_dict)

#원래 있던 데이터 수정

{'name': '소민호', 'age': 34, 'email': 'hee@naver.com'}


## 딕셔너리의 결합

In [19]:
dict_a = {'a':1 , 'b':2}
dict_b = {'c':3 , 'd':4}

dict_a.update(dict_b)

print(dict_a)

{'a': 1, 'b': 2, 'c': 3, 'd': 4}


In [20]:
dict_a = {'a':1 , 'b':2}
dict_b = {'b':3 , 'd':4}

dict_a.update(dict_b)

print(dict_a)

{'a': 1, 'b': 3, 'd': 4}


In [22]:
my_dict = {
    'a': 10,
    'b' : 20
}

In [24]:
'a' in my_dict # 'a'라는 값이 my_dict 안에 있나

True

In [25]:
'c' in my_dict

False

In [26]:
my_dict['a']

10

In [27]:
my_dict['c'] #c 값이 없어서 에러 뜸.

KeyError: 'c'

In [28]:
my_dict.keys()

dict_keys(['a', 'b'])

In [29]:
my_dict.values()

dict_values([10, 20])

In [30]:
my_dict.items() #결과값 리스트 안에 ()로 묶인 것: 튜플

dict_items([('a', 10), ('b', 20)])

In [31]:
#딕셔너리 삭제
del my_dict['a']
my_dict

{'b': 20}

In [32]:
# 딕셔너리 전체 삭제
my_dict.clear()

In [33]:
my_dict

{}

# set(집합)
* 중복된 자료의 저장 불가 (데이터의 unique 유지)
* 데이터 저장의 순서가 없다.

In [35]:
set1 = {1,2,3,3,4,5,6,6,7,8}
print(set1)

{1, 2, 3, 4, 5, 6, 7, 8}


In [36]:
my_list = [1,2,3,4,5,5,6,7,7,8,8,8,9,9]
set2 = set(my_list)
print(set2)

{1, 2, 3, 4, 5, 6, 7, 8, 9}


In [37]:
my_str = 'letter'
set3 = set(my_str)
print(set3)

{'t', 'l', 'e', 'r'}


In [38]:
list(set3)

['t', 'l', 'e', 'r']

# 데이터 분석을 하기 위한 자료구조 
-이거 교재에 없음

* 통계적 분석 (보통 pandas)
* 머신러닝이나 딥러닝 분석 (tensor개념)

In [40]:
#2차원 배열

list_2dim = [[10, 20, 30], 
             [40, 50, 60]]

print(list_2dim)

[[10, 20, 30], [40, 50, 60]]


In [41]:
list_2dim[1]

[40, 50, 60]

In [42]:
list_2dim[1][1]

50

# 판다스 사용하기

*pip install pandas

In [1]:
import pandas as pd
import numpy as np

In [2]:
s = pd.Series([1,2,3, np.nan, 6, 7])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    7.0
dtype: float64

In [3]:
dates = pd.date_range('20200828', periods=10)
dates

DatetimeIndex(['2020-08-28', '2020-08-29', '2020-08-30', '2020-08-31',
               '2020-09-01', '2020-09-02', '2020-09-03', '2020-09-04',
               '2020-09-05', '2020-09-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.rand(5,4),
                 index = [1,2,3,4,5], #인덱스는 각 영역을 대표할 만한 것이어야 함. 구 별 cctv 개수: 인덱스는 구 이름.
                 columns = ['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
1,0.554303,0.457053,0.196602,0.170314
2,0.512041,0.8271,0.173518,0.151583
3,0.210955,0.580176,0.988182,0.088955
4,0.346892,0.161992,0.01595,0.587326
5,0.132934,0.737801,0.782019,0.964529


In [5]:
df['A']

1    0.554303
2    0.512041
3    0.210955
4    0.346892
5    0.132934
Name: A, dtype: float64

In [7]:
df[['A','C']]

Unnamed: 0,A,C
1,0.554303,0.196602
2,0.512041,0.173518
3,0.210955,0.988182
4,0.346892,0.01595
5,0.132934,0.782019


In [8]:
column_names = ['A', 'D'] #위에 것 좀 더 깔끔하게 코딩하기.
df[column_names]

Unnamed: 0,A,D
1,0.554303,0.170314
2,0.512041,0.151583
3,0.210955,0.088955
4,0.346892,0.587326
5,0.132934,0.964529


In [9]:
df.loc[3] #LOC는 행과 열 선택하는 것.

A    0.210955
B    0.580176
C    0.988182
D    0.088955
Name: 3, dtype: float64

In [10]:
df.loc[:, ['A', 'C']] #콤마 앞은 행에 대한 선택. 콤마 뒤쪽은 열 선택. 전체 행에 대한 A와 C 열을 가지고 오겠다.

Unnamed: 0,A,C
1,0.554303,0.196602
2,0.512041,0.173518
3,0.210955,0.988182
4,0.346892,0.01595
5,0.132934,0.782019


In [11]:
df.loc[1:3, ['B', 'D']]

Unnamed: 0,B,D
1,0.457053,0.170314
2,0.8271,0.151583
3,0.580176,0.088955


In [12]:
df['A'] > 0.5

1     True
2     True
3    False
4    False
5    False
Name: A, dtype: bool

In [13]:
df[ df['A'] > 0.3 ] #전체 데이터 프레임에서 A컬럼이 0.3이상인것만

Unnamed: 0,A,B,C,D
1,0.554303,0.457053,0.196602,0.170314
2,0.512041,0.8271,0.173518,0.151583
4,0.346892,0.161992,0.01595,0.587326


In [14]:
df[df>0.3]

Unnamed: 0,A,B,C,D
1,0.554303,0.457053,,
2,0.512041,0.8271,,
3,,0.580176,0.988182,
4,0.346892,,,0.587326
5,,0.737801,0.782019,0.964529


B컬럼의 값이 0.3보다 큰 A, D 컬럼만 뽑기

In [16]:
df.loc[df[['B']>0.3, ['A','D']]

SyntaxError: unexpected EOF while parsing (<ipython-input-16-510156914e69>, line 1)