# 데이터를 처리하기 위한 모듈
## (1) numpy
* 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지
* 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능
* 데이터 분석, AI 분야 뿐만 아니라 자연과학, 공학에서도 널리 사용

In [None]:
import numpy as np

In [3]:
array1 = np.array([1,2,3,4,5])
print(array1, type(array1))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [4]:
array1.shape

(5,)

In [5]:
array2 = np.array([[1,2,3],[4,5,6]])
print(array2, array2.shape)

[[1 2 3]
 [4 5 6]] (2, 3)


In [6]:
array3 = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(array3, array3.shape)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]] (2, 2, 3)


In [7]:
print('array1:{0}차원, array2:{1}차원, array3:{2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1:1차원, array2:2차원, array3:3차원


In [8]:
array1 = np.arange(10)
print(array1, array1.shape)

[0 1 2 3 4 5 6 7 8 9] (10,)


In [9]:
array2 = array1.reshape(5,2)
print(array2, array2.shape)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] (5, 2)


In [10]:
array3 = array1.reshape(5,-1)
print(array3, array3.shape)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] (5, 2)


In [11]:
#인덱싱과 슬라이싱
array1 = np.arange(12)
array1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [12]:
array1[5]

np.int64(5)

In [14]:
arr2 = array1.reshape(-1,4)
arr2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [16]:
arr2[1,-2]

np.int64(6)

In [19]:
#슬라이싱
arr2[:1,1:3]

array([[1, 2]])

In [20]:
arr3 = np.arange(100)
arr3

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [23]:
arr3[30::-1]

array([30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14,
       13, 12, 11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

## (2) pandas 패키지
* 데이터셋을 다루는 라이브러리
* 1차원 배열 형태는 시리즈(Series)
* 2차원 배열 형태는 데이터프레임(Data Frame)



In [24]:
#pandas 설치
%pip install pandas

Collecting pandas
  Downloading pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.2-cp311-cp311-win_amd64.whl (11.6 MB)
   ---------------------------------------- 0.0/11.6 MB ? eta -:--:--
   - -------------------------------------- 0.4/11.6 MB 8.3 MB/s eta 0:00:02
   ---- ----------------------------------- 1.2/11.6 MB 13.0 MB/s eta 0:00:01
   ------- -------------------------------- 2.0/11.6 MB 14.4 MB/s eta 0:00:01
   ------------ --------------------------- 3.6/11.6 MB 20.8 MB/s eta 0:00:01
   -------------------- ------------------- 5.9/11.6 MB 25.2 MB/s eta 0:00:01
   ------------------------------- -------- 9.3/11.6 MB 32.9 MB/s eta 0:00:01
   ---------------------------------------  11.6/11.6 MB 50.1 MB/s eta 0:00:01
   -----------------------


[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [25]:
# pandas 임포트
import pandas as pd

In [26]:
#Series 만들기
data1 = ['a','b','c','d','e','f']                   #리스트 생성
print("Data type : ", type(data1), "\n", data1)
sr1 = pd.Series(data1)
print("Data Type : ", type(sr1), "\n", sr1)

Data type :  <class 'list'> 
 ['a', 'b', 'c', 'd', 'e', 'f']
Data Type :  <class 'pandas.core.series.Series'> 
 0    a
1    b
2    c
3    d
4    e
5    f
dtype: object


In [27]:
data2 = [1,2,3,4,5,6]
sr2 = pd.Series(data2)
sr2 

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [28]:
data3 = [7,'g',True,8.1,9,'h']
sr3 = pd.Series(data3)
sr3

0       7
1       g
2    True
3     8.1
4       9
5       h
dtype: object

In [29]:
#인덱싱, 슬라이싱
sr1.loc[1]

'b'

In [30]:
sr1.loc[1:3]

1    b
2    c
3    d
dtype: object

In [32]:
#데이터 프레임 생성
dic1 = {'col1':sr1,'col2':sr2,'col3': sr3}
print("Data Type : ", type(dic1), "\n", dic1)
df1 = pd.DataFrame(dic1)
print("Data Type : ", type(df1), "\n", df1)

Data Type :  <class 'dict'> 
 {'col1': 0    a
1    b
2    c
3    d
4    e
5    f
dtype: object, 'col2': 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64, 'col3': 0       7
1       g
2    True
3     8.1
4       9
5       h
dtype: object}
Data Type :  <class 'pandas.core.frame.DataFrame'> 
   col1  col2  col3
0    a     1     7
1    b     2     g
2    c     3  True
3    d     4   8.1
4    e     5     9
5    f     6     h


In [33]:
df1

Unnamed: 0,col1,col2,col3
0,a,1,7
1,b,2,g
2,c,3,True
3,d,4,8.1
4,e,5,9
5,f,6,h


In [34]:
#데이터 프레임 컬럼 조작
print(df1.columns) #데이터 프레임 컬럼 정보
df1.columns = ['String', 'Number','Mix'] #데이터 프레임 컬럼명 변경
df1

Index(['col1', 'col2', 'col3'], dtype='object')


Unnamed: 0,String,Number,Mix
0,a,1,7
1,b,2,g
2,c,3,True
3,d,4,8.1
4,e,5,9
5,f,6,h


In [None]:
#openpyxl 설치
%pip install openpyxl


In [36]:
#파일을 데이터프레임으로 저장(excel)
student_data = pd.read_excel('학생명단.xlsx')
student_data

Unnamed: 0,이름,성별,나이,주소,전화번호,국어,영어,수학
0,유영식,남,46,대전 중구,010-1234-5678,91,82,73
1,구본우,남,25,대전 동구,010-1234-5679,82,93,74
2,김민환,남,25,대전 서구,010-1234-5680,71,85,78
3,심서연,여,25,대전 유성구,010-1234-5681,83,85,88
4,원유정,여,25,대전 대덕구,010-1234-5682,91,82,73
5,유병윤,남,25,대전 중구,010-1234-5683,82,93,74
6,유연수,남,25,대전 동구,010-1234-5684,71,85,78
7,윤진,여,25,대전 서구,010-1234-5685,83,85,88
8,이종문,남,25,대전 유성구,010-1234-5686,91,82,73
9,이준영,남,25,대전 동구,010-1234-5687,82,93,74


In [37]:
#파일을 데이터프레임으로 저장(txt)
daejeon_data = pd.read_csv('대전광역시.txt', delimiter='|', encoding='utf-8')
daejeon_data

Unnamed: 0,우편번호,시도,시도영문,시군구,시군구영문,읍면,읍면영문,도로명코드,도로명,도로명영문,...,법정동코드,법정동명,리명,행정동명,산여부,지번본번,읍면동일련번호,지번부번,구우편번호,우편번호일련번호
0,34316,대전광역시,Daejeon,대덕구,Daedeok-gu,,,302303010005,대청호수로,Daecheonghosu-ro,...,3023012100,갈전동,,신탄진동,0,238,2,8,,
1,34316,대전광역시,Daejeon,대덕구,Daedeok-gu,,,302303010005,대청호수로,Daecheonghosu-ro,...,3023012100,갈전동,,신탄진동,0,503,2,0,,
2,34316,대전광역시,Daejeon,대덕구,Daedeok-gu,,,302303010005,대청호수로,Daecheonghosu-ro,...,3023012100,갈전동,,신탄진동,0,498,2,0,,
3,34316,대전광역시,Daejeon,대덕구,Daedeok-gu,,,302303010005,대청호수로,Daecheonghosu-ro,...,3023012100,갈전동,,신탄진동,0,238,2,7,,
4,34316,대전광역시,Daejeon,대덕구,Daedeok-gu,,,302303010005,대청호수로,Daecheonghosu-ro,...,3023012100,갈전동,,신탄진동,0,238,2,2,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113326,35067,대전광역시,Daejeon,중구,Jung-gu,,,301404295267,모암로7번길,Moam-ro 7beon-gil,...,3014010800,호동,,석교동,0,24,1,2,,
113327,35067,대전광역시,Daejeon,중구,Jung-gu,,,301404295267,모암로7번길,Moam-ro 7beon-gil,...,3014010800,호동,,석교동,0,24,1,21,,
113328,35067,대전광역시,Daejeon,중구,Jung-gu,,,301404295267,모암로7번길,Moam-ro 7beon-gil,...,3014010800,호동,,석교동,0,24,1,2,,
113329,35065,대전광역시,Daejeon,중구,Jung-gu,,,301404295268,모암로8번길,Moam-ro 8beon-gil,...,3014010800,호동,,석교동,0,12,2,2,,


In [38]:
#데이터프레임 정보 확인
student_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      11 non-null     object
 1   성별      11 non-null     object
 2   나이      11 non-null     int64 
 3   주소      11 non-null     object
 4   전화번호    11 non-null     object
 5   국어      11 non-null     int64 
 6   영어      11 non-null     int64 
 7   수학      11 non-null     int64 
dtypes: int64(4), object(4)
memory usage: 836.0+ bytes


In [39]:
student_data.describe()

Unnamed: 0,나이,국어,영어,수학
count,11.0,11.0,11.0,11.0
mean,26.909091,82.636364,87.090909,77.0
std,6.331738,6.946549,4.846742,5.727128
min,25.0,71.0,82.0,73.0
25%,25.0,82.0,83.5,73.5
50%,25.0,82.0,85.0,74.0
75%,25.0,87.0,93.0,78.0
max,46.0,91.0,93.0,88.0


In [40]:
student_data

Unnamed: 0,이름,성별,나이,주소,전화번호,국어,영어,수학
0,유영식,남,46,대전 중구,010-1234-5678,91,82,73
1,구본우,남,25,대전 동구,010-1234-5679,82,93,74
2,김민환,남,25,대전 서구,010-1234-5680,71,85,78
3,심서연,여,25,대전 유성구,010-1234-5681,83,85,88
4,원유정,여,25,대전 대덕구,010-1234-5682,91,82,73
5,유병윤,남,25,대전 중구,010-1234-5683,82,93,74
6,유연수,남,25,대전 동구,010-1234-5684,71,85,78
7,윤진,여,25,대전 서구,010-1234-5685,83,85,88
8,이종문,남,25,대전 유성구,010-1234-5686,91,82,73
9,이준영,남,25,대전 동구,010-1234-5687,82,93,74


In [42]:
student_data.loc[:,('이름','국어','영어','수학')]

Unnamed: 0,이름,국어,영어,수학
0,유영식,91,82,73
1,구본우,82,93,74
2,김민환,71,85,78
3,심서연,83,85,88
4,원유정,91,82,73
5,유병윤,82,93,74
6,유연수,71,85,78
7,윤진,83,85,88
8,이종문,91,82,73
9,이준영,82,93,74


In [43]:
daejeon_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113331 entries, 0 to 113330
Data columns (total 26 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   우편번호      113331 non-null  int64  
 1   시도        113331 non-null  object 
 2   시도영문      113331 non-null  object 
 3   시군구       113331 non-null  object 
 4   시군구영문     113331 non-null  object 
 5   읍면        0 non-null       float64
 6   읍면영문      0 non-null       float64
 7   도로명코드     113331 non-null  int64  
 8   도로명       113331 non-null  object 
 9   도로명영문     113331 non-null  object 
 10  지하여부      113331 non-null  int64  
 11  건물번호본번    113331 non-null  int64  
 12  건물번호부번    113331 non-null  int64  
 13  건물관리번호    113331 non-null  object 
 14  다량배달처명    0 non-null       float64
 15  시군구용건물명   10968 non-null   object 
 16  법정동코드     113331 non-null  int64  
 17  법정동명      113331 non-null  object 
 18  리명        0 non-null       float64
 19  행정동명      110898 non-null  object 
 20  산여부 

In [46]:
daejeon_data = daejeon_data.loc[:,('우편번호','시도','시군구','도로명','법정동명','행정동명')]
daejeon_data

Unnamed: 0,우편번호,시도,시군구,도로명,법정동명,행정동명
0,34316,대전광역시,대덕구,대청호수로,갈전동,신탄진동
1,34316,대전광역시,대덕구,대청호수로,갈전동,신탄진동
2,34316,대전광역시,대덕구,대청호수로,갈전동,신탄진동
3,34316,대전광역시,대덕구,대청호수로,갈전동,신탄진동
4,34316,대전광역시,대덕구,대청호수로,갈전동,신탄진동
...,...,...,...,...,...,...
113326,35067,대전광역시,중구,모암로7번길,호동,석교동
113327,35067,대전광역시,중구,모암로7번길,호동,석교동
113328,35067,대전광역시,중구,모암로7번길,호동,석교동
113329,35065,대전광역시,중구,모암로8번길,호동,석교동
