데이터과학은 일반적으로 **파이썬**과 **R**를 이용합니다. 우리 수업에서는 파이썬을 이용하기 때문에, 이번 수업시간에는 파이썬을 이용하여 데이터를 다루는 법에 대하여 살펴보겠습니다. 결론부터 말씀드리면, 파이썬에서 데이터를 다루는 내용은 주로 pandas를 이용합니다. 정제되지 않은 자료를 처리하기 위해서 numpy 혹은 기본 자료형인 컨테이너형 자료를 쓰기도 합니다.
> ref: <https://jakevdp.github.io/PythonDataScienceHandbook/>

In [None]:
import numpy as np
import pandas as pd

print(pd.__version__)

2.0.3


## 직접 입력하기

판다스 데이터프레임은 표형식으로 되어있고, 판다스 시리즈는 프레임의 한줄에 인덱스가 붙어서 나옴.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
data[1]

0.5

In [9]:
data[1:3]

5    0.50
3    0.75
dtype: float64

In [11]:
# 인덱스 추가하기
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [12]:
data['b']  # 앞에서는 data[1]로 접근하였음

0.5

In [14]:
# 인덱스를 바꿔줄 수도 있음.

data.index = [2,5,3,7]
data

# data = pd.Series([0.25, 0.5, 0.75, 1.0],
#                  index=[2, 5, 3, 7])
# data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [8]:
data[5] # 6번째 자료가 아님

0.5

In [15]:
# 사전형을 이용하여 생성하기
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

인덱스에 주 이름이 들어감. $\to$ 뽑아올 때도 주이름으로 뽑아오면 됨.

In [16]:
population['California']

38332521

In [18]:
population['California':'Illinois'] # 원래의 규칙이 깨지는데?

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

우리가 알고있는 규칙에 따르면 Illinois 전까지 나와야 하는데, 인덱스에 이름을 주니까 인덱스의 처음부터 끝까지 다 나온다.

In [19]:
# 사전형으로 인구수 외에 면적도 생성하여, 데이터프레임(df) 만들기
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [21]:
states = pd.DataFrame({'population':population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [23]:
# 데이터프레임의 행(인덱스)와 열(컬럼명) 살펴보기
print(states.index)
print(states.columns)

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


In [24]:
# Seies 객체를 데이터프레임으로 바꾸려면,
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [25]:
# 지능형 리스트를 이용하여 사전형 자료를 만들고, 데이터프레임 생성
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [27]:
[{'a':i, 'b':2 *i} for i in range(3)]

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [28]:
# 빈값이 있는 경우
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


- 센서가 갑자기 멈추거나 네트워크가 끊겨 빈 값이 생기는 경우가 있다.
- 가장 기본적인 방법은 데이터를 지우는 것이고, 다른값으로 추정하여 대치하는 방법이 있다.

In [29]:
# 2차원 배열을 데이터프레임으로 바꾸는 경우
pd.DataFrame(np.random.rand(3,2),
             columns = ['foo', 'bar'],
             index = ['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.277854,0.973513
b,0.614319,0.11682
c,0.934636,0.069115


In [30]:
# 데이터프레임의 인덱스는 순서가 있는 집합(ordered set)
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print(indA & indB)  # intersection
print(indA | indB)  # union
print(indA ^ indB)  # symmetric difference

Index([0, 3, 5, 7, 9], dtype='int64')
Index([3, 3, 5, 7, 11], dtype='int64')
Index([3, 0, 0, 0, 2], dtype='int64')


In [31]:
indA

Index([1, 3, 5, 7, 9], dtype='int64')

In [32]:
indB

Index([2, 3, 5, 7, 11], dtype='int64')

In [33]:
print(indA.intersection(indB))  # intersection
print(indA.union(indB))  # union
print(indA.symmetric_difference(indB))  # symmetric difference

Index([3, 5, 7], dtype='int64')
Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Index([1, 2, 9, 11], dtype='int64')


## 텍스트 파일 읽어서 처리하기 (txt)

In [54]:
with open("data/housing_sample.csv", "r") as f: # 집 값에 대한 데이터
  for line in f:
    print(line.strip())

longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY
-122.26,37.85,52.0,2202.0,434.0,910.0,402.0,3.2031,281500.0,NEAR BAY
-122.26,37.85,52.0,3503.0,752.0,1504.0,734.0,3.2705,241800.0,NEAR BAY
-122.26,37.85,52.0,2491.0,474.0,

In [55]:
header = []
dataset = []
with open("data/housing_sample.csv", "r") as f:
  for i, line in enumerate(f):
    if i == 0:
      header = line.strip().split(",")
      continue
    dataset.append(line.strip().split(","))
    if i > 5:
      break

print("제목줄은, ", header)
print("내용은")
print(dataset)

제목줄은,  ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity']
내용은
[['-122.23', '37.88', '41.0', '880.0', '129.0', '322.0', '126.0', '8.3252', '452600.0', 'NEAR BAY'], ['-122.22', '37.86', '21.0', '7099.0', '1106.0', '2401.0', '1138.0', '8.3014', '358500.0', 'NEAR BAY'], ['-122.24', '37.85', '52.0', '1467.0', '190.0', '496.0', '177.0', '7.2574', '352100.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '1274.0', '235.0', '558.0', '219.0', '5.6431', '341300.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '1627.0', '280.0', '565.0', '259.0', '3.8462', '342200.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '919.0', '213.0', '413.0', '193.0', '4.0368', '269700.0', 'NEAR BAY']]


## CSV 파일 이용하기 (csv)

In [56]:
import csv
header = []
dataset = []
with open("data/housing_sample.csv", "r") as f:
  csv_reader = csv.reader(f)
  for i, line in enumerate(csv_reader):
    if i == 0:
      header = line
      continue
    dataset.append(line)
    if i > 5:
      break

print("제목줄은, ", header)
print("내용은")
print(dataset)

제목줄은,  ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity']
내용은
[['-122.23', '37.88', '41.0', '880.0', '129.0', '322.0', '126.0', '8.3252', '452600.0', 'NEAR BAY'], ['-122.22', '37.86', '21.0', '7099.0', '1106.0', '2401.0', '1138.0', '8.3014', '358500.0', 'NEAR BAY'], ['-122.24', '37.85', '52.0', '1467.0', '190.0', '496.0', '177.0', '7.2574', '352100.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '1274.0', '235.0', '558.0', '219.0', '5.6431', '341300.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '1627.0', '280.0', '565.0', '259.0', '3.8462', '342200.0', 'NEAR BAY'], ['-122.25', '37.85', '52.0', '919.0', '213.0', '413.0', '193.0', '4.0368', '269700.0', 'NEAR BAY']]


In [59]:
# csv 파일 읽어서 엑셀로 저장
import csv
header = []
dataset = []
with open("data/housing_sample.csv", "r") as f:
  csv_reader = csv.reader(f)
  for i, line in enumerate(csv_reader):
    if i == 0:
      header = line
      continue
    dataset.append(line)
df = pd.DataFrame(dataset, columns=header)
df.to_excel("./data/housing_test.xlsx", index=False)

ModuleNotFoundError: No module named 'openpyxl'