## 데이터 과학 및 분석

### Algorithms: 알고리즘과 자료 구조 파이썬 구현체
- https://github.com/keon/algorithms
- 교육용으로 사용

In [1]:
# 설치
!pip install algorithms

Collecting algorithms
  Downloading algorithms-0.1.4-py3-none-any.whl.metadata (21 kB)
Downloading algorithms-0.1.4-py3-none-any.whl (209 kB)
Installing collected packages: algorithms
Successfully installed algorithms-0.1.4


In [4]:
# 퀵소트 / sort에서 F12로 확인해볼 것
from algorithms.sort import quick_sort

In [3]:
# 빠른 정렬 사용 예시
array = [3, 6, 8, 10, 1, 2, 1]
sorted_array = quick_sort(array)
sorted_array

[1, 1, 2, 3, 6, 8, 10]

### The Algorithms: 알고리즘과 자료 구조 파이썬 구현체
- https://the-algorithms.com/ko
- 사용할 수 있는 다양한 알고리즘과 자료 구조를 구현한 코드들의 콜렉션
- 설치하는 것 아님

### Apache PyArrow: 대규모 데이터 처리 도구
- https://arrow.apache.org/docs/python/index.html
- Apache Arrow 프로젝트의 Python 구현체. 대규모 데이터 처리를 위해 고성능의 메모리 내 데이터 구조와 효율적인 파일 형식을 제공
- pandas와 같은 라이브러리와의 호환성을 제공

In [5]:
# 설치
!pip install pyarrow

Collecting pyarrow
  Downloading pyarrow-18.1.0-cp310-cp310-win_amd64.whl.metadata (3.4 kB)
Downloading pyarrow-18.1.0-cp310-cp310-win_amd64.whl (25.1 MB)
   ---------------------------------------- 0.0/25.1 MB ? eta -:--:--
   --------------- ------------------------ 9.4/25.1 MB 58.8 MB/s eta 0:00:01
   ----------------------------------- ---- 22.5/25.1 MB 59.4 MB/s eta 0:00:01
   ---------------------------------------- 25.1/25.1 MB 53.0 MB/s eta 0:00:00
Installing collected packages: pyarrow
Successfully installed pyarrow-18.1.0


In [7]:
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd

In [8]:
# pandas DataFrame 생성
data = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c']
})

In [9]:
data

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c


In [10]:
# pandas DataFrame을 PyArrow 테이블로 변환
table = pa.Table.from_pandas(data)

In [11]:
table

pyarrow.Table
col1: int64
col2: string
----
col1: [[1,2,3]]
col2: [["a","b","c"]]

In [12]:
# PyArrow 테이블을 Parquet 파일로 저장
pq.write_table(table, 'example.parquet')

In [13]:
# Parquet 파일을 읽어 PyArrow 테이블로 변환
table_read = pq.read_table('example.parquet')

In [14]:
# PyArrow 테이블을 다시 pandas DataFrame으로 변환
df_read = table_read.to_pandas()
df_read

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c


### Faker: 가짜 데이터 생성 도구
- https://github.com/joke2k/faker
- 가짜 데이터를 생성하기 위한 라이브러리. 

In [15]:
# 설치
!pip install Faker

Collecting Faker
  Downloading Faker-33.1.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-33.1.0-py3-none-any.whl (1.9 MB)
   ---------------------------------------- 0.0/1.9 MB ? eta -:--:--
   ---------------------------------------- 1.9/1.9 MB 34.6 MB/s eta 0:00:00
Installing collected packages: Faker
Successfully installed Faker-33.1.0


In [16]:
from faker import Faker

In [17]:
# Faker 객체 생성, 원하는 로케일 설정 가능 (예: 'ko_KR'은 한국어)
fake = Faker('ko_KR')

# 가짜 이름 생성
print(fake.name())

윤은경


In [18]:
fake.name()

'류영일'

In [19]:
# 가짜 주소 생성
print(fake.address())

울산광역시 용산구 가락길 지하### (상현김읍)


In [20]:
# 가짜 이메일 생성
print(fake.email())

jiweon20@example.org


In [21]:
# 가짜 문장 생성
print(fake.sentence())

Quo vero atque magnam ullam velit nobis voluptas.


In [22]:
fake.bank_country()

'GB'

- 이를 반복문을 통해 가짜 데이터를 수천개를 자동으로 만들어 활용가능
- [예제](https://github.com/hugoMGSung/works-need-it-data-analysis/blob/5ab09753d4f5cd721641227527d1df804e8df531/bigdata-python-2023/Day04/py28_faker_test.py#L4)

### Jupyter: 웹 기반 대화형 컴퓨팅 환경
- https://jupyter.org/
- 여러 프로그래밍 언어를 지원하는 오픈 소스 웹 애플리케이션
    - Python 외에도 R, Julia, Scala 등 다양한 프로그래밍 언어를 지원
- 데이터 과학, 수치 시뮬레이션, 통계 모델링, 기계 학습 등의 분야에서 사용


#### Pyvis: 대화형 네트워크 그래프 시각화
- https://pyvis.readthedocs.io/en/latest/#
- 대화형 네트워크 그래프를 쉽게 시각화하고 탐색할 수 있도록 하는 라이브러리

In [23]:
# 설치
!pip install pyvis

Collecting pyvis
  Downloading pyvis-0.3.2-py3-none-any.whl.metadata (1.7 kB)
Collecting jsonpickle>=1.4.1 (from pyvis)
  Downloading jsonpickle-4.0.1-py3-none-any.whl.metadata (8.2 kB)
Collecting networkx>=1.11 (from pyvis)
  Using cached networkx-3.4.2-py3-none-any.whl.metadata (6.3 kB)
Downloading pyvis-0.3.2-py3-none-any.whl (756 kB)
   ---------------------------------------- 0.0/756.0 kB ? eta -:--:--
   --------------------------------------- 756.0/756.0 kB 10.5 MB/s eta 0:00:00
Downloading jsonpickle-4.0.1-py3-none-any.whl (46 kB)
Using cached networkx-3.4.2-py3-none-any.whl (1.7 MB)
Installing collected packages: networkx, jsonpickle, pyvis
Successfully installed jsonpickle-4.0.1 networkx-3.4.2 pyvis-0.3.2


In [24]:
from pyvis.network import Network

In [25]:
# 네트워크 객체 생성  
net = Network(notebook=True)

# 노드 추가
net.add_node(1, label='Node 1')
net.add_node(2, label='Node 2')

# 엣지 추가
net.add_edge(1, 2)



In [26]:
# 네트워크 시각화
net.show('mygraph.html')

mygraph.html


### Kiwisolver: 효율적인 제약 조건 해결 알고리즘
- https://github.com/nucleic/kiwi
- 효율적인 제약 조건 해결 알고리즘을 구현한 Python 라이브러리
- Cassowary 제약 해결 시스템을 기반으로 하며, 주로 복잡한 UI 레이아웃이나 그래픽 디자인에서의 크기와 위치 조정 같은 문제를 해결

In [27]:
# 설치
!pip install kiwisolver

Collecting kiwisolver
  Downloading kiwisolver-1.4.8-cp310-cp310-win_amd64.whl.metadata (6.3 kB)
Downloading kiwisolver-1.4.8-cp310-cp310-win_amd64.whl (71 kB)
Installing collected packages: kiwisolver
Successfully installed kiwisolver-1.4.8


In [28]:
from kiwisolver import Solver, Variable

In [29]:
# 변수 생성
x = Variable('x')
y = Variable('y')

In [30]:
# 솔버 인스턴스 생성
solver = Solver()

# 제약 조건 추가: x + y == 10
solver.addConstraint(x + y == 10)

# 추가 제약 조건: x * 2 == y
solver.addConstraint(x * 2 == y)

# 문제 해결
solver.updateVariables()

In [31]:
# 결과 출력
print(f'x: {x.value()}, y: {y.value()}')

x: 3.333333333333333, y: 6.666666666666667


- 두 변수 x와 y에 대한 두 개의 선형 제약 조건을 정의하고, 이를 만족하는 값을 추출