1. 판다스 시리즈(Series)  
판다스의 시리즈는 1차원 배열(정수, 부동 소수점, 문자열 등을 보유할 수 있음)과 같은 데이터 구조로, 인덱스(Index)와 데이터 값(Value)이 쌍으로 구성된다.

In [2]:
import pandas as pd

# 기본 인덱스가 자동으로 부여된 Series
s = pd.Series([1, 2, 3, 4])
print(s)

# 사용자 정의 인덱스를 지정한 Series
s_custom = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s_custom)

0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


2. 판다스 데이터프레임(DataFrame)  
데이터프레임은 행(row)과 열(column)로 구성된 2차원 표 형식의 데이터로, 각 행은 데이터 레코드를 나타내고, 각 열은 서로 다른 데이터 타입을 가지며 시리즈에 해당한다.

In [3]:
import pandas as pd

# 딕셔너리로 DataFrame 생성
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 24, 35, 32],
        'City': ['New York', 'Paris', 'Berlin', 'London']}

df = pd.DataFrame(data)
print(df)

    Name  Age      City
0   John   28  New York
1   Anna   24     Paris
2  Peter   35    Berlin
3  Linda   32    London


3. NumPy  
NumPy는 Numerical Python의 줄임말로, 다차원 배열 객체인 ndarray와 배열을 효율적으로 처리하는 다양한 함수를 제공하는 강력한 성능의 파이썬 라이브러리이다. 데이터 분석, 머신러닝, 딥러닝에 필수적인 라이브러리로, 판다스와 자주 함께 사용된다.  `pip install numpy`를 입력하여 먼저 설치해야 하며, 가상환경을 사용하는 경우 해당 환경에 설치하면 된다. 설치 후 파이썬 코드에서 import numpy as np로 NumPy를 사용할 수 있다. 

In [7]:
import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3, 4])
print(arr1)   # 출력: [1 2 3 4]

# 2차원 배열 생성
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2)

print(arr2.ndim)  # 배열의 차원
print(arr2.shape)  # 배열의 형상
print(arr2.dtype)  # 배열의 데이터 타입




[1 2 3 4]
[[1 2 3]
 [4 5 6]]
2
(2, 3)
int32


In [9]:
# 1로 채워진 배열 생성
ones = np.ones((2, 2))
print(ones)

# 랜덤 값으로 채워진 배열 생성
random = np.random.rand(3, 2)
print(random)

[[1. 1.]
 [1. 1.]]
[[0.54257793 0.37765794]
 [0.42240926 0.39887301]
 [0.40255583 0.83829385]]


4. 인덱싱(Indexing)과 슬라이싱(Slicing)  
인덱싱은 배열의 특정 위치에 접근하는 방법이다. 배열 생성 후 첫 번째 원소에 접근하기 위해 arr[0]을 사용하고, 마지막 원소는 arr[-1]로 접근한다. 슬라이싱은 배열의 일부분을 잘라내는 방법이다.

In [10]:
arr = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

# 특정 요소 접근
print(arr[0, 1])  # 첫 번째 행, 두 번째 열의 값  # 출력: 20  

# 슬라이싱
print(arr[1:, :2])  # 두 번째 행부터 첫 두 열까지 슬라이싱

20
[[40 50]
 [70 80]]


5. 배열 연산 및 브로드캐스팅(Broadcasting)  
 배열 간 연산을 할 때 배열의 크기가 동일해야 하지만, 브로드캐스팅을 통해 작은 배열을 큰 배열의 크기에 맞춰 확장하여 연산을 수행할 수 있다.

In [16]:
import numpy as np

arr = np.array([1, 2, 3])
result = arr + 2  # 스칼라 2가 배열에 브로드캐스팅되어 더해짐
print(result) 

arr1 = np.array([[1, 2, 3], [4, 5, 6]])  # (2, 3) 크기의 배열
arr2 = np.array([1, 2, 3])  # (3,) 크기의 배열

result = arr1 + arr2  # arr2가 arr1의 각 행에 브로드캐스팅되어 더해짐
print(result)


[3 4 5]
[[2 4 6]
 [5 7 9]]


In [15]:
#두 배열의 크기가 브로드캐스팅 규칙에 맞지 않으면 ValueError가 발생함
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5])  # 크기가 맞지 않음

result = arr1 + arr2  # 오류 발생
print(result)

ValueError: operands could not be broadcast together with shapes (3,) (2,) 