In [2]:
import pandas as pd

print("1. DataFrame 생성 방법들")
print("-" * 30)

# 1-1. 딕셔너리로 생성
data = {
    "이름": ["김철수", "이영희", "박민수", "최수진", "정다은"],
    "나이": [25, 30, 35, 28, 32],
    "도시": ["서울", "부산", "대구", "서울", "광주"],
    "급여": [3000, 3500, 4000, 3200, 3800],
}
df = pd.DataFrame(data)
print("딕셔너리로 생성한 DataFrame:")
print(df)
print()

1. DataFrame 생성 방법들
------------------------------
딕셔너리로 생성한 DataFrame:
    이름  나이  도시    급여
0  김철수  25  서울  3000
1  이영희  30  부산  3500
2  박민수  35  대구  4000
3  최수진  28  서울  3200
4  정다은  32  광주  3800



In [3]:
data_list = [
    ["김철수", 25, "서울", 3000],
    ["이영희", 30, "부산", 3500],
    ["박민수", 35, "대구", 4000],
]
df_list = pd.DataFrame(data_list, columns=["이름", "나이", "도시", "급여"])
print("리스트로 생성한 DataFrame:")
print(df_list)
print()

리스트로 생성한 DataFrame:
    이름  나이  도시    급여
0  김철수  25  서울  3000
1  이영희  30  부산  3500
2  박민수  35  대구  4000



In [4]:
print("2. DataFrame 기본 정보")
print("-" * 30)

print("DataFrame 크기 (행, 열):", df.shape)
print("컬럼 이름들:", list(df.columns))
print("인덱스:", list(df.index))
print("데이터 타입:")
print(df.dtypes)
print()

print("기본 통계 정보:")
print(df.describe())
print()

print("DataFrame 정보 요약:")
print(df.info())
print()

2. DataFrame 기본 정보
------------------------------
DataFrame 크기 (행, 열): (5, 4)
컬럼 이름들: ['이름', '나이', '도시', '급여']
인덱스: [0, 1, 2, 3, 4]
데이터 타입:
이름    object
나이     int64
도시    object
급여     int64
dtype: object

기본 통계 정보:
              나이           급여
count   5.000000     5.000000
mean   30.000000  3500.000000
std     3.807887   412.310563
min    25.000000  3000.000000
25%    28.000000  3200.000000
50%    30.000000  3500.000000
75%    32.000000  3800.000000
max    35.000000  4000.000000

DataFrame 정보 요약:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      5 non-null      object
 1   나이      5 non-null      int64 
 2   도시      5 non-null      object
 3   급여      5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None



In [5]:
df["이름"]

0    김철수
1    이영희
2    박민수
3    최수진
4    정다은
Name: 이름, dtype: object

In [6]:
df[["이름", "도시"]]

Unnamed: 0,이름,도시
0,김철수,서울
1,이영희,부산
2,박민수,대구
3,최수진,서울
4,정다은,광주


In [7]:
df[df["나이"] >= 30]

Unnamed: 0,이름,나이,도시,급여
1,이영희,30,부산,3500
2,박민수,35,대구,4000
4,정다은,32,광주,3800


In [8]:
df[df["도시"] == "서울"]

Unnamed: 0,이름,나이,도시,급여
0,김철수,25,서울,3000
3,최수진,28,서울,3200


In [9]:
df[(df["나이"] >= 30) & (df["급여"] >= 3500)]

Unnamed: 0,이름,나이,도시,급여
1,이영희,30,부산,3500
2,박민수,35,대구,4000
4,정다은,32,광주,3800


In [10]:
df.iloc[1]

이름     이영희
나이      30
도시      부산
급여    3500
Name: 1, dtype: object

In [11]:
df.iloc[0:3, 0:2]

Unnamed: 0,이름,나이
0,김철수,25
1,이영희,30
2,박민수,35


In [12]:
df_copy = df.copy()

In [13]:
df_copy["부서"] = ["개발", "마케팅", "영업", "개발", "인사"]

In [14]:
df_copy

Unnamed: 0,이름,나이,도시,급여,부서
0,김철수,25,서울,3000,개발
1,이영희,30,부산,3500,마케팅
2,박민수,35,대구,4000,영업
3,최수진,28,서울,3200,개발
4,정다은,32,광주,3800,인사


In [16]:
df_copy["급여"] = df_copy["급여"] * 1.1

In [17]:
df_copy

Unnamed: 0,이름,나이,도시,급여,부서
0,김철수,25,서울,3630.0,개발
1,이영희,30,부산,4235.0,마케팅
2,박민수,35,대구,4840.0,영업
3,최수진,28,서울,3872.0,개발
4,정다은,32,광주,4598.0,인사


In [18]:
new_person = {
    "이름": "홍길동",
    "나이": 27,
    "도시": "인천",
    "급여": 3300,
    "부서": "디자인",
}
df_copy = pd.concat([df_copy, pd.DataFrame([new_person])], ignore_index=True)

In [19]:
df_copy

Unnamed: 0,이름,나이,도시,급여,부서
0,김철수,25,서울,3630.0,개발
1,이영희,30,부산,4235.0,마케팅
2,박민수,35,대구,4840.0,영업
3,최수진,28,서울,3872.0,개발
4,정다은,32,광주,4598.0,인사
5,홍길동,27,인천,3300.0,디자인


In [20]:
print("나이순 정렬 (오름차순):")
df.sort_values("나이")

나이순 정렬 (오름차순):


Unnamed: 0,이름,나이,도시,급여
0,김철수,25,서울,3000
3,최수진,28,서울,3200
1,이영희,30,부산,3500
4,정다은,32,광주,3800
2,박민수,35,대구,4000


In [21]:
print("나이순 정렬 (오름차순):")
df.sort_values("나이", ascending=False)

나이순 정렬 (오름차순):


Unnamed: 0,이름,나이,도시,급여
2,박민수,35,대구,4000
4,정다은,32,광주,3800
1,이영희,30,부산,3500
3,최수진,28,서울,3200
0,김철수,25,서울,3000


In [22]:
df.sort_values(["도시", "나이"])

Unnamed: 0,이름,나이,도시,급여
4,정다은,32,광주,3800
2,박민수,35,대구,4000
1,이영희,30,부산,3500
0,김철수,25,서울,3000
3,최수진,28,서울,3200


In [23]:
df.groupby("도시")["나이"].mean()

도시
광주    32.0
대구    35.0
부산    30.0
서울    26.5
Name: 나이, dtype: float64

In [27]:
df.groupby("도시").agg({"나이": "mean", "급여": ["mean", "max", "min"]})

Unnamed: 0_level_0,나이,급여,급여,급여
Unnamed: 0_level_1,mean,mean,max,min
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
광주,32.0,3800.0,3800,3800
대구,35.0,4000.0,4000,4000
부산,30.0,3500.0,3500,3500
서울,26.5,3100.0,3200,3000


In [26]:
df["도시"].unique()

array(['서울', '부산', '대구', '광주'], dtype=object)

In [28]:
df["도시"].value_counts(dropna=False)

도시
서울    2
부산    1
대구    1
광주    1
Name: count, dtype: int64

In [32]:
df.to_csv("sample_data.csv", index=False, encoding="utf-8")

In [33]:
df.to_excel("sample_data.xlsx", index=False)

In [34]:
import numpy as np

python_list = [1, 2, 3, 4, 5]
numpy_array = np.array([1, 2, 3, 4, 5])

In [35]:
numpy_array

array([1, 2, 3, 4, 5])

In [36]:
type(numpy_array)

numpy.ndarray

In [38]:
# 2-1. 리스트로부터 생성
arr1 = np.array([1, 2, 3, 4, 5])
print("1차원 배열:", arr1)

# 2-2. 2차원 배열 생성
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print("2차원 배열:")
print(arr2d)

1차원 배열: [1 2 3 4 5]
2차원 배열:
[[1 2 3]
 [4 5 6]]


In [39]:
arr3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("3차원 배열:")
print(arr3d)
print()

3차원 배열:
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]



In [40]:
zeros = np.zeros(5)

In [41]:
zeros

array([0., 0., 0., 0., 0.])

In [42]:
identity = np.eye(3)
identity

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [43]:
arange_arr = np.arange(0, 10, 2)
arange_arr

array([0, 2, 4, 6, 8])

In [44]:
linspace_arr = np.linspace(0, 1, 5)
linspace_arr

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [45]:
random_arr = np.random.random(5)
random_arr

array([0.68167314, 0.4176772 , 0.2419684 , 0.40369801, 0.01643134])

In [46]:
sample_array = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

print("배열:")
print(sample_array)
print(f"차원 (ndim): {sample_array.ndim}")
print(f"모양 (shape): {sample_array.shape}")  # (행, 열)
print(f"크기 (size): {sample_array.size}")  # 전체 원소 개수
print(f"데이터 타입 (dtype): {sample_array.dtype}")
print(f"각 원소 크기 (itemsize): {sample_array.itemsize} bytes")

배열:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
차원 (ndim): 2
모양 (shape): (3, 4)
크기 (size): 12
데이터 타입 (dtype): int64
각 원소 크기 (itemsize): 8 bytes


In [47]:
# 데이터 타입 지정
int_array = np.array([1, 2, 3], dtype=np.int32)
float_array = np.array([1, 2, 3], dtype=np.float64)
print("정수형 배열:", int_array, int_array.dtype)
print("실수형 배열:", float_array, float_array.dtype)

정수형 배열: [1 2 3] int32
실수형 배열: [1. 2. 3.] float64


In [48]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 기본 인덱싱
print("원본 배열:", arr)
print("첫 번째 원소:", arr[0])
print("마지막 원소:", arr[-1])

# 슬라이싱
print("처음 5개:", arr[:5])
print("3번째부터 7번째까지:", arr[3:8])
print("짝수 인덱스:", arr[::2])
print("역순:", arr[::-1])
print()

원본 배열: [0 1 2 3 4 5 6 7 8 9]
첫 번째 원소: 0
마지막 원소: 9
처음 5개: [0 1 2 3 4]
3번째부터 7번째까지: [3 4 5 6 7]
짝수 인덱스: [0 2 4 6 8]
역순: [9 8 7 6 5 4 3 2 1 0]



In [49]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("2차원 배열:")
print(arr2d)
print("첫 번째 행:", arr2d[0])
print("첫 번째 열:", arr2d[:, 0])
print("특정 원소 (1행 2열):", arr2d[1, 2])
print("부분 행렬:", arr2d[0:2, 1:3])

2차원 배열:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
첫 번째 행: [1 2 3]
첫 번째 열: [1 4 7]
특정 원소 (1행 2열): 6
부분 행렬: [[2 3]
 [5 6]]


In [50]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("배열 a:", a)
print("배열 b:", b)

# 기본 산술 연산
print("덧셈 (a + b):", a + b)
print("뺄셈 (a - b):", a - b)
print("곱셈 (a * b):", a * b)
print("나눗셈 (a / b):", a / b)
print("거듭제곱 (a ** 2):", a**2)

배열 a: [1 2 3 4]
배열 b: [5 6 7 8]
덧셈 (a + b): [ 6  8 10 12]
뺄셈 (a - b): [-4 -4 -4 -4]
곱셈 (a * b): [ 5 12 21 32]
나눗셈 (a / b): [0.2        0.33333333 0.42857143 0.5       ]
거듭제곱 (a ** 2): [ 1  4  9 16]


In [51]:
# 스칼라와의 연산 (브로드캐스팅)
print("스칼라와의 연산:")
print("a + 10:", a + 10)
print("a * 2:", a * 2)

스칼라와의 연산:
a + 10: [11 12 13 14]
a * 2: [2 4 6 8]


In [52]:
# 비교 연산
print("비교 연산:")
print("a > 2:", a > 2)
print("a == 3:", a == 3)

비교 연산:
a > 2: [False False  True  True]
a == 3: [False False  True False]


In [53]:
data = np.array([1, 4, 9, 16, 25])
print("원본 데이터:", data)

# 기본 수학 함수
print("제곱근:", np.sqrt(data))
print("로그:", np.log(data))
print("지수:", np.exp(np.array([1, 2, 3])))

원본 데이터: [ 1  4  9 16 25]
제곱근: [1. 2. 3. 4. 5.]
로그: [0.         1.38629436 2.19722458 2.77258872 3.21887582]
지수: [ 2.71828183  7.3890561  20.08553692]


In [54]:
# 삼각함수
angles = np.array([0, np.pi / 6, np.pi / 4, np.pi / 3, np.pi / 2])
print("각도:", angles)
print("sin 값:", np.sin(angles))
print("cos 값:", np.cos(angles))

각도: [0.         0.52359878 0.78539816 1.04719755 1.57079633]
sin 값: [0.         0.5        0.70710678 0.8660254  1.        ]
cos 값: [1.00000000e+00 8.66025404e-01 7.07106781e-01 5.00000000e-01
 6.12323400e-17]


In [55]:
# 반올림 함수
decimal_arr = np.array([1.2, 2.7, 3.1, 4.9])
print("원본:", decimal_arr)
print("반올림:", np.round(decimal_arr))
print("올림:", np.ceil(decimal_arr))
print("내림:", np.floor(decimal_arr))

원본: [1.2 2.7 3.1 4.9]
반올림: [1. 3. 3. 5.]
올림: [2. 3. 4. 5.]
내림: [1. 2. 3. 4.]


In [56]:
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("데이터:")
print(data)

print(f"합계: {np.sum(data)}")
print(f"평균: {np.mean(data)}")
print(f"중앙값: {np.median(data)}")
print(f"표준편차: {np.std(data)}")
print(f"분산: {np.var(data)}")
print(f"최댓값: {np.max(data)}")
print(f"최솟값: {np.min(data)}")
print(f"최댓값 인덱스: {np.argmax(data)}")
print(f"최솟값 인덱스: {np.argmin(data)}")

# 축(axis)별 계산
print("\n축별 계산:")
print("각 열의 합계:", np.sum(data, axis=0))  # 세로 방향
print("각 행의 합계:", np.sum(data, axis=1))  # 가로 방향

데이터:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
합계: 45
평균: 5.0
중앙값: 5.0
표준편차: 2.581988897471611
분산: 6.666666666666667
최댓값: 9
최솟값: 1
최댓값 인덱스: 8
최솟값 인덱스: 0

축별 계산:
각 열의 합계: [12 15 18]
각 행의 합계: [ 6 15 24]


In [57]:
original = np.arange(12)
print("원본 배열:", original)

# reshape: 모양 변경
reshaped = original.reshape(3, 4)
print("3x4로 변경:")
print(reshaped)

reshaped_3d = original.reshape(2, 2, 3)
print("2x2x3으로 변경:")
print(reshaped_3d)

# flatten: 1차원으로 평탄화
flattened = reshaped.flatten()
print("평탄화:", flattened)

# transpose: 전치
transposed = reshaped.T
print("전치:")
print(transposed)

원본 배열: [ 0  1  2  3  4  5  6  7  8  9 10 11]
3x4로 변경:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
2x2x3으로 변경:
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
평탄화: [ 0  1  2  3  4  5  6  7  8  9 10 11]
전치:
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


In [58]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

# concatenate: 배열 합치기
combined = np.concatenate([arr1, arr2])
print("배열 합치기:", combined)

# stack: 새로운 축으로 쌓기
stacked = np.stack([arr1, arr2])
print("세로로 쌓기:")
print(stacked)

horizontal_stack = np.hstack([arr1, arr2])
print("가로로 합치기:", horizontal_stack)

vertical_stack = np.vstack([arr1, arr2])
print("세로로 합치기:")
print(vertical_stack)

# split: 배열 분할
data = np.arange(8)
split_result = np.split(data, 4)  # 4개로 분할
print("배열 분할:", split_result)

배열 합치기: [1 2 3 4 5 6]
세로로 쌓기:
[[1 2 3]
 [4 5 6]]
가로로 합치기: [1 2 3 4 5 6]
세로로 합치기:
[[1 2 3]
 [4 5 6]]
배열 분할: [array([0, 1]), array([2, 3]), array([4, 5]), array([6, 7])]


In [59]:
data = np.array([1, 5, 3, 8, 2, 7, 4, 9, 6])
print("원본 데이터:", data)

# 조건 만족하는 원소 선택
condition = data > 5
print("5보다 큰 조건:", condition)
print("5보다 큰 원소들:", data[condition])

# where: 조건부 값 선택
result = np.where(data > 5, data, 0)  # 5보다 크면 원래값, 아니면 0
print("조건부 치환:", result)

# 여러 조건
complex_condition = (data > 3) & (data < 8)
print("3보다 크고 8보다 작은 원소:", data[complex_condition])

원본 데이터: [1 5 3 8 2 7 4 9 6]
5보다 큰 조건: [False False False  True False  True False  True  True]
5보다 큰 원소들: [8 7 9 6]
조건부 치환: [0 0 0 8 0 7 0 9 6]
3보다 크고 8보다 작은 원소: [5 7 4 6]


In [None]:
# 행렬 생성
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print("행렬 A:")
print(A)
print("행렬 B:")
print(B)

# 행렬 곱셈
matrix_mult = np.dot(A, B)  # 또는 A @ B
print("행렬 곱셈 (A @ B):")
print(matrix_mult)

# 벡터 내적
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
dot_product = np.dot(v1, v2)
print(f"벡터 내적: {dot_product}")

# 역행렬
try:
    A_inv = np.linalg.inv(A)
    print("A의 역행렬:")
    print(A_inv)
except Exception as e:
    print(f"err:{e} 역행렬이 존재하지 않습니다.")

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(A)
print("고유값:", eigenvalues)
print("고유벡터:")
print(eigenvectors)

In [62]:
# 시드 설정 (재현가능한 랜덤)
np.random.seed(42)

# 다양한 랜덤 생성
print("0~1 사이 랜덤:", np.random.random(5))
print("정규분포 랜덤:", np.random.normal(0, 1, 5))  # 평균 0, 표준편차 1
print("정수 랜덤:", np.random.randint(1, 10, 5))  # 1~9 사이 정수

# 배열 섞기
arr = np.array([1, 2, 3, 4, 5])
np.random.shuffle(arr)
print("섞인 배열:", arr)

# 랜덤 샘플링
original = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
sample = np.random.choice(original, 5, replace=False)  # 비복원추출
print("랜덤 샘플:", sample)

0~1 사이 랜덤: [0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]
정규분포 랜덤: [ 0.27904129  1.01051528 -0.58087813 -0.52516981 -0.57138017]
정수 랜덤: [6 9 1 3 7]
섞인 배열: [2 3 1 5 4]
랜덤 샘플: [9 8 6 4 2]


In [63]:
import time

size = 1000000

# Python 리스트
python_list = list(range(size))
start_time = time.time()
python_result = [x * 2 for x in python_list]
python_time = time.time() - start_time

# NumPy 배열
numpy_array = np.arange(size)
start_time = time.time()
numpy_result = numpy_array * 2
numpy_time = time.time() - start_time

print(f"Python 리스트 시간: {python_time:.4f}초")
print(f"NumPy 배열 시간: {numpy_time:.4f}초")
print(f"NumPy가 {python_time / numpy_time:.1f}배 빠름")

Python 리스트 시간: 0.0243초
NumPy 배열 시간: 0.0019초
NumPy가 13.0배 빠름
