<a href="https://colab.research.google.com/github/coderzaman/Numpy-For-AI-ML/blob/main/Numpy_For__AI_ML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introduction to NumPy**


NumPy stands for **Num**erical **Py**thon. It's a fundamental library for scientific computing in Python.

At its core, NumPy provides a powerful object called an `ndarray`, which stands for **n-dimensional array**. This object is the key to NumPy's speed and power.

-----

## **Why is NumPy Faster than a Python List?**

While a NumPy `ndarray` might seem similar to a Python `list`, it has crucial architectural differences that make it significantly faster for numerical operations. The two main reasons are **data type homogeneity** and **contiguous memory layout**.

### **1. Homogeneous Data Types**

A NumPy array is **homogeneous**, meaning all elements inside the array must be of the **same data type** (e.g., all 32-bit integers or all 64-bit floats).

  * **NumPy `ndarray`**: Since every element is the same type, NumPy knows exactly how much memory each element takes up and doesn't need to perform type-checking when iterating or performing operations.
  * **Python `list`**: A list is **heterogeneous**. It can contain different data types (`int`, `string`, `object`, etc.). When you perform an operation on a list, Python must check the data type of each element before it can proceed, which adds significant overhead and slows down the process.

### **2. Contiguous Memory Layout**

This is the most important reason for NumPy's speed advantage.

  * **NumPy `ndarray`**: Array data is stored in a single, **contiguous block of memory**. This means if the first element is at memory address 1000, the next element (of the same integer type) will be right next to it at 1004, the next at 1008, and so on. Computers are highly optimized to work with contiguous memory blocks. This is often called being "cache-friendly."

  * **Python `list`**: A list doesn't store the actual data items contiguously. Instead, it stores **pointers** to objects that are scattered across different locations in memory. To access the next item, the program has to follow the pointer to find it, an extra step that slows things down.

-----

## **The Power of Vectorization & SIMD(Single Instruction Multiple Data)**

These two features—homogeneous types and contiguous memory—unlock a powerful programming paradigm called **vectorization**.

**Vectorization** is the process of executing operations on entire arrays at once, instead of iterating through elements one by one with a `for` loop.

For example, to multiply every element in a list by 5, you would write a loop:

```python
my_list = [1, 2, 3, 4, 5]
for i in range(len(my_list)):
    my_list[i] = my_list[i] * 5
```

With NumPy, you can perform this operation on the whole array in a single line:

```python
import numpy as np
my_array = np.array([1, 2, 3, 4, 5])
my_array = my_array * 5 # This is vectorization!
```

This is possible because NumPy can pass the entire block of contiguous data to highly optimized, pre-compiled C code. This code, in turn, can leverage modern CPU features like **SIMD (Single Instruction, Multiple Data)**. SIMD allows a single CPU instruction (e.g., "multiply by 5") to be performed on multiple data elements simultaneously, leading to massive performance gains.

-----

## **What Else is NumPy Used For? 🧑‍🔬**

Because of its speed and efficiency, NumPy is the foundation of the scientific Python ecosystem. It provides a vast library of high-level mathematical functions that operate on `ndarray`s, including:

  * **Linear Algebra**: Matrix multiplication, determinants, solving linear equations, and more.
  * **Statistics**: Calculating mean, median, standard deviation, etc.
  * **Fourier Transforms** and routines for shape manipulation.
  * It serves as the underlying data structure for other major libraries, most notably **Pandas**, **SciPy**, and **Scikit-learn**.

# **NumPy পরিচিতি**


NumPy-এর পূর্ণরূপ হলো **Num**erical **Py**thon। এটি পাইথনে সায়েন্টিফিক কম্পিউটিং-এর জন্য একটি মৌলিক লাইব্রেরি।

NumPy-এর কেন্দ্রে রয়েছে `ndarray` নামক একটি শক্তিশালী অবজেক্ট, যার অর্থ **n-dimensional array** (এন-ডাইমেনশনাল অ্যারে)। এই অবজেক্টটিই NumPy-এর গতি এবং ক্ষমতার মূল চাবিকাঠি।

-----

## **NumPy কেন Python List-এর চেয়ে দ্রুত?**

যদিও একটি NumPy `ndarray`-কে পাইথনের `list`-এর মতোই মনে হতে পারে, তবে এর কিছু গুরুত্বপূর্ণ আর্কিটেকচারাল পার্থক্য রয়েছে যা এটিকে নিউমেরিক্যাল অপারেশনের জন্য অনেক বেশি দ্রুত করে তোলে। এর দুটি প্রধান কারণ হলো **সমজাতীয় ডেটা টাইপ** এবং **ধারাবাহিক মেমরি লেআউট**।

### **১. সমজাতীয় ডেটা টাইপ (Homogeneous Data Types)**

একটি NumPy অ্যারে **সমজাতীয় (homogeneous)** হয়, অর্থাৎ অ্যারের ভিতরের সমস্ত উপাদান অবশ্যই **একই ডেটা টাইপের** হতে হবে (যেমন, সব 32-bit integer অথবা সব 64-bit float)।

  * **NumPy `ndarray`**: যেহেতু প্রতিটি উপাদান একই ধরনের, তাই NumPy ঠিকভাবে জানে প্রতিটি উপাদানের জন্য কতটা মেমরি প্রয়োজন। এর ফলে কোনো অপারেশন চালানোর সময় ডেটা টাইপ চেক করার প্রয়োজন হয় না।
  * **Python `list`**: একটি লিস্ট **বিষমজাতীয় (heterogeneous)** হতে পারে। এতে বিভিন্ন ডেটা টাইপের উপাদান (`int`, `string`, `object` ইত্যাদি) থাকতে পারে। যখন একটি লিস্টের উপর কোনো অপারেশন করা হয়, তখন পাইথনকে প্রতিটি উপাদানের ডেটা টাইপ পরীক্ষা করতে হয়, যা অতিরিক্ত সময় নেয় এবং প্রক্রিয়াটিকে ধীর করে দেয়।

### **২. ধারাবাহিক মেমরি লেআউট (Contiguous Memory Layout)**

NumPy-এর গতির পেছনে এটিই সবচেয়ে গুরুত্বপূর্ণ কারণ।

  * **NumPy `ndarray`**: অ্যারের ডেটা একটিমাত্র, **ধারাবাহিক মেমরি ব্লকে (contiguous block of memory)** সংরক্ষিত থাকে। এর মানে হলো, যদি প্রথম উপাদানটি মেমরি অ্যাড্রেস 1000-এ থাকে, তবে পরবর্তী (একই টাইপের) উপাদানটি ঠিক তার পাশেই 1004-এ থাকবে, তার পরেরটি 1008-এ, এবং এভাবেই চলতে থাকবে। কম্পিউটার এই ধরনের ধারাবাহিক মেমরি ব্লকের সাথে কাজ করতে অত্যন্ত অপ্টিমাইজড। একে প্রায়শই "ক্যাশ-ফ্রেন্ডলি" (cache-friendly) বলা হয়।

  * **Python `list`**: একটি লিস্ট তার আসল ডেটা আইটেমগুলো ধারাবাহিকভাবে সংরক্ষণ করে না। পরিবর্তে, এটি মেমরির বিভিন্ন স্থানে ছড়িয়ে ছিটিয়ে থাকা অবজেক্টগুলোর **পয়েন্টার (pointers)** সংরক্ষণ করে। পরবর্তী আইটেমটি অ্যাক্সেস করার জন্য, প্রোগ্রামকে সেই পয়েন্টার অনুসরণ করে তাকে খুঁজে বের করতে হয়, যা একটি অতিরিক্ত ধাপ এবং প্রক্রিয়াটিকে ধীর করে দেয়।

-----

## **ভেক্টরাইজেশন এবং SIMD(Single Instruction Multiple Data)-এর শক্তি**

এই দুটি বৈশিষ্ট্য—সমজাতীয় টাইপ এবং ধারাবাহিক মেমরি—একটি শক্তিশালী প্রোগ্রামিং কৌশলকে সম্ভব করে তোলে, যার নাম **ভেক্টরাইজেশন (vectorization)**।

**ভেক্টরাইজেশন** হলো `for` লুপ ব্যবহার করে এক এক করে উপাদানের উপর কাজ না করে, একবারে পুরো অ্যারের উপর অপারেশন চালানো।

উদাহরণস্বরূপ, একটি লিস্টের প্রতিটি উপাদানকে 5 দিয়ে গুণ করতে, আপনাকে একটি লুপ লিখতে হবে:

```python
my_list = [1, 2, 3, 4, 5]
for i in range(len(my_list)):
    my_list[i] = my_list[i] * 5
```

কিন্তু NumPy ব্যবহার করে, আপনি এই কাজটি একটিমাত্র লাইনে পুরো অ্যারের উপর করতে পারেন:

```python
import numpy as np
my_array = np.array([1, 2, 3, 4, 5])
my_array = my_array * 5 # এটাই ভেক্টরাইজেশন!
```

এটি সম্ভব কারণ NumPy পুরো ধারাবাহিক ডেটা ব্লকটিকে অত্যন্ত অপ্টিমাইজড এবং প্রি-কম্পাইলড C কোডের কাছে পাঠাতে পারে। এই C কোডটি আধুনিক CPU-এর **SIMD (Single Instruction, Multiple Data)**-এর মতো ফিচার ব্যবহার করতে পারে। SIMD একটিমাত্র CPU নির্দেশকে (যেমন, "5 দ্বারা গুণ করো") একই সময়ে একাধিক ডেটা উপাদানের উপর প্রয়োগ করতে দেয়, যার ফলে গতি বৃদ্ধি পায়।

-----

## **NumPy আর কী কী কাজে ব্যবহৃত হয়? 🧑‍🔬**

এর গতি এবং কার্যকারিতার কারণে, NumPy সায়েন্টিফিক পাইথন ইকোসিস্টেমের ভিত্তি। এটি `ndarray`-এর উপর কাজ করার জন্য উচ্চ-স্তরের গাণিতিক ফাংশনের একটি বিশাল লাইব্রেরি সরবরাহ করে, যার মধ্যে রয়েছে:

  * **রৈখিক বীজগণিত (Linear Algebra)**: ম্যাট্রিক্স গুণ, ডিটারমিন্যান্ট, রৈখিক সমীকরণ সমাধান এবং আরও অনেক কিছু।
  * **পরিসংখ্যান (Statistics)**: গড় (mean), মধ্যক (median), স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation) ইত্যাদি গণনা করা।
  * **ফুরিয়ার ট্রান্সফর্ম** এবং শেপ ম্যানিপুলেশনের জন্য বিভিন্ন রুটিন।
  * এটি অন্যান্য প্রধান লাইব্রেরি যেমন **Pandas**, **SciPy**, এবং **Scikit-learn**-এর মূল ডেটা স্ট্রাকচার হিসাবে কাজ করে।

# **The NumPy `ndarray` and its Attributes**

As we've learned, the core of NumPy is the **`ndarray`** (N-dimensional array). It's a collection of one or more items of the **same data type**.

Let's first understand the problem it solves by looking at a standard Python list.

-----

## **The Problem with Python Lists**

If you try to perform a mathematical operation like multiplication on a list, it doesn't behave as you might expect for numerical tasks.

```python
# A standard Python list
arr_list = [1, 2, 3]

# Multiplying the list by 5
print(arr_list * 5)
```

**Output:** `[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]`

Instead of multiplying each element by 5, Python **duplicates the list** 5 times. To get the desired result, you need to use a loop or list comprehension, which is slower for large datasets.

```python
# Using a loop to multiply each item
multiplied_list = [item * 5 for item in arr_list]
print(multiplied_list)
```

**Output:** `[5, 10, 15]`

-----

## **NumPy Arrays: The Solution ✨**

NumPy arrays allow you to perform these operations directly on the entire array. This is called **vectorization**, and it uses low-level features like **SIMD** to execute the operation on all elements at once, making it incredibly fast.

### **Creating a NumPy Array**

First, we need to import the NumPy package. The standard convention is to import it as `np`.

```python
import numpy as np

# Creating a NumPy array from a list
arr1 = np.array([1, 2, 3])

print(arr1 * 5)
print(type(arr1))
```

**Output:**

```
[ 5 10 15]
<class 'numpy.ndarray'>
```

-----

## **Dimensions in NumPy Arrays**

NumPy arrays can have any number of dimensions.

### **1D Array (Vector)**

A 1D array is the simplest form, like a single list.

```python
arr1 = np.array([1, 2, 3])
```

### **2D Array (Matrix)**

A 2D array is like a table with rows and columns. It's essentially an array of arrays.

```python
arr2 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
```

### **3D Array (Tensor)**

A 3D array can be visualized as a **collection of 2D arrays (matrices)** stacked on top of each other. This is very common in areas like image processing, where an image can be represented as three 2D arrays: one for the Red channel, one for Green, and one for Blue.

You can think of it as having **depth (or layers), rows, and columns**.

```python
arr3 = np.array([
    # First Layer (or Matrix)
    [
      [1, 2, 3],
      [4, 5, 6]
    ],
    # Second Layer (or Matrix)
    [
      [7, 8, 9],
      [10, 11, 12]
    ]
])
```

-----

## **Key Array Attributes**

You can inspect the properties of an `ndarray` using its attributes.

### **`.ndim`**

This attribute tells you the **number of dimensions** (or axes) of the array.

```python
print(f"arr1 dimensions: {arr1.ndim}") # Output: 1
print(f"arr2 dimensions: {arr2.ndim}") # Output: 2
print(f"arr3 dimensions: {arr3.ndim}") # Output: 3
```

### **`.shape`**

This attribute returns a **tuple** representing the size of the array in each dimension. It's one of the most important attributes.

```python
print(f"arr1 shape: {arr1.shape}")
print(f"arr2 shape: {arr2.shape}")
print(f"arr3 shape: {arr3.shape}")
```

**Output:**

```
arr1 shape: (3,)
arr2 shape: (2, 3)
arr3 shape: (2, 2, 3)
```

**How to read the shape tuple:**

  * `(3,)`: This is a **1D array** with **3 elements** along its single axis.
  * `(2, 3)`: This is a **2D array** with **2 rows** and **3 columns**.
  * `(2, 2, 3)`: This is a **3D array**. You can read it from left to right: It has **2 layers/matrices**. Each matrix has **2 rows** and **3 columns**.

### **`.size`**

This attribute gives you the **total number of elements** in the array. It's simply the product of the numbers in the shape tuple.

```python
print(f"arr1 size: {arr1.size}") # Output: 3
print(f"arr2 size: {arr2.size}") # Output: 2 * 3 = 6
print(f"arr3 size: {arr3.size}") # Output: 2 * 2 * 3 = 12
```

-----

### **`.dtype`**

The **`.dtype`** (data type) attribute is crucial. It tells you exactly what kind of data is stored inside the NumPy array. Since every element in a NumPy array must be of the **same type**, this attribute defines the type for the entire array.

This uniformity is a cornerstone of NumPy's efficiency. Knowing the exact data type allows NumPy to store the data in a compact, predictable way and use optimized, low-level functions for computation.

-----

### **How NumPy Determines `dtype`**

When you create a NumPy array without specifying a type, NumPy **infers** the most suitable `dtype` from the input data.

  * If you provide only integers, it will choose an integer type (like `int64`).
  * If you include even one floating-point number, it will promote the entire array to a float type (like `float64`) to avoid losing information.

Let's look at the arrays we created earlier, which all contained only integers:

```python
import numpy as np

# Let's redefine our arrays for clarity
arr1 = np.array([1, 2, 3])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
arr3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

print(f"arr1 dtype: {arr1.dtype}")
print(f"arr2 dtype: {arr2.dtype}")
print(f"arr3 dtype: {arr3.dtype}")
```

**Expected Output:**

```
arr1 dtype: int64
arr2 dtype: int64
arr3 dtype: int64
```

*(Note: The output might be `int32` on some systems, but `int64` is common. It refers to a 64-bit integer.)*

-----

### **Specifying `dtype` Manually ✍️**

You can also explicitly tell NumPy what data type to use during creation. This is useful for controlling memory usage or ensuring precision.

```python
# Create an array of 64-bit floating-point numbers
float_arr = np.array([1, 2, 3], dtype=np.float64)

print(f"Original array: {arr1}, dtype: {arr1.dtype}")
print(f"New float array: {float_arr}, dtype: {float_arr.dtype}")
```

**Output:**

```
Original array: [1 2 3], dtype: int64
New float array: [1. 2. 3.], dtype: float64
```

Notice how NumPy added a decimal point to the numbers in `float_arr` to show they are now floats.

In [3]:
arr = [1,2,3]
print(arr*5) # it not multipy 5 on it. It duplicate this array to 5 times
# for multiplying 5 with each item we need loop which slower the operaton
arr = [i*5 for i in arr]
print(arr)

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
[5, 10, 15]


But when we use numpy array which SIMD to allow to one single operation multipy all item with value

In [5]:
import numpy as np
arr = np.array([1,2,3])
print(arr*5)

[ 5 10 15]


# **NumPy `ndarray` এবং এর অ্যাট্রিবিউটসমূহ**

আমরা আগেই জেনেছি যে NumPy-এর মূল ভিত্তি হলো **`ndarray`** (N-dimensional array)। এটি **একই ডেটা টাইপের** এক বা একাধিক আইটেমের একটি কালেকশন।

প্রথমে চলুন দেখি, এটি কোন সমস্যার সমাধান করে এবং সাধারণ পাইথন লিস্টের সাথে এর পার্থক্য কোথায়।

-----

## **পাইথন লিস্টের সমস্যা**

আপনি যদি একটি সাধারণ পাইথন লিস্টের উপর গুণ করার মতো গাণিতিক অপারেশন করতে চান, তবে এটি নিউমেরিক্যাল কাজের জন্য প্রত্যাশিত আচরণ করে না।

```python
# একটি সাধারণ পাইথন লিস্ট
arr_list = [1, 2, 3]

# লিস্টকে 5 দিয়ে গুণ করা হলো
print(arr_list * 5)
```

**আউটপুট:** `[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]`

এখানে প্রতিটি উপাদানকে 5 দিয়ে গুণ না করে, পাইথন লিস্টটিকে 5 বার **ডুপ্লিকেট** বা পুনরাবৃত্তি করেছে। কাঙ্ক্ষিত ফলাফল পেতে, আপনাকে একটি লুপ বা লিস্ট কম্প্রিহেনশন ব্যবহার করতে হবে, যা বড় ডেটাসেটের জন্য ধীরগতির।

```python
# প্রতিটি আইটেমকে গুণ করার জন্য লুপ ব্যবহার
multiplied_list = [item * 5 for item in arr_list]
print(multiplied_list)
```

**আউটপুট:** `[5, 10, 15]`

-----

## **NumPy অ্যারে: সমাধান ✨**

NumPy অ্যারে আপনাকে এই ধরনের অপারেশন সরাসরি পুরো অ্যারের উপর করতে দেয়। একে **ভেক্টরাইজেশন (vectorization)** বলা হয় এবং এটি **SIMD**-এর মতো নিম্ন-স্তরের ফিচার ব্যবহার করে সব উপাদানের উপর একই সাথে অপারেশন চালায়, যা এটিকে অবিশ্বাস্যভাবে দ্রুত করে তোলে।

### **NumPy অ্যারে তৈরি করা**

প্রথমে, আমাদের NumPy প্যাকেজটি ইম্পোর্ট করতে হবে। সাধারণত এটিকে `np` হিসেবে ইম্পোর্ট করা হয়।

```python
import numpy as np

# একটি লিস্ট থেকে NumPy অ্যারে তৈরি করা
arr1 = np.array([1, 2, 3])

print(arr1 * 5)
print(type(arr1))
```

**আউটপুট:**

```
[ 5 10 15]
<class 'numpy.ndarray'>
```

-----

## **NumPy অ্যারেতে ডাইমেনশন (Dimension)**

NumPy অ্যারে যেকোনো সংখ্যক ডাইমেনশনের হতে পারে।

### **1D অ্যারে (ভেক্টর)**

1D অ্যারে হলো সবচেয়ে সহজ রূপ, যা একটি সাধারণ লিস্টের মতো।

```python
arr1 = np.array([1, 2, 3])
```

### **2D অ্যারে (ম্যাট্রিক্স)**

একটি 2D অ্যারে হলো সারি (row) এবং কলাম (column) সহ একটি টেবিলের মতো। এটি মূলত একটি অ্যারের ভিতরে থাকা একাধিক অ্যারে।

```python
arr2 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
```

### **3D অ্যারে (টেনসর)**

একটি 3D অ্যারে-কে কয়েকটি **2D অ্যারের (ম্যাট্রিক্স)** একটি স্ট্যাক বা floor হিসাবে কল্পনা করা যেতে পারে। এটি ইমেজ প্রসেসিং-এর মতো ক্ষেত্রে খুব সাধারণ, যেখানে একটি ছবিকে তিনটি 2D অ্যারে হিসাবে প্রকাশ করা হয়: একটি লাল (Red) চ্যানেলের জন্য, একটি সবুজ (Green) চ্যানেলের জন্য এবং একটি নীল (Blue) চ্যানেলের জন্য।

আপনি এটিকে **গভীরতা (depth), সারি (row) এবং কলাম (column)** হিসেবে ভাবতে পারেন।

```python
arr3 = np.array([
    # প্রথম স্তর (বা ম্যাট্রিক্স)
    [
      [1, 2, 3],
      [4, 5, 6]
    ],
    # দ্বিতীয় স্তর (বা ম্যাট্রিক্স)
    [
      [7, 8, 9],
      [10, 11, 12]
    ]
])
```

-----

## **অ্যারের কিছু গুরুত্বপূর্ণ অ্যাট্রিবিউট**

আপনি একটি `ndarray`-এর বৈশিষ্ট্যগুলো তার অ্যাট্রিবিউট ব্যবহার করে জানতে পারেন।

### **`.ndim`**

এই অ্যাট্রিবিউটটি অ্যারের **ডাইমেনশন সংখ্যা** (বা অক্ষের সংখ্যা) দেখায়।

```python
print(f"arr1 ডাইমেনশন: {arr1.ndim}") # আউটপুট: 1
print(f"arr2 ডাইমেনশন: {arr2.ndim}") # আউটপুট: 2
print(f"arr3 ডাইমেনশন: {arr3.ndim}") # আউটপুট: 3
```

### **`.shape`**

এই অ্যাট্রিবিউটটি একটি **টাপল (tuple)** রিটার্ন করে যা প্রতিটি ডাইমেনশনে অ্যারের আকার দেখায়। এটি সবচেয়ে গুরুত্বপূর্ণ অ্যাট্রিবিউটগুলোর মধ্যে একটি।

```python
print(f"arr1-এর শেপ: {arr1.shape}")
print(f"arr2-এর শেপ: {arr2.shape}")
print(f"arr3-এর শেপ: {arr3.shape}")
```

**আউটপুট:**

```
arr1-এর শেপ: (3,)
arr2-এর শেপ: (2, 3)
arr3-এর শেপ: (2, 2, 3)
```

**শেপ টাপলটি কীভাবে পড়বেন:**

  * `(3,)`: এটি একটি **1D অ্যারে** যার একটিমাত্র অক্ষে **3টি উপাদান** আছে।
  * `(2, 3)`: এটি একটি **2D অ্যারে** যার **2টি সারি (row)** এবং **3টি কলাম (column)** আছে।
  * `(2, 2, 3)`: এটি একটি **3D অ্যারে**। এটিকে বাম থেকে ডানে পড়ুন: এতে **2টি স্তর/ম্যাট্রিক্স** আছে। প্রতিটি ম্যাট্রিক্সে **2টি সারি** এবং **3টি কলাম** আছে।

### **`.size`**

এই অ্যাট্রিবিউটটি অ্যারের **মোট উপাদান সংখ্যা** দেখায়। এটি শেপ টাপলের সংখ্যাগুলোর গুণফল।

```python
print(f"arr1-এর সাইজ: {arr1.size}") # আউটপুট: 3
print(f"arr2-এর সাইজ: {arr2.size}") # আউটপুট: 2 * 3 = 6
print(f"arr3-এর সাইজ: {arr3.size}") # আউটপুট: 2 * 2 * 3 = 12
```
___

### **`.dtype`**

**`.dtype`** (data type) অ্যাট্রিবিউটটি অত্যন্ত গুরুত্বপূর্ণ। এটি আপনাকে বলে দেয় যে NumPy অ্যারের ভিতরে ঠিক কোন ধরনের ডেটা সংরক্ষণ করা আছে। যেহেতু একটি NumPy অ্যারের প্রতিটি উপাদান অবশ্যই **একই ধরনের** হতে হবে, তাই এই অ্যাট্রিবিউটটি পুরো অ্যারের জন্য সেই টাইপটি নির্ধারণ করে।

এই সমজাতীয়তাই হলো NumPy-এর কার্যকারিতার মূল ভিত্তি। সঠিক ডেটা টাইপ জানার ফলে NumPy ডেটাগুলোকে একটি সুসংগঠিত উপায়ে সংরক্ষণ করতে পারে এবং গণনার জন্য অপ্টিমাইজড, নিম্ন-স্তরের ফাংশন ব্যবহার করতে পারে।

-----

### **NumPy কীভাবে `dtype` নির্ধারণ করে**

আপনি যখন কোনো টাইপ উল্লেখ না করে একটি NumPy অ্যারে তৈরি করেন, তখন NumPy ইনপুট ডেটা থেকে সবচেয়ে উপযুক্ত **`dtype` অনুমান (infer)** করে নেয়।

  * আপনি যদি শুধু পূর্ণসংখ্যা (integer) দেন, তবে এটি একটি ইন্টিজার টাইপ (যেমন `int64`) বেছে নেবে।
  * আপনি যদি একটিও ফ্লোটিং-পয়েন্ট নম্বর (দশমিক সংখ্যা) অন্তর্ভুক্ত করেন, তবে এটি ডেটার Verlust এড়াতে পুরো অ্যারেটিকে একটি ফ্লোট টাইপে (যেমন `float64`) রূপান্তর করবে।

চলুন আমাদের আগে তৈরি করা অ্যারেগুলো দেখি, যেগুলোতে শুধুমাত্র ইন্টিজার ছিল:

```python
import numpy as np

# স্বচ্ছতার জন্য আমাদের অ্যারেগুলো আবার লিখি
arr1 = np.array([1, 2, 3])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
arr3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

print(f"arr1-এর dtype: {arr1.dtype}")
print(f"arr2-এর dtype: {arr2.dtype}")
print(f"arr3-এর dtype: {arr3.dtype}")
```

**প্রত্যাশিত আউটপুট:**

```
arr1-এর dtype: int64
arr2-এর dtype: int64
arr3-এর dtype: int64
```

*(দ্রষ্টব্য: কিছু সিস্টেমে আউটপুট `int32` হতে পারে, তবে `int64` বেশি প্রচলিত। এটি একটি 64-বিটের ইন্টিজার বোঝায়।)*

-----

### **`dtype` নিজে নির্দিষ্ট করা ✍️**

আপনি অ্যারে তৈরির সময় NumPy-কে ডেটা টাইপ কী হবে তা স্পষ্টভাবে বলে দিতে পারেন। মেমরি ব্যবহার নিয়ন্ত্রণ করতে বা গণনার সঠিকতা নিশ্চিত করার জন্য এটি খুব দরকারি।

```python
# 64-বিট ফ্লোটিং-পয়েন্ট নম্বরের একটি অ্যারে তৈরি করা
float_arr = np.array([1, 2, 3], dtype=np.float64)

print(f"আসল অ্যারে: {arr1}, dtype: {arr1.dtype}")
print(f"নতুন ফ্লোট অ্যারে: {float_arr}, dtype: {float_arr.dtype}")
```

**আউটপুট:**

```
আসল অ্যারে: [1 2 3], dtype: int64
নতুন ফ্লোট অ্যারে: [1. 2. 3.], dtype: float64
```

লক্ষ্য করুন, `float_arr`-এর সংখ্যাগুলোকে ফ্লোট হিসেবে দেখানোর জন্য NumPy কীভাবে তাদের সাথে একটি দশমিক বিন্দু যোগ করেছে।

In [11]:
import numpy as np
arr1 = np.array([1, 2, 3])
print(arr1)
print()

arr2 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
print(arr2)
print()

arr3 = np.array([
    [
      [1, 2, 3],
      [4, 5, 6]
    ],
    [
      [7, 8, 9],
      [10, 11, 12]
    ],
])
print(arr3)
print()

# Types of Array
print(type(arr1))
print(type(arr2))
print(type(arr3))

[1 2 3]

[[1 2 3]
 [4 5 6]]

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


### **Attributes**

In [13]:
print(arr1.ndim)
print(arr2.ndim)
print(arr3.ndim)

1
2
3


In [14]:
print(arr1.shape)
print(arr2.shape)
print(arr3.shape)

(3,)
(2, 3)
(2, 2, 3)


In [15]:
print(arr1.dtype)
print(arr2.dtype)
print(arr3.dtype)

int64
int64
int64


In [16]:
print(arr1.size)
print(arr2.size)
print(arr3.size)

3
6
12


# **NumPy Data Types: Upcasting and Type Control**

NumPy's efficiency comes from its strict, uniform data types. When you create an array, NumPy has a smart system for deciding the `dtype` for you, a process called **upcasting**.

-----

## **Automatic Type Inference: The Rule of Upcasting 🧠**

NumPy's primary rule is: **never lose information**. It will automatically "upcast" the data type of the entire array to the most general or precise type present in the input data.

1.  **All Integers → Integer Type**
    If all you provide are integers, NumPy creates an integer array. The specific kind (`int32` or `int64`) depends on your computer's operating system architecture (64-bit OS usually defaults to `int64`).

    ```python
    import numpy as np
    arr_i = np.array([1, 2, 3])
    print(arr_i.dtype) # Output: int64 (or int32 on some systems)
    ```

2.  **Integer + Float → Float Type**
    If the array contains even a single floating-point number, NumPy upcasts the *entire array* to a float type to preserve the decimal part.

    ```python
    arr_f = np.array([1, 2.3, 3])
    print(arr_f.dtype) # Output: float64
    ```

3.  **Anything + String → String Type**
    The string is the most general type. If a string is present, everything else is converted to a string.

    ```python
    arr_s = np.array([1, 2.3, "avc"])
    print(arr_s.dtype) # Output: <U32
    ```

    Here, `<U32` means a **Unicode string** with a maximum length of **32 characters**.

-----

## **A Note on Precision: `float32` vs. `float64`**

When NumPy upcasts to a float, it typically defaults to `float64`. This is known as **double-precision**.

  * **Single Precision (`float32`)**: Uses 32 bits of memory. It's faster and uses less memory but is less precise (about 7 decimal digits of precision).
  * **Double Precision (`float64`)**: Uses 64 bits of memory. It's the default because it is much more precise (about 15-16 decimal digits), which is crucial for scientific and financial calculations.

Think of it like a measuring tape. Single precision is like measuring to the nearest millimeter, while double precision is like measuring to the nearest micrometer.

-----

## **Manually Controlling `dtype` (and its Dangers ⚠️)**

You can force a specific `dtype` during array creation, but you must be careful.

### **1. "Safe" but Lossy Downcasting**

You can force a float array to be an integer array. This is considered "downcasting". NumPy will allow it, but it will **truncate** (cut off) the decimal part, leading to data loss.

```python
# The .3 in 2.3 will be lost
arr_downcast = np.array([1, 2.3, 3], dtype=np.int64)
print(arr_downcast)      # Output: [1 2 3]
print(arr_downcast.dtype) # Output: int64
```

### **2. Invalid Conversion Errors**

You cannot downcast when it's impossible. Trying to convert a non-numeric string like `"asd"` into a number will raise a `ValueError`.

```python
# This will cause an error!
# arr_error = np.array([1, 2.3, "asd"], dtype=np.int64)
# ValueError: invalid literal for int() with base 10: 'asd'
```

### **3. Out-of-Range Errors**

Specifying a smaller data type to save memory can be risky. If a value doesn't fit within the range of the specified type, you'll get an `OverflowError`. The range for `int8` is only **-128 to 127**.

```python
# This will cause an error because 422 is too large for int8
# arr_overflow = np.array([1, 2, 422], dtype=np.int8)
# OverflowError: Python int too large to convert to C long
```

-----

## **Changing Type After Creation: `.astype()`**

If you have an existing array, you can create a new copy with a different `dtype` using the `.astype()` method. This is a very common and useful operation.

```python
arr_float = np.array([1.1, 2.7, 3.5])
print(f"Original array: {arr_float}, dtype: {arr_float.dtype}")

# Create a new integer copy
arr_int = arr_float.astype(np.int32)
print(f"New array: {arr_int}, dtype: {arr_int.dtype}")
```

**Output:**

```
Original array: [1.1 2.7 3.5], dtype: float64
New array: [1 2 3], dtype: int32
```

Notice again that the decimal values were **truncated**, not rounded.

# **NumPy ডেটা টাইপ: আপকাস্টিং এবং টাইপ কন্ট্রোল**

NumPy-এর কার্যকারিতার মূলে রয়েছে এর কঠোর এবং অভিন্ন ডেটা টাইপ। আপনি যখন একটি অ্যারে তৈরি করেন, NumPy আপনার জন্য `dtype` নির্ধারণ করার জন্য একটি স্মার্ট সিস্টেম ব্যবহার করে, এই প্রক্রিয়াটিকে **আপকাস্টিং (upcasting)** বলা হয়।

-----

## **স্বয়ংক্রিয় টাইপ নির্ধারণ: আপকাস্টিং-এর নিয়ম 🧠**

NumPy-এর মূল নিয়ম হলো: **কখনোই ডেটা হারানো যাবে না**। এটি ইনপুট ডেটার মধ্যে সবচেয়ে সাধারণ বা সুনির্দিষ্ট (precise) টাইপটিকে বেছে নেয় এবং পুরো অ্যারের ডেটা টাইপকে সেই অনুযায়ী "আপকাস্ট" বা উন্নত করে।

1.  **সব ইন্টিজার → ইন্টিজার টাইপ**
    যদি আপনি শুধু ইন্টিজার দেন, NumPy একটি ইন্টিজার অ্যারে তৈরি করবে। নির্দিষ্ট ধরনটি (`int32` বা `int64`) আপনার কম্পিউটারের অপারেটিং সিস্টেম আর্কিটেকচারের উপর নির্ভর করে (64-বিট OS সাধারণত `int64` ব্যবহার করে)।

    ```python
    import numpy as np
    arr_i = np.array([1, 2, 3])
    print(arr_i.dtype) # আউটপুট: int64 (কিছু সিস্টেমে int32 হতে পারে)
    ```

2.  **ইন্টিজার + ফ্লোট → ফ্লোট টাইপ**
    অ্যারেতে যদি একটিও ফ্লোটিং-পয়েন্ট নম্বর (দশমিক সংখ্যা) থাকে, তবে NumPy দশমিক অংশটি রক্ষা করার জন্য *পুরো অ্যারেটিকে* একটি ফ্লোট টাইপে আপকাস্ট করে।

    ```python
    arr_f = np.array([1, 2.3, 3])
    print(arr_f.dtype) # আউটপুট: float64
    ```

3.  **যেকোনো কিছু + স্ট্রিং → স্ট্রিং টাইপ**
    স্ট্রিং হলো সবচেয়ে সাধারণ টাইপ। যদি একটি স্ট্রিং উপস্থিত থাকে, তবে বাকি সবকিছুকে স্ট্রিং-এ রূপান্তরিত করা হয়।

    ```python
    arr_s = np.array([1, 2.3, "avc"])
    print(arr_s.dtype) # আউটপুট: <U32
    ```

    এখানে `<U32` মানে হলো একটি **ইউনিকোড স্ট্রিং**, যার সর্বোচ্চ দৈর্ঘ্য **32 ক্যারেক্টার** হতে পারে।

-----

## **প্রিসিশন নোট: `float32` বনাম `float64`**

যখন NumPy একটি ফ্লোট টাইপে আপকাস্ট করে, তখন এটি সাধারণত `float64` ব্যবহার করে। এটিকে **ডাবল-প্রিসিশন (double-precision)** বলা হয়।

  * **সিঙ্গেল প্রিসিশন (`float32`)**: 32 বিট মেমরি ব্যবহার করে। এটি দ্রুত এবং কম মেমরি নেয় কিন্তু কম সুনির্দিষ্ট (প্রায় 7 দশমিক স্থান পর্যন্ত নির্ভুল)।
  * **ডাবল প্রিসিশন (`float64`)**: 64 বিট মেমরি ব্যবহার করে। এটি ডিফল্ট কারণ এটি অনেক বেশি সুনির্দিষ্ট (প্রায় 15-16 দশমিক স্থান পর্যন্ত নির্ভুল), যা বৈজ্ঞানিক এবং আর্থিক গণনার জন্য অত্যন্ত গুরুত্বপূর্ণ।

-----

## **`dtype` নিজে নিয়ন্ত্রণ করা (এবং এর বিপদ ⚠️)**

আপনি অ্যারে তৈরির সময় একটি নির্দিষ্ট `dtype` জোর করে সেট করতে পারেন, তবে আপনাকে সতর্ক থাকতে হবে।

### **১. "নিরাপদ" কিন্তু ডেটা হারানো ডাউনকাস্টিং**

আপনি একটি ফ্লোট অ্যারে-কে ইন্টিজার অ্যারেতে রূপান্তর করতে পারেন। একে "ডাউনকাস্টিং" বলা হয়। NumPy এটি করতে দেবে, কিন্তু এটি দশমিক অংশটি **ট্রাঙ্কেট (truncate)** বা কেটে ফেলবে, যার ফলে ডেটা হারিয়ে যাবে।

```python
# 2.3 এর .3 অংশটি হারিয়ে যাবে
arr_downcast = np.array([1, 2.3, 3], dtype=np.int64)
print(arr_downcast)      # আউটপুট: [1 2 3]
print(arr_downcast.dtype) # আউটপুট: int64
```

### **২. ValueError**

যখন রূপান্তর অসম্ভব, তখন আপনি ডাউনকাস্ট করতে পারবেন না। `"asd"`-এর মতো একটি নন-নিউমেরিক স্ট্রিংকে নম্বরে রূপান্তর করার চেষ্টা করলে একটি `ValueError` দেখাবে।

```python
# এটি এরর দেবে!
# arr_error = np.array([1, 2.3, "asd"], dtype=np.int64)
# ValueError: invalid literal for int() with base 10: 'asd'
```

### **৩. OverflowError**

মেমরি বাঁচানোর জন্য ছোট ডেটা টাইপ নির্দিষ্ট করা ঝুঁকিপূর্ণ হতে পারে। যদি কোনো মান নির্দিষ্ট টাইপের সীমার মধ্যে না থাকে, তবে আপনি একটি `OverflowError` পাবেন। `int8`-এর সীমা শুধুমাত্র **-128 থেকে 127** পর্যন্ত।

```python
# এটি এরর দেবে কারণ 422 সংখ্যাটি int8-এর জন্য খুব বড়
# arr_overflow = np.array([1, 2, 422], dtype=np.int8)
# OverflowError: Python int too large to convert to C long
```

-----

## **তৈরির পরে টাইপ পরিবর্তন: `.astype()`**

যদি আপনার কাছে একটি অ্যারে থাকে, তবে আপনি `.astype()` মেথড ব্যবহার করে ভিন্ন `dtype` সহ একটি নতুন কপি তৈরি করতে পারেন। এটি একটি খুব সাধারণ এবং দরকারী অপারেশন।

```python
arr_float = np.array([1.1, 2.7, 3.5])
print(f"আসল অ্যারে: {arr_float}, dtype: {arr_float.dtype}")

# একটি নতুন ইন্টিজার কপি তৈরি করা
arr_int = arr_float.astype(np.int32)
print(f"নতুন অ্যারে: {arr_int}, dtype: {arr_int.dtype}")
```

**আউটপুট:**

```
আসল অ্যারে: [1.1 2.7 3.5], dtype: float64
নতুন অ্যারে: [1 2 3], dtype: int32
```

এখানেও লক্ষ্য করুন যে দশমিক মানগুলো রাউন্ড না হয়ে **ট্রাঙ্কেট** বা কেটে ফেলা হয়েছে।

In [17]:
arr = np.array([1,2,3])
print(arr.dtype)

int64


In [18]:
arr = np.array([1.2,2.3,3.5])
print(arr.dtype)

float64


In [20]:
arr_f = np.array([1,2.3,3])
print(arr_f.dtype)

float64


In [22]:
arr_s = np.array([1,2.3,3,"avc"])
print(arr_s.dtype)

<U32


In [25]:

arr_f = np.array([1,2.3,3], dtype=np.uint32)
print(arr_f.dtype)
print(arr_f)

uint32
[1 2 3]


In [27]:
# Throw error
# arr_f = np.array([1,2.3,"asd"],dtype=np.int64)
# print(arr_f.dtype)


In [28]:
arr_f = np.array([1,2.3,3])
print(arr_f.dtype)

arr_f = arr.astype(np.int32)
print(arr_f.dtype)


float64
int32


In [30]:
# show erro
#rr= np.array([1,2,3.5,[1,2,4],"anv"])


In [33]:
arr= np.array([1,2,3.5,"anv"])
print(arr.dtype)

<U32
