## সাইকিট-লার্ন

Scikit-learn provides a toolbox with solid implementations of a bunch of state-of-the-art models and makes it easy to plug them into existing applications. We’ve been using it quite a lot for music recommendations at Spotify and I think it’s the most well-designed ML package I’ve seen so far.

ওপেনসোর্স মেশিন লার্নিং এর হৃদয় হচ্ছে এই 'সাইকিট-লার্ন'। 

In [1]:
import numpy as np;
from sklearn.metrics import accuracy_score

In [2]:
y_pred=[0,2,1,3]
y_true=[0,1,2,3]

accuracy_score(y_true,y_pred,y_pred)



0.5

In [3]:
accuracy_score(y_pred,y_true)

0.5

In [4]:
accuracy_score(y_true,y_pred,normalize=True)

0.5

In [5]:
accuracy_score(y_true,y_pred,normalize=False)

2

মেশিন লার্নিং ব্যাপারটাকে দুভাগে করা যায়। ১. সুপারভাইজ্ড লার্নিং এবং ২. আন-সুপারভাইজ্ড লার্নিং। 

## পান্ডাজ

পাইথনের একটা অসাধারণ লাইব্রেরি হচ্ছে পান্ডাজ, বিশেষ করে ডেটা ম্যানিপুলেশন আর অ্যানালাইসিসের জন্য।

'নামপাই' অ্যারেতে প্রতিটা এন্ট্রি এক ধরণের হতে হয় সেখানে পান্ডাজ টেবিল প্রতিটা কলামকে আলাদা আলাদা ডেটাটাইপ (যেমন, ইন্তেজার, ডেট, ফ্লোটিং পয়েন্ট নম্বর, স্ট্রিং) রাখতে কোন ঝামেলা করে না।

In [6]:
import pandas as pd

# create a simple dataset of people
data = {'Name': ["জসিম", "করিম", "মিতা", "অন্তরা"],
        'Location' : ["রাজশাহী", "ঢাকা", "রংপুর", "কুষ্টিয়া"],
        'Age' : [24, 13, 53, 33]
       }

frame = pd.DataFrame(data)

display(frame)

Unnamed: 0,Name,Location,Age
0,জসিম,রাজশাহী,24
1,করিম,ঢাকা,13
2,মিতা,রংপুর,53
3,অন্তরা,কুষ্টিয়া,33


In [7]:
print(frame)

     Name  Location  Age
0    জসিম   রাজশাহী   24
1    করিম      ঢাকা   13
2    মিতা     রংপুর   53
3  অন্তরা  কুষ্টিয়া   33


In [8]:
display(frame[frame.Age > 30])

Unnamed: 0,Name,Location,Age
2,মিতা,রংপুর,53
3,অন্তরা,কুষ্টিয়া,33


In [9]:
print(frame[frame.Age > 30])

     Name  Location  Age
2    মিতা     রংপুর   53
3  অন্তরা  কুষ্টিয়া   33


## নামপাই(NumPy)

পাইথন দিয়ে ডাটা সাইন্স এর কাজ করতে চাইলে ‘নামপাই’ একদম গোড়ার প্যাকেজ। মানে এটা ছাড়া চলবে না। সাইন্টিফিক কম্পুটিং এর ‘অ্যারে’র সব কাজ করে এই ‘নামপাই’ ডাটা স্ট্রাকচার। যদি হাই লেভেল ম্যাথমেটিক্যাল ফাংশনের কথা বলি, তাহলেও দরকার এই ‘নামপাই’কে। লিনিয়ার এলজেব্রা, ফোরিয়ের ট্রান্সফর্মেশন, আবার শুধুমাত্র র‌্যান্ডম নাম্বার জেনারেটর হিসেবেও এর কাজ অসাধারণ।

In [10]:
import numpy as np

x=np.array([1,2,3])

x

array([1, 2, 3])

In [11]:
y=np.arange(10)
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
import numpy as np

# আমরা একটা অ্যারে তৈরি করি যার শেপ হচ্ছে (৩, ৪)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [13]:
# স্লাইসিং করে আমরা একটা সাব-অ্যারে বের করে নিয়ে আসি শুধুমাত্র প্রথম দুটো সারি থেকে 
b = a[:2, 1:3]

print(b)

[[2 3]
 [6 7]]


In [14]:
# প্রথমে চারটা কলাম, পরে দুটো - দুটো অ্যারে শেপ দিয়ে (২, ৪) এবং (২, ২) 
c = a[:2]

print(c)

[[1 2 3 4]
 [5 6 7 8]]


## ডেটা সাইন্সে পাইথন

In [15]:
def my_function():
  print("Hello from a function")

In [16]:
my_function()

Hello from a function


In [17]:
def double(x):
 return x * 2

In [18]:
tel = {'rafiq': 4098, 'mim': 4139}
tel['karim'] = 4127

In [19]:
tel

{'rafiq': 4098, 'mim': 4139, 'karim': 4127}

In [20]:
tel['rafiq']

4098

#### ডিকশনারি লুপিং করলে কেমন হয়?  items() মেথড ব্যবহার করে?

In [21]:
mlbooks = {'data science from scratch': 'joel grus', 'python data science hadnbook': 'jake vanderplas'}
for k, v in mlbooks.items():
   print(k, v)

data science from scratch joel grus
python data science hadnbook jake vanderplas


In [22]:
mlbooks = {'data science from scratch': 'joel grus', 'python data science hadnbook': 'jake vanderplas'}
for k in mlbooks.items():
   print(k)

('data science from scratch', 'joel grus')
('python data science hadnbook', 'jake vanderplas')


#### for loops অথবা if/else কন্ডিশনাল এক্সপ্রেশন এবং কন্ডিশনাল ব্লক 

In [23]:
words = ['cat', 'window', 'defenestrate']
for w in words:
   print(w, len(w))

cat 3
window 6
defenestrate 12


### List

In [24]:
squares = [1, 4, 9, 16, 25]
squares

[1, 4, 9, 16, 25]

In [25]:
#এখন যদি আলাদা করে ভ্যালুগুলোকে এক্সেস করি, ইনডেক্স করে ভ্যালু রিটার্ন করা
squares[0]

1

In [26]:
squares[-1]

25

In [27]:
squares[:]

[1, 4, 9, 16, 25]

In [28]:
squares[:2]

[1, 4]

ভ্যারিয়েবল, অ্যাসাইনমেন্ট, বেসিক ডেটা টাইপ (int, float, bool, str), বিভিন্ন অপারেটর +, -, * এবং /

In [29]:
width = 20
height = 5 * 9
width * height

900

In [30]:
tax = 12.5 / 100
price = 100.50
price * tax

12.5625

In [31]:
price + _

113.0625

In [32]:
round(_, 2)

113.06

In [33]:
# pass is just a placeholder for functionality to be added later
sequence = {'p', 'a', 's', 's'}
for val in sequence:
    pass

In [34]:
def function(args):
    pass

In [35]:
class example:
    pass

### মেশিন লার্নিং থার্ড পার্টি লাইব্রেরিতে ব্যবহার করা বিভিন্ন মডিউল

In [36]:
import pandas

#### একটা মডিউলের সবকিছু ইমপোর্ট করতে চাইলে 

In [37]:
from sklearn.datasets import *

In [38]:
import pandas as pd
import matplotlib.pyplot as plt

In [39]:
pd.read_csv

<function pandas.io.parsers.read_csv(filepath_or_buffer: Union[ForwardRef('PathLike[str]'), str, IO[~T], io.RawIOBase, io.BufferedIOBase, io.TextIOBase, _io.TextIOWrapper, mmap.mmap], sep=<object object at 0x000002099EEBA400>, delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory

#### আমরা যদি কোন মডিউলের কি কি নাম ডিফাইন করা আছে সেটা দেখতে চাইলে dir() ফাংশন ব্যবহার করতে পারি।

In [40]:
from sklearn import datasets
iris=datasets.load_iris()
dir(iris)

['DESCR',
 'data',
 'feature_names',
 'filename',
 'frame',
 'target',
 'target_names']

In [41]:
import pandas as pd
dir(pd)

['BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_hashtable',
 '_is_numpy_dev',
 '_lib',
 '_libs',
 '_np_version_under1p17',
 '_np_version_under1p18',
 '_testing'