TrainingByPackt
diff --git a/‎Chapter 1/Excercises/Excercise_10_min_max_scaler.py.ipynb
Lines changed: 290 additions & 0 deletions b/‎Chapter 1/Excercises/Excercise_10_min_max_scaler.py.ipynb
Lines changed: 290 additions & 0 deletions
@@ -0,0 +1,290 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 1.\tImport the necessary library and Load the dataset into the pandas dataframe"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/anaconda3/lib/python3.6/importlib/_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 216, got 192\n",
+      "  return f(*args, **kwds)\n",
+      "/anaconda3/lib/python3.6/importlib/_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 216, got 192\n",
+      "  return f(*args, **kwds)\n"
+     ]
+    }
+   ],
+   "source": [
+    "import pandas as pd\n",
+    "from sklearn.preprocessing import MinMaxScaler\n",
+    "df = pd.read_csv(\"../Data/Wholesale customers data.csv\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 2.\tCheck if there is missing data available if yes drop the missing data."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Null</th>\n",
+       "      <th>type</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>Channel</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Region</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Fresh</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Milk</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Grocery</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Frozen</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Detergents_Paper</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Delicassen</th>\n",
+       "      <td>False</td>\n",
+       "      <td>int64</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "                   Null   type\n",
+       "Channel           False  int64\n",
+       "Region            False  int64\n",
+       "Fresh             False  int64\n",
+       "Milk              False  int64\n",
+       "Grocery           False  int64\n",
+       "Frozen            False  int64\n",
+       "Detergents_Paper  False  int64\n",
+       "Delicassen        False  int64"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "null_ = df.isna().any()\n",
+    "dtypes = df.dtypes\n",
+    "info = pd.concat([null_,dtypes],axis = 1,keys = ['Null','type'])\n",
+    "info"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 3.\tPerform the Normalization scaling. To do so, use MinMaxScaler() class from sklearn.preprocessing and implement fit_transorm() method"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Channel</th>\n",
+       "      <th>Region</th>\n",
+       "      <th>Fresh</th>\n",
+       "      <th>Milk</th>\n",
+       "      <th>Grocery</th>\n",
+       "      <th>Frozen</th>\n",
+       "      <th>Detergents_Paper</th>\n",
+       "      <th>Delicassen</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.112940</td>\n",
+       "      <td>0.130727</td>\n",
+       "      <td>0.081464</td>\n",
+       "      <td>0.003106</td>\n",
+       "      <td>0.065427</td>\n",
+       "      <td>0.027847</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.062899</td>\n",
+       "      <td>0.132824</td>\n",
+       "      <td>0.103097</td>\n",
+       "      <td>0.028548</td>\n",
+       "      <td>0.080590</td>\n",
+       "      <td>0.036984</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.056622</td>\n",
+       "      <td>0.119181</td>\n",
+       "      <td>0.082790</td>\n",
+       "      <td>0.039116</td>\n",
+       "      <td>0.086052</td>\n",
+       "      <td>0.163559</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>0.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.118254</td>\n",
+       "      <td>0.015536</td>\n",
+       "      <td>0.045464</td>\n",
+       "      <td>0.104842</td>\n",
+       "      <td>0.012346</td>\n",
+       "      <td>0.037234</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>1.0</td>\n",
+       "      <td>1.0</td>\n",
+       "      <td>0.201626</td>\n",
+       "      <td>0.072914</td>\n",
+       "      <td>0.077552</td>\n",
+       "      <td>0.063934</td>\n",
+       "      <td>0.043455</td>\n",
+       "      <td>0.108093</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   Channel  Region     Fresh      Milk   Grocery    Frozen  Detergents_Paper  \\\n",
+       "0      1.0     1.0  0.112940  0.130727  0.081464  0.003106          0.065427   \n",
+       "1      1.0     1.0  0.062899  0.132824  0.103097  0.028548          0.080590   \n",
+       "2      1.0     1.0  0.056622  0.119181  0.082790  0.039116          0.086052   \n",
+       "3      0.0     1.0  0.118254  0.015536  0.045464  0.104842          0.012346   \n",
+       "4      1.0     1.0  0.201626  0.072914  0.077552  0.063934          0.043455   \n",
+       "\n",
+       "   Delicassen  \n",
+       "0    0.027847  \n",
+       "1    0.036984  \n",
+       "2    0.163559  \n",
+       "3    0.037234  \n",
+       "4    0.108093  "
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "norm_scale = MinMaxScaler().fit_transform(df)\n",
+    "scaled_frame = pd.DataFrame(norm_scale,columns=df.columns)\n",
+    "scaled_frame.head()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.4"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}