From 3fcb82941e2623faf9d8463844c508a711d704a1 Mon Sep 17 00:00:00 2001
From: TiagoQuaresmaSimoes
 <138822196+TiagoQuaresmaSimoes@users.noreply.github.com>
Date: Wed, 10 Jan 2024 21:50:19 +0000
Subject: [PATCH] Add files via upload
---
 [lab-feature-engineering] Tiago.ipynb | 1430 +++++++++++++++++++++++++
 1 file changed, 1430 insertions(+)
 create mode 100644 [lab-feature-engineering] Tiago.ipynb
diff --git a/[lab-feature-engineering] Tiago.ipynb b/[lab-feature-engineering] Tiago.ipynb
new file mode 100644
index 0000000..7f4b905
--- /dev/null
+++ b/[lab-feature-engineering] Tiago.ipynb	
@@ -0,0 +1,1430 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "3e671b9d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "import numpy as np\n",
+    "\n",
+    "import warnings \n",
+    "warnings.filterwarnings('ignore')\n",
+    "\n",
+    "import matplotlib.pyplot as plt \n",
+    "import seaborn as sns"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "id": "8e1b92e9",
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "
\n",
+       "\n",
+       "
\n",
+       "  \n",
+       "    \n",
+       "      | \n",
+       " | ODATEDW\n",
+       " | OSOURCE\n",
+       " | TCODE\n",
+       " | STATE\n",
+       " | ZIP\n",
+       " | MAILCODE\n",
+       " | PVASTATE\n",
+       " | DOB\n",
+       " | NOEXCH\n",
+       " | RECINHSE\n",
+       " | ...\n",
+       " | TARGET_D\n",
+       " | HPHONE_D\n",
+       " | RFA_2R\n",
+       " | RFA_2F\n",
+       " | RFA_2A\n",
+       " | MDMAUD_R\n",
+       " | MDMAUD_F\n",
+       " | MDMAUD_A\n",
+       " | CLUSTER2\n",
+       " | GEOCODE2\n",
+       " | 
\n",
+       "  \n",
+       "  \n",
+       "    \n",
+       "      | 0\n",
+       " | 8901\n",
+       " | GRI\n",
+       " | 0\n",
+       " | IL\n",
+       " | 61081\n",
+       " | \n",
+       " | \n",
+       " | 3712\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 39.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 1\n",
+       " | 9401\n",
+       " | BOA\n",
+       " | 1\n",
+       " | CA\n",
+       " | 91326\n",
+       " | \n",
+       " | \n",
+       " | 5202\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 2\n",
+       " | G\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 1.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 2\n",
+       " | 9001\n",
+       " | AMH\n",
+       " | 1\n",
+       " | NC\n",
+       " | 27017\n",
+       " | \n",
+       " | \n",
+       " | 0\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 60.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 3\n",
+       " | 8701\n",
+       " | BRY\n",
+       " | 0\n",
+       " | CA\n",
+       " | 95953\n",
+       " | \n",
+       " | \n",
+       " | 2801\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 41.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 4\n",
+       " | 8601\n",
+       " | \n",
+       " | 0\n",
+       " | FL\n",
+       " | 33176\n",
+       " | \n",
+       " | \n",
+       " | 2001\n",
+       " | 0\n",
+       " | X\n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 2\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 26.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | 
\n",
+       "    \n",
+       "      | 95407\n",
+       " | 9601\n",
+       " | ASE\n",
+       " | 1\n",
+       " | AK\n",
+       " | 99504\n",
+       " | \n",
+       " | \n",
+       " | 0\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 1\n",
+       " | G\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 12.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 95408\n",
+       " | 9601\n",
+       " | DCD\n",
+       " | 1\n",
+       " | TX\n",
+       " | 77379\n",
+       " | \n",
+       " | \n",
+       " | 5001\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 1\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 2.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 95409\n",
+       " | 9501\n",
+       " | MBC\n",
+       " | 1\n",
+       " | MI\n",
+       " | 48910\n",
+       " | \n",
+       " | \n",
+       " | 3801\n",
+       " | 0\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 3\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 34.0\n",
+       " | B\n",
+       " | 
\n",
+       "    \n",
+       "      | 95410\n",
+       " | 8601\n",
+       " | PRV\n",
+       " | 0\n",
+       " | CA\n",
+       " | 91320\n",
+       " | \n",
+       " | \n",
+       " | 4005\n",
+       " | 0\n",
+       " | X\n",
+       " | ...\n",
+       " | 18.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 11.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 95411\n",
+       " | 8801\n",
+       " | MCC\n",
+       " | 2\n",
+       " | NC\n",
+       " | 28409\n",
+       " | \n",
+       " | \n",
+       " | 1801\n",
+       " | 0\n",
+       " | X\n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 1\n",
+       " | G\n",
+       " | C\n",
+       " | 1\n",
+       " | C\n",
+       " | 12.0\n",
+       " | C\n",
+       " | 
\n",
+       "  \n",
+       "
\n",
+       "
95412 rows × 481 columns
\n",
+       "
\n",
+       "\n",
+       "
\n",
+       "  \n",
+       "    \n",
+       "      | \n",
+       " | columns_name\n",
+       " | nulls_percentage\n",
+       " | 
\n",
+       "  \n",
+       "  \n",
+       "    \n",
+       "      | 414\n",
+       " | RDATE_5\n",
+       " | 0.999906\n",
+       " | 
\n",
+       "    \n",
+       "      | 436\n",
+       " | RAMNT_5\n",
+       " | 0.999906\n",
+       " | 
\n",
+       "    \n",
+       "      | 412\n",
+       " | RDATE_3\n",
+       " | 0.997464\n",
+       " | 
\n",
+       "    \n",
+       "      | 434\n",
+       " | RAMNT_3\n",
+       " | 0.997464\n",
+       " | 
\n",
+       "    \n",
+       "      | 413\n",
+       " | RDATE_4\n",
+       " | 0.997055\n",
+       " | 
\n",
+       "    \n",
+       "      | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | 
\n",
+       "    \n",
+       "      | 168\n",
+       " | ETHC3\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 167\n",
+       " | ETHC2\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 166\n",
+       " | ETHC1\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 165\n",
+       " | HHD12\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 240\n",
+       " | TPE11\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "  \n",
+       "
\n",
+       "
481 rows × 2 columns
\n",
+       "
\n",
+       "\n",
+       "
\n",
+       "  \n",
+       "    \n",
+       "      | \n",
+       " | ODATEDW\n",
+       " | TCODE\n",
+       " | STATE\n",
+       " | MAILCODE\n",
+       " | PVASTATE\n",
+       " | DOB\n",
+       " | NOEXCH\n",
+       " | RECINHSE\n",
+       " | RECP3\n",
+       " | RECPGVG\n",
+       " | ...\n",
+       " | TARGET_D\n",
+       " | HPHONE_D\n",
+       " | RFA_2R\n",
+       " | RFA_2F\n",
+       " | RFA_2A\n",
+       " | MDMAUD_R\n",
+       " | MDMAUD_F\n",
+       " | MDMAUD_A\n",
+       " | CLUSTER2\n",
+       " | GEOCODE2\n",
+       " | 
\n",
+       "  \n",
+       "  \n",
+       "    \n",
+       "      | 0\n",
+       " | 8901\n",
+       " | 0\n",
+       " | IL\n",
+       " | \n",
+       " | \n",
+       " | 3712\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 39.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 1\n",
+       " | 9401\n",
+       " | 1\n",
+       " | CA\n",
+       " | \n",
+       " | \n",
+       " | 5202\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 2\n",
+       " | G\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 1.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 2\n",
+       " | 9001\n",
+       " | 1\n",
+       " | NC\n",
+       " | \n",
+       " | \n",
+       " | 0\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 60.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 3\n",
+       " | 8701\n",
+       " | 0\n",
+       " | CA\n",
+       " | \n",
+       " | \n",
+       " | 2801\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 41.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 4\n",
+       " | 8601\n",
+       " | 0\n",
+       " | FL\n",
+       " | \n",
+       " | \n",
+       " | 2001\n",
+       " | 0\n",
+       " | X\n",
+       " | X\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 2\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 26.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | 
\n",
+       "    \n",
+       "      | 95407\n",
+       " | 9601\n",
+       " | 1\n",
+       " | AK\n",
+       " | \n",
+       " | \n",
+       " | 0\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 0\n",
+       " | L\n",
+       " | 1\n",
+       " | G\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 12.0\n",
+       " | C\n",
+       " | 
\n",
+       "    \n",
+       "      | 95408\n",
+       " | 9601\n",
+       " | 1\n",
+       " | TX\n",
+       " | \n",
+       " | \n",
+       " | 5001\n",
+       " | 0\n",
+       " | \n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 1\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 2.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 95409\n",
+       " | 9501\n",
+       " | 1\n",
+       " | MI\n",
+       " | \n",
+       " | \n",
+       " | 3801\n",
+       " | 0\n",
+       " | \n",
+       " | X\n",
+       " | \n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 3\n",
+       " | E\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 34.0\n",
+       " | B\n",
+       " | 
\n",
+       "    \n",
+       "      | 95410\n",
+       " | 8601\n",
+       " | 0\n",
+       " | CA\n",
+       " | \n",
+       " | \n",
+       " | 4005\n",
+       " | 0\n",
+       " | X\n",
+       " | \n",
+       " | \n",
+       " | ...\n",
+       " | 18.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 4\n",
+       " | F\n",
+       " | X\n",
+       " | X\n",
+       " | X\n",
+       " | 11.0\n",
+       " | A\n",
+       " | 
\n",
+       "    \n",
+       "      | 95411\n",
+       " | 8801\n",
+       " | 2\n",
+       " | NC\n",
+       " | \n",
+       " | \n",
+       " | 1801\n",
+       " | 0\n",
+       " | X\n",
+       " | \n",
+       " | X\n",
+       " | ...\n",
+       " | 0.0\n",
+       " | 1\n",
+       " | L\n",
+       " | 1\n",
+       " | G\n",
+       " | C\n",
+       " | 1\n",
+       " | C\n",
+       " | 12.0\n",
+       " | C\n",
+       " | 
\n",
+       "  \n",
+       "
\n",
+       "
95412 rows × 407 columns
\n",
+       "
\n",
+       "\n",
+       "
\n",
+       "  \n",
+       "    \n",
+       "      | \n",
+       " | columns_name\n",
+       " | nulls_percentage\n",
+       " | 
\n",
+       "  \n",
+       "  \n",
+       "    \n",
+       "      | 3\n",
+       " | AGE\n",
+       " | 0.248030\n",
+       " | 
\n",
+       "    \n",
+       "      | 4\n",
+       " | INCOME\n",
+       " | 0.223096\n",
+       " | 
\n",
+       "    \n",
+       "      | 310\n",
+       " | ADATE_18\n",
+       " | 0.222855\n",
+       " | 
\n",
+       "    \n",
+       "      | 309\n",
+       " | ADATE_16\n",
+       " | 0.213432\n",
+       " | 
\n",
+       "    \n",
+       "      | 308\n",
+       " | ADATE_14\n",
+       " | 0.197742\n",
+       " | 
\n",
+       "    \n",
+       "      | ...\n",
+       " | ...\n",
+       " | ...\n",
+       " | 
\n",
+       "    \n",
+       "      | 111\n",
+       " | HVP2\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 110\n",
+       " | HVP1\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 109\n",
+       " | ETHC6\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 108\n",
+       " | ETHC5\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "    \n",
+       "      | 167\n",
+       " | TPE2\n",
+       " | 0.000000\n",
+       " | 
\n",
+       "  \n",
+       "
\n",
+       "
335 rows × 2 columns
\n",
+       "