# Memoria técnica Data Science

## Análisis detallado del problema.

Se nos presenta la necesidad de crear una WebApp que substituya, y amplie, las funciones de una tabla de excel.
Las deficiencias de la manera de trabajo actual son varias:

+ Mala escalabilidad. La empresa ha comenzado a tener problemas a la hora de usarla en diferentes situaciones.
+ Poco control del trabajo realizado. Enfarragosa manera de guardar historiales.
+ Exceso de trabajo por parte del asesor a la hora de introducir datos

## Propuesta de solución tecnológica

La tarea de suplantar el trabajo realizado por una hoja excel con una WebApp plantea la oportunidad de usar una BBDD relacional, que acabe con los problemas de escalabilidad y registro de históricos. A ello añadimos la posibilidad de obtener datos de forma automatizada, aliviando la carga de trabajo del asesor.

+ BBDD SQL Relacional (PostgreSQL)
+ Webscrapping (Selenium)
+ Scrapeo de PDF e imágenes (OpenCV, PyMuPDF, Regex)


# BBDD SQL

Una vez analizadas las necesidades de la WebApp para solucionar los problemas actuales, se diseña la BBDD que cumpla las funciones necesarias para el proyecto.
Se trata de una BBDD PostreSQL 15.0, preparada para alojarse en la nube Azure. Tiene 12 entidades y 5 relaciones. [Link a la query de creación](/database/sql/create_tables.sql)
### Estructura

<img src="./aux_temp/Esquema.png" width="1900">

[Link para ampliar](https://www.canva.com/design/DAF5e_nv_Bk/PNXGmx8l0Xajcoh2LPONFQ/edit?utm_content=DAF5e_nv_Bk&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)

### Relación

<img src="./aux_temp/Diagrama.png" width="1900">

[Link para ampliar](https://www.canva.com/design/DAFy6dl3Pe4/yYekcQiBpDDn7MCyx_-qiw/edit?utm_content=DAFy6dl3Pe4&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)

# Automatización de extracción de Datos.

El flujo del trabajo manual del asesor actual tiene dos tareas penosas en tiempo que son candidatas a ser substituidas por automatismos.
Se trata, por un lado,de la obtención de datos desde una intranet a la que se accede vía web, y con un código "CUPs" se extraen datos. Y por otro lado, la lectura personal de facturas para obtener datos de consumo y precios.

## WebScraping

Mediante el uso de la librería Selenium, creamos un script que accede vía web a la información requerida.

## Scrapeo de PDF e Imagen





BBDD
Automatismos de extracción de datos
modelo de predicción 
dashboard

# Listado de Librerías usadas y sus importaciones

## -----Web Development -----

In [None]:
from flask import Flask, request, jsonify
from flask_limiter import Limiter
from flask_cors import CORS, cross_origin
from cerberus import Validator
from werkzeug.serving import make_server

## ----- General Utilities -----

In [None]:
import os
from os import environ
import sys
import signal
import threading
from queue import Queue
import requests
from dotenv import load_dotenv

## ----- Custom Functions -----

In [None]:
import functions

## ----- Computer Vision and OCR -----

In [None]:
import cv2 as cv
import easyocr

## ----- Database Interaction -----

In [None]:
import psycopg2
from sqlalchemy import create_engine

## ----- Web Scraping -----

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service

## ----- Document Analysis -----

In [None]:
import fitz
from langchain.chains import AnalyzeDocumentChain
from langchain.chat_models import ChatOpenAI
from langchain.chains.question_answering import load_qa_chain

## ----- Time Series Analysis -----

In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX
from pmdarima.arima import auto_arima, ARIMA

## ----- Machine Learning and Data Analysis -----

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeRegressor, plot_tree
from scipy import stats

## ----- Data Visualization -----

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

## ----- Streamlit and Data Handling -----

In [None]:
import streamlit as st
import pandas as pd
import streamlit.components.v1 as c
import requests
import json
from sqlalchemy import create_engine
from dotenv import load_dotenv
import os