<div align="center">
  <a href="https://www.davivienda.com/wps/portal/personas/nuevo">
    <img src="https://upload.wikimedia.org/wikipedia/en/thumb/b/b1/Davivienda_logo.svg/1200px-Davivienda_logo.svg.png" alt="Logo" width="300" height="100">
  </a>

  <h2 align="center">Prueba Técnica Davivienda ADNe - Especialista I</h2>
  <h2 align="center">Notebook de Implementación Predicción de Precios</h2>
  <h4 align="center">Luvan Tabares</h4>
    
***

  <p align="left">
    Se requiere desarrollar un modelo predictivo para estimar el valor total de avaluo de viviendas utilizando herramientas avanzadas de análisis de datos y machine learning. El objetivo es procesar las características de los inmuebles presentes en la base de datos para identificar patrones que permitan predecir el precio de propiedades que aún no han sido evaluadas.
  <p align="left">
    Este modelo será de gran utilidad en varios procesos bancarios, tales como:
  <p align="left">
    - Originación: Determinación del valor comercial del inmueble a financiar, crucial para la aprobación final de créditos.
  <p align="left">
    - Retanqueo: Actualización del valor comercial de garantías existentes, necesaria para la aprobación de nuevos cupos de crédito.
  <p align="left">
    - Monitoreo del Portafolio de Garantías: Valoración continua del portafolio de garantías, asegurando el cumplimiento normativo y facilitando el análisis de riesgos del colateral.
  <p align="left">
    - Normalización de Cartera: Evaluación de préstamos existentes y acuerdos de refinanciamiento, así como daciones en pago.
    
  </p>
</div>

## Tabla de contenidos

1. [Instalación de librerías y llamado de librerías](#first) <br />
2. [Exploración de datos](#second) <br />
3. [Extracción de tópicos](#third) <br />
4. [Análisis de sentimiento](#fourth) <br />
5. [Análisis de resultados](#fifth) <br />

## 1. Librerias a instalar <a id="first"></a>

In [None]:
# !pip install -r requirements.txt

"""
pip install 
"""

Collecting attrs==23.2.0 (from -r requirements.txt (line 2))
  Using cached attrs-23.2.0-py3-none-any.whl.metadata (9.5 kB)
Collecting bertopic==0.16.2 (from -r requirements.txt (line 3))
  Using cached bertopic-0.16.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting certifi==2024.7.4 (from -r requirements.txt (line 4))
  Using cached certifi-2024.7.4-py3-none-any.whl.metadata (2.2 kB)
Collecting charset-normalizer==3.3.2 (from -r requirements.txt (line 5))
  Using cached charset_normalizer-3.3.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (33 kB)
Collecting contourpy==1.2.1 (from -r requirements.txt (line 7))
  Using cached contourpy-1.2.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.8 kB)
Collecting cycler==0.12.1 (from -r requirements.txt (line 8))
  Using cached cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting Cython==0.29.37 (from -r requirements.txt (line 9))
  Using cached Cython-0.29.37-cp39-cp39-manylinux_2_17_x86_64.man

## Cargar las librerías necesarias

## 2. Exploración de datos <a id="second"></a>

In [3]:
### Se inicia cargando el archivo csv
csv_file_path = 'data_original/Tweets/davivienda_tweets.csv'
### Se carga el archivo csv en un dataframe
df = pd.read_csv(csv_file_path)

## 3. nn <a id="third"></a>

In [9]:
# Continuado con el desarrollo se procede a realizar el análisis de tópicos
# Se crea un modelo UMAP, esto con el fin de tener consistencia en los resultados
umap_model = UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine', random_state=5)
# Se crea el modelo BERTopic
# Se establece el parámetro embedding_model='paraphrase-MiniLM-L3-v2' para utilizar el modelo de lenguaje MiniLM.
# Se establece el parámetro min_topic_size para que se creen tópicos con un n tweets.
# Se establece el parámetro language="multilingual" para que el modelo sea capaz de procesar texto en varios idiomas.
# Se establece el parámetro nr_topics='auto' para que el modelo determine automáticamente el número de tópicos y evitar tópicos comunes
model = BERTopic(verbose=True, embedding_model='paraphrase-MiniLM-L3-v2', min_topic_size= 3, language="multilingual", nr_topics='auto', umap_model=umap_model)


# Se ajusta el modelo a los tweets
# Se extraen los tópicos y las palabras clave de los tópicos
headline_topics, _ = model.fit_transform(df.Embedded_text)

2024-07-20 12:53:57,661 - BERTopic - Embedding - Transforming documents to embeddings.
Batches: 100%|██████████| 57/57 [00:00<00:00, 113.70it/s]
2024-07-20 12:53:59,288 - BERTopic - Embedding - Completed ✓
2024-07-20 12:53:59,288 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-07-20 12:54:08,198 - BERTopic - Dimensionality - Completed ✓
2024-07-20 12:54:08,199 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-07-20 12:54:08,243 - BERTopic - Cluster - Completed ✓
2024-07-20 12:54:08,243 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-07-20 12:54:08,327 - BERTopic - Representation - Completed ✓
2024-07-20 12:54:08,328 - BERTopic - Topic reduction - Reducing number of topics
2024-07-20 12:54:08,384 - BERTopic - Topic reduction - Reduced number of topics from 119 to 40


## 4. nn <a id="fourth"></a>

## 5. Análisis de resultados <a id="fifth"></a>

In [26]:
# Contar la frecuencia de cada valor único en la columna 'Sentimiento' del DataFrame df
sentiment_counts = df['Sentimiento'].value_counts()
# Imprimir el recuento de frecuencias para cada categoría de sentimiento
print(sentiment_counts)

Sentimiento
NEG    859
NEU    835
POS    117
Name: count, dtype: int64
