# Exploración de datos

Estas cadenas de texto son cartas de recordatorio de deudas pendientes por el adeudo de un préstamo para la compra de un automóvil de lujo. Las deudas son en diferentes monedas y se menciona que hay intentos de contacto y recordatorios previos que no han sido respondidos. Se solicita que se devuelva el automóvil o se cancele la deuda total lo antes posible, y se ofrecen opciones de arreglos de pago en caso de dificultades financieras. También se mencionan las empresas y la información de contacto de las empresas que emitieron el préstamo.

En estos textos se presentan algunos patrones comunes:

1. Las cartas están dirigidas a una persona en particular y mencionan su nombre completo.

2. Se menciona que hay una deuda pendiente en la cuenta de la persona con una empresa específica.

3. Se menciona el monto de la deuda y la moneda en la que está expresada.

4. Se menciona que se ha intentado ponerse en contacto con la persona y recordarle la deuda pendiente, pero no se ha recibido respuesta ni pago.

5. Se solicita que se devuelva el automóvil o se cancele la deuda total lo antes posible.

6. Se ofrecen opciones de arreglos de pago en caso de dificultades financieras.

7. Se menciona la empresa y se proporciona información de contacto.

8. se menciona la ciudad donde se toma el carro

In [25]:
# importar librearias
import pandas as pd
import numpy as np
import datetime as dt
import spacy 

In [26]:
#leer un archivo csv delimitado por | y con codificacion utf-8
df = pd.read_csv('documentos.csv', sep='|', encoding='utf-8')
print(df.head())

   document_name                                           document
0             86    Señor/señora: Daniel Roberto Torres Gómez  L...
1            470    Atención: Ana Miguel Jiménez Rodríguez  Le e...
2             16    Oiga!!!! Juan Pablo Fernández Muñoz  Esperam...
3            165    Querido/a Carlos Miguel Pérez Pérez,  Espera...
4            114    Estimadisimo/a Daniel Cristina Rodríguez Gon...


In [27]:
# Obtenemos información básica del conjunto de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 499 entries, 0 to 498
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   document_name  499 non-null    int64 
 1   document       499 non-null    object
dtypes: int64(1), object(1)
memory usage: 7.9+ KB


In [28]:
# Cargar el modelo de lenguaje de spaCy
nlp = spacy.load("es_core_news_lg")

In [37]:
# Creamos una lista vacía para almacenar los tokens
tokens = []

# Iteramos sobre cada fila del dataframe
for index, row in df.iterrows():
    # Procesamos el texto de la columna "texto" utilizando spacy
    doc = nlp(row['document'])
    # Añadimos los tokens a la lista
    tokens.extend([token.text for token in doc])

# Contamos la frecuencia de cada token
frequencies = pd.Series(tokens).value_counts()

print(frequencies)



de                  5598
,                   4133
.                   3930
                    3222
                    3050
                    ... 
8,168,370,417.16       1
5246184                1
09/15/2017             1
6,360,534,685.37       1
6803552                1
Length: 2201, dtype: int64


In [29]:
# cuantas veces a aparece el nombre de una ciudad en cada fila del conjunto de datos 
for index, row in df.iterrows():
    doc = nlp(row['document'])
    #mostrar cuantas veces aparece el nombre de una ciudad en cada fila del conjunto de datos
    print("Ciudades en el documento", index, ":", [(X.text, X.label_) for X in doc.ents if X.label_ == "LOC"])
    



Ciudades en el documento 0 : [('Zaragoza', 'LOC'), ('Calle falsa 123', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 1 : [('San Andrés.', 'LOC'), ('Bogotá', 'LOC'), ('Colombia  Teléfono', 'LOC')]
Ciudades en el documento 2 : [('Nos', 'LOC'), ('Girón', 'LOC'), ('Calle falsa 123', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 3 : [('Nos', 'LOC'), ('Popayán', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 4 : [('Puerto Leguízamo.', 'LOC'), ('Diagonal', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 5 : [('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 6 : [('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 7 : [('Ibagué', 'LOC'), ('Calle falsa 123', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 8 : [('Montelíbano.', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]
Ciudades en el documento 9 : [('Initech', 'LOC'), ('Pasto', 'LOC')

In [35]:
#mostrar la primeta fila de df en document
df['document'][113]
# palabra Purificación. de municipio de Purificación no de la palabra purificación

'  Atención: Ana Samantha Álvarez Torres  Le escribimos para informarle que tiene un saldo a favor nuestro de COP 6,153,364,378.31 en su cuenta con nuestra empresa. Como puede recordar, tomó un préstamo con nosotros para   adquirir un auto de lujo Ferrari Aventador en Purificación. A pesar de múltiples intentos de ponerse en contacto con usted y recordarle su deuda pendiente, no hemos recibido ninguna respuesta   ni pago de su parte. Por lo tanto, solicitamos que devuelva el auto a nosotros o pague la totalidad de su deuda lo antes posible. Si no toma medidas en este asunto,   nos veremos obligados a iniciar acciones legales para recuperar la totalidad de su deuda.     Le instamos a que se ponga en contacto con nosotros lo antes posible para   discutir acuerdos de pago y evitar acciones legales adicionales, su deuda esta desde el 2015-09-25.     Si está experimentando dificultades financieras y no puede pagar la   totalidad de su deuda en este momento, no dude en ponerse en contacto co

In [22]:
#cual es la probabilidad encontrar el nombre de la ciudad al inicio de la cadena de texto
doc = nlp(df['document'][7])
print([(X.text , X.label_) for X in doc.ents if X.label_ == "LOC"])


[('Ibagué', 'LOC'), ('Calle falsa 123', 'LOC'), ('Bogotá', 'LOC'), ('Colombia', 'LOC')]


En el análisis y observación de los datos, se evidenciaron patrones como encontrar el valor de la ciudad al inicio de la cadena de texto, seguido del tipo de auto. Al tener la ciudad en primer orden, se optó por buscar el primer valor y guardarlo en el dataframe.