<img src="Imagenes/logo.png" alt="IPython Notebook" style="width: 200px;"/>

***

<p style= "text-align:center; font-family: Calibri; font-size: x-large; color: black; font-weight:bold;"> DETECCIÓN DE TEXTO EN IMAGEN DNI o NIE, PARA LA VERIFICACIÓN DE IDENTIDAD DE CUIDADORES DE IBERASIS </p>

<p style= "text-align:center; font-family: Calibri; font-size: medium; color: black; font-weight:bold;"> Julieta Benítez │ PROYECTO FINAL A4 | PBD1 </p>

En este Notebook se realizará la extracción de datos de una imagen que corresponde con mi DNI, código que se utilizará de forma automática en la aplicaciónde IberAsis, el cual tiene como objetivo la selección de perfiles para el sector geriátrico, dependencia y niños en tiempo real, mediante la verificación de antiguos empleadores y la comprobación de vida laboral y antecedentes.

IberAsis comprobará la identidad de los posibles cuidadores verificando el **DNI** o **NIE** mediante la validación de los datos en el primer caso, y la caducidad del documento en el último caso. Para ambos sucesos se deberá extraer primeramente los datos de la imagen del documento en cuestión, que es lo que se ha realizado a continuación, utilizando OCR de Google Cloud Vision:

In [1]:
#Importamos librerías necesarias
import os, io
from google.cloud import vision
from google.cloud.vision import types
import pandas as pd

In [2]:
#Token JSON File, que corresponde a la Key creada en las credenciales 
#relacionadas con la API de Cloud Vision
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = r'ServiceAccountToken.json'

<img src="Imagenes/Key_API_Vision.png" alt="IPython Notebook"/>

In [3]:
#ImageAnnotatorCliente es el servicio que realiza tareas de detección de la 
#API de Google Cloud Vision sobre las imágenes del cliente,
#en este caso la detección de texto. 
client = vision.ImageAnnotatorClient()

In [4]:
#Nombre de la imágen que queremos convertir a texto, en este caso, mi DNI 
#como prueba. 
FILE_NAME = 'Imagenes/ID.jpg'

In [5]:
#Abrimos y leemos la imagen del DNI creando una secuencia binaria con la 
#librería io, y lo denominamos image_file
with io.open(FILE_NAME, 'rb') as image_file:
    content = image_file.read() #Almacenamos dicha información binaria 
                                #en un objeto tipo contenedor

In [6]:
#Construimos una instancia mediante la clase "vision" y el tipo "Image"
#para pasarle la vista de "content"
image = vision.types.Image(content=content)

In [7]:
#Finalmente, creamos un objeto de respuesta que utiliza el método 
#text_detection para generar una salida del objeto 
#client(ImageAnnotatorCliente)
response = client.text_detection(image=image)
#El servicio text_annotations nos devuleve las entidades detectadas de las
#imágenes
texts = response.text_annotations

In [8]:
print(response) #Imprimimos response para observar la salida que resulta en
                #una lista de archivos JSON

text_annotations {
  locale: "es"
  description: "ESPA\303\221A O DOCUMENTO NACIONAL DE IDENTIDAD\nAPELLIDOS\nBEN\303\215TEZ\nCAPOTE\nNOMBRE\nJULIETA\nSEXO\nNACIONALIDAD\nTH\nF\nESP\nFECHA DE NACIMIENTO\n310521\n1201 2000\nNUM BOPONT\nVALIDEZ\nBOV110152 31 05 2026\n261056\nDNI 54195634K\n"
  bounding_poly {
    vertices {
      x: 150
      y: 122
    }
    vertices {
      x: 2519
      y: 122
    }
    vertices {
      x: 2519
      y: 3949
    }
    vertices {
      x: 150
      y: 3949
    }
  }
}
text_annotations {
  description: "ESPA\303\221A"
  bounding_poly {
    vertices {
      x: 2520
      y: 128
    }
    vertices {
      x: 2484
      y: 1270
    }
    vertices {
      x: 2309
      y: 1265
    }
    vertices {
      x: 2345
      y: 123
    }
  }
}
text_annotations {
  description: "O"
  bounding_poly {
    vertices {
      x: 2477
      y: 1491
    }
    vertices {
      x: 2468
      y: 1782
    }
    vertices {
      x: 2293
      y: 1776
    }
    vertices {
      x

In [9]:
#A continuación, mostraremos la información que es relevante utilizando pandas
#y observando cada key de una en una.
#La única columna que realmente nos interesa en "description", que contiene
#la información del DNI en cuestión
df = pd.DataFrame(columns=['description'])

In [10]:
#Así, generamos el dataset con la información de "description" del objeto text
#el cual nos devolvía las entidades detectadas de la imagen
for text in texts:
    df = df.append(
    dict(description=text.description),
        ignore_index=True
    )

In [11]:
#Imprimimos
print(df['description'][0])

ESPAÑA O DOCUMENTO NACIONAL DE IDENTIDAD
APELLIDOS
BENÍTEZ
CAPOTE
NOMBRE
JULIETA
SEXO
NACIONALIDAD
TH
F
ESP
FECHA DE NACIMIENTO
310521
1201 2000
NUM BOPONT
VALIDEZ
BOV110152 31 05 2026
261056
DNI 54195634K



Observamos que nuestro programa ha identificado correctamente la información del documento de identidad. Más adelante se deberá comprobar que dichos datos son verídicos. La imagen podrá corresponder al DNI o NIE de los cuidadores, siendo la posterior verificación diferente según qué caso, como se ha explicado anteriormente.

A continuación se observa la imagen del DNI en cuestión para comprobar que los datos extraídos son los correctos:

<img src="Imagenes/ID_comprobacion.jpg" alt="IPython Notebook" style="width: 500px;"/>

***

<img src="Imagenes/ue.png" alt="IPython Notebook" style="width: 300px;"/>