# Ejercicio 22

## Enunciado
Crea un programa que:

1. Lea los datos de un fichro excel.
2. Mediante expresiones regulares, halle aquellos emails incorrectos.
2. Vuelque los datos a un fichero JSON cuyas claves se correspondan con las cabeceras del excel.

## Aclaración

Un email es válido siempre y cuando sea del tipo nombre.apellido@**algo**.**ext**, por ejemplo:

- fernando.garcia@gmail.com
- rosa.fuetes@yahoo.es

Un email no es válido si no cumple con lo anteriormente expuesto, por ejemplo:

- marta-cristina.noblejas@gmail.com
- francisco.perales@yahoo.es.com
- pedropicapiedra@roca.com

### ¿Qué cosas nuevas necesitamos saber?
- Lectura de ficheros xls mediante la librería **xlrd**.

### Lectura de ficheros xls mediante la librería **xlrd**.

La librería xlrd nos permite leer ficheros Excel con extensión **.xls**.

Para ello, primero deberemos instalarla con pip, ya que no es una librería nativa de Python. Si no recuerdas como hacerlo, puedes consultarlo en el Ejercicio 14, por ejemplo.

Veamos como utilizarla:

In [1]:
import xlrd

In [2]:
personas = xlrd.open_workbook('personas.xls') # para acceder a nuestro excel

In [3]:
hojas = personas.sheet_names() # para comprobar las hojas de nuestro excel y su índice
for i, hoja in enumerate(hojas):
    print(i, hoja)

0 Hoja1


In [4]:
hoja1 = personas.sheet_by_name("Hoja1") # para acceder a los datos por nombre de la hoja
hoja1 = personas.sheet_by_index(0) # para acceder a los datos por indice de la hoja

In [5]:
fila = hoja1.row(0) # para acceder a la fila por índice
celda = fila[0] # para acceder a la columna por indice dentro de la fila
print(celda.value) # para obtener el valor de la celda

Nombre


In [6]:
columna = hoja1.col(0) # para acceder a la fila por índice
celda = columna[0] # para acceder a la fila por indice dentro de la columna
print(celda.value) # para obtener el valor de la celda

Nombre


Con esto es más que suficiente para resolver el ejercicio de hoy.

Recuerda que has de hallar los emails incorrectos mediante expresiones regulares. Para ello deberás usar la función **fullmatch()** que comprueba si todo el string (no solo una parte, como hace match) cumple la expresión regular.

Suerte!

## Solución

In [1]:
import re, xlrd, json

In [5]:
personas = xlrd.open_workbook('../Otros/personas.xls')

In [6]:
hoja1 = personas.sheet_by_index(0)

In [7]:
n_cols = len(hoja1.row(0))

In [8]:
n_rows = len(hoja1.col(0))

In [9]:
headers = [cell.value for cell in hoja1.row(0)]

In [10]:
def format_row(headers, row):
     return {header: cell.value for header, cell in zip(headers, row)}

In [11]:
formatted_rows = [format_row(headers, hoja1.row(i)) for i in range(1, n_rows)] # como la cero no la queremos porque son los encabezados, empezamos ponemos 1 como inicio del range

In [12]:
def validate_email(mail):
    pattern = re.compile(r'[a-zñ]*\.[a-zñ]*@[a-zñ]*\.[a-zñ]*')
    if pattern.fullmatch(mail):
        return True
    else:
        return False

In [13]:
invalid_rows = list(filter(lambda x: not validate_email(x.get('Email')), formatted_rows))

In [14]:
with open('invalidos.json', 'w') as f:
    json.dump(invalid_rows, f)
    f.close()