<a href="https://colab.research.google.com/github/Maluxita/notebooks_dataframes/blob/master/evaluate_and_adjust_analysis_and_computations_%5BV_1_2_5%5D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## SECCIÓN [Analysis empty cells]

Esta sección nos ayuda a identificar las columnas que tienen celdas con NaN("Not a Number" para nuestro caso igual a:  "vacías"), así como el tipo de dato presente en cada columna.

> * Recibe una lista con los nombres de las hojas que deseamos leer en cada libro.
> * También recibe una cadena que representa un patrón, el cuál busca los archivos excel cargados.
> * A veces solo nos interesa ver la info de las hojas que tienen celdas NaN, entonces hay que marcar la casilla view_only_sheets_nan.
> * Marca la casilla print_list_sheets si quieres ver el contenido de cada hoja procesada.

In [10]:
#@title Summary NaN types
sheets =  ['Election','Sources','Candidates','Coalitions','Election_counts']#@param {type:"raw"}
content_books =  "*.xlsx | tr '\n' '\n'"#@param {type:"raw"}
view_only_sheets_nan = True #@param {type:"boolean"}
view_list_sheets = False #@param {type:"boolean"}


import pandas as pd
from IPython.display import display, HTML

content_books=!ls {content_books}

def count_nan_in_columns_by_sheet(content_books, sheets):
  '''Return dicc with conteo_NaN info by sheet in content_books ''' 
  list_data=[]
  dicc_data={}

  for sheet in sheets:
    for file_name in content_books:
      try:
        sheet_to_df = pd.read_excel(file_name, sheet_name=sheet)
      except:
        print(f'\n ¡AVISO! No existe la hoja {sheet} en este archivo {file_name}')
        continue

      shape = sheet_to_df.shape
      df_types = pd.DataFrame([sheet_to_df.dtypes], columns=sheet_to_df.columns)
      df_types = df_types.append(sheet_to_df, ignore_index=True)
      df_types = df_types.rename(index = {0: 'data_column_type'})
      
      dicc_data = {'Archivo': file_name}
      dicc_data.update({'Hoja': sheet})
      dicc_data.update({'Contenido': str(shape[0]) + ' filas, '+ str(shape[1])+ ' columnas'})

      if sheet_to_df.isnull().sum().sum() == 0:
          msg = 'No tiene ninguna celda tipo NaN'
      else:
          null_columns = sheet_to_df.columns[sheet_to_df.isnull().any()]
          msg=''.join(sheet_to_df[null_columns].isnull().sum().to_string()).split('\n')
          msg=', '.join(msg)

      dicc_data.update({'Aviso': msg })
      list_data.append(dicc_data)

      if view_list_sheets:

          print('\nArchivo:',file_name)
          print('________                                                    ')
          print('\t| Hoja:',sheet, '\t',shape[0], 'filas, ', shape[1], 'columnas')
          print('\t| Aviso conteo NaN:',msg,' |\n')
          display(HTML(df_types.to_html()))

  return list_data


list_data=count_nan_in_columns_by_sheet(content_books, sheets)

df=pd.DataFrame([[fila['Archivo'], 
                  fila['Aviso'], 
                  fila['Contenido'], 
                  fila['Hoja']] 
                 for fila in list_data] , columns=['archivo', 'conteo_NaN', 'contenido', 'hoja'])

if view_only_sheets_nan:
  df=df[~df.conteo_NaN.str.contains('No tiene')]

print('\nRESUMEN:\n')
display(HTML(df.to_html()))


 ¡AVISO! No existe la hoja Sources en este archivo chiapas_municipios_2018_polling_place.xlsx

 ¡AVISO! No existe la hoja Candidates en este archivo chiapas_municipios_2018_polling_place.xlsx

 ¡AVISO! No existe la hoja Coalitions en este archivo chiapas_municipios_2018_polling_place.xlsx

 ¡AVISO! No existe la hoja Election_counts en este archivo chiapas_municipios_2018_polling_place.xlsx

RESUMEN:



Unnamed: 0,archivo,conteo_NaN,contenido,hoja
2,chihuahua_municipios_2016.xlsx,"File 1, Considerations 1","1 filas, 5 columnas",Sources
3,chihuahua_municipios_2016.xlsx,Affiliation 67,"67 filas, 4 columnas",Candidates
4,chihuahua_municipios_2016.xlsx,Name 67,"67 filas, 4 columnas",Coalitions


## SECCIÓN [Split Computations]

Esta sección nos ayuda a separar una columna apilada dada (C. Independiente n), en múltiples columnas agrupando por una columna pivote (municipality_id)

> * Agregar el nombre de la hoja a leer,
> * Agregar el nombre de la nueva hoja a crear
> * Agregar el patrón de los archivos a leer.




In [14]:
#@title Functions [Split Computations]
import pandas as pd
from IPython.display import display, HTML
from openpyxl import load_workbook


def some_column_begin_with(columns, phrase='C. Independiente'):
  for column in columns:
    if phrase in column:
      return True
  return False

def filter_columns(columns, phrase='C. Independiente'):
    return filter(lambda c: phrase in c, columns)

def add_new_sheet(name_book,df,name_sheet):
  ''' add new sheet, if the sheet exists it will be overwritten'''
  book = load_workbook(name_book)
  writer = pd.ExcelWriter(name_book, engine = 'openpyxl', mode='w')
  writer.book = book
  writer.sheets = dict((ws.title, ws) for ws in book.worksheets) 
  df.to_excel(writer, sheet_name = name_sheet, index=False)
  writer.save()
  writer.close()


def split_column_in_columns(content_books,sheet):
  '''split a stacked column
  (Independent C. n's), in multiple columns
  by filter value of another column (municipality_id)'''

  new_computes=[]
  computes_mun=[]
  phrase='C. Independiente'
  pivot_column='municipality_id'

  for file_name in content_books:
    try:
      my_data = pd.read_excel(file_name, sheet_name=sheet)
    except:
      print(f'No existe Polling places en el archivo {file_name}')
      continue
    if some_column_begin_with(my_data.columns, phrase):
      muns = my_data[pivot_column].unique()
      for mun in muns:
        df_mun = my_data.loc[my_data[pivot_column] == mun].copy()
        for n_independiente in filter_columns(my_data.columns, phrase):
          if df_mun[n_independiente].sum() > 0:
            df_mun[n_independiente +'_mun_'+str(mun)] = df_mun[n_independiente]
            computes_mun = df_mun.to_dict('records')
            new_computes.extend(computes_mun)
    
      new_data = pd.DataFrame(new_computes)
      new_data = new_data.fillna(0)
      new_data = new_data.astype(int)
      add_new_sheet(file_name, new_data, new_sheet)
      print(f'Se creó la hoja: {new_sheet} en el archivo:{file_name}')
    else:
      print(f'No existen C. Independientes en el archivo: {file_name}')
  return 0


In [15]:
#@title Split columns from computations

sheet="Polling_places"#@param {type:"string"}
new_sheet="Polling_places_split"#@param {type:"string"}

content_books =  "*.xlsx | tr '\n' '\n'"#@param {type:"raw"}

content_books=!ls {content_books}


split_column_in_columns(content_books,sheet)



Se creó la hoja: Polling_places_split en el archivo:chiapas_municipios_2018_polling_place.xlsx
No existe Polling places en el archivo chihuahua_municipios_2016.xlsx


0

## SECCIÓN 1: DEFINIR BIBLIOTECAS Y ARCHIVOS

In [None]:
#@title Importamos bibliotecas
import pandas as pd
import numpy as np
from openpyxl import load_workbook

In [None]:
#@title Definir funciones a usar
def add_new_sheet_index(name_book,df,name_sheet):
  ''' add new sheet, if the sheet exists new sheet with other index will be created'''
  book = load_workbook(name_book)
  writer = pd.ExcelWriter(name_book, engine = 'openpyxl', mode='w')
  writer.book = book
  df.to_excel(writer, sheet_name = name_sheet, index=False)
  writer.save()
  writer.close()

def add_new_sheet(name_book,df,name_sheet):
  ''' add new sheet, if the sheet exists it will be overwritten'''
  book = load_workbook(name_book)
  writer = pd.ExcelWriter(name_book, engine = 'openpyxl', mode='w')
  writer.book = book
  writer.sheets = dict((ws.title, ws) for ws in book.worksheets) 
  #print(writer.sheets) 
  df.to_excel(writer, sheet_name = name_sheet, index=False)
  writer.save()
  writer.close()

def types_columns_unique(types_dataframe):
  ''' generate a set of types columns from columns dataframe'''
  return ','.join(map(str, set(list(types_dataframe))))


def adjust_integers(content_books, sheet_name, new_sheet_name, regex_pattern_aditional=r'^-*$|^o+$|^O+$'):
  ''' Try to convert all columns in a sheet_name to integer, 
      from each book in content_books '''
  all_columns_integer={}
  print(f'\nSe creará NUEVA HOJA "{new_sheet_name}" para cada uno de los archivos siguientes, con los ajustes que se muestran en summary')
  for book in content_books:
    sustituir_vacios = True
    original_all_numbers = False
    all_columns_integer[book]={}
    print('\n\nLeyendo Libro:',book)
    df_temp = pd.read_excel(book,sheet_name=sheet_name)
    try:
      df_temp = df_temp.astype(int, errors='raise')
      sustituir_vacios = False
      original_all_numbers = True
    except ValueError as e:
      print('\n\tAVISO: Se encontraron valores que no se pueden convertir a entero directamente...')
      #print('\n\t\t!Info error 1:',e)
      all_columns_integer[book]['integer'] = False
    if sustituir_vacios:
      try:
        df_temp=df_temp.replace(r'^\s*$', 0, regex=True).replace(regex_pattern_aditional, 0, regex=True)
        #print(f'\n\tTRATAREMOS de SUSTITUIR valores VACÍOS, y los que cumplan este PATRÓN: {regex_pattern_aditional} por ceros')
      except ValueError as e:
        print('\n\tAVISO: Algún valor NO SE PUDO SUSTITUIR por 0\'s \:\( ')
        #print ('\n\t\t!Info error 2:',e)
    df_temp=df_temp.fillna(0)

    try:
      df_temp = df_temp.astype(int, errors='raise')
      all_columns_integer[book]['integer'] = True
    except ValueError as e:
      print('\n\tAVISO: Existe algún valor que no se puede convertir a entero :S')
      #print('\n\t\t!Info error 3', e)
      all_columns_integer[book]['integer'] = False
    
    all_columns_integer[book]['original_all_numbers'] = original_all_numbers
    all_columns_integer[book]['types_unique'] = types_columns_unique(df_temp.dtypes)

    g = dict(df_temp.columns.to_series().groupby(df_temp.dtypes).groups)   
    types_columns={}

    for k,v in g.items():
      if not 'int' in (str(k)):
        types_columns[str(k)]=','.join(list(v))

    if not all_columns_integer[book]['integer']:
      print('\n\tAVISO: Intenta un proceso individual para cada columna ...')
    types_columns.update({'book':book.split('.')[0]})
    all_columns_integer[book]['types_by_column'] = types_columns
    add_new_sheet(name_book=book,df=df_temp,name_sheet=new_sheet_name)


  print('\nFin del proceso :)')
  return all_columns_integer


In [None]:
#@title Leemos cuales son los archivos con terminación xlsx
content_books = !ls *.xlsx | tr '\n' '\n'

## SECCIÓN 2: CONVERSIÓN ENTEROS 
######  

*   Modifica a integer los valores de las columnas
*   De no ser posible la conversión, intenta reemplazar a 0's espacios en blanco y los que cumplan con un patrón regular.
*   En el mismo archivo agrega una hoja nueva 'Polling_places_corrections'

In [None]:
#@title Column to Integer Conversion Proccess
all_columns_integer = adjust_integers(content_books = content_books, 
                                    sheet_name = 'Polling_places', 
                                    new_sheet_name = 'Polling_places_corrections',
                                    regex_pattern_aditional = r'^-*$|^o+$|^O+$|^/+$')



Se creará NUEVA HOJA "Polling_places_corrections" para cada uno de los archivos siguientes, con los ajustes que se muestran en summary


Leyendo Libro: aguascalientes_diputados_2013_polling_place.xlsx


Leyendo Libro: baja-california_municipios_2013_polling_place (4).xlsx


Leyendo Libro: baja-california_municipios_2016_polling_place.xlsx

Fin del proceso :)


In [None]:
#@title Summary Conversion Integers
df = pd.DataFrame([[key.split('.')[0],value['integer'],value['original_all_numbers'], value['types_unique']] for key,value in all_columns_integer.items()], columns=['name_book', 'Finally Integer?','Began with numbers?', 'Types unique'])
df

Unnamed: 0,name_book,Finally Integer?,Began with numbers?,Types unique
0,aguascalientes_diputados_2013_polling_place,True,True,int64
1,baja-california_municipios_2013_polling_place (4),True,True,int64
2,baja-california_municipios_2016_polling_place,True,True,int64


### SECCIÓN 2.1 Suggest changes in columns cells

In [None]:
#@title Summary Columns cannot convert to Integers in a book
columnas_not_int=pd.DataFrame([v['types_by_column'] for v in all_columns_integer.values() if not v['integer']])
pd.set_option('display.max_colwidth', 0)
columnas_not_int


In [None]:
#@title Proccess to suggest changes in columns
def fix_multiple_types(n): 
    import re
    tipo=str(type(n))
    x=n
    if 'int' in tipo:
      return n
    if 'str' in tipo:
      numbers_patron = re.compile(r"[\d]", re.X)
      number=''.join(numbers_patron.findall(n))
      try: 
        n=int(number)
        print( '\t\t\tAhora: ',str(type(n)), str(n), '\tAntes:', tipo, str(x))
        return n
      except:
        pass
    elif 'float' in tipo:
      if n >= 0:
        n=int(n)
        return n
    print('\t\t\tAhora:', str(type(0)),str(0), '\tAntes:', str(type(x)), str(x))
    return 0

def fix_multiple_types_suggest_columns(n): 
    import re
    tipo=str(type(n))
    x=n
    if 'int' in tipo:
      return n
    if 'str' in tipo:
      numbers_patron = re.compile(r"[\d]", re.X)
      number=''.join(numbers_patron.findall(n))
      try: 
        n=int(number)
        n=''.join(['Ahora: ',str(type(n)),' ', str(n), ' Antes: ', tipo, str(x)])
        return n
      except:
        pass
    elif 'float' in tipo:
      if n >= 0:
        n=int(n)
        return n
    return ''.join(['Ahora: ', str(type(0)),' ', str(0), ' Antes: ', str(type(x)), str(x)])
   

for k,v in all_columns_integer.items():
  df_temp_columns_suggest = pd.read_excel(k,sheet_name='Polling_places')
  df_temp_sheet_suggest = pd.read_excel(k,sheet_name='Polling_places')

  print('LIBRO:',k,'\t')
 
  if not v['integer']:
    for key, tipos in v['types_by_column'].items():
      if key == 'book':
        continue
      print('TIPO:',key)
      
      for c in tipos.split(','):
        print('\n\tColumna:\n\t',c,'\n')
        df_temp_sheet_suggest[c]=list(map(fix_multiple_types,list(df_temp_sheet_suggest[c])))
        #df_temp_columns_suggest[c+'suggested']= df_temp_columns_suggest[c].map(fix_multiple_types_suggest_columns)
        df_temp_columns_suggest[c]= df_temp_columns_suggest[c].map(fix_multiple_types_suggest_columns)

    df_temp_sheet_suggest.astype(int, errors='ignore')
    df_temp_columns_suggest.astype(int, errors='ignore')
    

    add_new_sheet(name_book=k,df=df_temp_sheet_suggest,name_sheet='Polling_places_corrections')
    add_new_sheet(name_book=k,df=df_temp_columns_suggest,name_sheet='Polling_places_suggested')


LIBRO: aguascalientes_diputados_2013_polling_place.xlsx 	
LIBRO: baja-california_municipios_2013_polling_place (4).xlsx 	
LIBRO: baja-california_municipios_2016_polling_place.xlsx 	


## SECCIÓN REVISAR HOJA ELECCION

In [17]:
#@title Comprobar hoja Election
columnas_plantilla_election1=['State','Year','Election_type','Total_votes','Nominal_list','Computed_transactions','Fidelity']
#columnas_plantilla_Polling_places=['section_id', 'local_disctrict_id', 'municipality_id', 'state_id','Not_reg','Null_votes']
columnas_plantilla_election=set(['State','Year','Election_type','Total_votes','Nominal_list','Computed_transactions','Fidelity'])
lista_elections=[]
dicc_election={}

from IPython.display import display, HTML
import pandas as pd

content_books =  "*.xlsx | tr '\n' '\n'"#@param {type:"raw"}
content_books =  !ls {content_books}

for k in content_books:
  print(k)
  xls = pd.ExcelFile(k)
  if  not 'Election' in xls.sheet_names:
    print(f'\n\tNo existe la hoja Election para este archivo {k}')
    continue

  data_election=pd.read_excel(k,sheet_name='Election')
  dicc_election['book']=k
  columnas_hoja_election=set(data_election.columns)

  if  not columnas_plantilla_election-columnas_hoja_election:
    print('\tColumnas igual a la plantilla!\n')
    header_equal=True
  else:
    print('Falta al menos una columna con respecto a la plantilla\n')
    header_equal=False

  dicc_election['header_equal']=header_equal

  dicc_election['types_column']=list(data_election.dtypes)
  dicc_election['values_fila']=list(data_election.iloc[0])
  lista_elections.append(dicc_election)
  dicc_election['total_values']=len(data_election.iloc[0])
  dicc_election['total_header']=len(data_election.iloc[0])

  df_=pd.DataFrame([dicc_election['types_column'],dicc_election['values_fila'] ], index=['types','values'],columns=columnas_plantilla_election1)
  
  display(HTML(df_.to_html()))
  print()





chiapas_municipios_2018_polling_place.xlsx
	Columnas igual a la plantilla!



Unnamed: 0,State,Year,Election_type,Total_votes,Nominal_list,Computed_transactions,Fidelity
types,int64,int64,object,int64,int64,int64,int64
values,7,2018,Municipios,2365367,3541181,0,3



chihuahua_municipios_2016.xlsx
	Columnas igual a la plantilla!



Unnamed: 0,State,Year,Election_type,Total_votes,Nominal_list,Computed_transactions,Fidelity
types,int64,int64,object,int64,int64,int64,int64
values,8,2016,Municipios,1282433,2643565,0,3





## SECCIÓN 3: EDICIÓN DE NOMBRES DE COLUMNAS

In [50]:
#@title Definir funciones a usar
def reemplazar_nombres_columnas(df_temp, reemplazar):
  '''Recibe un nuevo nombre de columna y lo reemplaza por una anteriormente dado'''
  
  if reemplazar == 'Y':

    print("\t¿Cuál es nombre de columna a reemplazar? ", end="")
    columna_anterior = input()
    print("\t¿Cuál es el nuevo nombre de columna?", end="")
    columna_nueva = input()
    print(f"\n\tSe reemplazará: {columna_anterior} por {columna_nueva}")

    if columna_anterior in df_temp.columns and columna_nueva:
  
      df_temp.rename(columns={ columna_anterior :columna_nueva},inplace=True)
      
      print ('\n\tREEMPLAZO LISTO!\n')
      print('\n\tESTAS SON LAS COLUMNAS AHORA:\n\n\t',df_temp.columns)
    else:
      print(f'{columna_anterior} No es una columna existente! y/o recuerda agregar el texto por el cual sustituir')

  print('\n\t ¿Deseas reemplazar el nombre de otra columna? (Y/N)')
  reemplazar = input()

  if reemplazar == 'Y':
    df_temp=reemplazar_nombres_columnas(df_temp, reemplazar)
    print('\tSe actualizará el nombre de la columna en el archivo de excel')
  else:
    print('\tFinalizando edición de columnas de este archivo...')

  return df_temp


def rename_columns(content_books=[], sheet_name='Polling_places_corrections'):
  '''Reads the name and renames certain columns of a sheet'''
  for book in content_books:

    print('\n\nNOMBRE DEL ARCHIVO:',book)
    try:
      df_temp=pd.read_excel(book,sheet_name=sheet_name)
    except:
      print(f'No existe la hoja {sheet_name} en el archivo: {book}')
      continue
    print('\n\n\tESTAS SON LAS COLUMNAS PRESENTES:\n\n')
    print('\t',df_temp.columns)
    print('\n\t¿Deseas reemplazar el nombre de alguna columna? (Y/N)')

    reemplazar = input()

    if reemplazar == 'Y': 
      df_temp = reemplazar_nombres_columnas(df_temp,reemplazar)
      add_new_sheet(name_book=book,df=df_temp,name_sheet=sheet_name)
      print('\tSe actualizó el nombre de la columna en el archivo de excel')
    else:
      if reemplazar == 'N':
        print('\tBye!')
      else:
        print('\tOpción no válida, pasaremos al siguiente archivo...')

  return print('\nProceso finalizado :D')

In [52]:
#@title Proccess to help us to rename columns

from IPython.display import display, HTML


content_books =  "*.xlsx | tr '\n' '\n'"#@param {type:"raw"}
content_books =  !ls {content_books}
sheet_name="Polling_places"#@param {type:"string"}


rename_columns(content_books=content_books, sheet_name=sheet_name)



NOMBRE DEL ARCHIVO: chiapas_municipios_2018_polling_place.xlsx


	ESTAS SON LAS COLUMNAS PRESENTES:


	 Index(['section_id', 'local_district_id', 'municipality_id', 'state_id', 'PAN',
       'PRI', 'PRD', 'PT', 'PVEM', 'MC', 'PANAL', 'PCU', 'MORENA', 'PES',
       'PMVC', 'PAN,PRD,MC', 'PAN,PRD', 'PAN,MC', 'PRD,MC', 'MORENA,PT,PES',
       'PT,MORENA', 'PT,PES', 'MORENA,PES', 'PRI,PVEM,PANAL,PCU',
       'PRI,PVEM,PANAL', 'PRI,PVEM,PCU', 'PRI,PANAL,PCU', 'PVEM,PANAL,PCU',
       'PRI,PVEM', 'PRI,PANAL', 'PRI,PCU', 'PVEM,PANAL', 'PVEM,PCU',
       'PANAL,PCU', 'C. Independiente 1', 'C. Independiente 2',
       'C. Independiente 3', 'C. Independiente 4', 'C. Independiente 5',
       'C. Independiente 6', 'C. Independiente 7', 'C. Independiente 8',
       'C. Independiente 9', 'C. Independiente 10', 'C. Independiente 11',
       'C. Independiente 12', 'C. Independiente 13', 'C. Independiente 14',
       'C. Independiente 15', 'C. Independiente 16', 'C. Independiente 17',
       'C. Inde

## SECCIÓN 4: EVALUACIÓN CONTINUIDAD COLUMNA

In [46]:
#@title functions [evaluación continuidad]
def continuidad_columna(content_books=[], 
                        sheet_name='Polling_places_corrections',
                        column_to_evaluate='local_district_id'
                        ):
  ''' Evaluá si existe continuidad en columma determinada de una hoja del libro dada, compromando que sea vacía la diferencia simétrica'''
  evaluacion_distritos={}

  #print ('\nPara todos los archivos siguientes se evaluará la hoja:',sheet_name,'y la columna:' ,column_to_evaluate)
  for book in content_books:

    #print('\nLibro:',book)
    try:
      df_temp = pd.read_excel(book,sheet_name=sheet_name)
    except:
      print(f'\tNo existe la hoja {sheet_name} en el archivo: {book}')
      continue

    evaluacion_distritos[book]={}


    _df=df_temp.agg({column_to_evaluate:['max','min']})
    _unicos = df_temp[column_to_evaluate].unique()

    evaluacion_distritos[book]['min'] = _df[column_to_evaluate]['min']
    evaluacion_distritos[book]['max'] = _df[column_to_evaluate]['max']
    evaluacion_distritos[book]['shape']= df_temp.shape
    evaluacion_distritos[book]['size']= df_temp.size

    a = set(_unicos)
    b = set(np.arange(evaluacion_distritos[book]['min'],evaluacion_distritos[book]['max'] + 1))
    c = a^b

    evaluacion_distritos[book]['diferencia']=", ".join(map(str,c))
  return evaluacion_distritos

In [49]:
#@title Process to evaluate continuity in a column
import numpy as np
from IPython.display import display, HTML


content_books =  "*.xlsx | tr '\n' '\n'"#@param {type:"raw"}
content_books =  !ls {content_books}
column_to_evaluate =  "local_district_id"#@param {type:"string"}
sheet_name="Polling_places"#@param {type:"string"}

evaluacion_distritos=continuidad_columna(content_books=content_books, 
                        sheet_name=sheet_name,
                        column_to_evaluate=column_to_evaluate
                        )

df = pd.DataFrame([[key.split('.')[0],value['diferencia'],value['min'], value['max'], value['shape'], value['size']] for key,value in evaluacion_distritos.items()], 
                  columns=['Libro', 'IDs No Continuos', 'Mínimo', 'Máximo', 'Filas,Columnas', 'Total Celdas'])
display(HTML(df.to_html()))


	No existe la hoja Polling_places en el archivo: chihuahua_municipios_2016.xlsx


Unnamed: 0,Libro,IDs No Continuos,Mínimo,Máximo,"Filas,Columnas",Total Celdas
0,chiapas_municipios_2018_polling_place,,1,24,"(6303, 77)",485331
1,chihuahua_municipios_2018_polling_place,,0,0,"(5297, 23)",121831


## SECCIÓN 5: Descargar archivos

In [None]:
archivos= ! ls *.xlsx | tr '\n' '\n'
from google.colab import files

for archivo in archivos:
  files.download(archivo)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>