***
# Archivos

Un archivo es una unidad lógica de almacenamiento de datos en
dispositivos externos (no memoria principal). Se dice unidad lógica
porque todos los bytes almacenados en un archivo se ven como una
sola unidad que tiene un inicio y un fin, sin importar lo que esos bytes estén representando. El tamaño (coloquialmente peso) de un archivo es el número de bytes que almacena.

**Ejercicio No. 17**

En este ejercicio se hace una prueba de la lectura de información de un archivo cargado en COLAB. El comando **open(ruta del archivo, 'r')** toma un nombre de archivo y modo como argumentos, *r* abre el archivo en modo de lectura (read).

In [None]:
# apertura de archivo en modo lectura
with open('/content/files/data.txt', 'r') as f:
  data = f.read() # función que carga todo el contenido del archivo en una variable
  print(data)

**Ejercicio No. 18**

En este ejercicio se muestra como se puede hacer escritura en un archivo colocado en COLAB, incluso mediante ciclos. El comando **open(ruta del archivo, 'w')** abre el archivo en modo de
escritura creando el archivo si no existe (write) ó sobreescribiendo el archivo si existe.

In [None]:
# apertura de archivo en modo creación/sobre-escritura
with open('files/wdata_2.txt', 'w') as f:
  data = "hola estamos escribiendo en el archivo "
  for i in range(120, 123): # iteración para tener varios valores diferentes
    line = data + str(i) + "\n" # creación de nuevas líneas con final distinto
    #print(line)
    f.write(line)  # la función write escribe en el archivo

print("Se ha escrito correctamente en el archivo.") # mensaje para saber cuando terminó el proceso

**Ejercicio No. 19**

En este ejercicio se usa el comando **open(ruta del archivo, 'a')**, el cual abre el archivo en modo de adjuntar creando el archivo si no existe (append) ó escribiendo al final del archivo si existe.

In [None]:
with open('files/wdata.txt', 'a') as f:
  data = "más cosas "
  for i in range(1, 6):
    line = data + str(i) + "\n"
    #print(line)
    f.write(line)

print("Se ha agregado información correctamente en el archivo.")

**Ejercicio No. 20**

En este ejercicio se abre en modo lectura un archivo llamado _data1.txt_ previamente cargado en la carpeta _files_.

In [None]:
with open('files/data1.txt', 'r') as f:
  print(f.read())

print('\n\n')

with open("files/data1.txt", "r", encoding="utf-8") as f:
  print(f.read())


**Ejercicio No. 21**

En este ejercicio se muestra una opción de lectura parcial. En algunos casos no se desea leer la totalidad del contenido de un archivo, sino solamente una fracción. En ese caso el comando **read()** admite un parámetro entero que especifica cuantos bytes se leen y deja el apuntador justo después del último byte leı́do.

In [None]:
f_size = 0

with open('files/data1.txt', 'a', encoding="utf-8") as f:
  f_size = f.tell()


with open('files/data1.txt', 'r', encoding="utf-8") as f:
  posicion = 0
  aumento  = 10
  while (posicion + aumento) < f_size:
    segmento = f.read(aumento)
    print(segmento)
    posicion += aumento


with open('files/data1.txt', 'r', encoding="utf-8") as f:
  linea1 = f.read(6)
  linea2 = f.read(10)

#print(linea1)
#print(linea2)

**Ejercicio No. 22**

En este ejercicio se muestra que es posible leer un archivo lı́nea por lı́nea utilizando el comando **readline()**. Esta es una forma eficiente en memoria de leer un archivo.

In [None]:
with open('files/data2.txt', 'r', encoding="utf-8") as f:
  line = f.readline()
  while line != "":
    print(line, end="")
    line = f.readline()

with open('files/data1.txt', 'r', encoding="utf-8") as f:
  linea1 = f.readline()
  linea2 = f.readline()

print(linea1, end='')
print(linea2, end='')

**Ejercicio No. 23**

En este ejercicio se muestra que es posible cargar todas las líneas del archivo como una lista si se utiliza el comando **readlines()**.

In [None]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
  print("Nombre del archivo: ", f.name)
  lista = f.readlines()

print(lista)
for line in lista:
  if line.count("3:") > 0:
    print("lo encontre")
  print(line)

**Ejercicio No. 24**

En este ejercicio se muestra la forma más sencilla y eficiente, de abrir y procesar un archivo de texto es iterar lı́nea por lı́nea el archivo.

In [None]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
  for line in f:
    print(line, end='')

**Ejercicio No. 25**

En este ejercicio se muestra el uso del modo _a+_, que a menudo se prefiere utilizar para escribir un archivo porque permite añadir datos al final del mismo.


In [None]:
with open("files/data2.txt", "a+", encoding='utf-8') as f:
  f.write("\nEsta es la lı́nea 5: qweqweqwe")

print("Se ha agregado información en el archivo correctamente.")

**Ejercicio No. 26**

En este ejercicio se muestra la opción de escritura usando el modo _w+_, la cual sobre-escribe el archivo. En este caso, si se desean escribir datos que no son cadenas de texto en un archivo es necesario convertir cada dato a string con el comando _str()_, y se puede usar un ciclo para agregar al archivo cada elemento de una lista en una nueva línea dentro del archivo.

In [None]:
values = [1234, 5678, 9012, 3.14159265, False, "a"]
with open("files/data3.txt", "w+") as f:
  for value in values:
    str_value = str(value)
    f.write(str_value)
    f.write("\n")

print("Se ha sobre-escrito la información en el archivo correctamente.")

**Ejercicio No. 27**

En este ejercicio se muestra una manera de moverse  a posiciones específicas de un archivo que se esté leyendo. Para hacer esto, se usa la función _seek(cantidad_caracteres, desde_posicion)_, teniendo tres valores para la posición: 0 es inicio, 1 es la actual del apuntador, 2 es el final del archivo.

In [None]:
with open("files/data4.txt", "a+", encoding='utf-8') as f:
  f.seek(6,0)
  for line in f:
    print(line, end='')


**Ejercicio No. 28**

En este ejercicio se muestra la manera de obtener el tamaño de archivo en bytes utilizando la función _tell()_.

In [None]:
with open("files/data1.txt", "a+") as f:
  print("Tamaño del archivo en bytes:", f.tell())

**Ejercicio No. 29**

En este ejercicio se muestra la forma más fácil de editar un archivo dado es guardar el archivo entero en una lista y utilizar el comando _list.insert(i,x)_, que permite insertar nuevos datos a la lista. Una vez creada la lista se puede unir (_join_) de nuevo y escribir ésto en el archivo.



In [None]:
list_content = []

# abre el archivo en modo de sólo lectura
with open("files/data5.txt", "r", encoding='utf-8') as f:
  list_content = f.readlines()

list_content.insert(1, "Esta es la lı́nea 1.5: jajaja\n")
print(list_content)

# re-abre el archivo en modo de sólo escritura para sobre-escribir la versión anterior de éste
with open("files/data5.txt", "w", encoding='utf-8') as f:
  contenido = "".join(list_content)
  print(contenido)
  f.write(contenido)

**Ejercicio No. 30**

En este ejercicio se muestra la manera con la cual desde python se puede saber que archivos se encuentran en una carpeta específica. La opción tradicional es usar la librería *os*, que controla cosas del sistema operativo (operative system), y como primera opción está la función *listdir()*.

En las versiones modernas de Python una alternativa a os.listdir() es
utilizar os.scandir() (desde Python 3.5) y pathlib.Path().

In [None]:
import os

data = os.listdir('files/')
print("Files:", data)

print("\n------- New Alternative -------")
entries = os.scandir('files/')
for entry in entries:
  print(entry.name + ', es directorio: ' +
        str(entry.is_dir()) + ', size: ' +
        str(entry.stat().st_size) + ' bytes.')

**Ejercicio No. 31**

En este ejercicio se muestra la forma de almacenar información contenida en estructuras de datos python (como diccionarios o listas). En este caso se puede utilizar el módulo **pickle** con su método **dump**, para serializar objetos.

In [None]:
import pickle

name  = ["mohit", "bhaskar", "manish"]
skill = ["Python", "Python", "Java"]
dict1 = dict([(k,v) for k,v in zip(name, skill)]) # creación de un diccionario a partir de dos listas

with open("files/programming_powers.pkl", "wb") as p_file:
  pickle.dump(name, p_file)
  pickle.dump(skill, p_file)
  pickle.dump(dict1, p_file)

print("El archivo en binario se ha escrito correctamente.")

**Ejercicio No. 32**

En este ejercicio se muestra que para realizar el proceso inverso de serialización (leer de archivo los objetos serializados con **pickle**), se puede seguir el método **load**.

In [None]:
import pickle
with open("files/programming_powers.pkl", "rb") as p_file:
  a = pickle.load(p_file)
  b = pickle.load(p_file)
  c = pickle.load(p_file)

print(a)
print(b)
print(c)

**Ejercicio No. 33**

En este ejercicio se muestra que con cierto procesamiento es posible crear una copia de la imagen. Una imagen de tipo __*.jpg__ es un archivo de tipo binario.

In [None]:
with open("files/discurso.jpg", "rb") as imagen:
  data = imagen.read()

with open("files/copy.jpg", "wb") as f:
  f.write(data)

print(data)

***
# Problemas de Estudio

In [None]:
def imprimir_en_rango(lista_personas, edad_inicial, edad_final):
  personas_filtradas = [] # lista con los nombres de las personas en el rango de edad
  for persona in lista_personas: # se recorre la lista de personas
      if edad_inicial <= persona['edad'] <= edad_final: # se verifica si la edad está en el rango
        temp = persona['nombres'] + ' ' + persona['apellidos'] # si la persona está, se concatenan nombres y apellidos
        personas_filtradas.append(temp) # se agrega al listado de personas a imprimir
  return personas_filtradas

## Ejemplo del Listado de Personas ##
"""
[
  {"nombres":"Julio", "apellidos":"Triviño", "edad":45},
  {"nombres":"Patana", "apellidos":"Trufillo", "edad":25},
  {"nombres":"Juan", "apellidos":"Bodoque", "edad":35}
]
"""

**Problema No. 4**

a. Dado el archivo de texto files/SalesJan2009.csv, procese el archivo
para obtener las compras realizadas en un paı́s dado.

b. Dado el archivo de texto files/SalesJan2009.csv, procese el archivo
para obtener las compras realizadas con un medio de pago dado.


In [None]:
def estadisticas_ventas(ruta_archivo_compras, pais, metodo):
  indice_pais  = None # índice de la columna donde estará el país en las compras
  compras_pais = 0    # contador de compras en el país a buscar

  indice_metodo  = None # índice de la columna donde estará el método_pago en las compras
  compras_metodo = 0    # contador de compras con el método de pago a buscar

  with open(ruta_archivo_compras, 'r', encoding='UTF-8') as archivo:
    encabezados = archivo.readline().split(',') # en la primera línea del archivo están los nombres de las columnas
    for i in range( len(encabezados) ):  # recorrido de la lista usando el concepto de índices
      if encabezados[i] == "Country": # se verifica si en ese índice está el nombre de columna de "País"
        indice_pais = i
      if encabezados[i] == "Payment_Type":  # se verifica si en ese índice está el nombre de columna de "Método de Pago"
        indice_metodo = i

    compra = archivo.readline.split(',') # se lee cada línea y se separan los elementos por coma
    while len(compra) > 1: # recorre el archivo hasta el final
      if compra[indice_pais] == pais: # si el país en la compra es el mismo que se busca, se aumenta el contador
        compras_pais += 1
      if compra[indice_metodo] == metodo: # si el método de pago en la compra es el mismo que se busca, se aumenta el contador
        compras_metodo += 1
      compra = archivo.readline.split(',') # se lee cada línea y se separan los elementos por coma

    return compras_pais, compras_metodo

**Problema No. 7**

Desarrollar un programa que lea un archivo JSON que contiene una
serie de cadenas de caracteres en minúscula, cada una con su propia
llave. Estas llaves tienen una codificación, a forma de encriptación, en
donde las vocales están descritas como otros sı́mbolos: \$ en vez de a, # en vez de e, * en vez de i, ¬ en vez de o, y + en vez de u. Una vez leı́do el archivo, realice una desencriptación de todas las cadenas, es
decir, convierta los sı́mbolos a sus vocales correspondientes (si la cadena de entrada es ”h¬l\$”, la cadena resultante serı́a ”hola”), y
guarde el resultado en un nuevo archivo JSON.

In [None]:
def desencriptacion_cadenas(diccionario_cadenas):
  cadenas_nuevas = {}
  for clave, cadena in cadenas_nuevas.items():
    cadena = cadena.replace('$', 'a')
    cadena = cadena.replace('#', 'e')
    cadena = cadena.replace('*', 'i')
    cadena = cadena.replace('¬', 'o')
    cadena = cadena.replace('+', 'u')
    cadenas_nuevas[clave] = cadena
  return cadenas_nuevas

"""
{
  "saludo":    ”h¬l$",
  "despedida": ”ch$¬"
}
"""

**Problema No. 8**

Desarrollar un programa que lear un archivo .csv y lo guarde como un archivo .json .

In [None]:
import json
from   pprint import pprint

def convertir_csv2list_dict(ruta_csv):
  with open(ruta_csv, 'r', encoding="utf=8") as archivo_csv:
    encabezados = archivo_csv.readline().split(',')
    lista_datos = []
    linea = archivo_csv.readline().split(',')
    while len(linea) > 1:
      nuevo_registro = {}
      for i in range( len(linea) ):
        nuevo_registro[ encabezados[i] ] = linea[i]
        #nuevo_registro[ encabezados[i] ] = linea[i].strip()
        #nuevo_registro[ encabezados[i] ] = linea[i].replace('\n', '')
      lista_datos.append( nuevo_registro )
      linea = archivo_csv.readline().split(',')
    return lista_datos


def convertir_csv2json(ruta_csv, ruta_json):
  lista_datos = convertir_csv2list_dict(ruta_csv)
  with open(ruta_json, 'w', encoding="utf-8") as archivo_json:
    json.dump(lista_datos, archivo_json)
  print("Conversión completada. Datos guardados.")
  print( type(lista_datos[0]) )
  print( json.dumps(lista_datos[0]) )


convertir_csv2json('files/SalesJan2009.csv', 'json/SalesJan2009.json')

**Problema No. 9**

Se debe hacer un cruce de dos listas de información, una que corresponde a un listado de personas censadas, y otro es un listado de personas con su información socio-demográfica. La idea es cruzar estos listados, ver las personas que están censadas y que al tiempo tienen información socio-demográfica, y determinar si merecen servicios de apoyo del estado o no. Finalmente, se debe generar una lista de personas que están en alguna de las dos listas, pero no en las dos al mismo tiempo.

In [None]:
convertir_csv2json('ejercicio_servicios_sociales/Censo.csv', 'ejercicio_servicios_sociales/Censo.json')

In [None]:
import json
from pprint import pprint
with open('ejercicio_servicios_sociales/Censo.json', 'r', encoding='utf-8') as censo:
  resultado_censo = json.load(censo)
print(resultado_censo)

resultado_sisben = convertir_csv2list_dict('ejercicio_servicios_sociales/Sisben.csv')
print(resultado_sisben)

poblacion_cruce_informacion = []
for persona_censo in resultado_censo:
  for persona_sisben in resultado_sisben:
    if persona_censo["NroDocumento"] == persona_sisben["NroDocumento"]:
      temp = persona_censo.copy()
      temp.update(persona_sisben)
      poblacion_cruce_informacion.append(temp)

pprint(poblacion_cruce_informacion[0])