<a href="https://colab.research.google.com/github/madelavi/Proteccion_de_Datos/blob/main/Importaci%C3%B3n_Datos_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 1
### Abrir archivos

Abrir un archivo en Python es muy simple. Solo necesitamos usar la función open().

In [None]:
# abrir_archivos.py
fh = open('fear.txt', 'rt') # r: leer, t: texto

for line in fh.readlines():
  print(line.strip()) # eliminar espacios en blanco e imprimir

fh.close()

An excerpt from Fear - By Thich Nhat Hanh

The Present Is Free from Fear

When we are not fully present, we are not really living. We’re not really there, either for our loved ones or for ourselves. If we’re not there, then where are we? We are running, running, running, even during our sleep. We run because we’re trying to escape from our fear.

We cannot enjoy life if we spend our time and energy worrying about what happened yesterday and what will happen tomorrow. If we’re afraid all the time, we miss out on the wonderful fact that we’re alive and can be happy right now. In everyday life, we tend to believe that happiness is only possible in the future. We’re always looking for the “right” conditions that we don’t yet have to make us happy. We ignore what is happening right in front of us. We look for something that will make us feel more solid, more safe, more secure. But we’re afraid all the time of what the future will bring—afraid we’ll lose our jobs, our possessions, the people

En el código anterior llamamos a open(), pasándole el nombre del archivo, e indicando a open() que queremos leerlo en modo texto. No hay información de ruta antes del nombre del archivo; por lo tanto, open() asumirá que el archivo está en la misma carpeta desde donde se ejecuta el script. Esto significa que si ejecutamos este script desde fuera de la carpeta de archivos, entonces fear.txt no será encontrado.

Una vez que el archivo ha sido abierto, obtenemos de vuelta un objeto de archivo, fh, que podemos utilizar para trabajar en el contenido del archivo. En este caso, utilizamos el método readlines() para iterar sobre todas las líneas en el archivo y luego imprimirlas. Llamamos a strip() en cada línea para eliminar cualquier espacio adicional alrededor del contenido, incluido el carácter de terminación de línea al final, ya que print ya agregará uno por nosotros.



Podemos simplificar aún más el ejemplo anterior de la siguiente manera:

In [None]:
# abrir_archivos_2.py
fh = open('fear.txt') # rt esta predeterminado
try:
  for line in fh: # podemos iterar directamente en fh
    print(line.strip())
finally:
  fh.close()

An excerpt from Fear - By Thich Nhat Hanh

The Present Is Free from Fear

When we are not fully present, we are not really living. We’re not really there, either for our loved ones or for ourselves. If we’re not there, then where are we? We are running, running, running, even during our sleep. We run because we’re trying to escape from our fear.

We cannot enjoy life if we spend our time and energy worrying about what happened yesterday and what will happen tomorrow. If we’re afraid all the time, we miss out on the wonderful fact that we’re alive and can be happy right now. In everyday life, we tend to believe that happiness is only possible in the future. We’re always looking for the “right” conditions that we don’t yet have to make us happy. We ignore what is happening right in front of us. We look for something that will make us feel more solid, more safe, more secure. But we’re afraid all the time of what the future will bring—afraid we’ll lose our jobs, our possessions, the people

# Ejercicio 2
### Leer y escribir en un archivo

In [None]:
# leer/escribir_archivos.py
with open('fear.txt') as f:
  lines = [line.rstrip() for line in f]
with open('fear_copy.txt', 'w') as fw:
  fw.write('\n'.join(lines))

En este ejemplo, primero abrimos el archivo fear.txt y recopilamos su contenido en una lista, línea por línea. Observa que esta vez, estamos usando un método diferente, rstrip(), como ejemplo, para asegurarnos de que solo eliminamos los espacios en blanco del lado derecho de cada línea.

En la segunda parte del fragmento, creamos un nuevo archivo, fear_copy.txt, y escribimos en él todas las líneas del archivo original, unidas por un salto de línea, \n.

# Ejercicio 3
### Manipulación de archivos y directorios.

In [None]:
# manipulación_archivos_directorios.py
from collections import Counter
from string import ascii_letters
chars = ascii_letters + ' '
def sanitize(s, chars):
  return ''.join(c for c in s if c in chars)
def reverse(s):
  return s[::-1]
with open('fear.txt') as stream:
  lines = [line.rstrip() for line in stream]
# escribamos la versión reflejada del archivo
with open('raef.txt', 'w') as stream:
  stream.write('\n'.join(reverse(line) for line in lines))
# ahora podemos calcular algunas estadísticas
lines = [sanitize(line, chars) for line in lines]
whole = ' '.join(lines)
# Realizamos comparaciones en la versión en minúsculas de 'todo'.
cnt = Counter(whole.lower().split())
# podemos imprimir las N palabras más comunes
print(cnt.most_common(3))

[('we', 17), ('the', 13), ('were', 7)]


Este ejemplo define dos funciones: sanitize() y reverse(). Son funciones simples cuyo propósito es eliminar cualquier cosa que no sea una letra o un espacio de una cadena, y producir una copia invertida de una cadena, respectivamente.

Abrimos fear.txt y leemos su contenido en una lista. Luego creamos un nuevo archivo, raef.txt, que contendrá la versión reflejada horizontalmente del original. Escribimos todo el contenido de las líneas con una sola operación, utilizando join con un carácter de salto de línea. Quizás lo más interesante es la parte al final. Primero, reasignamos lines a una versión sanitizada de sí misma mediante una comprensión de lista. Luego juntamos las líneas en la cadena completa y, finalmente, pasamos el resultado a un objeto Counter. Observa que dividimos la versión en minúsculas de la cadena en una lista de palabras. De esta manera, cada palabra se contará correctamente, independientemente de su caso, y gracias a split(), no necesitamos preocuparnos por espacios adicionales en ninguna parte. Cuando imprimimos las tres palabras más comunes, nos damos cuenta de que, realmente, el enfoque de Thich Nhat Hanh está en los demás, ya que "we" (nosotros) es la palabra más común en el texto.







# Ejercicio 4
### Manipular nombres de rutas

In [None]:
# manipular_nombres_rutas.py
from pathlib import Path

p = Path('fear.txt')

print(p.absolute())
print(p.name)
print(p.parent.absolute())
print(p.suffix)

print(p.parts)
print(p.absolute().parts)

readme_path = p.parent / '..' / '..' / 'README.rst'
print(readme_path.absolute())
print(readme_path.resolve())

/content/fear.txt
fear.txt
/content
.txt
('fear.txt',)
('/', 'content', 'fear.txt')
/content/../../README.rst
/README.rst


Observa cómo, en las dos últimas líneas, tenemos dos representaciones diferentes del mismo camino. La primera (readme_path.absolute()) muestra dos '..', de los cuales, en términos de ruta, uno indica cambiar al directorio padre. Entonces, al cambiar al directorio padre dos veces seguidas, desde .../lpp3e/ch08/files/ regresamos a .../lpp3e/. Esto se confirma con la última línea del ejemplo, que muestra la salida de readme_path.resolve().

# Ejercicio 5
### Trabaja con JSON

JSON se basa en dos estructuras: una colección de pares de nombre/valor, y una lista ordenada de valores. Es bastante sencillo darse cuenta de que estos dos objetos se mapean a los tipos de datos dict y list en Python, respectivamente.

In [None]:
# JSON.py
import sys
import json
data = {
'big_number': 2 ** 3141,
'max_float': sys.float_info.max,
'a_list': [2, 3, 5, 7],
}
json_data = json.dumps(data)
data_out = json.loads(json_data)
assert data == data_out # json y viceversa, los datos coinciden

Comenzamos importando los módulos sys y json. Luego creamos un diccionario simple con algunos números y una lista. Queríamos probar la serialización y deserialización utilizando números muy grandes, tanto enteros como de punto flotante, así que colocamos 23141 y el número de punto flotante más grande que nuestro sistema pueda manejar.

Serializamos con json.dumps(), que toma los datos y los convierte en una cadena con formato JSON. Luego, esa cadena de datos se introduce en json.loads(), que hace lo contrario: a partir de una cadena con formato JSON, reconstruye los datos en Python. En la última línea, nos aseguramos de que los datos originales y el resultado de la serialización/deserialización a través de JSON coincidan.

Veamos cómo se verían los datos JSON si los imprimiésemos:

In [None]:
#JSON.2.py
import json
info = {
'full_name': 'Sherlock Holmes',
'address': {
'street': '221B Baker St',
'zip': 'NW1 6XE',
'city': 'London',
'country': 'UK',
}
}
print(json.dumps(info, indent=2, sort_keys=True))

{
  "address": {
    "city": "London",
    "country": "UK",
    "street": "221B Baker St",
    "zip": "NW1 6XE"
  },
  "full_name": "Sherlock Holmes"
}


# Ejercicio 6
## Codificación/decodificación personalizada con JSON

Términos como codificación/decodificación, básicamente, significan transformar hacia y desde JSON.

En el siguiente ejemplo, vamos a aprender cómo codificar números complejos, que por defecto no son serializables a JSON, escribiendo un codificador personalizado:

In [None]:
# codificacion/ decodificacion_JSON.py
import json
class ComplexEncoder(json.JSONEncoder):
  def default(self, obj):

      print(f"ComplexEncoder.default: {obj=}")
      if isinstance(obj, complex):
         return {
              '_meta': '_complex',
              'num': [obj.real, obj.imag],
}
      return super().default(obj)

data = {
    'an_int': 42,
    'a_float': 3.14159265,
    'a_complex': 3 + 4j,
}

json_data = json.dumps(data, cls=ComplexEncoder)
print(json_data)

def object_hook(obj):
    print(f"object_hook: {obj=}")
    try:
        if obj['_meta'] == '_complex':
            return complex(*obj['num'])
    except KeyError:
        return obj

data_out = json.loads(json_data, object_hook=object_hook)
print(data_out)

ComplexEncoder.default: obj=(3+4j)
{"an_int": 42, "a_float": 3.14159265, "a_complex": {"_meta": "_complex", "num": [3.0, 4.0]}}
object_hook: obj={'_meta': '_complex', 'num': [3.0, 4.0]}
object_hook: obj={'an_int': 42, 'a_float': 3.14159265, 'a_complex': (3+4j)}
{'an_int': 42, 'a_float': 3.14159265, 'a_complex': (3+4j)}


Comenzamos definiendo una clase ComplexEncoder como una subclase de la clase JSONEncoder. Nuestra clase anula el método default. Este método se llama cada vez que el codificador encuentra un objeto que no puede codificar y se espera que devuelva una representación codificable de ese objeto.


Nuestro método default() verifica si su argumento es un objeto complejo, en cuyo caso devuelve un diccionario con alguna información meta personalizada y una lista que contiene tanto la parte real como la imaginaria del número. Eso es todo lo que necesitamos hacer para evitar perder información para un número complejo. Si recibimos algo que no sea una instancia de complejo, llamamos al método default() de la clase padre, que simplemente genera un TypeError. Luego llamamos a json.dumps(), pero esta vez usamos el argumento cls para especificar nuestro codificador personalizado.

# Ejercicio 7
### Usando un flujo en memoria

Los objetos en memoria pueden ser útiles en una multitud de situaciones. La memoria es mucho más rápida que un disco, está siempre disponible y para pequeñas cantidades de datos puede ser la elección perfecta.

In [None]:
# flujo_memoria.py
import io
stream = io.StringIO()
stream.write('Learning Python Programming.\n')
print('Become a Python ninja!', file=stream)
contents = stream.getvalue()
print(contents)
stream.close()

Learning Python Programming.
Become a Python ninja!



En el fragmento de código anterior, importamos el módulo io de la biblioteca estándar. Este es un módulo muy interesante que cuenta con muchas herramientas relacionadas con flujos de datos y entrada/salida. Uno de ellos es StringIO, que es un búfer en memoria en el que vamos a escribir dos oraciones, utilizando dos métodos diferentes, como hicimos con archivos en los primeros ejemplos de este capítulo. Podemos llamar a StringIO.write() o podemos usar print, indicándole que dirija los datos a nuestro flujo.

Al llamar a getvalue(), podemos obtener el contenido del flujo. Luego procedemos a imprimirlo y, finalmente, lo cerramos. La llamada a close() hace que el búfer de texto se descarte inmediatamente.

# Ejercicio 8
### Realizar solicitudes HTTP

Vamos a realizar solicitudes HTTP contra la API de httpbin.org (http://httpbin.org/),

In [None]:
# solicitudes_HTTP.py
import requests
urls = {
    "get": "https://httpbin.org/get?t=learn+python+programming",
    "headers": "https://httpbin.org/headers",
    "ip": "https://httpbin.org/ip",
    "user-agent": "https://httpbin.org/user-agent",
    "UUID": "https://httpbin.org/uuid",
    "JSON": "https://httpbin.org/json",
}

def get_content(title, url):
    resp = requests.get(url)
    print(f"Response for {title}")
    print(resp.json())

for title, url in urls.items():
    get_content(title, url)
    print("-" * 40)

Response for get
{'args': {'t': 'learn python programming'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.31.0', 'X-Amzn-Trace-Id': 'Root=1-6501629e-30b42b966b23c85335913758'}, 'origin': '35.201.243.28', 'url': 'https://httpbin.org/get?t=learn+python+programming'}
----------------------------------------
Response for headers
{'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.31.0', 'X-Amzn-Trace-Id': 'Root=1-6501629f-75729d602e3068bb3d377b54'}}
----------------------------------------
Response for ip
{'origin': '35.201.243.28'}
----------------------------------------
Response for user-agent
{'user-agent': 'python-requests/2.31.0'}
----------------------------------------
Response for UUID
{'uuid': 'd0041a31-5729-4326-82a1-88012aa7098c'}
----------------------------------------
Response for JSON
{'slideshow': {'author': 'Yours Truly', 'date'

Declaramos un diccionario de URLs contra las cuales queremos realizar solicitudes HTTP. Hemos encapsulado el código que realiza la solicitud en una pequeña función, get_content(). Como puedes ver, realizamos una solicitud GET (usando requests.get()) e imprimimos el título y la versión JSON decodificada del cuerpo de la respuesta.

Al final, ejecutamos un bucle for y obtenemos todas las URL.

# Ejercicio 9
### Serializar datos con pickle

Existen algunas preocupaciones de seguridad importantes que debes tener en cuenta si estás considerando usar pickle. Desempaquetar datos erróneos o maliciosos de una fuente no confiable puede ser peligroso, por lo que si decidimos adoptarlo en nuestra aplicación, necesitamos ser extremadamente cuidadosos.

In [None]:
# serializar_datos_pickle.py
import pickle
from dataclasses import dataclass

@dataclass
class Person:
      first_name: str
      last_name: str
      id: int

      def greet(self):
        print(f'Hi, I am {self.first_name} {self.last_name}'
          f' and my ID is {self.id}')

people = [
    Person('Obi-Wan', 'Kenobi', 123),
    Person('Anakin', 'Skywalker', 456),
]

# guardar datos en formato binario en un archivo
with open('data.pickle', 'wb') as stream:
    pickle.dump(people, stream)

# cargar datos desde un archivo
with open('data.pickle', 'rb') as stream:
    peeps = pickle.load(stream)

for person in peeps:
  person.greet()

Hi, I am Obi-Wan Kenobi and my ID is 123
Hi, I am Anakin Skywalker and my ID is 456


En este ejemplo, creamos una clase Person utilizando el decorador dataclass, La clase tiene tres atributos: first_name, last_name, e id. También expone un método greet(), que simplemente imprime un mensaje de saludo con los datos.

Creamos una lista de instancias y la guardamos en un archivo. Para hacerlo, utilizamos pickle.dump(), a la cual le proporcionamos el contenido que queremos serializar, y el flujo en el cual queremos escribir. Inmediatamente después, leemos de ese mismo archivo, utilizando pickle.load() para convertir todo el contenido del flujo de vuelta en objetos de Python. Para asegurarnos de que los objetos se han convertido correctamente, llamamos al método greet() en ambos.

# Ejercicio 10
### Guardar datos con shelve

Un "shelf" es un objeto similar a un diccionario persistente. Lo interesante de esto es que los valores que guardas en un "shelf" pueden ser cualquier objeto que puedas serializar con pickle, por lo que no estás restringido como lo estarías si estuvieras utilizando una base de datos.

In [None]:
# guardar_datos_shelve.py
import shelve
class Person:
    def __init__(self, name, id):
        self.name = name
        self.id = id

with shelve.open('shelf1.shelve') as db:
    db['obi1'] = Person('Obi-Wan', 123)
    db['ani'] = Person('Anakin', 456)
    db['a_list'] = [2, 3, 5]
    db['delete_me'] = 'we will have to delete this one...'
    print(list(db.keys())) # 'ani', 'delete_me', 'a_list', 'obi1']

    del db['delete_me'] # eliminado!
    print(list(db.keys())) # ['ani', 'a_list', 'obi1']
    print('delete_me' in db) # Falso
    print('ani' in db) # Verdadero

    a_list = db['a_list']
    a_list.append(7)
    db['a_list'] = a_list
    print(db['a_list']) # [2, 3, 5, 7]

['a_list', 'ani', 'delete_me', 'obi1']
['a_list', 'ani', 'obi1']
False
True
[2, 3, 5, 7]


Creamos una simple clase Person y luego abrimos un archivo de "shelf" dentro de un gestor de contexto. Como puedes ver, usamos la sintaxis de diccionario para almacenar cuatro objetos: dos instancias de Person, una lista y una cadena. Si imprimimos las claves, obtenemos una lista que contiene las cuatro claves que utilizamos. Inmediatamente después de imprimirlo, eliminamos el par clave/valor (apropiadamente llamado) delete_me del "shelf". Imprimir las claves nuevamente muestra que la eliminación ha tenido éxito. Luego probamos un par de claves para ver si pertenecen y, finalmente, agregamos el número 7 a a_list. Observa cómo tenemos que extraer la lista del "shelf", modificarla y guardarla de nuevo.






