<a href="https://colab.research.google.com/github/JuanFranco-hub/Python-Tutorial-for-ML/blob/main/Lecciones/Lec10_Archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a> 

# Archivos en Python

En Python, los archivos son una secuencia de datos almacenados en un disco. Pueden contener cualquier tipo de información, como texto, imágenes, audio, etc. Los archivos se utilizan para leer y escribir datos persistentes en el disco, lo que significa que los datos no se pierden cuando el programa se cierra o se apaga el sistema.

En Python, el carácter de nueva línea predeterminado es \n, que es el carácter utilizado en sistemas Unix. Sin embargo, en otros sistemas operativos como Windows, el final de línea se marca con el carácter \r\n, y en sistemas más antiguos de Mac se usaba solo \r. Al leer archivos en Python, el intérprete convierte automáticamente estos caracteres de fin de línea en \n, independientemente del sistema operativo.


Para trabajar con archivos en Python, se utiliza el método open(). Este método toma dos argumentos: el nombre del archivo y el modo en que se abrirá el archivo (lectura, escritura, etc.). Por ejemplo, para abrir un archivo en modo lectura:



```
file = open("archivo.txt", "r")
```



Una vez que se abre el archivo, puedes leer su contenido utilizando los métodos read(), readline() o readlines(). Por ejemplo, para leer todo el contenido del archivo:



```
content = file.read()
```



Una vez que hayas terminado de leer o escribir en el archivo, es importante cerrarlo para liberar los recursos. Puedes cerrar el archivo utilizando el método close():


```
file.close()
```
Es importante cerrar siempre el archivo después de usarlo, ya que de lo contrario se pueden perder datos o recursos valiosos.


## Leyendo archivos en Python

En Python, puedes abrir y leer archivos usando el método open(). Para abrir un archivo para leer, puedes llamar al método open() con el nombre del archivo que quieres leer como argumento. Por ejemplo, para abrir el archivo "huck-finn.txt", puedes hacer lo siguiente:

In [None]:
f = open('huck-finn.txt')

De manera predeterminada, open() abre el archivo en modo de lectura ('r'). Si deseas ser explícito, puedes incluir una 'r' como segundo parámetro:

In [None]:
f = open('huck-finn.txt', 'r')

Una vez que has abierto el archivo, puedes recorrerlo línea por línea. Puedes pensar en el archivo como una colección de líneas, y puedes iterar sobre ellas usando un bucle for. Por ejemplo, para imprimir todas las líneas que contienen la palabra 'Huckleberry', puedes hacer lo siguiente:

In [None]:
f = open('huck-finn.txt', 'r')
for line in f:
    if 'Huckleberry' in line:
        print(line.strip())

En este ejemplo, utilizamos line.strip() para eliminar cualquier espacio en blanco adicional, incluyendo el salto de línea al final de cada línea. También usamos print() para escribir cada línea en la consola.

Es importante cerrar el archivo cuando hayas terminado de leerlo. Puedes hacerlo llamando al método close() en el objeto de archivo. Por ejemplo:

In [None]:
f.close()

Recuerda que siempre es importante cerrar tus archivos después de haberlos usado, ya que puede haber problemas de memoria si tienes demasiados archivos abiertos al mismo tiempo.

## Otros métodos para leer archivos

Cuando se trabaja con archivos en Python, existen diferentes métodos para leer su contenido. Además de iterar sobre el archivo como una colección de líneas, se pueden usar los métodos read() y readlines().

El método read() lee todo el contenido del archivo y lo devuelve como una cadena de texto. Si se proporciona un número como argumento, se leerán únicamente los primeros num caracteres del archivo.

Por ejemplo, si queremos leer los primeros 100 caracteres del archivo 'huck-finn.txt', podemos usar el siguiente código:

In [None]:
with open('huck-finn.txt', encoding='utf-8-sig') as f:
    first_100_chars = f.read(100)
    print(first_100_chars)

El método readlines() lee todo el contenido del archivo y lo devuelve como una lista de cadenas, donde cada cadena es una línea del archivo. Este método es útil cuando se necesita acceder a líneas específicas del archivo.

Por ejemplo, si queremos leer todas las líneas del archivo 'huck-finn.txt' y almacenarlas en una lista, podemos usar el siguiente código:

In [None]:
with open('huck-finn.txt', encoding='utf-8-sig') as f:
    lines = f.readlines()
    print(lines)

Es importante recordar que tanto el método `read()` como el método `readlines()` leen todo el contenido del archivo en la memoria, lo que puede ser problemático si se trabaja con archivos muy grandes. En estos casos, es mejor iterar sobre el archivo línea por línea utilizando un bucle for.

## Objetos de archivo estándar en Python

Cuando Python comienza a ejecutar un programa, crea tres objetos de archivo estándar: sys.stdin, sys.stdout y sys.stderr. Estos objetos están asociados con los flujos de entrada estándar, salida estándar y error estándar del sistema, respectivamente.

**sys.stdin**: se utiliza para la entrada de datos. Es el objeto que se utiliza por defecto para la entrada de datos en la línea de comandos. Por ejemplo, si utilizas la función input() en tu programa, Python utiliza sys.stdin para leer la entrada del usuario.

**sys.stdout**: se utiliza para la salida de datos. Es el objeto que se utiliza por defecto para imprimir en la línea de comandos. Por ejemplo, si utilizas la función print() en tu programa, Python utiliza sys.stdout para imprimir los resultados.

**sys.stderr**: se utiliza para imprimir los errores. Es el objeto que se utiliza por defecto para imprimir los errores en la línea de comandos. Por ejemplo, si ocurre un error en tu programa, Python utiliza sys.stderr para imprimir el mensaje de error.

En el notebook, sys.stdin no se utiliza mucho, pero si necesitas usarlo, puedes hacerlo utilizando la función get_input(). Por otro lado, la salida del programa se muestra en la salida estándar sys.stdout del notebook. Si se produce un error, el mensaje de error se muestra en la salida de error estándar sys.stderr del notebook y se muestra con un fondo rojo.

## Archivos y Jupyter

Cuando trabajas con archivos en Jupyter, existen varias formas de ver y manipularlos. Aquí te presentamos algunos consejos:

Para ver el contenido de un archivo, puedes hacer doble clic en él en el navegador de archivos. Esto lo abrirá en una nueva pestaña, donde puedes ver y editar el contenido del archivo manualmente.

Si quieres ver el contenido de un archivo como texto en una celda de notebook, es posible que debas hacer clic derecho en el archivo y elegir "Copiar ruta". Luego puedes usar la función open() para leer el archivo y mostrar su contenido, así:

In [None]:
with open('/ruta/a/miarchivo.txt', 'r') as f:
    print(f.read())

Otra forma de ver el contenido de un archivo es mediante comandos de shell en una celda de notebook. El carácter ! al principio de una línea indica que se está llamando a un comando de shell. Aquí hay algunos comandos de shell útiles para trabajar con archivos:

*   **!cat** <fname>: Imprime todo el contenido de <fname> en la consola.
*   **!head** -n <num> <fname>: Imprime las primeras <num> líneas de <fname> en la consola.
*   **!tail** -n <num> <fname>: Imprime las últimas <num> líneas de <fname> en la consola.

Recuerda que estos comandos de shell pueden no funcionar exactamente de la misma manera en diferentes sistemas operativos.

## Analizar Archivos

La tarea de analizar archivos puede involucrar tratar con diferentes formatos de archivos y determinar información más significativa de los datos en ellos contenidos. Algunos de los formatos comunes incluyen archivos de texto (.txt), archivos de valores separados por comas (.csv) y archivos de notación de objetos de JavaScript (.json).

Es posible utilizar bibliotecas en Python para manejar estos formatos. Por ejemplo, para trabajar con archivos .json, puede utilizar la biblioteca "json" integrada en Python. Para archivos .csv, puede utilizar la biblioteca "csv" también integrada en Python. Para manejar conjuntos de datos más grandes, puede utilizar la biblioteca "pandas".

Es importante señalar que Python también tiene una biblioteca llamada "pickle" que se utiliza para serializar y deserializar objetos de Python. Sin embargo, su uso está limitado debido a las preocupaciones de seguridad y la posible falta de interoperabilidad entre diferentes versiones de Python.

## El formato de valores separados por comas (CSV)

El formato CSV es un formato de archivo utilizado para almacenar datos en forma de tabla. Como su nombre indica, los valores se separan por comas y las nuevas líneas denotan los registros. El siguiente es un ejemplo de un archivo CSV:



```
a,b,c,d,mensaje
1,2,3,4,hola
5,6,7,8,mundo
9,10,11,12,foo
```

Sin embargo, Python puede inferir el tipo de datos en cada columna a partir de los valores. Por ejemplo, si todos los valores en una columna son enteros, entonces Python puede tratar esa columna como enteros.

A veces, un valor en una columna puede contener comas. En ese caso, se encierra ese valor entre comillas dobles.

Python tiene una biblioteca estándar llamada csv para leer y escribir archivos CSV. La biblioteca csv admite la lectura y escritura de archivos CSV con o sin encabezado y puede inferir el tipo de datos automáticamente. Aquí hay un ejemplo de cómo leer un archivo CSV en Python usando la biblioteca csv:

In [None]:
import csv

with open('datos.csv') as archivo:
    lector = csv.reader(archivo)
    for fila in lector:
        print(fila)

## Escribiendo archivos en Python

ítulo: Escribiendo archivos en Python

Además de leer archivos, también puedes escribir archivos en Python. Para escribir en un archivo, primero debes abrir el archivo en modo escritura. En Python, puedes hacer esto utilizando el método open() con el parámetro "w" para indicar que el archivo se abrirá en modo escritura.

Una forma más segura y conveniente de trabajar con archivos es utilizar la instrucción with. La instrucción with asegura que el archivo se cierre correctamente después de su uso, incluso si ocurre una excepción en el proceso.



```
with open("mydata.txt", "w") as outf:
    outf.write("Este es un archivo de prueba.\n")
    outf.write("Estamos escribiendo en el archivo.\n")

```
En este ejemplo, abrimos el archivo "mydata.txt" en modo escritura utilizando la instrucción `with`. Luego, escribimos dos líneas de texto en el archivo utilizando el método `write()`. La segunda línea incluye un carácter de nueva línea (\n) para separar las líneas.


También puedes utilizar la función print() para escribir en un archivo utilizando el parámetro file. Por ejemplo:

```
with open("mydata.txt", "w") as outf:
    print("Este es un archivo de prueba.", file=outf)
    print("Estamos escribiendo en el archivo.", file=outf)
```




Este código produce el mismo resultado que el ejemplo anterior.

Además de write() y print(), también puedes utilizar el método writelines() para escribir una lista de cadenas en un archivo:

```
with open("mydata.txt", "w") as outf:
    lines = ["Este es un archivo de prueba.\n", "Estamos escribiendo en el archivo.\n"]
    outf.writelines(lines)
```
En este ejemplo, creamos una lista de dos cadenas y luego utilizamos el método writelines() para escribir las dos cadenas en el archivo.

Recuerda siempre cerrar el archivo cuando hayas terminado de escribir. Si estás utilizando la instrucción with, no necesitas cerrar el archivo manualmente, ya que se cerrará automáticamente al salir del bloque with.

## Context Manager

En Python, el "with statement" se usa con contextos. Un contexto es un objeto que define el comportamiento de entrada y salida en una porción específica de código. Los contextos son útiles para manejar recursos externos como archivos, sockets, bases de datos, etc.

Un gestor de contexto tiene un método "enter" que se llama al comienzo del bloque de código, y un método "exit" que se llama al final. Estos métodos garantizan que los recursos se liberen de manera adecuada al finalizar el bloque de código, incluso si ocurre una excepción.



Un ejemplo práctico es cuando se abre un archivo. Es importante cerrar el archivo después de que se haya terminado de usar, de lo contrario, puede causar problemas de memoria y/o pérdida de datos. Al usar el gestor de contexto with, no se necesita preocuparse por cerrar el archivo manualmente.

Por ejemplo, en lugar de escribir:

In [None]:
outf = open('huck-finn-lines.txt','w')
for i, line in enumerate(huckleberry):
    outf.write(line)
if i > 3:
    raise Exception("Failure")
outf.close()


Podemos usar el gestor de contexto `with`:

In [None]:
with open('huck-finn-lines.txt','w') as outf:
    for i, line in enumerate(huckleberry):
        outf.write(line)
    if i > 3:
        raise Exception("Failure")


Esto garantiza que el archivo se cierre correctamente al finalizar el bloque de código, incluso si ocurre una excepción en el proceso.

## Notación de Objetos de JavaScript (JSON)

La Notación de Objetos de JavaScript, o JSON por sus siglas en inglés, es un formato ligero para intercambiar datos en la web. Está basado en un subconjunto de la sintaxis de JavaScript, pero es independiente del lenguaje, lo que significa que se puede utilizar con muchos lenguajes de programación, incluyendo Python.

SON se parece mucho a los diccionarios y listas de Python, y se utiliza a menudo para transferir datos entre un servidor web y un cliente, o entre diferentes partes de una aplicación web. Aquí hay un ejemplo de un objeto JSON:



```
{
"name": "Wes",
"places_lived": ["Estados Unidos", "España", "Alemania"],
"pet": null,
"siblings": [
{"name": "Scott", "age": 25, "pet": "Zuko"},
{"name": "Katie", "age": 33, "pet": "Cisco"}
]
}
```
En JSON, un valor puede ser una cadena, una matriz, un diccionario, un número, un booleano o null. Sin embargo, a diferencia de Python, JSON solo admite literales, lo que significa que no puedes usar variables en JSON. Las claves del diccionario deben ser cadenas, y todos los valores de cadena deben estar entre comillas. Las comillas también ayudan a diferenciar los valores de cadena o numéricos.



Para trabajar con datos JSON en Python, puedes utilizar el módulo json incorporado, que te permite codificar y decodificar datos JSON. Aquí hay un ejemplo de decodificar datos JSON desde una cadena:

In [None]:
import json

json_str = '{"name": "Wes", "age": 25}'
data = json.loads(json_str)

print(data['name']) # Wes
print(data['age']) # 25

Y aquí hay un ejemplo de codificar un diccionario de Python como una cadena JSON:


In [None]:
import json

data = {'name': 'Wes', 'age': 25}
json_str = json.dumps(data)

print(json_str) # {"name": "Wes", "age": 25}