# Curso: Introducción a la importación de datos en Python


## Leer un archivo de texto (**`.txt`**)


Para verificar cualquier archivo de texto sin formato, puede usar la función de apertura básica de Python para abri una conexión con el archivo.

Para hacerlo, asigna el nombre del archivo a una varibale como una cadena, pasa el nombre del archiovo a la función open y también le pasa el modo de argumento es igual a **`'r'`**, lo que asegura que solo podamos leerlo (no nos gustarias escribirlo accidentalmente.), asgine el texto del archivo a un texto variable aplicando el métodod e lectura a la conexión con el archivo.

Después de hacer esto, asegúrese de cerrar la conexión con el archivo usando el comando `file.close()`. Luego puede imprimir el archivo en la consola y verificarlo usando el comando `print(text)`.



In [16]:
filename = './datasets/seaslug.txt'

file = open(filename, mode = 'r')

text = file.read()

print(text)

file.close()  # Cerrar siempre el archivo luego de terminar de manipularlo





## Escribir en un archivo

Si quisieras abrir un archivo en orden para escribirle, le pasaría el modo de argumento igual a **`'w'`**.

In [13]:
filename = './datasets/seaslug.txt'

file = open(filename, mode = 'w')

file.close()


## Administrador de contexto `with`


Puede evitar tener que cerrar la conexión con el archivo utilizando una sentencia `with`. Esto le permite crear un contexto en el que puede ejecutar comandos con el archivo abierto. Una vez fuera de esta cláusula/contexto, el archivo ya no está abierto y, por este motivo, se denomina Administrador de contexto.


Lo que está haciendo aquí se llama "vincular" una variable en la construcción del administrador de contexto; mientras aún esté dentro de esta construcción, el archivo variable estará vinculado a `open(filename, 'r')`.

Es una buena practica usar la declaración `with` ya que nunca tendrá que preocuparse por cerrar los archivos nuevamente.

In [18]:
with open('./datasets/seaslug.txt', 'r') as file:
    print(file.read())

Recuerde el alma dormida
Avive el seso y despierte
Contemplando
CÃ³mo se pasa la vida,
CÃ³mo se viene la muerte,
Tan callando,
CuÃ¡n presto se va el placer,
CÃ³mo, despuÃ©s de acordado
Da dolor,
CÃ³mo, a nuestro parecer,
Cualquier tiempo pasado
Fue mejor.




# La importancia de los archivos planos en la ciencia de datos


## Archivos planos

Ahora que sabe cómo importar archivos de texto sin formato, vamos a ver archivos planos, como "titanic.csv", en el que cada fil es un pasajero único a bordo y la columna es una caracteristica del atributo, como género, cabina y "sobrevivió o no".


---

Los archivos planos son archivos de texto básico que contienen registros, es decir, datos de tabla, sin relaciones estructuradas. Esto contrasta con una base de datos relacional, por ejemplo, en la que se pueden relacionar columnas de tablas distintas. Para ser aún más precisos, los archivos planos consisten en registros, donde un registro se refiere a una fila de campos o atributos, cada uno de los cuales contiene como máximo un elemento de información.

## Header

También es esencial tener en cuenta que un archivo plano pueda tener un encabezado, como en el "titanic.csv", que es una fila que ocurre como la primera fila, y describe el contenido de las columnas de datos o establecer cuáles son los atributos o características correspondientes en cada columnas.

Será importante saber si su archivo tiene o no un encabezado, ya que puede alterar la importación de datos.

La razón por la que los archivos planos son tan importantes en la ciencia de datos es que a los cientificos de datos realmente les gusta pensar en registris o filas de atributos.


## Extensión del archivo

Ahora es posible que haya notado que la extensión del archivo es `.csv`. CSV es un acrónimo de valor separado por comas y significa exactamente lo que dice. Los valores de cada fila están separados por comas.


Otra extensión común para un archivo plano es `.txt`, lo que significa un archivo de texto. Los valores en archivos sin formato se pueden separar por caracteres o secuencias de caracteres distintos que las comas, como un tabulador, y el carácter o caracteres en cuestión se denomina **delimitador**.



## Archivo delimitado por tabulador


Vea aquí un ejemplo de un archivo delimitado por tabuladores. Los datos consisten en el famoso reconodimiento de dígitos MNIST imagenes, donde cada fila contiene los valores de píxeles de una imagen determinada. 

Tenga en cuenta que todos los campos en los datos MNIST son numéricos mientras que en el "titanic.csv" también contenía cadenas.

<img src=".\img_3\1.png" width="350px" height="350px">

<img src=".\img_3\2.png" width="150px" height="350px">


## Como importamos estos archivos?

Si consiste completamente en números y queremos almacenarlos como una matriz numpy, podríamos usar numpy.

Si, en cambio, queremos almacenar los datos en un marco de datos (DataFrame), podríamos usar pandas.

La mayoria de las veces, utilizará una de estas opciones.

# Importación de archivos planos usando NumPy


¿Qué sucede si ahora desea importar un archivo plano y asignarlo a una variable?

Si todos los datos son numéricos, puede usar el paquete numpy para importar los datos como una matriz numpy.

¿Por qué querriamos hacer esto?

## ¿Por qué Numpy?

En primero lugar, las matrices numpy son el estándar de Python para almacenar datos numéricos. Son eficientes, rápidos y limpios.

En segundo lugar, las matrices numpy suelen ser esenciales para otros paquetes, comoscikit-learn, un popular paquete de aprendizaje automatico para Python.

Numpy en si tiene una serie de funcionalidades integradas que hacen que sea mucho más fácil y eficiente para nosotros importar datos como matrices.


Ingrese las funciones Numpy `loadtxt()` y `genfromtxt()`.


## Importar archivo planos usando NumPy

Para usar cualquiera de estos, primero debemos importar NumPy. Luego llamamos a `loadtxt()` y le pasamos el nombre del archivo como primer argumento, junto con el delimitador, como segundo argumento. Tenga en cuenta que el delimitador predeterminado es cualquier espacio en blanco, por lo que normalmente necesitaremos especificarlo explícitamente.

In [7]:
import numpy as np

filename = 'MNIST1.txt'

data = np.loadtxt(filename, delimiter = ',')

data

OSError: MNIST1.txt not found.

<img src=".\img_3\3.png" width="350px" height="350px">


## Personalización de la importación de Numpy

Hay una serie de argumentos adicionales que tal vez desee especificar.

Si, por ejemplo, sus datos consisten en números y su encabezado tiene cadenas, como en el MNIST datos de dígitos, querrá omitir la primer fila llamando a `loadtxt` con el argumento `skiprows = 1`. 

In [None]:
import numpy as np

filename = 'MNIST1.txt'

data = np.loadtxt(filename, delimiter = ',', skiprows = 1)

print(data)

<img src=".\img_3\3.png" width="300px" height="350px">

Si solo desea la primera y la tercera columna de los datos, querrá establecer `usecols = [0,2]`.

<img src=".\img_3\4.png" width="150px" height="350px">


### Importar matriz compuesta de cadenas

También puede importar diferentes tipos de datos en matrices NumPy: por ejemplo, establecer el argumento `dtype = str` garantizará que todas las entradas se importen como cadenas.

**`data = np.loadtxt(filename, delimiter = ',', dtype = str)`**


## Tipos de datos Mixtos

`loadtxt` es excelente para casos básicos, pero tiende a fallar cuando tenemos tipos de datos mixtos, por ejemplo, columnas que consisten en flotadores y columnas que consisten en cadenas, como vimos en el conjunto de datos Titanic.

# Nuevo texto de prueba
