### Trabajando con datos en fichero

Antes de seguir profundizando en las funcionalidades de manejo de datos, conviene saber cómo podemos cargar y guardar los datos que vayamos a utilizar. A fin de cuentas, sin datos esto no tendría mucha utilidad.

Por ahora nos centraremos en trabajar con datos en fichero de texto, que es la opción más sencilla y está soportada directamente por la librería Pandas.

#### Leyendo datos de fichero

Pandas incluye varias funciones para leer datos tabulares de ficheros de texto:

| Función           | Descripción |
|:------------------|:------------|
| `pd.read_csv()`   | Carga datos de un fichero de tipo CSV, con los campos separados por comas ',' |
| `pd.read_table()` | Carga datos de un fichero de texto tabular, con los campos separados por tabuladores ('`\t`') |
| `pd.read_fwf()`   | Carga datos de un fichero de texto con columnas de ancho fijo (sin delimitadores) |

Cuando tenemos que leer de algún fichero de texto con datos en columnas, podemos emplear `read_csv` o `read_table`. En realidad, internamente ambos métodos acaban ejecutando las mismas operaciones. Lo único que cambia es alguna opción por defecto, principalmente el carácter delimitador de los campos. En ambos casos podemos definir manualmente tanto el delimitador como el resto de opciones, por lo que en la práctica su uso es intercambiable.

Para ver cómo funcionan, vamos a leer los datos de uno de los ficheros CSV que están incluidos en el material de la unidad. En este caso, vamos a cargar el fichero `NYC_flights_2013_MINI.csv`, que contiene una muestra de datos de vuelos que pasaron por el aeropuerto de Nueva York en 2013, un _dataset_ que suele utilizarse en muchos ejemplos (los datos originales proceden del portal Bureau of Transportation Statistics, http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236 ). Te invito a que abras el fichero con tu aplicación de hojas de cálculo favorita o con cualquier editor de texto básico (como Notepad) para que veas su contenido antes de cargarlo con Pandas (_¡Ten cuidado! No grabes y sobreescribas el fichero, o el ejemplo no funcionará._)

In [None]:
# Ajusta la ruta de directorios para que apunte 
# adonde hayas descargado los ficheros
df_flights = pd.read_csv("../U09_datasets/NYC_flights_2013_MINI.csv", sep = ";")

# Vemos qué tamaño tiene (filas, columnas)
df_flights.shape

(33670, 20)

In [None]:
# Mostramos las primeras filas y columnas del DataFrame
df_flights.iloc[0:5, 0:10]

Unnamed: 0,year,month,day,level_3,air_time,arr_delay,arr_time,carrier,dep_delay,dep_time
0,2013,1,1,135,160.0,51.0,1136.0,AA,71.0,826.0
1,2013,1,1,3,183.0,-18.0,1004.0,B6,-1.0,544.0
2,2013,1,1,639,154.0,138.0,2008.0,MQ,103.0,1803.0
3,2013,1,1,505,41.0,-33.0,1701.0,9E,-6.0,1554.0
4,2013,1,1,327,137.0,5.0,1410.0,WN,-2.0,1238.0


Las funciones `read_csv` y `read_table` permiten especificar un gran número de opciones mediante sus argumentos. A continuación te mostramos algunos de los principales. Para ver la lista completa, puedes consultar https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html o https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html

| Argumentos de `pd.read_csv()` | Descripción                            |
|:------------------------------|:---------------------------------------|
| `filepath`                    | Fichero a cargar. Puede ser una ruta de fichero local o una URL |
| `sep`                         | Carácter delimitador de campos. Por defecto '`,`' para `read_csv` y '`\t`' para `read_table` |
| `header`                      | Indica si el fichero contiene una fila con los nombres de las columnas. Se puede indicar el número de la fila (empieza en cero). Por defecto, trata de inferir si hay nombres. |
| `names`                       | Lista opcional de nombres para las columnas |
| `na_values`                   | Lista de cadenas que representan valores ausentes (NAs) en el fichero |
| `quotechar`                   | Carácter utilizado en el fichero para entrecomillar cadenas de texto |
| `encoding`                    | Codificación o juego de caracteres utilizado en el fichero (p.ej. _ascii_, _latin1_, _utf8_) |



#### Escribiendo los datos a fichero

También podemos salvar el contenido de nuestros DataFrames y Series a un fichero de texto tipo CSV o tabulado. La forma más rápida y simple es utilizando el método `to_csv`.

In [None]:
# Seleccionamos las primeras filas para el ejemplo
df_mini = df_flights.head()

# Guardamos en fichero
df_mini.to_csv("./Prueba_export_pandas.csv", 
               sep = ";", na_rep = "", header = True, 
               index = False, index_label = False)

Al igual que las funciones para leer, el método `to_csv` incluye múltiples opciones para controlar cómo se exporta y salva la información. Las más importantes son las siguientes; la lista completa puedes consultarla en http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.to_csv.html

| Argumentos de `df.to_csv()`   | Descripción                            |
|:------------------------------|:---------------------------------------|
| `filepath`                    | Fichero a cargar. Puede ser una ruta de fichero local o una URL |
| `sep`                         | Carácter delimitador de campos. Por defecto '`,`' |
| `header`                      | Controla si se escriben los nombres de las columnas. Por defecto es `True`. |
| `columns`                     | Lista opcional para seleccionar qué columnas escribir. |
| `na_rep`                      | Carácter a escribir para los valores ausentes (NAs) en el fichero |
| `index`                       | Escribir el índice de filas (las etiquetas de filas) |
| `index_label`                 | Nombre a dar a la columna con las etiquetas de filas. Si `False`, no imprime nombre para la columna. |
| `quotechar`                   | Carácter para entrecomillar cadenas de texto |
| `encoding`                    | Codificación o juego de caracteres a utilizar en el fichero (p.ej. _ascii_, _latin1_, _utf8_) |
