<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Carga-de-datos" data-toc-modified-id="Carga-de-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Carga de datos</a></span><ul class="toc-item"><li><span><a href="#pd.read_csv()" data-toc-modified-id="pd.read_csv()-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span><code>pd.read_csv()</code></a></span></li><li><span><a href="#pd.read_excel()" data-toc-modified-id="pd.read_excel()-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span><code>pd.read_excel()</code></a></span></li><li><span><a href="#pd.read_json()" data-toc-modified-id="pd.read_json()-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span><code>pd.read_json()</code></a></span></li><li><span><a href="#pd.read_clipboard()" data-toc-modified-id="pd.read_clipboard()-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span><code>pd.read_clipboard()</code></a></span></li><li><span><a href="#pd.read_pickle()" data-toc-modified-id="pd.read_pickle()-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span><code>pd.read_pickle()</code></a></span></li><li><span><a href="#pd.read_parquet()" data-toc-modified-id="pd.read_parquet()-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span><code>pd.read_parquet()</code></a></span></li><li><span><a href="#pd.read_sas()" data-toc-modified-id="pd.read_sas()-1.7"><span class="toc-item-num">1.7&nbsp;&nbsp;</span><code>pd.read_sas()</code></a></span></li><li><span><a href="#pd.read_spss()" data-toc-modified-id="pd.read_spss()-1.8"><span class="toc-item-num">1.8&nbsp;&nbsp;</span><code>pd.read_spss()</code></a></span></li></ul></li><li><span><a href="#📌-Nota-importante-al-leer-archivos:" data-toc-modified-id="📌-Nota-importante-al-leer-archivos:-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>📌 Nota importante al leer archivos</a></span></li><li><span><a href="#Guardado-de-datos" data-toc-modified-id="Guardado-de-datos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Guardado de datos</a></span></li></ul></div>

Pandas nos va a permitir leer una gran multitud de ficheros con los que podremos trabajar con los métodos que aprenderemos en las próximas sesiones. En este jupyter vamos a ver algunos de los más usados: 

- csv
- excel
- json
- clipboard
- parquet
- pickle
- sql
- sas
- spss

In [1]:
# pero antes de empezar ya sabeis, a importar las librerías que necesitaremos!!

import pandas as pd
import numpy as np
import pickle

🚨🚨🚨 **NOTA** importante antes de seguir con esta lección. Algunos de los ficheros que necesitaremos para la lección de hoy son muy pesados y es imposible compartirlos con vosotras por GitBook. En concreto estos datos serán: 

- 10M.pkl

- 10M.csv

- 10M.parquet

- airlines.sas7bdat

Estos ficheros los podréis descargar del [este](https://drive.google.com/drive/folders/1vTvA743_9OjvIk9SX6pdTfhwijGBXlKz) link. 

# Carga de datos

## `pd.read_csv()` 

CSV es el acrónimo de *Comma Separated Values* y significa valores separados por comas. De esta forma, un archivo CSV es cualquier archivo de texto en el cual los caracteres (en nuestro caso las columnas) están separadas por comas.

In [2]:
df_csv = pd.read_csv("jobs.csv")
df_csv.head(1)

Unnamed: 0,id,title,country,location,company,date,description,company_link,experience,keywords
0,1,Frontend Developer,mexico,"Hacienda San Pablo, México, Mexico",Vox Feed,2019-08-18,Passion for building interfaces that bring the...,,2,web developer


Como la propia definición indica, nuestras columnas deben ir separadas por comas. A veces, puede ocurrir que no vengan separados por comas. Como en el ejemplo que vemos a continuación:

In [3]:
df_csv2 = pd.read_csv("aire.csv")
df_csv2.head(1)

Unnamed: 0,provincia;municipio;estacion;magnitud;punto_muestreo;ano;mes;dia;h01;v01;h02;v02;h03;v03;h04;v04;h05;v05;h06;v06;h07;v07;h08;v08;h09;v09;h10;v10;h11;v11;h12;v12;h13;v13;h14;v14;h15;v15;h16;v16;h17;v17;h18;v18;h19;v19;h20;v20;h21;v21;h22;v22;h23;v23;h24;v24
0,28;102;1;1;28102001_1_38;2022;1;30;3;T;3;T;3;T...


Oh oh... Algo ha salido mal... Si nos fijamos nuestras columnas están separadas por `;`. ¿Cómo podemos solucionar esto? 

> Usando el parámetro `sep` de `pd.read_csv` donde tendremos que especificar por qué están separadas mis columnas.

In [4]:
# en este caso esta separado por ; 

df_csv2_1 = pd.read_csv("aire.csv", sep = ";")
df_csv2_1.head(1)

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N


## `pd.read_excel()`

En este caso abriremos ficheros con extensiones `xls` o `xlsx`. Estos son los documentos de salida de una hoja de cálculo de Excel. 

Los archivos de Excel pueden tener dos extensiones `xls` o `xlsx`, que un archivo tenga una extensión u otra depende de la versión de Excel. Versiones anteriores al 2007 serán `xls` y posteriores serán `xlsx`. 

Independientemente de la extensión, todos archivos de tipo Excel se abren en Pandas con el método `pd.read_excel`.

In [5]:
df_xlsx = pd.read_excel("espacios_protegidos.xlsx")
df_xlsx.head()

Unnamed: 0,espacio_prot_categoria,espacio_prot_figura,espacio_prot_nombre,espacio_prot_superficie_ha,espacio_prot_fecha_declaracion,espacio_prot_normativa,espacio_prot_informacion_web
0,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,"Cuencas Altas de los ríos Manzanares, Lozoya y...",105655.0,1992-11-09,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Cuencas Altas de los rí...
1,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,Sierra del Rincón,15231.0,2005-06-29,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Sierra del Rincón
2,Áreas protegidas por instrumentos internacionales,Humedal de Importancia Internacional (RAMSAR),Humedales del Macizo de Peñalara,487.198,2005-12-16,Normativa Áreas protegidas por instrumentos in...,Humedales Ramsar
3,Espacios Protegidos Red Natura 2000,Zona de Especial Protección para las Aves,Monte de El Pardo,15298.67,1988-02-01,Normativa Espacios Protegidos Red Natura 2000,Espacios protegidos Red Natura 2000
4,Espacios Protegidos Red Natura 2000,Zona de Especial Protección para las Aves,Soto de Viñuelas,3071.89,1988-02-01,Normativa Espacios Protegidos Red Natura 2000,Espacios protegidos Red Natura 2000


🚨⚠️ **SI OS SALE UN ERROR SIMILAR A ESTE:**

```
ImportError: Missing optional dependency 'openpyxl'. Use pip or conda to install openpyxl.
```

**DON'T PANIC!!!** Lo único que tendreís que hacer es importaros `openpyxl`. ¿Cómo? 

- Nos vamos a la terminal y ejecutamos el siguiente código: 

```
pip3 install openpyxl
```

o 

```
pip install openpyxl
```

## `pd.read_json()` 

Un archivo json (acrónimo de *JavaScript Object Notation*) es un formato para guardar e intercambiar de forma estructurada (principalmente lo hace con una estructura de diccionario) y se utiliza principalmente para transferir datos de un servidor a un cliente. 

El archivo es básicamente una alternativa más simple y liviana al XML (Lenguaje de marcado extenso, por sus siglas en inglés) que cuenta con funciones similares.

In [6]:
df_json = pd.read_json("residuos.json")
df_json.head()

Unnamed: 0,data
0,"{'residuos_pelig_cantidad_ton': 23476.42, 'res..."
1,"{'residuos_pelig_cantidad_ton': 1927.25, 'resi..."
2,"{'residuos_pelig_cantidad_ton': 25333.54, 'res..."
3,"{'residuos_pelig_cantidad_ton': 22060.07, 'res..."
4,"{'residuos_pelig_cantidad_ton': 13109.74, 'res..."


Pero esto no hay quien lo lea! Pero no os preocupeis, es muy fácil de convertir a algo más humano: 

In [7]:
# este código no es necesario que lo entendamos ahora, más adelante según avancen las lecciones lo iremos entendiendo mejor!
df_json2 = df_json['data'].apply(pd.Series)
df_json2.head()

Unnamed: 0,residuos_pelig_cantidad_ton,residuos_pelig_año,residuos_pelig_opcion_gestion,residuos_pelig_tratamiento
0,23476.42,2012,Reciclado,Recuperación de disolventes
1,1927.25,2012,Reciclado,Recuperación de metales
2,25333.54,2012,Reciclado,Regeneración de aceite
3,22060.07,2012,Tratamiento previo a otras formas de valorización,Trituración previa a valorización de baterías
4,13109.74,2012,Tratamiento previo a otras formas de valorización,Operaciones previas a valorización de RAEE


## `pd.read_clipboard()`

<!-- Nos va a permitir leer el texto del portapapeles y lo pasa a `read_csv`. -->
Este método crea un DataFrame a partir de los datos copiados en el portapapeles. Lee el texto del portapapeles y lo pasa a `read_csv()` que luego devuelve un objeto DataFrame analizado.

[Aquí](https://towardsdatascience.com/from-clipboard-to-dataframe-with-pandas-6c212b1d7ed8) teneis un artículo muy interesante para entender esta forma de abrir ficheros 

Veamos paso a paso como funciona: 

1️⃣ Abrimos un excel y copiamos su contenido (podéis elegir cualquier excel que tengáis en vuestro ordenador)

2️⃣ Vamos a nuestro jupyter y ejecutamos la siguiente línea de código: 

```python
df_clip = pd.read_clipboard()
```

El parámetro `sep` nos servirá para especificar por que están separadas cada fila y columna de nuestra tabla. En nuestro caso están separados por tabulaciones que lo pondremos como `\t`. En caso de que sea salto de página lo haremos de la siguiente forma `\n`. 

Si no especificamos el separador por defecto será (\s+)

In [9]:
df_clipboard = pd.read_clipboard(sep='\t')
df_clipboard.head(2)

EmptyDataError: No columns to parse from file

In [None]:
# lo mismo podemos hacer con un csv

df_clipboard2 = pd.read_clipboard()
df_clipboard2.head(2)

🚨 También lo podremos hacer datos de páginas webs 🔝!!! 

## `pd.read_pickle()` 

Pickle (acrónimo de *Python Pickle Format*) que fue desarrollado por Python. 

¿Qué es Pickle exactamente?

En Python, puede usar el pickle módulo para serializar objetos y guardarlos en un archivo. 

Pickle tiene una gran ventaja sobre otros formatos: puede usarlo para almacenar cualquier objeto de Python, como diccionarios, pandas, arrays, etc. Una de las funcionalidades más utilizadas es guardar los modelos de *machine learning*. De esa manera, no tiene que volver a capacitar al modelo cada vez que ejecuta el script.

También se puede usar Pickle para almacenar matrices Numpy. Es una solución obvia para establecer puntos de control de algún tipo en su código.

¿Cómo trabajar con Pickle en Python? 👇🏽

In [None]:
# lo primero que vamos a hacer es crearnos un dataframe

df_size = 10000

df = pd.DataFrame({
    'a': np.random.rand(df_size),
    'b': np.random.rand(df_size),
    'c': np.random.rand(df_size),
    'd': np.random.rand(df_size),
    'e': np.random.rand(df_size)
})

In [None]:
df.head()

Unnamed: 0,a,b,c,d,e
0,0.054011,0.124898,0.600285,0.573799,0.154877
1,0.991741,0.589448,0.036163,0.092155,0.180962
2,0.097552,0.130503,0.022758,0.072998,0.117369
3,0.611345,0.202813,0.751257,0.229999,0.562712
4,0.679155,0.4078,0.745477,0.337571,0.088514


In [None]:
# guardemoslo localmente 
%time # comando mágico que nos devuelve el tiempo que tarda en ejecutarse nuestro código

with open('10M.pkl', 'wb') as f:
    pickle.dump(df, f)

CPU times: user 4 µs, sys: 0 ns, total: 4 µs
Wall time: 8.82 µs


Si ahora vamos a nuestra carpeta veremos que tenemos un nuevo fichero que se llama `10M.pkl`

In [None]:
# lo guardaremos también como csv para ver que se carga más rápido
%time
df.to_csv('10M.csv')

CPU times: user 4 µs, sys: 1 µs, total: 5 µs
Wall time: 8.82 µs


**CSV frente a Pickle: ¿cuál debería usar?**

Responder esta pregunta no es tan fácil como parece. Claro, los CSV brindan privilegios de visualización y edición, ya que cualquiera puede abrirlos. Eso también podría considerarse una desventaja, por razones obvias. Además, no puede guardar modelos de aprendizaje automático en un archivo CSV.

Aún así, comparemos los dos en tamaño de archivo, tiempos de lectura y escritura.

- pickle es mucho más rápido que el csv

In [None]:
%time
pd.read_pickle("10M.pkl").head(2)

CPU times: user 2 µs, sys: 1 µs, total: 3 µs
Wall time: 5.96 µs


Unnamed: 0,a,b,c,d,e
0,0.054011,0.124898,0.600285,0.573799,0.154877
1,0.991741,0.589448,0.036163,0.092155,0.180962


In [None]:
%time
pd.read_csv("10M.csv", index_col = 0).head(2)

CPU times: user 3 µs, sys: 0 ns, total: 3 µs
Wall time: 5.96 µs


Unnamed: 0,a,b,c,d,e
0,0.054011,0.124898,0.600285,0.573799,0.154877
1,0.991741,0.589448,0.036163,0.092155,0.180962


Aunque parece poco, el pickle se ha cargado mucho más rápido que el csv. Imaginad como se puede notar esto cuando tengamos millones de datos! 

## `pd.read_parquet()`

Los formatos de archivo para el intercambio de datos más populares actualmente son CSV y Microsoft Excel. Este tipo de archivos pueden ser poco eficientes a la hora trabajar con grandes conjuntos de datos.

Como hemos visto CSV es un formato basado en archivos de texto plano, lo que permite su edición con cualquier editor de texto, sin la necesidad de emplear un programa específico. Aunque esto también se traduce en archivos de gran tamaño y cuyo proceso es lento. 

Por otro lado, Microsoft Excel es un formato diseñado para trabajar con hojas de cálculo.

Actualmente, para poder trabajar de forma eficiente con grandes conjuntos de datos, se han diseñado nuevos formatos como Parquet que ofrece archivos más pequeños, lo que ofrece importantes ahorros a la hora de almacenar los datos, y cuyas operaciones de lectura y escritura son también más rápidas, lo que reduce el tiempo de procesado.

Apache Parquet es un formato de archivo para el almacenamiento de datos orientado a columnas de código abierto del ecosistema Apache Hadoop. Por lo que es compatible con la mayoría de *frameworks* para el procesado de datos. En este formato, los valores de cada columna se almacenan físicamente en posiciones contiguas, lo que consigue que la compresión de los datos sea más eficiente al ser los datos contiguos similares. Permitiendo además usar diferentes técnicas de compresión para cada columna, pudiendo adaptar esta al tipo de dato.

**Parquet en Pandas**

Pandas cuenta con herramientas para trabajar con archivos Parquet, por lo que no es necesario importar ningún paquete adicional. Para importar archivos Parquet en objetos *DataFrame* de Pandas se puede recurrir a la función `read_parquet()`, la cual funciona de manera similar a otras funciones `como read_csv()`. Además de esto los objetos DataFrame cuenta con la propiedad `to_parquet()`, con la que es posible volcar cualquier conjunto de datos en un archivo Parquet.

In [None]:
%time
pd.read_parquet('10M.parquet')

CPU times: user 4 µs, sys: 1e+03 ns, total: 5 µs
Wall time: 11.7 µs


OSError: [Errno 22] Invalid argument

In [None]:
#!pip install pyarrow
#!pip install fastparquet

#!pip3 install --upgrade pandas



**Diferencias entre `csv`, `pickle` y `parquet`**

- `CSV`

✅ lectura humana  
✅ en todas las plataformas  
⛔ más lento  
⛔ más espacio en disco  
⛔ no conserva los tipos en algunos casos  


- `PICKLE`

✅ guardado/carga rápida  
✅ menos espacio en disco  
⛔ no es legible para las personas  
⛔ sólo para python  

- `PARQUET`: 

✅ guardado/carga rápida  
✅ menos espacio en disco que pickle  
✅ suportado por muchas plataformas  
⛔ es menos legible para los humanos



## `pd.read_sas()`

Lee archivos SAS almacenados en formato XPORT o SAS7BDAT.

SAS es uno de los sistemas de análisis avanzados más populares, utilizado por muchas grandes empresas desde hace décadas. Si queremos realizar algún análisis utilizando un conjunto de datos SAS existente (un archivo de datos en SAS), podemos leer en Python utilizando la función `read_sas`.

`read_sas()` toma unos pocos argumentos (la mayoría de ellos viene con valores predefinidos que puedes alterar si es necesario). El único obligatorio es `file_path`. 

La sintaxis con los parámetros más importantes es: 

```python
pd.read_sas(nombre_fichero, format=None)
```

Donde:

- `nombre_fichero`: el nombre del fichero o el path al fichero. 


- `format`: por defecto None. 

    - Si es None, el formato del archivo se deduce de la extensión del mismo. 
    
    - Si es 'xport' o 'sas7bdat', utiliza el formato correspondiente.

    

[Aquí](https://haven.tidyverse.org/reference/read_sas.html) tenéis más información sobre este método. 

In [None]:
pd.read_sas('airline.sas7bdat', format = 'sas7bdat').head(2)

ImportError: cannot import name 'FilePath' from 'pandas._typing' (/home/natig/anaconda3/lib/python3.9/site-packages/pandas/_typing.py)

## `pd.read_spss()`

SPSS es un formato que ofrece IBM para un análisis completo. Es el acrónimo de Producto de Estadística y Solución de Servicio. SPSS se utiliza para una amplia gama de análisis estadísticos, como las estadísticas descriptivas (por ejemplo medias, frecuencias), las estadísticas bivariadas (por ejemplo análisis de la varianza, prueba t), regresión, el análisis de factores, y la representación gráfica de los datos.


Este tipo de archivos es común en el ámbito de la investigación de mercados. A menudo éstos están disponibles como archivos SAV o SPSS. SPSS es ideal para el análisis estadístico de datos de encuestas porque las variables, las etiquetas de las variables, los valores y las etiquetas de los valores están integrados en un conjunto de datos.

Desafortunadamente, SPSS es lento en sets de datos grandes y el sistema de macros para la automatización no es intuitivo y ofrece sólo unas pocas opciones en comparación con Python. Por lo tanto, no será un tipo de archivo que nos encontremos habitualmente. 

`read_spss()` lee los datos de un archivo almacenado en formato SPSS `*.sav`. 

Devuelve un *DataFrame* y **nunca** convierte las variables de tipo *string* en factores. También prepara las etiquetas de los valores/variables de SPSS para trabajar con las funciones `val_lab`/`var_lab`. 

Ignora los valores nulos. 

Su sintaxis: 

```python
pd.read_spss(path, usecols=None, convert_categoricals=True)
```

Donde : 

- `path`: *string* ruta a nuestro archivo. 

- `usecols`: lista, opcional. Devuelve un subconjunto de las columnas. Si es `None`, devuelve todas las columnas.

- `convert_categoricals`: booleano, por defecto es `True`. Convierte las columnas categóricas en `pd.Categorical`.

# 📌 Nota importante al leer archivos: 

Varias cosas pueden ir mal cuando se importan los datos a Pandas. Algunos de ellos son inmediatamente obvios; otros sólo aparecen más tarde, en formas confusas.

En este apartado veremos uno de los problemas más comunes al cargar datos en Pandas - la codificación de texto.

Las codificaciones de texto son conjuntos específicos de reglas para mapear desde cadenas de bytes binarios sin procesar hasta caracteres que componen el texto legible por humanos. Python tiene soporte integrado para una lista de codificaciones estándar.

Las discrepancias en la codificación de caracteres son menos comunes hoy en día, ya que UTF-8 es la codificación de texto estándar en la mayoría de los lenguajes de programación, incluido Python. Sin embargo, definitivamente sigue siendo un problema si estamos intentando leer un archivo con una codificación diferente a la que se escribió originalmente.

Otra codificación común, pero menos útil, es la llamada Latin 1 o ISO-8859-1. Esta codificación sólo define formas de representar los caracteres del texto en el alfabeto latino estándar. Se trata del alfabeto inglés estándar más una serie de caracteres de otras lenguas europeas, incluidos los caracteres con acento.

La función `read_csv()` de Pandas tiene una llamada de argumento `encoding` que le permite especificar una codificación para usar al leer un archivo. Pandas asume que el texto está en formato UTF-8, porque es el más común.

Os dejamos [aquí](https://docs.python.org/3/library/codecs.html#standard-encodings) una lista con los principales tipos de *encoding* que podemos encontrarnos. 

# Guardado de datos

Imaginemos ahora que hemos hecho algunos cambios en nuestro dataframe, por ejemplo quitar algunas columnas y que queremos guardar los cambios en nuestro ordenador. Pandas nos lo va a permitir para cada uno de los tipos de archivos que hemos estado viendo hasta ahora.

`to_csv`: guardaremos el archivo en formato csv. Normalmente con especificar el directorio y el nombre del fichero será suficiente. 

In [None]:
# guardar en csv

df_csv2.to_csv("datos/datos_sincolumna.csv")

In [None]:
# guardar en formato de excel

df_csv2.to_excel("datos/datos_sincolumna.xlsx")

In [None]:
# guardar en formato json

df_csv2.to_json("datos/datos_sincolumna.json")

In [None]:
# guardar en formato parquet

df_csv2.to_parquet("datos/datos_sincolumna.parquet")

In [None]:
# guardar en formato pickle

df_csv2.to_pickle("datos/datos_sincolumna.pickle")

Aquí os dejamos algo de documentación más detallada de cada uno de los métodos: 

- [to_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

- [to_excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html)

- [to_json](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html)

- [to_parquet](https://pandas.pydata.org/pandas-docs/version/1.1/reference/api/pandas.DataFrame.to_parquet.html)

- [to_pickle](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_pickle.html)