![imagen](../../imagenes/python.jpg)

# Lectura Escritura

En este módulo vas a ver diferentes maneras de leer y escribir datos desde archivos locales. Rara vez trabajaras únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

1. [CSV](#1.-CSV)
2. [Excel](#2.-Excel)
3. [JSON](#3.-JSON)
4. [TXT](#4.-TXT)
5. [ZIP](#5.-ZIP)
6. [pickle](#6.-pickle)

## 1. CSV
***Comma Separated Values*. Es el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separated Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma, tal cual. 

Por supuesto, tenemos el otro gran protagonista en cuanto a almacenamiento de datos en formato tabla, **el Excel**. A ver, son cosas diferentes. El Excel tiene sus formatos (.xlsx, .xls), que encima son muy eficientes ya que el dato va comprimido, pero no deja de ser un software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro caracter que no sea la coma**, como por ejemplo el punto y coma. ¿Por qué? Simplemente porque si tenemos datos decimales, separados por comas, no vamos a saber distinguir cuándo una coma es de un decimal, o es el separador de columnas.

**¿Cómo podemos leer un CSV en Python?** Con Pandas! [Aquí tienes la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [14]:
import pandas as pd
import numpy as np

df = pd.read_csv("laliga.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Parámetros interesantes del `read_csv()`**
1. `filepath_or_buffer`: ruta donde está el CSV
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea.

Probemos a leer el CSV desde otra ruta del ordenador

In [15]:
df = pd.read_csv("C:\\Users\\TheBridge\\Desktop\\prueba_git\\DS-part-time-sep2020\\semana_6\\dia_4\\laliga.csv")

# Esto tb vale
# df = pd.read_csv("C:/Users/TheBridge/Desktop/prueba_git/DS-part-time-sep2020/semana_6/dia_4/laliga.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Una de las columnas, la podremos usar como index

In [16]:
df = pd.read_csv("laliga.csv", index_col = "Unnamed: 0")
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos pasar el índice a una nueva columna, simplemente creamos una columna nueva

In [17]:
df['indice a columna'] = df.index
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


Podemos resetear también el índice, y poner ahí un numérico que vaya desde el 0 al número de filas.

In [18]:
# Resetear el index, drop=True para que no lo conserve. Si ponemos drop=False, nos crearía una columna con el índice actual, tal y como hicimos antes,
#pero sin elegir el nombre
df.reset_index(drop=True)

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205
...,...,...,...,...,...,...,...,...,...,...
4935,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800,36680
4936,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200,36681
4937,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200,36682
4938,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200,36683


In [20]:
# Para cambiar el índice
df.index = range(1, df.shape[0] + 1)

In [21]:
# Dimensiones
print(df.shape) # Ambas
print(df.shape[0]) # Filas
print(df.shape[1]) # columnas
print(len(df)) # Filas tambien

(4940, 10)
4940
10
4940


In [22]:
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
1,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
2,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
3,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
4,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
5,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


También es posible aplicarle nombres de columnas en la lectura de los datos

In [25]:
df.columns

Index(['Indice', 'Temporada', 'Division', 'Jornada', 'Equipo local',
       'Equipo visitante', 'Goles local', 'Goles visitante', 'fecha',
       'timestamp'],
      dtype='object')

In [38]:
df = pd.read_csv('laliga.csv',
                 names = ['Indice', 'Temporada', 'Division', 'Jornada',
                          'Equipo local', 'Equipo visitante', 'Goles local',
                          'Goles visitante', 'fecha', 'timestamp'],
                header = 0)
df.head()

Unnamed: 0,Indice,Temporada,Division,Jornada,Equipo local,Equipo visitante,Goles local,Goles visitante,fecha,timestamp
0,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
1,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
2,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000
3,26206,2005-06,1,1,Celta de Vigo,Malaga,2,0,28/08/2005,1125180000
4,26207,2005-06,1,1,Espanol,Getafe,0,2,28/08/2005,1125180000


Si le damos menos valores en ``names``, hará un filtro quedándose con las primeras n columnas, donde n será el tamaño de la lista que especifiquemos en ``names``. En caso de ser mayor, dará un error. Mientras que si quisiéramos realizar un filtro de verdad en la lectura (que no fuera quedarme con las n primeras, sino que me filtrara por nombre), podríamos utilizar el parámetro ``usecols``.

Por otra parte, si quisiéramos cambiar los tipos de los datos en la propia lectura:

In [42]:
df = pd.read_csv('laliga.csv')

df.dtypes

Unnamed: 0       int64
season          object
division         int64
round            int64
localTeam       object
visitorTeam     object
localGoals       int64
visitorGoals     int64
date            object
timestamp        int64
dtype: object

In [43]:
df = pd.read_csv("laliga.csv",
                usecols = ['Unnamed: 0', 'division', 'localTeam'],
                dtype = {'Unnamed: 0': np.object,
                         'division': np.int64,
                         'localTeam': np.object})

df.head()

Unnamed: 0.1,Unnamed: 0,division,localTeam
0,26201,1,Atletico de Bilbao
1,26202,1,Alaves
2,26203,1,Valencia
3,26204,1,Atletico de Madrid
4,26205,1,Cadiz


In [44]:
df.dtypes

Unnamed: 0    object
division       int64
localTeam     object
dtype: object

**¿Cómo leer un archivo CSV que no esté separado por comas?**
Probemos a leer un archivo CSV, que no tiene comas como delimitador

In [45]:
df = pd.read_csv("laligaPC.csv")
df.head()

Unnamed: 0,Unnamed: 0;season;division;round;localTeam;visitorTeam;localGoals;visitorGoals;date;timestamp
0,26201;2005-06;1;1;Atletico de Bilbao;Real Soci...
1,26202;2005-06;1;1;Alaves;Barcelona;0;0;27/08/2...
2,26203;2005-06;1;1;Valencia;Betis;1;0;27/08/200...
3,26204;2005-06;1;1;Atletico de Madrid;Zaragoza;...
4,26205;2005-06;1;1;Cadiz;Real Madrid;1;2;28/08/...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trajar con CSVs cuyo separador sea el ; así evitamos problemas por los decimales**.

In [46]:
df = pd.read_csv("laligaPC.csv", sep=";")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


¿Podemos tener otros caracteres que separen los datos?

In [47]:
df = pd.read_csv("laliga4.csv")
df.head()

Unnamed: 0,Unnamed: 0~season~division~round~localTeam~visitorTeam~localGoals~visitorGoals~date~timestamp
0,26201~2005-06~1~1~Atletico de Bilbao~Real Soci...
1,26202~2005-06~1~1~Alaves~Barcelona~0~0~27/08/2...
2,26203~2005-06~1~1~Valencia~Betis~1~0~27/08/200...
3,26204~2005-06~1~1~Atletico de Madrid~Zaragoza~...
4,26205~2005-06~1~1~Cadiz~Real Madrid~1~2~28/08/...


In [48]:
df = pd.read_csv("laliga4.csv", sep = "~")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Escritura de CSV**

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [49]:
df.to_csv("laligaWrite.csv", sep = ';', index = False)

<table align="left">
 <tr><td width="80"><img src="../../imagenes/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio CSV</h3>

Recupera de los ejercicios de pandas el dataframe con las poblaciones de las comunidades autónomas. En concreto, el que tiene la columna población y columna área. Crea un CSV a partir de ese DataFrame, y léelo a continuación
         
 </td></tr>
</table>

## 2. Excel
¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xslx` y `.xls`. Por suerte, **`pandas` tiene métodos para leer los formatos de archivo de Excel**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel`. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

Leemos nuestro archivo de laliga, pero en este caso en Excel

In [50]:
df = pd.read_excel('laliga.xlsx')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


No tenemos problemas cuando los datos están perfectos, con una única hoja, y empezando en la celda A1. ¿Qué argumentos nos pueden resultar útiles?

1. `io`: dónde está el archivo
2. `sheet_name`: el nombre de la hoja
3. `header`: dónde está la cabecera
4. `usecols`: indica el rango de columnas Excel en el que se encuentran. Por ejemplo: 'A:F'
5. `skiprows`: filas que deberia ignorar

Veamos más ejemplos. El Excel de `laliga.xlsx` tiene varias pestañas. Por defecto, lee la primera, `Hoja1`, pero podemos especificar otras.

In [51]:
df = pd.read_excel('laliga.xlsx', sheet_name = 'Hoja2')
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
2,26201,2005-06-01 00:00:00,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27 00:00:00,1125093600
3,26202,2005-06-01 00:00:00,1,1,Alaves,Barcelona,0,0,2005-08-27 00:00:00,1125093600
4,26203,2005-06-01 00:00:00,1,1,Valencia,Betis,1,0,2005-08-27 00:00:00,1125093600


Vemos que hay algún problema con los datos. Las primeras líneas están en blanco en el Excel. Podemos, o bien ignorarlas, o indicarle donde está la cabecera

In [52]:
#df = pd.read_excel('laliga.xlsx', sheet_name = 'Hoja2', skiprows = 2)
df = pd.read_excel('laliga.xlsx', sheet_name = 'Hoja2', header = 2)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


Otro problema que nos puede surgir es que la tabla no esté ni en las primeas filas, ni en las primeras columnas

In [53]:
df = pd.read_excel('laliga.xlsx', sheet_name = 'Hoja3', header = 2, usecols= 'B:K')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [54]:
df = pd.read_excel('laliga.xlsx',
                   sheet_name = 'Hoja4',
                   header = 3,
                  nrows = 10,
                  usecols = 'C:L')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [55]:
# Puedes cargar tambien por nombre de columna
df = pd.read_excel('laliga.xlsx',
                   sheet_name = 'Hoja4',
                   header = 3,
                  nrows = 10,
                  usecols = ['season', 'division'])
df.head()

Unnamed: 0,season,division
0,2005-06-01,1
1,2005-06-01,1
2,2005-06-01,1
3,2005-06-01,1
4,2005-06-01,1


In [56]:
df = pd.read_excel('laliga.xlsx',
                   sheet_name = 'Hoja5')
len(df)

4974

**Escritura de Excel**

Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel. **Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [57]:
df.to_excel('laligaExcelWrite.xlsx')

## 3. JSON
***JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programción web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_calve" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad.

Un JSON tiene la siguiente pinta:

![imagen](../../imagenes/json_image.png)


In [58]:
data =  {
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


**Puedo guardar el JSON en un archivo. Para ello, usamos la librería `json`**, que viene incluida en la instalación de Anaconda.

In [60]:
import json

with open("data_file.json", "w") as write_file:
    json.dump(data, write_file)

O también objetos de una clase

In [61]:
class Persona:
    
    def __init__(self, firstName, lastName, hobbies):
        self.firstName = firstName
        self.lastName = lastName
        self.hobbies = hobbies
        
pers1 = Persona("Pepe", "Carrasco", ["Bricolaje", "Tenis"])
pers2 = Persona("Jose", "Carrasco", ["Bricolaje", "Tenis"])

In [62]:
print(pers1.__doc__)
print(pers1.__dict__)

None
{'firstName': 'Pepe', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}


Lo puedo guardar en un archivo *pepe.json*

In [63]:
with open("pepe.json", "w") as write_file:
    json.dump(pers1.__dict__, write_file)
    #json.dump(pers2.__dict__, write_file)

Luego lo puedo volver a cargar

In [64]:
with open("pepe.json") as json_file:
    data = json.load(json_file)
    
print(data)
print(data['firstName'])
print(data['lastName'])
print(type(data))

{'firstName': 'Pepe', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}
Pepe
Carrasco
<class 'dict'>


Para el siguiente ejemplo, utilizamos `pandas` y leeremos el archivo JSON, de tal manera que nos transforme los datos en formato tabla, en un `DataFrame`.

In [66]:
df = pd.read_json("Musical_Instruments_5.json", lines = True)
df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"


## 4. TXT
**Son simplemente archivos donde hay texto**. Hemos visto que los CSVs y los JSON tienen su propio formato y extensión. En el caso del .txt no tienen ninguno específico aunque no quita para que sus elementos estén separados por comas, y se pueda leer igualmente como si fuese un CSV.

Cuando almancenamos datos siempre tienen una estructura, por lo que aunque sea un `.txt`, llevará unos datos o bien en formato json, separados por comas, tabulaciones, puntos y comas...

Por ejemplo, si tenemos los datos de la liga guardados en un `.txt`, separados por tabulaciones, lo podremos leer con el `pd.read_csv()`.

In [67]:
df = pd.read_csv("laligaTXT.txt", sep = "\t")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Recuerda que la separación por tabulaciones, también tiene su propia extensión: el `.tsv`, que igualmente lo podremos leer con `read_csv()`.

In [68]:
df = pd.read_csv("laligaTSV.tsv", sep = "\t")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


El método `read_csv()` no se ciñe únicamente a leer CSVs, sino a prácticamente cualquier archivo que lleve un acarácter concreto en la separación de sus campos. Si conocemos ese caracter, sabremos leer el archivo con `pandas`.

## 5. ZIP
En ocasiones los datos que recibimos en nuestros programas están compimidos, ya sea en un formato `.zip`, `.rar`, `.7z`, u otro tipo de archivo.

En este apartado verás un ejemplo de cómo descomprimir archivos `.zip`. Para ello empleamos la librería `zipfile` que viene incluida en la instalación de Anaconda. [Tienes el enlace a la documentación para más detalle](https://docs.python.org/3/library/zipfile.html#zipfile-objects).

Para extraer todos los archivos:

In [69]:
import zipfile

with zipfile.ZipFile('laligaZIP.zip') as zip_ref:
    zip_ref.extractall()

Si quieres descomprimir un archivo `.rar` tendrás que descargarte un paquete específico, como por ejemplo [unrar](https://pypi.org/project/unrar/).

<table align="left">
 <tr><td width="80"><img src="../../imagenes/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio zip</h3>

Consulta la documentación para extrar un único archivo, por nombre
         
 </td></tr>
</table>

## 6. pickle
**`pickle` es el módulo que nos permite serializar y deserializar un objeto de Pyhton**. Esta operación lo que hace es traducirlo a un stream de bytes.

A efectos prácticos, lo que nos permite es guardar objetos de Python, y recuperarlos más adelante. Es decir, con esto podríamos guardarnos variables que podríamos recuperar otro día, aunque reiniciemos la consola.

In [72]:
import pickle
pers1

df = pd.read_csv("laliga.csv")
df.head()

with open('pepe.json') as json_file:
    data = json.load(json_file)
    
with open('important', "wb") as f:
    pickle.dump(pers1, f)
    pickle.dump(df, f)
    pickle.dump(data, f)


In [73]:
with open('important', "rb") as f:
    a = pickle.load(f)
    b = pickle.load(f)
    c = pickle.load(f)
print(a)
print(b)
print(c)

<__main__.Persona object at 0x000002039F28DCA0>
      Unnamed: 0   season  division  round           localTeam    visitorTeam  \
0          26201  2005-06         1      1  Atletico de Bilbao  Real Sociedad   
1          26202  2005-06         1      1              Alaves      Barcelona   
2          26203  2005-06         1      1            Valencia          Betis   
3          26204  2005-06         1      1  Atletico de Madrid       Zaragoza   
4          26205  2005-06         1      1               Cadiz    Real Madrid   
...          ...      ...       ...    ...                 ...            ...   
4935       36680  2017-18         1     38          Villarreal    Real Madrid   
4936       36681  2017-18         1     38  Atletico de Bilbao        Espanol   
4937       36682  2017-18         1     38           Barcelona  Real Sociedad   
4938       36683  2017-18         1     38            Valencia      Deportivo   
4939       36684  2017-18         1     38  Atletico de Madri