![imagen](./img/python.jpg)

# Lectura Escritura

En este módulo vas a ver diferentes maneras de leer y escribir datos desde archivos locales. Rara vez trabajarás únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

1. [Archivos](#1.-Archivos)
2. [Abrir ficheros](#2.-Abrir-ficheros)
3. [CSV](#3.-CSV)
4. [Excel](#4.-Excel)
5. [JSON](#5.-JSON)
6. [TXT](#6.-TXT)
7. [ZIP](#7.-ZIP)
8. [pickle](#8.-pickle)
9. [Encoding](#9.-Encoding)

## 1. Archivos
Antes de ir a leer o escribir archivos, es importante saber exáctamente qué es un archivo. **Un archivo es un conjunto de datos que se usa para almacenar datos.** Los datos se organizan en un formato específico, pudiendo ser un archivo de texto, un ejecutable... pero en el fondo todos esos archivos se traducen a nivel binario para el procesado del ordenador. Los archivos se componen de:

1. **Header**: metadatos del archivo (nombre, tamaño, tipo...)
2. **Data**: contenido del archivo
3. **End of file (EOF)**: caracter especial que indica el final del archivo.

![imagen](./img/file.png)

#### File path
Hay tres elementos que tenemos que conocer cuando leamos un archivo:
1. **Folder path**: en que lugar del ordenador está el archivo. Y no solo eso, si no en qué directorio está apuntando el programa de Python.
2. **File name**
3. **Extension**: lo que va después del punto

Fíjate en la siguiente imagen:

![imagen](./img/path.png)

* Si estamos trabajando en el directorio *to*, accederemos a *cats.gif* como `cats.gif`
* Si queremos leer *dog_breeds.txt*, hay que ir un directorio hacia atrás, `../dog_breeds.txt`
* Y si queremos acceder a `animals.csv`, son dos directorios hacia atrás: `../../animals.csv`

Siempre podemos poner la ruta absoluta (`C/Users/usuario/Archivos/Bootcamp/Python/animals.csv`) para el acceso a cada archivo, **aunque no es lo recomendable**.

[Buena guía para iniciarse en la lectura/escritura de archivos con Python.](https://realpython.com/read-write-files-python/)

## 2. Abrir ficheros
A lo largo de este notebook verás diferentes funciones para leer archivos, en función de la extensión cada uno. Estas funciones provienen de otras librerías y nos facilitan mucho la vida a la hora de leer o escribir archivos. No obstante, Python tiene sus propias funciones *built-in*, con las que no es necesario utilizar otros paquetes. 

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios emplados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```

El primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).

Vamos a probar a leer un archivo. La siguiente sintaxis de línea se utiliza porque en algún momento se tiene que cerrar el archivo. Se abre, leemos y realizamos operaciones, y cuando acaba el `with open()`, se cierra el archivo. **Leer y escribir mientras los archivos están abiertos nos dará errores**.

In [2]:
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text = open_file.read()
    print(type(all_text))
    print(all_text)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier


El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista.

In [3]:
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text = open_file.readlines()
    print(type(all_text))
    print(all_text)

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier']


In [4]:
with open('data/dog_breeds.txt', 'r') as open_file:
    for line in open_file.readlines():
        print(line, end='')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier

In [5]:
with open('data/dog_breeds.txt', 'r') as reader:
    # Read and print the entire file line by line
    for line in reader:
        print(line, end='')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier

Si queremos escribir

In [6]:
with open("data/file_write.txt", "w") as new_file:
    new_file.write("Primera\n")
    new_file.write("Segunda\n")
    new_file.write("Tercera\n")
    print("Se ha escrito")

with open("data/file_write.txt", "r") as new_file:
    linea = new_file.readline()
    print(linea)
    print(new_file.readline())
    print(new_file.readline())

Se ha escrito
Primera

Segunda

Tercera



## 3. CSV
***Comma Separated Values*. Es el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separeted Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma, tal cual. 

Por supuesto, tenemos el otro gran protagonista en cuanto a almacenamiento de datos en formato tabla, **el Excel**. A ver, son cosas diferentes. El Excel tiene sus formatos (.xlsx, .xls), que encima son muy eficientes ya que el dato va comprimido, pero no deja de ser un software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro caracter que no sea la coma**, como por ejemplo el punto y coma. ¿Por qué? Simplemente porque si tenemos datos decimales, separados por comas, no vamos a saber distinguir cuando una coma es de un decimal, o es el separador de columnas.

**¿Cómo podemos leer un CSV en Python?** Con Pandas! [Aquí tienes la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [7]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/laliga.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Parámetros interesantes del `read_csv()`**
1. `filepath_or_buffer`: ruta donde está el CSV
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea.

Probemos a leer el CSV desde otra ruta del ordenador

In [26]:
df = pd.read_csv("C:\\Users\\Daney\\Desktop\\laliga.csv")

# Esto tb vale
#df = pd.read_csv("C:/Users/Daney/Desktop/laliga.csv")
df.head()

FileNotFoundError: [Errno 2] File C:\Users\Daney\Desktop\laliga.csv does not exist: 'C:\\Users\\Daney\\Desktop\\laliga.csv'

Una de las columnas, la podremos usar como index

In [8]:
df = pd.read_csv("data/laliga.csv", index_col = "Unnamed: 0")
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos pasar el índice a una nueva columna, simplemente creamos una columna nueva

In [9]:
df['indice a columna'] = df.index
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


Podemos resetear también el índice, y poner ahi un numérico que vaya desde el 0 al número de filas.

In [10]:
# Resetear el index. Drop= True para que no lo conserve
df.reset_index(drop=True)

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205
...,...,...,...,...,...,...,...,...,...,...
4935,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800,36680
4936,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200,36681
4937,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200,36682
4938,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200,36683


In [11]:
# Para cambiar el indice
df.index = range(1, df.shape[0] + 1)

In [12]:
# Dimensiones
print(df.shape) # Ambas
print(df.shape[0]) # Filas
print(df.shape[1]) # columnas
print(len(df)) # Filas tambien

(4940, 10)
4940
10
4940


In [13]:
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,indice a columna
1,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
2,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
3,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
4,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
5,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


También es posible aplicarle nombres de columnas en la lectura de los datos

In [14]:
df.columns

Index(['season', 'division', 'round', 'localTeam', 'visitorTeam', 'localGoals',
       'visitorGoals', 'date', 'timestamp', 'indice a columna'],
      dtype='object')

In [15]:
df = pd.read_csv('data/laliga.csv',
                 names = ['Indice', 'Temporada', 'Division', 'Jornada',
                          'Equipo local', 'Equipo visitante', 'Goles local',
                          'Goles visitante', 'fecha', 'timestamp'],
                header = 0)
df.head()

Unnamed: 0,Indice,Temporada,Division,Jornada,Equipo local,Equipo visitante,Goles local,Goles visitante,fecha,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos cambiar los tipos de los datos, en la propia lectura

In [16]:
df.dtypes

Indice               int64
Temporada           object
Division             int64
Jornada              int64
Equipo local        object
Equipo visitante    object
Goles local          int64
Goles visitante      int64
fecha               object
timestamp            int64
dtype: object

In [17]:
df = pd.read_csv("data/laliga.csv",
                usecols = ['Unnamed: 0', 'division', 'localTeam'],
                dtype = {'Unnamed: 0': np.object,
                         'division': np.int64,
                         'localTeam': np.object})

df.head()

Unnamed: 0.1,Unnamed: 0,division,localTeam
0,26201,1,Atletico de Bilbao
1,26202,1,Alaves
2,26203,1,Valencia
3,26204,1,Atletico de Madrid
4,26205,1,Cadiz


In [18]:
df.dtypes

Unnamed: 0    object
division       int64
localTeam     object
dtype: object

**¿Cómo leer un archivo CSV que no esté separado por comas?**
Probemos a leer un archivo CSV, que no tiene comas como delimitador

In [19]:
df = pd.read_csv("data/laligaPC.csv")
df.head()

Unnamed: 0,Unnamed: 0;season;division;round;localTeam;visitorTeam;localGoals;visitorGoals;date;timestamp
0,26201;2005-06;1;1;Atletico de Bilbao;Real Soci...
1,26202;2005-06;1;1;Alaves;Barcelona;0;0;27/08/2...
2,26203;2005-06;1;1;Valencia;Betis;1;0;27/08/200...
3,26204;2005-06;1;1;Atletico de Madrid;Zaragoza;...
4,26205;2005-06;1;1;Cadiz;Real Madrid;1;2;28/08/...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trajar con CSVs cuyo separador sea el ; así evitamos problemas por los decimales**.

In [20]:
df = pd.read_csv("data/laligaPC.csv", sep=";")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


¿Podemos tener otros caracteres que separen los datos?

In [21]:
df = pd.read_csv("data/laliga4.csv")
df.head()

Unnamed: 0,Unnamed: 0~season~division~round~localTeam~visitorTeam~localGoals~visitorGoals~date~timestamp
0,26201~2005-06~1~1~Atletico de Bilbao~Real Soci...
1,26202~2005-06~1~1~Alaves~Barcelona~0~0~27/08/2...
2,26203~2005-06~1~1~Valencia~Betis~1~0~27/08/200...
3,26204~2005-06~1~1~Atletico de Madrid~Zaragoza~...
4,26205~2005-06~1~1~Cadiz~Real Madrid~1~2~28/08/...


In [22]:
df = pd.read_csv("data/laliga4.csv", sep = "~")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Escritura de CSV**

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [23]:
df.to_csv("data/laligaWrite.csv", sep = ';', index = False)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio CSV</h3>

Recupera de los ejercicios de pandas el dataframe con las poblaciones de las comunidades autónomas. En concreto, el que tiene la columna población y columna área. Crea un CSV a partir de ese DataFrame y leelo a continuación
         
 </td></tr>
</table>

In [44]:
poblacion = pd.Series({"Madrid": 6685471, "Galicia": 2698764,
                       "Murcia": 1494442, "Andalucia": 8446561})


superficie = pd.Series([8028, 29575, 11314, 87599],
                       index = ["Madrid", "Galicia", "Murcia", "Andalucia"])

df = pd.DataFrame({"Poblacion": poblacion,
                  "Superficie": superficie})
df

Unnamed: 0,Poblacion,Superficie
Madrid,6685471,8028
Galicia,2698764,29575
Murcia,1494442,11314
Andalucia,8446561,87599


## 3.1 Lectura con el módulo CSV

La lectura con `pd.read_csv` es sencilla pero en ciertas ocasiones no nos interesa trabajar con un objeto tan pesado como un `DataFrame`. Por otro lado, nos interesa hacer una lectura cómoda incluyendo la posibilidad de la existencia de distintos separadores. Es aquí donde entra en juego el módulo `csv`.

In [9]:
import csv
file0 = 'data/laligaPC.csv'

with open(file0, 'r') as f:
    csvreader = csv.reader(f, delimiter=';')
    rows = []
    for row in csvreader:
        rows.append(row)

table

[['Unnamed: 0',
  'season',
  'division',
  'round',
  'localTeam',
  'visitorTeam',
  'localGoals',
  'visitorGoals',
  'date',
  'timestamp'],
 ['26201',
  '2005-06',
  '1',
  '1',
  'Atletico de Bilbao',
  'Real Sociedad',
  '3',
  '0',
  '27/08/2005',
  '1125093600'],
 ['26202',
  '2005-06',
  '1',
  '1',
  'Alaves',
  'Barcelona',
  '0',
  '0',
  '27/08/2005',
  '1125093600'],
 ['26203',
  '2005-06',
  '1',
  '1',
  'Valencia',
  'Betis',
  '1',
  '0',
  '27/08/2005',
  '1125093600'],
 ['26204',
  '2005-06',
  '1',
  '1',
  'Atletico de Madrid',
  'Zaragoza',
  '0',
  '0',
  '28/08/2005',
  '1125180000'],
 ['26205',
  '2005-06',
  '1',
  '1',
  'Cadiz',
  'Real Madrid',
  '1',
  '2',
  '28/08/2005',
  '1125180000'],
 ['26206',
  '2005-06',
  '1',
  '1',
  'Celta de Vigo',
  'Malaga',
  '2',
  '0',
  '28/08/2005',
  '1125180000'],
 ['26207',
  '2005-06',
  '1',
  '1',
  'Espanol',
  'Getafe',
  '0',
  '2',
  '28/08/2005',
  '1125180000'],
 ['26208',
  '2005-06',
  '1',
  '1',
  'Ma

In [10]:
file0 = 'data/laligaPC.csv'
header0 = 'visitorGoals'
def readcsv(file, colname):
    '''
    Función que recibe un path (str) y el nombre de una columna (str) y devuelve la lista
    de valores de esa columna en el csv
    '''
    file = open(file)
    csvreader = csv.reader(file, delimiter=';')
    header = next(csvreader)
    idx = header.index(colname)
    rows = []
    for row in csvreader:
        rows.append(row[idx])

    file.close()

    return colname, rows

col, table = readcsv(file0, header0)
print(col, table)

visitorGoals ['0', '0', '0', '0', '2', '0', '2', '1', '1', '0', '0', '0', '3', '0', '1', '2', '1', '1', '1', '2', '2', '2', '2', '1', '0', '1', '1', '4', '0', '0', '2', '1', '1', '0', '0', '2', '0', '2', '1', '1', '1', '4', '2', '1', '1', '0', '1', '3', '4', '0', '2', '1', '1', '1', '2', '2', '1', '0', '1', '1', '3', '1', '3', '1', '0', '2', '0', '0', '1', '1', '0', '0', '0', '0', '2', '0', '1', '0', '2', '0', '1', '2', '1', '0', '0', '0', '1', '0', '1', '1', '1', '2', '0', '2', '1', '3', '1', '1', '0', '0', '0', '3', '1', '0', '2', '0', '1', '0', '2', '1', '0', '3', '0', '0', '2', '1', '1', '0', '1', '3', '1', '0', '1', '1', '1', '2', '2', '2', '2', '2', '1', '1', '0', '2', '3', '3', '2', '2', '2', '2', '3', '1', '1', '1', '0', '0', '2', '2', '0', '0', '0', '3', '3', '1', '2', '2', '1', '1', '2', '1', '0', '0', '2', '0', '0', '0', '2', '0', '2', '1', '2', '2', '0', '0', '0', '2', '1', '1', '1', '0', '0', '0', '1', '2', '1', '2', '0', '1', '2', '1', '1', '2', '0', '2', '2', '0', '2', '

In [11]:
def dictreadcsv(file, colname):
    '''
    Función que recibe un path (str) y el nombre de una columna (str) y devuelve la lista
    de valores de esa columna en el csv
    '''
    file = open(file)
    csvreader = csv.DictReader(file, delimiter=';')
    header = next(csvreader)
    rows = []
    for row in csvreader:
        rows.append(row[colname])

    file.close()

    return colname, rows

col, table = dictreadcsv(file0, header0)
print(col, table)

visitorGoals ['0', '0', '0', '2', '0', '2', '1', '1', '0', '0', '0', '3', '0', '1', '2', '1', '1', '1', '2', '2', '2', '2', '1', '0', '1', '1', '4', '0', '0', '2', '1', '1', '0', '0', '2', '0', '2', '1', '1', '1', '4', '2', '1', '1', '0', '1', '3', '4', '0', '2', '1', '1', '1', '2', '2', '1', '0', '1', '1', '3', '1', '3', '1', '0', '2', '0', '0', '1', '1', '0', '0', '0', '0', '2', '0', '1', '0', '2', '0', '1', '2', '1', '0', '0', '0', '1', '0', '1', '1', '1', '2', '0', '2', '1', '3', '1', '1', '0', '0', '0', '3', '1', '0', '2', '0', '1', '0', '2', '1', '0', '3', '0', '0', '2', '1', '1', '0', '1', '3', '1', '0', '1', '1', '1', '2', '2', '2', '2', '2', '1', '1', '0', '2', '3', '3', '2', '2', '2', '2', '3', '1', '1', '1', '0', '0', '2', '2', '0', '0', '0', '3', '3', '1', '2', '2', '1', '1', '2', '1', '0', '0', '2', '0', '0', '0', '2', '0', '2', '1', '2', '2', '0', '0', '0', '2', '1', '1', '1', '0', '0', '0', '1', '2', '1', '2', '0', '1', '2', '1', '1', '2', '0', '2', '2', '0', '2', '3', '

In [12]:
import pandas as pd

In [15]:
%timeit pd.read_csv(file0, sep=';', usecols=[header0])
%timeit pd.read_csv(file0, sep=';')
%timeit readcsv(file0, header0)
%timeit dictreadcsv(file0, header0)

8.2 ms ± 885 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
9.93 ms ± 215 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
7.76 ms ± 150 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
21.8 ms ± 1.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## 4. Excel
¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xslx` y `.xls`. Por suerte, **`pandas` tiene métodos para leer los formatos de archivo de Excel**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel`. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

Leemos nuestro archivo de laliga, pero en este caso en Excel

In [24]:
df = pd.read_excel('data/laliga.xlsx')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


No tenemos problemas cuando los datos están perfectos, con una única hoja, y empezando en la celda A1. ¿Qué argumentos nos pueden resultar útiles?

1. `io`: dónde está el archivo
2. `sheet_name`: el nombre de la hoja
3. `header`: dónde está la cabecera
4. `usecols`: indica el rango de columnas Excel en el que se encuentran. Por ejemplo: 'A:F'
5. `skiprows`: filas que deberia ignorar

Veamos más ejemplos. El Excel de `laliga.xlsx` tiene varias pestañas. Por defecto, lee la primera, `Hoja1`, pero podemos especificar otras.

In [25]:
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2')
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
2,26201,2005-06-01 00:00:00,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27 00:00:00,1125093600
3,26202,2005-06-01 00:00:00,1,1,Alaves,Barcelona,0,0,2005-08-27 00:00:00,1125093600
4,26203,2005-06-01 00:00:00,1,1,Valencia,Betis,1,0,2005-08-27 00:00:00,1125093600


Vemos que hay algún problema con los datos. Las primeras líneas están en blanco en el Excel. Podemos, o bien ignorarlas, o indicarle donde está la cabecera

In [26]:
#df = pd.read_excel('laliga.xlsx', sheet_name = 'Hoja2', skiprows = 2)
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2', header = 2)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


Otro problema que nos puede surgir es que la tabla no esté ni en las primeas filas, ni en las primeras columnas

In [27]:
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja3', header = 2, usecols= 'B:K')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [28]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja4',
                   header = 3,
                  nrows = 10,
                  usecols = 'C:L')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [29]:
# Puedes cargar tambien por nombre de columna
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja4',
                   header = 3,
                  nrows = 10,
                  usecols = ['season', 'division'])
df.head()

Unnamed: 0,season,division
0,2005-06-01,1
1,2005-06-01,1
2,2005-06-01,1
3,2005-06-01,1
4,2005-06-01,1


In [30]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja5')
len(df)

4974

**Escritura de Excel**

Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel. **Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [31]:
df.to_excel('data/laligaExcelWrite.xlsx')

## 5. JSON
***JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programción web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_calve" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad.

Un JSON tiene la siguiente pinta:

![imagen](./img/json_image.png)


In [32]:
data =  {
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


**Puedo guardar el JSON en un archivo. Para ello, usamos la librería `json`**, que viene incluida en la instalación de Anaconda.

In [33]:
import json

with open("data/data_file.json", "w") as write_file:
    json.dump(data, write_file)

O también objetos de una clase

In [34]:
class Persona:
    
    def __init__(self, firstName, lastName, hobbies):
        self.firstName = firstName
        self.lastName = lastName
        self.hobbies = hobbies
        
pers1 = Persona("Pepe", "Carrasco", ["Bricolaje", "Tenis"])
pers2 = Persona("Jose", "Carrasco", ["Bricolaje", "Tenis"])

In [35]:
print(pers1.__doc__)
print(pers1.__dict__)

None
{'firstName': 'Pepe', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}


Lo puedo guardar en un archivo *pepe.json*

In [36]:
with open("pepe.json", "w") as write_file:
    json.dump(pers1.__dict__, write_file)
    #json.dump(pers2.__dict__, write_file)

Luego lo puedo volver a cargar

In [37]:
with open("pepe.json") as json_file:
    data = json.load(json_file)
    
print(data)
print(data['firstName'])
print(data['lastName'])
print(type(data))

{'firstName': 'Pepe', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}
Pepe
Carrasco
<class 'dict'>


Para el siguiente ejemplo, utilizamos `pandas` y leeremos el archivo JSON, de tal manera que nos transforme los datos en formato tabla, en un `DataFrame`.

In [38]:
df = pd.read_json("data/Musical_Instruments_5.json", lines = True)
df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"


## 6. TXT
**Son simplemente archivos donde hay texto**. Hemos visto que los CSVs y los JSON tienen su propio formato y extension. En el caso del .txt no tienen ninguno específico aunque no quita para que sus elementos estén separados por comas, y se pueda leer igualmente como si fuese un CSV.

Cuando almancenamos datos siempre tienen una estructura, por lo que aunque sea un `.txt`, llevará los datos en formato json, separados por comas, tabulaciones, puntos y comas...

Por ejemplo, si tenemos los datos de la liga guardados en un `.txt`, separados por tabulaciones, lo podremos leer con el `pd.read_csv()`.

In [39]:
df = pd.read_csv("data/laligaTXT.txt", sep = "\t")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Recuerda que la separación por tabulaciones, también tiene su propia extensión: el `.tsv`, que igualmente lo podremos leer con `read_csv()`.

In [40]:
df = pd.read_csv("data/laligaTSV.tsv", sep = "\t")
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


El método `read_csv()` no se ciñe únicamente a leer CSVs, sino a prácticamente cualquier archivo que lleve un acarácter concreto en la separación de sus campos. Si conocemos ese caracter, sabremos leer el archivo con `pandas`.

## 7. ZIP
En ocasiones los datos que recibimos en nuestros programas están compimidos, ya sea en un formato `.zip`, `.rar`, `.7z`, u otro tipo de archivo.

En este apartado verás un ejemplo de cómo descomprimir archivos `.zip`. Para ello empleamos la librería `zipfile` que viene incluidad en la instalación de Anaconda. [Tienes el enlace a la documentación para más detalle](https://docs.python.org/3/library/zipfile.html#zipfile-objects).

Para extraer todos los archivos:

In [41]:
import zipfile

with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    zip_ref.extractall('data')

Si quieres descomprimir un archivo `.rar` [tendrás que descargarte un paquete coom por ejemplo `unrar`.](https://pypi.org/project/unrar/)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio zip</h3>

Consulta la documentación para extrar un único archivo, por nombre
         
 </td></tr>
</table>

## 8. pickle
**`pickle` es el módulo que nos permite serializar y deserializar un objeto de Pyhton**. Esta operación lo que hace es traducirlo a un stream de bytes.

A efectos prácticos, lo que nos permite es guardar objetos de Python, y recuperarlos más adelante.

In [42]:
import pickle
pers1

df = pd.read_csv("data/laliga.csv")
df.head()

with open('data/pepe.json') as json_file:
    data = json.load(json_file)
    
with open('important', "wb") as f:
    pickle.dump(pers1, f)
    pickle.dump(df, f)
    pickle.dump(data, f)


In [43]:
with open('important', "rb") as f:
    a = pickle.load(f)
    b = pickle.load(f)
    c = pickle.load(f)
print(a)
print(b)
print(c)

<__main__.Persona object at 0x00000176DBC8E310>
      Unnamed: 0   season  division  round           localTeam    visitorTeam  \
0          26201  2005-06         1      1  Atletico de Bilbao  Real Sociedad   
1          26202  2005-06         1      1              Alaves      Barcelona   
2          26203  2005-06         1      1            Valencia          Betis   
3          26204  2005-06         1      1  Atletico de Madrid       Zaragoza   
4          26205  2005-06         1      1               Cadiz    Real Madrid   
...          ...      ...       ...    ...                 ...            ...   
4935       36680  2017-18         1     38          Villarreal    Real Madrid   
4936       36681  2017-18         1     38  Atletico de Bilbao        Espanol   
4937       36682  2017-18         1     38           Barcelona  Real Sociedad   
4938       36683  2017-18         1     38            Valencia      Deportivo   
4939       36684  2017-18         1     38  Atletico de Madri

## 9. Encoding
**Los strings se almacenan internamente en un conjunto de bytes**, caracter a caracter. Esta operación es lo que se conoce como ***encoding***, mientras que pasar de bytes a string sería *decoding*. Bien, ¿y eso en qué nos afecta? Dependiendo del encoding, se suelen almacenar en un espacio de bits de 0 a 255, es decir, en esa combinación de bits tienen que entrar todos los caracteres del lenguaje.

El problema es que en toda esa combinación de bits no entran todos los caracteres del planeta, por lo que **dependiendo del encoding que usemos, una combinación de bits significará una cosa u otra**. Por ejemplo, una A mayuscula será lo mismo en el encodig europeo que en el americano, pero los bits reservados para representar una Ñ, en el encodig americano se traduce en otro caracter.

Por tanto, **hay que tener claro en qué encoding está el archivo y con qué encoding lo vamos a leer**. [En la documentación](https://docs.python.org/3/library/codecs.html#encodings-and-unicode) puedes realizar esta comprobación. Hay algunos que te tienen que ir sonando:

1. 'utf-8': normalmente se trabaja con este encodig que engloba la mayor parte de caracteres.
2. 'unicode': estándar universal con el que no deberiamos tener problemas.
3. 'ascii': encoding americano. Solo tiene 128 caracteres.
4. 'latin': para oeste de Europa, Oceanía y Latinoamérica

![imagen](./img/encoding.jpg)

In [44]:
pd.read_csv('data/encoding.csv', encoding = 'utf-8')

Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [46]:
pd.read_csv('data/encoding.csv', encoding = 'ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

In [47]:
pd.read_csv('data/encoding.csv', encoding='iso8859_10')

Unnamed: 0,PaÃ­s,Comida
0,EspaÃąa,paella
1,JapÃģn,sushi
2,Francia,La Lamproie Ã la Bordelaise
