![imagen](./img/python.jpg)

# Lectura Escritura

En este módulo vas a ver diferentes maneras de leer y escribir datos desde archivos locales. 

Rara vez trabajarás únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

Más adelante veremos la integración Python + BBDD

1. [Archivos](#1.-Archivos)
2. [Abrir ficheros](#2.-Abrir-ficheros)
3. [CSV](#3.-CSV)
4. [Excel](#4.-Excel)
5. [JSON](#5.-JSON)
6. [TXT](#6.-TXT)
7. [ZIP](#7.-ZIP)
8. [pickle](#8.-pickle)
9. [Encoding](#9.-Encoding)
10. [Archivos y carpetas](#10.-Archivos-y-carpetas)

## 1. Archivos
**Un archivo es un conjunto de datos almacenados en el ordenador en forma de bits (0 ó 1).** Los datos se organizan en un formato específico, pudiendo ser un archivo de texto, un ejecutable... pero en el fondo todos esos archivos se traducen a nivel binario para el procesado del ordenador. 

Los archivos se componen de:

1. **Header**: metadatos del archivo (nombre, tamaño, tipo...)
2. **Data**: contenido del archivo
3. **End of file (EOF)**: caracter especial que indica el final del archivo.

![imagen](./img/file.png)

#### File path
Hay tres elementos que tenemos que conocer cuando leamos un archivo:
1. **Folder path**: en que lugar del ordenador está el archivo. Y no solo eso, si no en qué directorio está apuntando el programa de Python.
2. **File name**
3. **Extension**: lo que va después del punto

Fíjate en la siguiente imagen:

![imagen](./img/path.png)

Si trabajabamos con rutas relativas (esto es, en función de la ruta donde este apuntando Python)

* Si estamos trabajando en el directorio *to*, accederemos a *cats.gif* como `cats.gif`
* Si queremos leer *dog_breeds.txt*, hay que ir un directorio hacia atrás, `../dog_breeds.txt`
* Y si queremos acceder a `animals.csv`, son dos directorios hacia atrás: `../../animals.csv`

Siempre podemos poner la ruta absoluta (`C/Users/usuario/Archivos/Bootcamp/Python/animals.csv`) para el acceso a cada archivo, **aunque no es lo recomendable** ya que en otra computadora ya no funcionaría.

[Buena guía para iniciarse en la lectura/escritura de archivos con Python.](https://realpython.com/read-write-files-python/)

In [8]:
# Directorio al que está apuntando Python
import os
os.getcwd()

'c:\\Users\\pabma\\OneDrive\\Escritorio\\CONQUER\\DATA SCIENCE\\repo\\DS_PT_02_2024\\02-Data_Analysis\\03-Sources\\01-Archivos\\01-Teoría'

In [9]:
# Directorio al que está apuntando Python
import sys
sys.path[0]

'c:\\Users\\pabma\\OneDrive\\Escritorio\\CONQUER\\DATA SCIENCE\\repo\\DS_PT_02_2024\\02-Data_Analysis\\03-Sources\\01-Archivos\\01-Teoría'

## 2. Abrir ficheros
A lo largo de este notebook verás diferentes funciones para leer archivos, en función de la extensión cada uno. Estas funciones provienen de otras librerías y nos facilitan mucho la vida a la hora de leer o escribir archivos. Ya hemos visto algunas, como `pd.read_csv()` y `pd_read_excel()` de la librería pandas

 No obstante, Python tiene sus propias funciones *built-in*, con las que no es necesario utilizar otros paquetes. 

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```

El primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).

Vamos a probar a leer un archivo. La siguiente sintaxis de línea se utiliza porque en algún momento se tiene que cerrar el archivo. Se abre, leemos, realizamos operaciones, y cuando acaba el `with open()`, se cierra el archivo. **Leer y escribir mientras los archivos están abiertos nos dará errores**.

In [10]:
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text_1 = open_file.read()
    print(type(all_text_1))
    print(all_text_1)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier


El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista.

In [11]:
with open('data/dog_breeds.txt', 'r') as open_file:
    all_text_2 = open_file.readlines()
    print(type(all_text_2))
    print(all_text_2)

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier']


In [12]:
# Examinemos las differencias entre all_text_1 y all_text_2
print(type(all_text_1))
print(type(all_text_2))
print(all_text_1[0:3])
print(all_text_2[0:3])

<class 'str'>
<class 'list'>
Pug
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n']


In [13]:
# Leer línea a línea
with open('data/dog_breeds.txt', 'r') as open_file:
    for line in open_file.readlines():
        print(line)    
print('Fin')

Pug

Jack Russell Terrier

English Springer Spaniel

German Shepherd

Staffordshire Bull Terrier

Cavalier King Charles Spaniel

Golden Retriever

West Highland White Terrier

Boxer

Border Terrier
Fin


In [14]:
# Leer línea a línea equivalente
with open('data/dog_breeds.txt', 'r') as reader:
    for line in reader:
        print(line)
print('Fin')

Pug

Jack Russell Terrier

English Springer Spaniel

German Shepherd

Staffordshire Bull Terrier

Cavalier King Charles Spaniel

Golden Retriever

West Highland White Terrier

Boxer

Border Terrier
Fin


In [15]:
# Otra forma equivalente más
file = open('data/dog_breeds.txt', 'r')
for line in file:
    print(line)
# Hay que cerrar el archivo en este caso!
file.close()
print('Fin')

Pug

Jack Russell Terrier

English Springer Spaniel

German Shepherd

Staffordshire Bull Terrier

Cavalier King Charles Spaniel

Golden Retriever

West Highland White Terrier

Boxer

Border Terrier
Fin


Si queremos escribir

In [16]:
with open('data/output.py', 'w') as new_file:
    new_file.write("Esto se crea?\n")
    new_file.write("Segunda linea\n")
    new_file.write("Tercera linea\n")


with open("data/output.py", "r") as new_file:
    for line in new_file.readlines():
        print(line)    

Esto se crea?

Segunda linea

Tercera linea



In [17]:
# modo 'a': append, añadir al final del archivo
with open('data/output.py', 'a') as new_file:
    new_file.write("Añado cuarta\n")
    new_file.write("A la quinta va la vencida\n")
    new_file.write("Camilo Sexto\n")


with open("data/output.py", "r") as new_file:
    for line in new_file.readlines():
        print(line)  

Esto se crea?

Segunda linea

Tercera linea

Añado cuarta

A la quinta va la vencida

Camilo Sexto



## 3. CSV
***Comma Separated Values*. Es el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separeted Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. 

**Su extension de archivo es `.csv`**. Además, casi siempre de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV. (Ejemplo: datos de red eléctrica española)

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma..

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro caracter que no sea la coma**, como por ejemplo el punto y coma, el pipe (`|`), incluso espacios o tabulaciones. ¿Por qué? Por ejemplo por el problema con los datos decimales, que separados por comas, no vamos a saber distinguir cuando una coma es de un decimal, o es el separador de columnas.

Así pues, cuando las columnas recogen texto, puede aparecer el punto y coma, en ese caso, podría usarse el pipe (`|`), que aparece con una frecuencia mucho menos común. 

Es bastante sencillo de entender incluso si los abrimos con el notepad o Excel. Cuando veamos los datos en un árbol tipo json o xml no será tan fácil.
 
Excel, que también soporta CSV, tiene sus formatos (.xlsx, .xls), que son muy eficientes ya que el dato va comprimido. No obstante, es software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

**¿Cómo podemos leer un CSV en Python?** Pues ya lo hemos hecho con pandas [Aquí tienes la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.
read_csv.html)

También existe la librería **csv**, mucho menos elaborada que Pandas, pero que también podéis usar  [Aquí tienes la documentación](https://docs.python.org/es/3/library/csv.html)

In [18]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/laliga.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Parámetros interesantes del `read_csv()`**
1. `filepath_or_buffer`: ruta donde está el CSV (primer argumento que usamos siempre)
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea.
4. `encoding`: utf-8 vs latin-1 para tratar caracteres especiales, como ñ
5. `nrows`: lee solo las nrows primeras líneas, para evitar leer completamente ficheros muy largos
6. `skiprows`: para saltarse las n primeras líneas que pueden contener cabeceras


Una de las columnas, la podremos usar como index

In [19]:
df = pd.read_csv('data/laliga.csv', index_col = "Unnamed: 0")
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


In [20]:
# Dimensiones
print(df.shape) # Ambas
print(df.shape[0]) # Filas
print(df.shape[1]) # columnas
print(len(df)) # Filas tambien

(4940, 9)
4940
9
4940


In [21]:
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 4940 entries, 26201 to 36684
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   season        4940 non-null   object
 1   division      4940 non-null   int64 
 2   round         4940 non-null   int64 
 3   localTeam     4940 non-null   object
 4   visitorTeam   4940 non-null   object
 5   localGoals    4940 non-null   int64 
 6   visitorGoals  4940 non-null   int64 
 7   date          4940 non-null   object
 8   timestamp     4940 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 385.9+ KB


También es posible aplicarle nombres de columnas en la lectura de los datos

In [22]:
# Tiene sentido cuando los datos no tienen cabecera o queremos personalizar los nombres de las columnas desde el principio
df = pd.read_csv('data/laliga.csv',
                 names = ['Indice', 'Temporada', 'Division', 'Jornada',
                          'Equipo local', 'Equipo visitante', 'Goles local',
                          'Goles visitante', 'fecha', 'timestamp'],
                header = 0)
df.head()

Unnamed: 0,Indice,Temporada,Division,Jornada,Equipo local,Equipo visitante,Goles local,Goles visitante,fecha,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos cambiar los tipos de los datos, en la propia lectura

In [23]:
df.dtypes

Indice               int64
Temporada           object
Division             int64
Jornada              int64
Equipo local        object
Equipo visitante    object
Goles local          int64
Goles visitante      int64
fecha               object
timestamp            int64
dtype: object

In [24]:
# Puedo leer únicamente algúnas columnas, especificando el timpo concreto de aatos de cada una (ahorrar tiempo y memoria)
df = pd.read_csv("data/laliga.csv",
                usecols = ['division', 'localTeam', 'localGoals'],
                dtype = {'division': np.int8,
                         'localTeam': str,
                         'localGoals': np.int8})

df.head()

Unnamed: 0,division,localTeam,localGoals
0,1,Atletico de Bilbao,3
1,1,Alaves,0
2,1,Valencia,1
3,1,Atletico de Madrid,0
4,1,Cadiz,1


In [25]:
df.dtypes

division        int8
localTeam     object
localGoals      int8
dtype: object

In [26]:
# Puedo leer únicamente algúnas columnas. Las tipo fecha va a parte por su especificidad (argumento parse_dates)
# Ver https://stackoverflow.com/questions/17465045/can-pandas-automatically-read-dates-from-a-csv-file
df = pd.read_csv("data/laliga.csv",
                usecols = ['division', 'localTeam', 'localGoals', 'date'],
                dtype = {'division': np.int8,
                         'localTeam': str,
                         'localGoals': np.int8},
                parse_dates=['date'] )

df.head()

  df = pd.read_csv("data/laliga.csv",


Unnamed: 0,division,localTeam,localGoals,date
0,1,Atletico de Bilbao,3,2005-08-27
1,1,Alaves,0,2005-08-27
2,1,Valencia,1,2005-08-27
3,1,Atletico de Madrid,0,2005-08-28
4,1,Cadiz,1,2005-08-28


In [27]:
df.dtypes

division                int8
localTeam             object
localGoals              int8
date          datetime64[ns]
dtype: object

**¿Cómo leer un archivo CSV que no esté separado por comas?**
Probemos a leer un archivo CSV, que no tiene comas como delimitador

In [28]:
df = pd.read_csv("data/laligaPC.csv")
df.head()

Unnamed: 0,Unnamed: 0;season;division;round;localTeam;visitorTeam;localGoals;visitorGoals;date;timestamp
0,26201;2005-06;1;1;Atletico de Bilbao;Real Soci...
1,26202;2005-06;1;1;Alaves;Barcelona;0;0;27/08/2...
2,26203;2005-06;1;1;Valencia;Betis;1;0;27/08/200...
3,26204;2005-06;1;1;Atletico de Madrid;Zaragoza;...
4,26205;2005-06;1;1;Cadiz;Real Madrid;1;2;28/08/...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trajar con CSVs cuyo separador sea el ; así evitamos problemas por los decimales**.

In [29]:
df = pd.read_csv("data/laligaPC.csv", sep=';')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


¿Podemos tener otros caracteres que separen los datos?

In [30]:
df = pd.read_csv("data/laliga4.csv")
df.head()

Unnamed: 0,Unnamed: 0~season~division~round~localTeam~visitorTeam~localGoals~visitorGoals~date~timestamp
0,26201~2005-06~1~1~Atletico de Bilbao~Real Soci...
1,26202~2005-06~1~1~Alaves~Barcelona~0~0~27/08/2...
2,26203~2005-06~1~1~Valencia~Betis~1~0~27/08/200...
3,26204~2005-06~1~1~Atletico de Madrid~Zaragoza~...
4,26205~2005-06~1~1~Cadiz~Real Madrid~1~2~28/08/...


In [31]:
df = pd.read_csv("data/laliga4.csv", sep='~')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Escritura de CSV**

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [32]:
df.to_csv("data/laligaWrite.csv", sep = ';', index = False)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio CSV</h3>

Recupera de los ejercicios de pandas el dataframe con las poblaciones de las comunidades autónomas. En concreto, el que tiene la columna población y columna área. Crea un CSV a partir de ese DataFrame y leelo a continuación
         
 </td></tr>
</table>

In [33]:
poblacion = pd.Series({"Madrid": 6685471, "Galicia": 2698764,
                       "Murcia": 1494442, "Andalucia": 8446561})


superficie = pd.Series([8028, 29575, 11314, 87599],
                       index = ["Madrid", "Galicia", "Murcia", "Andalucia"])

## 4. Excel
¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xlsx` y `.xls`. Por suerte, **`pandas` tiene métodos para leer los formatos de archivo de Excel**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas (u otro) y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel`. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

Leemos nuestro archivo de laliga, pero en este caso en Excel

In [34]:
df = pd.read_excel('data/laliga.xlsx')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


No tenemos problemas cuando los datos están perfectos, con una única hoja, y empezando en la celda A1. ¿Qué argumentos nos pueden resultar útiles?

1. `io`: dónde está el archivo
2. `sheet_name`: el nombre de la hoja
3. `header`: dónde está la cabecera
4. `usecols`: indica el rango de columnas Excel en el que se encuentran. Por ejemplo: 'A:F'
5. `skiprows`: filas que deberia ignorar

Veamos más ejemplos. El Excel de `laliga.xlsx` tiene varias pestañas. Por defecto, lee la primera, `Hoja1`, pero podemos especificar otras.

In [35]:
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2')
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
2,26201,2005-06-01 00:00:00,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27 00:00:00,1125093600
3,26202,2005-06-01 00:00:00,1,1,Alaves,Barcelona,0,0,2005-08-27 00:00:00,1125093600
4,26203,2005-06-01 00:00:00,1,1,Valencia,Betis,1,0,2005-08-27 00:00:00,1125093600


Vemos que hay algún problema con los datos. Las primeras líneas están en blanco en el Excel. Podemos, o bien ignorarlas, o indicarle donde está la cabecera

In [36]:
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2', header = 2)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


Otro problema que nos puede surgir es que la tabla no esté ni en las primeas filas, ni en las primeras columnas

In [37]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja3',
                  header = 2,
                  usecols = 'B:K')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [38]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja4',
                  header = 3,
                  usecols = 'C:L',
                  nrows = 10)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [39]:
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja5')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201.0,2005-06-01,1.0,1.0,Atletico de Bilbao,Real Sociedad,3.0,0.0,2005-08-27,1125094000.0
1,26202.0,2005-06-01,1.0,1.0,Alaves,Barcelona,0.0,0.0,2005-08-27,1125094000.0
2,26203.0,2005-06-01,1.0,1.0,Valencia,Betis,1.0,0.0,2005-08-27,1125094000.0
3,26204.0,2005-06-01,1.0,1.0,Atletico de Madrid,Zaragoza,0.0,0.0,2005-08-28,1125180000.0
4,26205.0,2005-06-01,1.0,1.0,Cadiz,Real Madrid,1.0,2.0,2005-08-28,1125180000.0


**Escritura de Excel**

Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel. **Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [40]:
df.to_excel('data/laligaExcelWrite.xlsx')

## 5. JSON
***JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programción web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario.

En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_clave" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad, ya que no nos restringe al formato fila/columna

Un JSON tiene la siguiente pinta:

![imagen](./img/json_image.png)


In [41]:
data =  {
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


In [42]:
data['hobbies'][1]

'sky diving'

**Puedo guardar el JSON en un archivo. Para ello, usamos la librería `json`**

In [43]:
import json

with open("data/data_file.json", "w") as write_file:
    json.dump(data, write_file)

O también objetos de una clase

In [44]:
#  Ahora nos parece poco útil, pero debemos pensar en clases complejas (personajes de un videojuego, configuración de una aplicación, estados de una sesión en un programa...) 
#  En nuestro caso, nos resultará conveniente para guardar modelos:
#  1. Si la ejecución ha terminado, para guardar resultados, medidas, kpis del modelo...
# 2. Si la ejecución no ha terminado, para recuperar la misma sin tener que comenzar desde el principio
class Persona:
    
    def __init__(self, firstName, lastName, hobbies):
        self.firstName = firstName
        self.lastName = lastName
        self.hobbies = hobbies
        
pers1 = Persona("Pepe", "Carrasco", ["Bricolaje", "Tenis"])
pers2 = Persona("Jose", "Carrasco", ["Bricolaje", "Tenis"])

In [45]:
pers1

<__main__.Persona at 0x1d0ed3a1550>

In [46]:
pers1.__dict__

{'firstName': 'Pepe',
 'lastName': 'Carrasco',
 'hobbies': ['Bricolaje', 'Tenis']}

Lo puedo guardar en un archivo *pepe.json*

In [47]:
with open("data/pepe.json", "w") as write_file:
    json.dump(pers2.__dict__, write_file)

Luego lo puedo volver a cargar

In [48]:
with open("data/pepe.json", "r") as json_file:
    data = json.load(json_file)
    
print(data)
print(data['firstName'])

{'firstName': 'Jose', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}
Jose


Para el siguiente ejemplo, utilizamos `pandas` y leeremos el archivo JSON, de tal manera que nos transforme los datos en formato tabla, en un `DataFrame`.

In [49]:
df = pd.read_json('data/Musical_Instruments_5.json', lines = True)
df

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"
...,...,...,...,...,...,...,...,...,...
10256,A14B2YH83ZXMPP,B00JBIVXGC,Lonnie M. Adams,"[0, 0]","Great, just as expected. Thank to all.",5,Five Stars,1405814400,"07 20, 2014"
10257,A1RPTVW5VEOSI,B00JBIVXGC,Michael J. Edelman,"[0, 0]",I've been thinking about trying the Nanoweb st...,5,"Long life, and for some players, a good econom...",1404259200,"07 2, 2014"
10258,AWCJ12KBO5VII,B00JBIVXGC,Michael L. Knapp,"[0, 0]",I have tried coated strings in the past ( incl...,4,Good for coated.,1405987200,"07 22, 2014"
10259,A2Z7S8B5U4PAKJ,B00JBIVXGC,"Rick Langdon ""Scriptor""","[0, 0]","Well, MADE by Elixir and DEVELOPED with Taylor...",4,Taylor Made,1404172800,"07 1, 2014"


## 6. TXT
**Son simplemente archivos donde hay texto**. Hemos visto que los CSVs y los JSON tienen su propio formato y extension. En el caso del .txt no tienen ninguno específico aunque no quita para que sus elementos estén separados por comas, y se pueda leer igualmente como si fuese un CSV.

Cuando almancenamos datos siempre tienen una estructura, por lo que aunque sea un `.txt`, llevará los datos en formato json, separados por comas, tabulaciones, puntos y comas...

Por ejemplo, si tenemos los datos de la liga guardados en un `.txt`, separados por tabulaciones, lo podremos leer con el `pd.read_csv()`.

In [50]:
df = pd.read_csv('data/laligaTXT.txt', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Recuerda que la separación por tabulaciones, también tiene su propia extensión: el `.tsv`, que igualmente lo podremos leer con `read_csv()`.

In [51]:
df = pd.read_csv('data/laligaTSV.tsv', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


El método `read_csv()` no se ciñe únicamente a leer CSVs, sino a prácticamente cualquier archivo que lleve un acarácter concreto en la separación de sus campos. Si conocemos ese caracter, sabremos leer el archivo con `pandas`.

## 7. ZIP
En ocasiones los datos que recibimos en nuestros programas están comprimidos, ya sea en un formato `.zip`, `.rar`, `.7z`, u otro tipo de archivo.

En este apartado verás un ejemplo de cómo descomprimir archivos `.zip`. Para ello empleamos la librería `zipfile` que viene incluida en la instalación de Anaconda. [Tienes el enlace a la documentación para más detalle](https://docs.python.org/3/library/zipfile.html#zipfile-objects).

Para extraer todos los archivos:

In [52]:
import zipfile

with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    zip_ref.extractall('data')

Si quieres descomprimir un archivo `.rar` [tendrás que descargarte un paquete como por ejemplo `unrar`.](https://pypi.org/project/unrar/)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio zip</h3>

Consulta la documentación para extrar un único archivo, por nombre
         
 </td></tr>
</table>

## 8. pickle
**`pickle` es el módulo que nos permite serializar y deserializar un objeto de Pyhton**. Esta operación lo que hace es traducirlo a un stream de bytes.

A efectos prácticos, lo que nos permite es guardar objetos de Python, y recuperarlos más adelante. Es incluso más específico que JSON, ya que guardamos todo el objeto y no solo sus atributos, por lo que conserva su clase y tipos de datos. 

In [53]:
import pickle

df = pd.read_csv("data/laliga.csv")

with open('data/pepe.json') as json_file:
    data = json.load(json_file)
    
with open('importante', 'wb') as f:
    pickle.dump(pers1, f)
    pickle.dump(df, f)
    pickle.dump(data, f)

with open('pepe_pickle', 'wb') as f:
    pickle.dump(data, f)

In [54]:
with open('importante', 'rb') as f:
    a = pickle.load(f)
    b = pickle.load(f)
    c = pickle.load(f)
    
print(a)
print(b)
print(c)

<__main__.Persona object at 0x000001D0ED27F9E0>
      Unnamed: 0   season  division  round           localTeam    visitorTeam  \
0          26201  2005-06         1      1  Atletico de Bilbao  Real Sociedad   
1          26202  2005-06         1      1              Alaves      Barcelona   
2          26203  2005-06         1      1            Valencia          Betis   
3          26204  2005-06         1      1  Atletico de Madrid       Zaragoza   
4          26205  2005-06         1      1               Cadiz    Real Madrid   
...          ...      ...       ...    ...                 ...            ...   
4935       36680  2017-18         1     38          Villarreal    Real Madrid   
4936       36681  2017-18         1     38  Atletico de Bilbao        Espanol   
4937       36682  2017-18         1     38           Barcelona  Real Sociedad   
4938       36683  2017-18         1     38            Valencia      Deportivo   
4939       36684  2017-18         1     38  Atletico de Madri

## 9. Encoding
**Los strings se almacenan internamente en un conjunto de bytes**, caracter a caracter. Esta operación es lo que se conoce como ***encoding***, mientras que pasar de bytes a string sería *decoding*. Bien, ¿y eso en qué nos afecta? Dependiendo del encoding, se suelen almacenar en un espacio de bits de 0 a 255, es decir, en esa combinación de bits tienen que entrar todos los caracteres del lenguaje.

El problema es que en toda esa combinación de bits no entran todos los caracteres del planeta, por lo que **dependiendo del encoding que usemos, una combinación de bits significará una cosa u otra**. Por ejemplo, una A mayuscula será lo mismo en el encodig europeo que en el americano, pero los bits reservados para representar una Ñ, en el encodig americano se traduce en otro caracter.

Por tanto, **hay que tener claro en qué encoding está el archivo y con qué encoding lo vamos a leer**. [En la documentación](https://docs.python.org/3/library/codecs.html#encodings-and-unicode) puedes realizar esta comprobación. Hay algunos que te tienen que ir sonando:

1. 'utf-8': normalmente se trabaja con este encodig que engloba la mayor parte de caracteres 
2. 'unicode': estándar universal con el que no deberiamos tener problemas.
3. 'ascii': encoding americano. Solo tiene 128 caracteres.
4. 'latin': para oeste de Europa, Oceanía y Latinoamérica

![imagen](./img/encoding.jpg)

In [55]:
pd.read_csv('data/encoding.csv', encoding = 'utf-8')

Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [56]:
# Dos encondings pueden reconocer los mismos caracteres, pero al repsresentarlos con distintos número, no ser compatibles:
 
pd.read_csv('data/encoding.csv', encoding = 'utf-8')


Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [57]:
pd.read_csv('data/encoding.csv', encoding = 'latin-1')

Unnamed: 0,PaÃ­s,Comida
0,EspaÃ±a,paella
1,JapÃ³n,sushi
2,Francia,La Lamproie Ã la Bordelaise


In [58]:
pd.read_csv('data/encoding.csv', encoding='iso8859_10')

Unnamed: 0,PaÃ­s,Comida
0,EspaÃąa,paella
1,JapÃģn,sushi
2,Francia,La Lamproie Ã la Bordelaise


In [59]:
# A veces saca caracteres raros, pero también puede fallar:
#pd.read_csv('data/encoding_latin_1.csv', encoding = 'utf-8')
pd.read_csv('data/encoding_latin_1.csv', encoding = 'latin-1')

Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [60]:
# Falla porque ASCII ni tiene Ñ
pd.read_csv('data/encoding.csv', encoding = 'ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

In [None]:
### Cuidado con manipular ficheros en un encoding distinto al que tenga por defecto tu aplicación (generalmente utf-8) ya que cambia el encoding de tu fichero:
# https://stackoverflow.com/questions/30082741/change-the-encoding-of-a-file-in-visual-studio-code
pd.read_csv('data/encoding_latin_1_utf_8.csv', encoding = 'utf-8')

Unnamed: 0,Pa�s,Comida
0,Espa�a,paella
1,Jap�n,sushi
2,Francia,La Lamproie � la Bordelaise


## 10. Archivos y carpetas
Resulta de gran utilidad automatizar lecturas/escrituras/borrado/movimientos de archivos entre carpetas. Si tenemos un proceso definido en Python, podremos ejecutarlo tantas veces queramos y de este modo evitar dedicarle tiempo tareas tediosas y rutinarias. Para ello tendremos que apoyarnos en el módulo de Python `os`.

Lo primero de todo es saber en qué directorio estamos trabajando. Esto es fundamental para elegir bien la ruta relativa.

In [None]:
import os
os.getcwd()

'E:\\TheBridge\\Shirlei'

El directorio de trabajo lo podríamos cambiar si quisiéramos, por ejemplo, al escritorio.

In [None]:
os.chdir('E:\\TheBridge')
print(os.getcwd())
os.chdir('E:\\TheBridge\\Shirlei')
print(os.getcwd())

E:\TheBridge
E:\TheBridge\Shirlei


Podemos juntar rutas en un único path. Realiza un concatenado con barras entendibles por Windows.

In [None]:
os.path.join("E:\\TheBridge", "some_file.txt")

'E:\\TheBridge\\some_file.txt'

In [None]:
file = os.path.join("E:\\TheBridge", "some_file.txt")

In [None]:
pd.DataFrame().to_csv(file)

Si quieres buscar algún tipo de archivo concreto, tienes varias opciones:
- Buscar por nombre
- Buscar por extensión

En función de lo que encuentres, realizarás una operación u otra. Ahora bien, igualmente para buscar, tendrás que recorrer todos los archivos que estén en un directorio o en varios directorios. Para listar todos los ARCHIVOS y CARPETAS que hay en el directorio actual de trabajo, utilizamos `os.listdir()`.

In [None]:
os.listdir()

['Shirlei. basics_to_collections_comentarios.ipynb',
 'Shirlei. Colecciones_comentarios.ipynb',
 'Shirlei.Funciones_comentarios.ipynb']

Voy a quedarme con todos los notebooks del actual directorio de trabajo.

In [None]:
for i in os.listdir():
    if i.endswith('.ipynb'):
        print("Notebook", i)

Notebook Shirlei. basics_to_collections_comentarios.ipynb
Notebook Shirlei. Colecciones_comentarios.ipynb
Notebook Shirlei.Funciones_comentarios.ipynb


Si quiero acceder sólo a los directorios

In [None]:
for i in os.listdir():
    if '.' not in i:
        print("directorio", i)

Otro método interesante para bucear en los archivos y carpetas de un directorio concreto es el `os.walk()`. Va a devoler un iterable que podremos recorrer en un for y obtener en formato tupla todos los archivos, subcarpetas y ficheros de subcarpetas. Para cada elemento de la tupla tenemos:
- El directorio donde está apuntando.
- Los directorios que hay ahí.
- Los archivos que hay ahí.

In [None]:
result_generator = os.walk(os.getcwd())

files_result = [x for x in result_generator]
files_result

[('E:\\TheBridge\\Shirlei',
  [],
  ['Shirlei. basics_to_collections_comentarios.ipynb',
   'Shirlei. Colecciones_comentarios.ipynb',
   'Shirlei.Funciones_comentarios.ipynb'])]

¿Qué podemos hacer dentro de un directorio, aparte de listar ficheros y subdirectorios? Las principales operaciones serían:
- Crear o eliminar directorios
- Crear o eliminar ficheros
- Mover ficheros

In [None]:
os.mkdir('direct_prueba')

In [None]:
os.rmdir('direct_prueba')

In [None]:
f = open("fichero.txt", "w")

for i in range(10):
    f.write("Line:" + str(i))
    
f.close()

In [None]:
# Reestablecer ruta
os.path.join("E:\\TheBridge", "some_file.txt")
import shutil
shutil.move("importante", "img")

FileNotFoundError: [WinError 2] El sistema no puede encontrar el archivo especificado

In [None]:
# Localizar paquetes de python!

os.__file__


'd:\\Anaconda\\envs\\jdp\\Lib\\os.py'

In [None]:
# Localizar paquetes de python!
pd.__file__

'd:\\Anaconda\\envs\\jdp\\Lib\\site-packages\\pandas\\__init__.py'