![imagen](./img/python.jpg)

# Lectura Escritura

En este módulo vas a ver diferentes maneras de leer y escribir datos desde archivos locales. Rara vez trabajarás únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

1. [Archivos](#1.-Archivos)
2. [Abrir ficheros](#2.-Abrir-ficheros)
3. [CSV](#3.-CSV)
4. [Excel](#4.-Excel)
5. [JSON](#5.-JSON)
6. [TXT](#6.-TXT)
7. [ZIP](#7.-ZIP)
8. [pickle](#8.-pickle)
9. [Encoding](#9.-Encoding)
10. [Archivos y carpetas](#10.-Archivos-y-carpetas)

## 1. Archivos
Antes de ir a leer o escribir archivos, es importante saber exáctamente qué es un archivo. **Un archivo es un conjunto de datos almacenados en el ordenador en forma de bits.** Los datos se organizan en un formato específico, pudiendo ser un archivo de texto, un ejecutable... pero en el fondo todos esos archivos se traducen a nivel binario para el procesado del ordenador. Los archivos se componen de:

1. **Header**: metadatos del archivo (nombre, tamaño, tipo...)
2. **Data**: contenido del archivo
3. **End of file (EOF)**: caracter especial que indica el final del archivo.

![imagen](./img/file.png)

#### File path
Hay tres elementos que tenemos que conocer cuando leamos un archivo:
1. **Folder path**: en que lugar del ordenador está el archivo. Y no solo eso, si no en qué directorio está apuntando el programa de Python.
2. **File name**
3. **Extension**: lo que va después del punto

Fíjate en la siguiente imagen:

![imagen](./img/path.png)

* Si estamos trabajando en el directorio *to*, accederemos a *cats.gif* como `cats.gif`
* Si queremos leer *dog_breeds.txt*, hay que ir un directorio hacia atrás, `../dog_breeds.txt`
* Y si queremos acceder a `animals.csv`, son dos directorios hacia atrás: `../../animals.csv`

Siempre podemos poner la ruta absoluta (`C/Users/usuario/Archivos/Bootcamp/Python/animals.csv`) para el acceso a cada archivo, **aunque no es lo recomendable**.

[Buena guía para iniciarse en la lectura/escritura de archivos con Python.](https://realpython.com/read-write-files-python/)

## 2. Abrir ficheros
A lo largo de este notebook verás diferentes funciones para leer archivos, en función de la extensión cada uno. Estas funciones provienen de otras librerías y nos facilitan mucho la vida a la hora de leer o escribir archivos. No obstante, Python tiene sus propias funciones *built-in*, con las que no es necesario utilizar otros paquetes. 

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```

El primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).

Vamos a probar a leer un archivo. La siguiente sintaxis de línea se utiliza porque en algún momento se tiene que cerrar el archivo. Se abre, leemos, realizamos operaciones, y cuando acaba el `with open()`, se cierra el archivo. **Leer y escribir mientras los archivos están abiertos nos dará errores**.

In [1]:
# CELDA 1: Lectura básica de archivos TXT con open()
# Abrimos el archivo 'dog_breeds.txt' en modo lectura ('r')
# El contexto 'with' asegura que el archivo se cierra automáticamente al terminar
with open('data/dog_breeds.txt', 'r') as open_file:
    # Leemos todo el contenido del archivo como un único string
    all_text = open_file.read()
    # Verificamos el tipo de dato retornado (será 'str')
    print(type(all_text))
    # Imprimimos el contenido completo del archivo
    print(all_text)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier


El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista.

In [2]:
# CELDA 2: Lectura de archivos línea por línea con readlines()
# Nuevamente abrimos el archivo en modo lectura
with open('data/dog_breeds.txt', 'r') as open_file:
    # readlines() devuelve una LISTA donde cada elemento es una línea del archivo
    all_text = open_file.readlines()
    # Verificamos que el tipo es 'list'
    print(type(all_text))
    # Imprimimos la lista completa (cada línea incluye '\n' al final)
    print(all_text)

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier']


In [3]:
# CELDA 3: Iterar sobre las líneas del archivo
# Abrimos el archivo y leemos todas las líneas
with open('data/dog_breeds.txt', 'r') as open_file:
    # Recorremos cada línea de la lista retornada por readlines()
    for line in open_file.readlines():
        # Imprimimos cada línea, usando end='' para evitar saltos de línea adicionales
        print(line, end = '')
        
# Imprimimos 'Fin' para marcar el final del contenido
print('Fin')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border TerrierFin


In [4]:
# CELDA 4: Iterar directamente sobre el objeto archivo
# Esta es la forma más eficiente de leer archivos grandes línea por línea
with open('data/dog_breeds.txt', 'r') as reader:
    # Iteramos directamente sobre el objeto 'reader' (sin usar readlines())
    # Esto es más eficiente en memoria para archivos grandes
    for line in reader:
        # Imprimimos cada línea sin saltos adicionales
        print(line, end='')

Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier

Si queremos escribir

In [5]:
# CELDA 5: Escritura de archivos con write()
# Abrimos un archivo en modo escritura ('w') - si existe, se sobrescribe
with open('data/preguntas.py', 'w') as new_file:
    # Escribimos varias líneas en el archivo (cada write() escribe una línea)
    new_file.write("print(\"Hola mundo\")\n")
    new_file.write("#Esto se crea?\n")
    new_file.write("#Segunda linea\n")
    new_file.write("#Tercera linea\n")
    print("Ya se ha escrito")

# Ahora leemos el archivo que acabamos de crear para verificar su contenido
with open("data/preguntas.py", "r") as new_file:
    # readlines() devuelve todas las líneas como una lista
    print(new_file.readlines())

Ya se ha escrito
['print("Hola mundo")\n', '#Esto se crea?\n', '#Segunda linea\n', '#Tercera linea\n']


In [6]:
# CELDA 6: Escritura de código Python en un archivo
# Creamos un archivo con código Python válido (una clase)
with open('data/class_hlf.py', 'w') as new_file:
    # Escribimos la definición de una clase
    new_file.write("class Barco():\n")
    # \t representa un tabulador para la indentación
    new_file.write("\teslora = 4")
    print("Ya se ha escrito")

Ya se ha escrito


In [7]:
# CELDA 7: Añadir contenido a un archivo existente con modo append
# Modo 'a' (append) añade contenido al final sin borrar lo existente
with open('data/class_hlf.py', 'a') as new_file:
    # Añadimos saltos de línea y una nueva clase al archivo
    new_file.write("\n\nclass Tablero():\n")
    new_file.write("\tjugadores = 4")
    print("Ya se ha escrito")

Ya se ha escrito


## 3. CSV
***Comma Separated Values*. Es el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separeted Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma, tal cual. 

Por supuesto, tenemos el otro gran protagonista en cuanto a almacenamiento de datos en formato tabla, **el Excel**. A ver, son cosas diferentes. El Excel tiene sus formatos (.xlsx, .xls), que encima son muy eficientes ya que el dato va comprimido, pero no deja de ser un software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro caracter que no sea la coma**, como por ejemplo el punto y coma. ¿Por qué? Simplemente porque si tenemos datos decimales, separados por comas, no vamos a saber distinguir cuando una coma es de un decimal, o es el separador de columnas.

**¿Cómo podemos leer un CSV en Python?** Con Pandas! [Aquí tienes la documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [8]:
# CELDA 8: Lectura de archivos CSV con Pandas
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

# read_csv() es el método principal de Pandas para leer archivos CSV
# Por defecto asume que el separador es coma (,)
df = pd.read_csv('data/laliga.csv')
# head() muestra las primeras 5 filas del DataFrame
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


**Parámetros interesantes del `read_csv()`**
1. `filepath_or_buffer`: ruta donde está el CSV
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea.

Probemos a leer el CSV desde otra ruta del ordenador

In [9]:
# CELDA 9: Lectura de CSV desde una ruta almacenada en variable
# Guardamos la ruta en una variable para mejor organización del código
tu_ruta = 'data/laliga.csv'
# Leemos el CSV usando la variable con la ruta
df = pd.read_csv(tu_ruta)

# Mostramos las primeras 5 filas
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Una de las columnas, la podremos usar como index

In [10]:
# CELDA 10: Uso de index_col para establecer el índice del DataFrame
# El parámetro index_col permite usar una columna existente como índice
# En este caso usamos "Unnamed: 0" como índice en lugar del numérico por defecto
df = pd.read_csv('data/laliga.csv', index_col = "Unnamed: 0")
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos pasar el índice a una nueva columna, simplemente creamos una columna nueva

In [11]:
# CELDA 11: Conversión del índice a columna y reseteo del índice
# Creamos una nueva columna con los valores del índice actual
df['nueva columna'] = df.index
# reset_index() restablece el índice a valores numéricos (0, 1, 2...)
# inplace=True modifica el DataFrame directamente sin crear una copia
# drop=True elimina el índice antiguo en lugar de convertirlo en columna
df.reset_index(inplace=True, drop=True)

In [12]:
# CELDA 12: Visualización del DataFrame tras el reseteo
# Comprobamos cómo quedó el DataFrame después de resetear el índice
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


Podemos resetear también el índice, y poner ahi un numérico que vaya desde el 0 al número de filas.

In [13]:
# CELDA 13: Reseteo del índice sin modificar el DataFrame original
# Al no usar inplace=True, devuelve un nuevo DataFrame sin modificar el original
# drop=True asegura que no se conserve el índice antiguo como columna
df.reset_index(drop=True)

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
0,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
1,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
2,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
3,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
4,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205
...,...,...,...,...,...,...,...,...,...,...
4935,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800,36680
4936,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200,36681
4937,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200,36682
4938,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200,36683


In [14]:
# CELDA 14: Personalización manual del índice
# Cambiamos el índice para que comience en 1 en lugar de 0
# range(1, df.shape[0] + 1) genera números desde 1 hasta el número de filas
df.index = range(1, df.shape[0] + 1)
df.head()

Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp,nueva columna
1,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600,26201
2,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600,26202
3,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600,26203
4,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000,26204
5,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000,26205


In [15]:
# CELDA 15: Obtención de las dimensiones del DataFrame
# shape devuelve una tupla (filas, columnas)
print(df.shape)      # Ambas dimensiones
print(df.shape[0])   # Solo número de filas
print(df.shape[1])   # Solo número de columnas
print(len(df))       # len() también devuelve el número de filas

(4940, 10)
4940
10
4940


También es posible aplicarle nombres de columnas en la lectura de los datos

In [17]:
# CELDA 17: Visualización de los nombres de las columnas
# columns devuelve un objeto Index con todos los nombres de columnas
df.columns

Index(['season', 'division', 'round', 'localTeam', 'visitorTeam', 'localGoals',
       'visitorGoals', 'date', 'timestamp', 'nueva columna'],
      dtype='object')

In [18]:
# CELDA 18: Renombrar columnas durante la lectura del CSV
# El parámetro 'names' permite asignar nombres personalizados a las columnas
# header=0 indica que la primera fila contiene encabezados (se ignorarán)
df = pd.read_csv('data/laliga.csv',
                 names = ['Indice', 'Temporada', 'Division', 'Jornada',
                          'Equipo local', 'Equipo visitante', 'Goles local',
                          'Goles visitante', 'fecha', 'timestamp'],
                header = 0)
df.head()

Unnamed: 0,Indice,Temporada,Division,Jornada,Equipo local,Equipo visitante,Goles local,Goles visitante,fecha,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Si queremos cambiar los tipos de los datos, en la propia lectura

In [19]:
# CELDA 19: Verificación de tipos de datos de las columnas
# dtypes muestra el tipo de dato de cada columna
# object = texto/string, int64 = entero de 64 bits
df.dtypes

Indice               int64
Temporada           object
Division             int64
Jornada              int64
Equipo local        object
Equipo visitante    object
Goles local          int64
Goles visitante      int64
fecha               object
timestamp            int64
dtype: object

In [20]:
# CELDA 20: Lectura selectiva de columnas con tipos de datos específicos
# usecols: selecciona solo las columnas especificadas
# dtype: asigna tipos de datos específicos a cada columna
# np.int16 ocupa menos memoria que np.int64
df = pd.read_csv("data/laliga.csv",
                usecols = ['Unnamed: 0', 'division', 'localTeam'],
                dtype = {'Unnamed: 0': object,
                         'division': np.int16,  # int16 ahorra memoria
                         'localTeam': object})

df.head()

Unnamed: 0.1,Unnamed: 0,division,localTeam
0,26201,1,Atletico de Bilbao
1,26202,1,Alaves
2,26203,1,Valencia
3,26204,1,Atletico de Madrid
4,26205,1,Cadiz


In [21]:
# CELDA 21: Verificación de los tipos de datos aplicados
# Comprobamos que los tipos se aplicaron correctamente
# Notar que 'division' ahora es int16 en lugar de int64
df.dtypes

Unnamed: 0    object
division       int16
localTeam     object
dtype: object

**¿Cómo leer un archivo CSV que no esté separado por comas?**
Probemos a leer un archivo CSV, que no tiene comas como delimitador

In [22]:
# CELDA 22: Intento de lectura de CSV con separador incorrecto
# Este archivo usa punto y coma (;) como separador, no coma
# Al no especificar sep=';', Pandas no detecta las columnas correctamente
df = pd.read_csv("data/laligaPC.csv")
df.head()

Unnamed: 0,Unnamed: 0;season;division;round;localTeam;visitorTeam;localGoals;visitorGoals;date;timestamp
0,26201;2005-06;1;1;Atletico de Bilbao;Real Soci...
1,26202;2005-06;1;1;Alaves;Barcelona;0;0;27/08/2...
2,26203;2005-06;1;1;Valencia;Betis;1;0;27/08/200...
3,26204;2005-06;1;1;Atletico de Madrid;Zaragoza;...
4,26205;2005-06;1;1;Cadiz;Real Madrid;1;2;28/08/...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trabajar con CSVs cuyo separador sea el ; así evitamos problemas por los decimales**.

In [23]:
# CELDA 23: Lectura correcta de CSV con separador punto y coma
# sep=';' indica que el separador es punto y coma
# Esto es común en países donde la coma se usa para decimales
df = pd.read_csv("data/laligaPC.csv", sep=';')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


¿Podemos tener otros caracteres que separen los datos?

In [24]:
# CELDA 24: Intento de lectura con separador personalizado (virgulilla)
# Este archivo usa ~ como separador
# Sin especificar sep='~', Pandas no lo interpreta correctamente
df = pd.read_csv("data/laliga4.csv")
df.head()

Unnamed: 0,Unnamed: 0~season~division~round~localTeam~visitorTeam~localGoals~visitorGoals~date~timestamp
0,26201~2005-06~1~1~Atletico de Bilbao~Real Soci...
1,26202~2005-06~1~1~Alaves~Barcelona~0~0~27/08/2...
2,26203~2005-06~1~1~Valencia~Betis~1~0~27/08/200...
3,26204~2005-06~1~1~Atletico de Madrid~Zaragoza~...
4,26205~2005-06~1~1~Cadiz~Real Madrid~1~2~28/08/...


In [25]:
# CELDA 25: Lectura correcta con separador virgulilla (~)
# Pandas puede usar cualquier carácter como separador
# sep='~' indica que usamos virgulilla como delimitador
df = pd.read_csv("data/laliga4.csv", sep='~')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


In [26]:
# CELDA 26: Lectura completa de archivo con punto y coma
# Esta celda muestra el DataFrame completo (4940 filas)
# sin el parámetro head(), mostrando todas las filas
pd.read_csv("data/laligaPC.csv", sep=";")

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000
...,...,...,...,...,...,...,...,...,...,...
4935,36680,2017-18,1,38,Villarreal,Real Madrid,2,2,19/05/2018,1526680800
4936,36681,2017-18,1,38,Atletico de Bilbao,Espanol,0,1,20/05/2018,1526767200
4937,36682,2017-18,1,38,Barcelona,Real Sociedad,1,0,20/05/2018,1526767200
4938,36683,2017-18,1,38,Valencia,Deportivo,2,1,20/05/2018,1526767200


**Escritura de CSV**

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [27]:
# CELDA 27: Escritura de DataFrame a archivo CSV
# to_csv() guarda el DataFrame en formato CSV
# sep=';' establece punto y coma como separador
# index=False evita guardar el índice como columna adicional
df.to_csv("data/laligaWrite.csv", sep = ';', index = False)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio CSV</h3>

Crea un fichero de CSV llamado ejercicio_clase.csv en la carpeta de data a partir de estas Series con separador de ; y leelo a continuación.
         
 </td></tr>
</table>

In [None]:
# CELDA 28: Creación de Series de Pandas para ejercicio
# Creamos dos Series: una con población y otra con superficie
# Series es una estructura de datos unidimensional de Pandas
poblacion = pd.Series({"Madrid": 6685471, "Galicia": 2698764,
                       "Murcia": 1494442, "Andalucia": 8446561})

# Podemos crear Series con lista de valores e índices separados
superficie = pd.Series([8028, 29575, 11314, 87599],
                       index = ["Madrid", "Galicia", "Murcia", "Andalucia"])

In [None]:
# CELDA 29: Creación de DataFrame a partir de Series
# Combinamos las dos Series en un DataFrame
# Cada Serie se convierte en una columna del DataFrame
df = pd.DataFrame({"poblacion": poblacion,
                   "superficie": superficie})
df

In [None]:
# CELDA 30: Guardar y leer CSV con índice personalizado
# Guardamos el DataFrame en CSV con separador punto y coma
df.to_csv("data/ejercicio.csv", sep=";")

# Leemos el CSV recién creado
# index_col=0 usa la primera columna como índice
df_lectura = pd.read_csv("data/ejercicio.csv", sep=";", index_col=0)
df_lectura

## 4. Excel
¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xlsx` y `.xls`. Por suerte, **`pandas` tiene métodos para leer los formatos de archivo de Excel**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel`. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

Leemos nuestro archivo de laliga, pero en este caso en Excel

In [None]:
# pip install openpyxl

In [28]:
# CELDA 31: Lectura de archivos Excel con Pandas
# read_excel() permite leer archivos .xlsx y .xls
# Por defecto lee la primera hoja del archivo
df = pd.read_excel('data/laliga.xlsx')
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


No tenemos problemas cuando los datos están perfectos, con una única hoja, y empezando en la celda A1. ¿Qué argumentos nos pueden resultar útiles?

1. `io`: dónde está el archivo
2. `sheet_name`: el nombre de la hoja
3. `header`: dónde está la cabecera
4. `usecols`: indica el rango de columnas Excel en el que se encuentran. Por ejemplo: 'A:F'
5. `skiprows`: filas que deberia ignorar

Veamos más ejemplos. El Excel de `laliga.xlsx` tiene varias pestañas. Por defecto, lee la primera, `Hoja1`, pero podemos especificar otras.

In [29]:
# CELDA 32: Lectura de una hoja específica de Excel
# sheet_name permite especificar qué hoja leer
# En este caso 'Hoja2' que tiene filas vacías al inicio
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2')
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
2,26201,2005-06-01 00:00:00,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27 00:00:00,1125093600
3,26202,2005-06-01 00:00:00,1,1,Alaves,Barcelona,0,0,2005-08-27 00:00:00,1125093600
4,26203,2005-06-01 00:00:00,1,1,Valencia,Betis,1,0,2005-08-27 00:00:00,1125093600


Vemos que hay algún problema con los datos. Las primeras líneas están en blanco en el Excel. Podemos, o bien ignorarlas, o indicarle donde está la cabecera

In [30]:
# CELDA 33: Manejo de encabezados en Excel con filas vacías
# header=2 indica que los nombres de columnas están en la fila 3 (índice 2)
# Esto omite las filas vacías al principio del archivo
df = pd.read_excel('data/laliga.xlsx', sheet_name = 'Hoja2', header = 2)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


Otro problema que nos puede surgir es que la tabla no esté ni en las primeas filas, ni en las primeras columnas

In [None]:
# CELDA 34: Selección de rango de columnas en Excel
# usecols='B:K' selecciona solo las columnas B hasta K (en notación Excel)
# Útil cuando los datos no están en las primeras columnas
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja3',
                  header = 2,
                  usecols = 'B:K')
df.head()

In [31]:
# CELDA 35: Lectura limitada de filas en Excel
# nrows=10 limita la lectura a las primeras 10 filas de datos
# Combinado con header y usecols para datos en ubicaciones específicas
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja4',
                  header = 3,
                  usecols = 'C:L',
                  nrows = 10)
df.head()

Unnamed: 0,Column1,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06-01,1,1,Atletico de Bilbao,Real Sociedad,3,0,2005-08-27,1125093600
1,26202,2005-06-01,1,1,Alaves,Barcelona,0,0,2005-08-27,1125093600
2,26203,2005-06-01,1,1,Valencia,Betis,1,0,2005-08-27,1125093600
3,26204,2005-06-01,1,1,Atletico de Madrid,Zaragoza,0,0,2005-08-28,1125180000
4,26205,2005-06-01,1,1,Cadiz,Real Madrid,1,2,2005-08-28,1125180000


In [32]:
# CELDA 36: Omitir filas específicas al leer Excel
# skiprows permite omitir filas específicas
# list(range(4942,4952)) omite las filas 4942 a 4951
# Útil para eliminar filas de totales o notas al final del archivo
df = pd.read_excel('data/laliga.xlsx',
                   sheet_name = 'Hoja5',
                   skiprows=list(range(4942,4952)))
len(df)

4964

**Escritura de Excel**

Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel. **Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

In [33]:
# CELDA 37: Escritura de DataFrame a Excel
# to_excel() guarda el DataFrame en formato Excel (.xlsx)
# Es importante incluir la extensión .xlsx en el nombre del archivo
df.to_excel('data/laligaExcelWrite.xlsx')

## 5. JSON
***JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programción web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_clave" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad.

Un JSON tiene la siguiente pinta:

![imagen](./img/json_image.png)


In [34]:
# CELDA 38: Creación de estructura JSON con diccionarios anidados
# JSON permite estructuras jerárquicas con diccionarios y listas
# Esta estructura representa una persona con hijos
data =  {
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],  # Lista de hobbies
        "age": 35,
        "children": [  # Lista de diccionarios (objetos anidados)
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


In [35]:
# CELDA 39: Acceso a elementos de listas en JSON
# Accedemos al primer hobby usando indexación de listas
# data['hobbies'] devuelve la lista, [0] toma el primer elemento
data['hobbies'][0]

'running'

In [36]:
# CELDA 40: Acceso a datos anidados en JSON
# Navegamos por la estructura: children (lista) -> segundo elemento [1] -> firstName
# Esto demuestra cómo acceder a datos en estructuras JSON complejas
data['children'][1]['firstName']

'Bob'

In [37]:
# CELDA 41: Iteración sobre listas en JSON
# Recorremos la lista de hijos e imprimimos el nombre de cada uno
# Útil para procesar colecciones de objetos en JSON
for kid in data['children']:
    print(kid['firstName'])

Alice
Bob


**Puedo guardar el JSON en un archivo. Para ello, usamos la librería `json`**

In [38]:
# CELDA 42: Escritura de JSON en archivo
# Importamos la librería json para trabajar con archivos JSON
import json

# Modo 'w' (write) para crear/sobrescribir el archivo
# json.dump() serializa el objeto Python a formato JSON y lo guarda
with open("data/data_file.json", "w") as write_file:
    json.dump(data, write_file)

O también objetos de una clase

In [39]:
# CELDA 43: Definición de clase y creación de objetos
# Creamos una clase Persona con atributos firstName, lastName y hobbies
class Persona:
    
    def __init__(self, firstName, lastName, hobbies):
        self.firstName = firstName
        self.lastName = lastName
        self.hobbies = hobbies

# Instanciamos dos objetos de la clase Persona        
pers1 = Persona("Pepe", "Carrasco", ["Bricolaje", "Tenis"])
pers2 = Persona("Jose", "Carrasco", ["Bricolaje", "Tenis"])

In [40]:
# CELDA 44: Visualización de objeto en memoria
# Al imprimir un objeto sin __str__ o __repr__, muestra su ubicación en memoria
# No es una representación legible de los datos del objeto
pers1

<__main__.Persona at 0x1baa6d91c10>

In [41]:
# CELDA 45: Acceso al diccionario interno de un objeto
# __dict__ contiene todos los atributos del objeto como un diccionario
# Esto es útil para serializar objetos a JSON
pers1.__dict__

{'firstName': 'Pepe',
 'lastName': 'Carrasco',
 'hobbies': ['Bricolaje', 'Tenis']}

Lo puedo guardar en un archivo *pepe.json*

In [42]:
# CELDA 46: Guardar objeto Python como JSON
# Convertimos el objeto pers2 a diccionario con __dict__
# y lo guardamos como JSON en un archivo
with open("data/pepe.json", "w") as write_file:
    json.dump(pers2.__dict__, write_file)

Luego lo puedo volver a cargar

In [43]:
# CELDA 47: Lectura de archivo JSON
# json.load() lee el archivo JSON y lo convierte en un diccionario Python
with open("data/pepe.json", "r") as json_file:
    data = json.load(json_file)

# Imprimimos el diccionario completo y luego un valor específico    
print(data)
print(data['firstName'])

{'firstName': 'Jose', 'lastName': 'Carrasco', 'hobbies': ['Bricolaje', 'Tenis']}
Jose


Para el siguiente ejemplo, utilizamos `pandas` y leeremos el archivo JSON, de tal manera que nos transforme los datos en formato tabla, en un `DataFrame`.

In [44]:
# CELDA 48: Lectura de JSON con múltiples objetos (formato lines)
# lines=True indica que cada línea del archivo es un objeto JSON independiente
# Este formato es común en datasets grandes (JSON Lines o JSONL)
df = pd.read_json('data/Musical_Instruments_5.json', lines = True)
df

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"
...,...,...,...,...,...,...,...,...,...
10256,A14B2YH83ZXMPP,B00JBIVXGC,Lonnie M. Adams,"[0, 0]","Great, just as expected. Thank to all.",5,Five Stars,1405814400,"07 20, 2014"
10257,A1RPTVW5VEOSI,B00JBIVXGC,Michael J. Edelman,"[0, 0]",I've been thinking about trying the Nanoweb st...,5,"Long life, and for some players, a good econom...",1404259200,"07 2, 2014"
10258,AWCJ12KBO5VII,B00JBIVXGC,Michael L. Knapp,"[0, 0]",I have tried coated strings in the past ( incl...,4,Good for coated.,1405987200,"07 22, 2014"
10259,A2Z7S8B5U4PAKJ,B00JBIVXGC,"Rick Langdon ""Scriptor""","[0, 0]","Well, MADE by Elixir and DEVELOPED with Taylor...",4,Taylor Made,1404172800,"07 1, 2014"


## 6. TXT
**Son simplemente archivos donde hay texto**. Hemos visto que los CSVs y los JSON tienen su propio formato y extension. En el caso del .txt no tienen ninguno específico aunque no quita para que sus elementos estén separados por comas, y se pueda leer igualmente como si fuese un CSV.

Cuando almancenamos datos siempre tienen una estructura, por lo que aunque sea un `.txt`, llevará los datos en formato json, separados por comas, tabulaciones, puntos y comas...

Por ejemplo, si tenemos los datos de la liga guardados en un `.txt`, separados por tabulaciones, lo podremos leer con el `pd.read_csv()`.

In [45]:
# CELDA 49: Importación de Pandas para trabajar con archivos TXT
import pandas as pd 

In [46]:
# CELDA 50: Lectura de archivo TXT con tabulaciones como separador
# Los archivos .txt pueden tener datos tabulares
# sep='\t' indica que el separador es tabulación (tab)
df = pd.read_csv('data/laligaTXT.txt', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


Recuerda que la separación por tabulaciones, también tiene su propia extensión: el `.tsv`, que igualmente lo podremos leer con `read_csv()`.

In [47]:
# CELDA 51: Lectura de archivo TSV (Tab-Separated Values)
# TSV es un formato similar a CSV pero usa tabulaciones
# .tsv es la extensión estándar, pero se lee igual que un TXT tabulado
df = pd.read_csv('data/laligaTSV.tsv', sep='\t')
df.head()

Unnamed: 0.1,Unnamed: 0,season,division,round,localTeam,visitorTeam,localGoals,visitorGoals,date,timestamp
0,26201,2005-06,1,1,Atletico de Bilbao,Real Sociedad,3,0,27/08/2005,1125093600
1,26202,2005-06,1,1,Alaves,Barcelona,0,0,27/08/2005,1125093600
2,26203,2005-06,1,1,Valencia,Betis,1,0,27/08/2005,1125093600
3,26204,2005-06,1,1,Atletico de Madrid,Zaragoza,0,0,28/08/2005,1125180000
4,26205,2005-06,1,1,Cadiz,Real Madrid,1,2,28/08/2005,1125180000


El método `read_csv()` no se ciñe únicamente a leer CSVs, sino a prácticamente cualquier archivo que lleve un acarácter concreto en la separación de sus campos. Si conocemos ese caracter, sabremos leer el archivo con `pandas`.

## 7. ZIP
En ocasiones los datos que recibimos en nuestros programas están comprimidos, ya sea en un formato `.zip`, `.rar`, `.7z`, u otro tipo de archivo.

En este apartado verás un ejemplo de cómo descomprimir archivos `.zip`. Para ello empleamos la librería `zipfile` que viene incluida en la instalación de Anaconda. [Tienes el enlace a la documentación para más detalle](https://docs.python.org/3/library/zipfile.html#zipfile-objects).

Para extraer todos los archivos:

In [49]:
# CELDA 52: Extracción completa de archivos ZIP
# Importamos zipfile para trabajar con archivos comprimidos
import zipfile

# ZipFile abre el archivo .zip
# extractall() extrae todos los archivos a la carpeta especificada
with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    zip_ref.extractall('data')

Si quieres descomprimir un archivo `.rar` [tendrás que descargarte un paquete como por ejemplo `unrar`.](https://pypi.org/project/unrar/)

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio zip</h3>

Consulta la documentación para extrar un único archivo por nombre de data/laligaZIP.zip en la carpeta extracted_files.
         
 </td></tr>
</table>

In [51]:
# CELDA 53: Extracción selectiva de archivos ZIP
# printdir() lista los archivos contenidos en el ZIP
# extract() extrae un archivo específico por nombre a una carpeta destino
with zipfile.ZipFile('data/laligaZIP.zip') as zip_ref:
    zip_ref.printdir()
    zip_ref.extract("laligaZIP.csv", 'data/extracted_files')

File Name                                             Modified             Size
laligaZIP.csv                                  2020-07-23 16:15:24       331188


## 8. pickle
**`pickle` es el módulo que nos permite serializar y deserializar un objeto de Python**. Esta operación lo que hace es traducirlo a un stream de bytes.

A efectos prácticos, lo que nos permite es guardar objetos de Python, y recuperarlos más adelante.

In [52]:
# CELDA 54: Serialización de múltiples objetos con pickle
# pickle permite guardar objetos Python en formato binario
import pickle

# Preparamos varios objetos: DataFrame, JSON y objeto de clase
df = pd.read_csv("data/laliga.csv")

with open('data/pepe.json') as json_file:
    data = json.load(json_file)

# Modo 'wb' (write binary) para archivos pickle
# Guardamos múltiples objetos en el mismo archivo con dump() sucesivos
with open('data/importante', 'wb') as f:
    pickle.dump(pers1, f)
    pickle.dump(df, f)
    pickle.dump(data, f)

In [53]:
# CELDA 55: Deserialización de objetos pickle
# Modo 'rb' (read binary) para leer archivos pickle
# pickle.load() recupera los objetos en el MISMO ORDEN en que fueron guardados
with open('data/importante', 'rb') as f:
    a = pickle.load(f)  # Primer objeto: pers1
    b = pickle.load(f)  # Segundo objeto: df
    c = pickle.load(f)  # Tercer objeto: data

# Imprimimos los objetos recuperados    
print(a)
print(b)
print(c)

<__main__.Persona object at 0x000001BAA7EC9F10>
      Unnamed: 0   season  division  round           localTeam    visitorTeam  \
0          26201  2005-06         1      1  Atletico de Bilbao  Real Sociedad   
1          26202  2005-06         1      1              Alaves      Barcelona   
2          26203  2005-06         1      1            Valencia          Betis   
3          26204  2005-06         1      1  Atletico de Madrid       Zaragoza   
4          26205  2005-06         1      1               Cadiz    Real Madrid   
...          ...      ...       ...    ...                 ...            ...   
4935       36680  2017-18         1     38          Villarreal    Real Madrid   
4936       36681  2017-18         1     38  Atletico de Bilbao        Espanol   
4937       36682  2017-18         1     38           Barcelona  Real Sociedad   
4938       36683  2017-18         1     38            Valencia      Deportivo   
4939       36684  2017-18         1     38  Atletico de Madri

## 9. Encoding
**Los strings se almacenan internamente en un conjunto de bytes**, caracter a caracter. Esta operación es lo que se conoce como ***encoding***, mientras que pasar de bytes a string sería *decoding*. Bien, ¿y eso en qué nos afecta? Dependiendo del encoding, se suelen almacenar en un espacio de bits de 0 a 255, es decir, en esa combinación de bits tienen que entrar todos los caracteres del lenguaje.

El problema es que en toda esa combinación de bits no entran todos los caracteres del planeta, por lo que **dependiendo del encoding que usemos, una combinación de bits significará una cosa u otra**. Por ejemplo, una A mayuscula será lo mismo en el encodig europeo que en el americano, pero los bits reservados para representar una Ñ, en el encodig americano se traduce en otro caracter.

Por tanto, **hay que tener claro en qué encoding está el archivo y con qué encoding lo vamos a leer**. [En la documentación](https://docs.python.org/3/library/codecs.html#encodings-and-unicode) puedes realizar esta comprobación. Hay algunos que te tienen que ir sonando:

1. 'utf-8': normalmente se trabaja con este encoding que engloba la mayor parte de caracteres.
2. 'unicode': estándar universal con el que no deberiamos tener problemas.
3. 'ascii': encoding americano. Solo tiene 128 caracteres.
4. 'latin': para oeste de Europa, Oceanía y Latinoamérica

![imagen](./img/encoding.jpg)

In [54]:
# CELDA 56: Lectura de CSV con encoding UTF-8
# encoding especifica cómo interpretar los caracteres del archivo
# utf-8 es el estándar universal que soporta caracteres especiales (ñ, á, etc.)
pd.read_csv('data/encoding.csv', encoding = 'utf-8')

Unnamed: 0,País,Comida
0,España,paella
1,Japón,sushi
2,Francia,La Lamproie à la Bordelaise


In [55]:
# CELDA 57: Error al leer con encoding incorrecto
# ascii solo soporta 128 caracteres (sin acentos ni ñ)
# Esta lectura generará un error si el archivo contiene caracteres especiales
pd.read_csv('data/encoding.csv', encoding = 'ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 2: ordinal not in range(128)

In [56]:
# CELDA 58: Lectura con encoding incorrecto muestra caracteres corruptos
# iso8859_10 es un encoding diferente que interpreta los bytes de forma distinta
# Los caracteres especiales se muestran incorrectamente (EspaÃąa en lugar de España)
pd.read_csv('data/encoding.csv', encoding='iso8859_10')

Unnamed: 0,PaÃ­s,Comida
0,EspaÃąa,paella
1,JapÃģn,sushi
2,Francia,La Lamproie Ã la Bordelaise


## 10. Archivos y carpetas
Resulta de gran utilidad automatizar lecturas/escrituras/borrado/movimientos de archivos entre carpetas. Si tenemos un proceso definido en Python, podremos ejecutarlo tantas veces queramos y de este modo evitar dedicarle tiempo tareas tediosas y rutinarias. Para ello tendremos que apoyarnos en el módulo de Python `os`.

Lo primero de todo es saber en qué directorio estamos trabajando. Esto es fundamental para elegir bien la ruta relativa.

In [57]:
# CELDA 59: Obtener el directorio de trabajo actual
# os.getcwd() (get current working directory) devuelve la ruta actual
# Es importante conocerla para usar rutas relativas correctamente
import os
os.getcwd()

'c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría'

El directorio de trabajo lo podríamos cambiar si quisiéramos, por ejemplo, al escritorio.

In [None]:
# CELDA 60: Cambiar y verificar el directorio de trabajo
# os.chdir() (change directory) cambia el directorio de trabajo actual
os.chdir('d:\\Bootcamps_DS\\25_9_Bootcamp_DS\\')
print(os.getcwd())
# os.listdir() lista archivos y carpetas en el directorio actual
print(os.listdir())
# Volvemos al directorio original
os.chdir('d:\\Bootcamps_DS\\25_3_Bootcamp_DS\\2503_dsft_thebridge\\2-Data_Analysis\\3-Sources\\Archivos\\Teoría')
print(os.getcwd())

FileNotFoundError: [WinError 3] El sistema no puede encontrar la ruta especificada: 'd:\\Bootcamps_DS\\25_3_Bootcamp_DS\\'

Podemos juntar rutas en un único path. Realiza un concatenado con barras entendibles por Windows.

In [None]:
# CELDA 61: Construcción de rutas multiplataforma
# os.path.join() une rutas de forma compatible con Windows, Linux y Mac
# Añade automáticamente las barras correctas según el sistema operativo
os.path.join("C:\\path\\directory", "some_file.txt")



Si quieres buscar algún tipo de archivo concreto, tienes varias opciones:
- Buscar por nombre
- Buscar por extensión

En función de lo que encuentres, realizarás una operación u otra. Ahora bien, igualmente para buscar, tendrás que recorrer todos los archivos que estén en un directorio o en varios directorios. Para listar todos los ARCHIVOS y CARPETAS que hay en el directorio actual de trabajo, utilizamos `os.listdir()`.

In [59]:
# CELDA 62: Verificación del directorio actual
# Confirmamos en qué directorio estamos trabajando antes de buscar archivos
os.getcwd()

'c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría'

In [60]:
# CELDA 63: Listar contenido del directorio actual
# os.listdir() devuelve una lista con nombres de archivos y carpetas
# Sin argumentos, lista el directorio actual
os.listdir()

['data', 'img', 'Lectura_Escritura(borja).ipynb']

Voy a quedarme con todos los notebooks del actual directorio de trabajo.

In [61]:
# CELDA 64: Filtrar archivos por extensión
# Iteramos sobre todos los archivos del directorio
# endswith('.ipynb') filtra solo los notebooks de Jupyter
for i in os.listdir():
    if i.endswith('.ipynb'):
        print("Notebook", i)

Notebook Lectura_Escritura(borja).ipynb


Si quiero acceder sólo a los directorios

In [62]:
# CELDA 65: Identificar solo directorios (carpetas)
# Los directorios no tienen extensión (punto en el nombre)
# Esta es una forma simple de distinguir carpetas de archivos
for i in os.listdir():
    if '.' not in i:
        print("directorio", i)

directorio data
directorio img


Otro método interesante para bucear en los archivos y carpetas de un directorio concreto es el `os.walk()`. Va a devoler un iterable que podremos recorrer en un for y obtener en formato tupla todos los archivos, subcarpetas y ficheros de subcarpetas. Para cada elemento de la tupla tenemos:
- El directorio donde está apuntando.
- Los directorios que hay ahí.
- Los archivos que hay ahí.

In [63]:
# CELDA 66: Recorrido recursivo de directorios con os.walk()
# os.walk() recorre el directorio y todos sus subdirectorios
# Devuelve tuplas con: (directorio_actual, lista_subdirectorios, lista_archivos)
result_generator = os.walk(os.getcwd())

# Convertimos el generador en lista para visualizar toda la estructura
files_result = [x for x in result_generator]
files_result

[('c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría',
  ['data', 'img'],
  ['Lectura_Escritura(borja).ipynb']),
 ('c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría\\data',
  ['extracted_files'],
  ['class_hlf.py',
   'class_hlf.txt',
   'data_file.json',
   'dog_breeds.txt',
   'ejercicio.csv',
   'ejercicio_clase.csv',
   'encoding.csv',
   'file_write.txt',
   'file_writes.txt',
   'importante',
   'laliga.csv',
   'laliga.xlsx',
   'laliga4.csv',
   'laligaExcelWrite.xlsx',
   'laligaPC.csv',
   'laligaTSV.tsv',
   'laligaTXT.txt',
   'laligaWrite.csv',
   'laligaZIP.csv',
   'laligaZIP.zip',
   'Musical_Instruments_5.json',
   'pepe.json',
   'poblacion.csv',
   'preguntas.py']),
 ('c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría

¿Qué podemos hacer dentro de un directorio, aparte de listar ficheros y subdirectorios? Las principales operaciones serían:
- Crear o eliminar directorios
- Crear o eliminar ficheros
- Mover ficheros

In [64]:
# CELDA 67: Crear un nuevo directorio
# os.mkdir() crea una carpeta en el directorio actual
# Si la carpeta ya existe, generará un error
os.mkdir('direct_prueba')

In [65]:
# CELDA 68: Verificar directorio tras creación
# Comprobamos la ruta actual después de crear el directorio
os.getcwd()

'c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría'

In [66]:
# CELDA 69: Eliminar un directorio vacío
# os.rmdir() elimina un directorio SOLO si está vacío
# Si contiene archivos, generará un error
os.rmdir('direct_prueba')

In [67]:
# CELDA 70: Crear y escribir archivo de texto manualmente
# open() con modo 'w' crea un archivo nuevo
f = open("fichero.txt", "w")

# Escribimos 10 líneas en el archivo
for i in range(10):
    f.write("Line:" + str(i))

# IMPORTANTE: siempre cerrar el archivo después de escribir
f.close()

In [68]:
# CELDA 71: Mover archivos entre directorios
# shutil.move() mueve un archivo de una ubicación a otra
# También puede usarse para renombrar archivos
import shutil
shutil.move("fichero.txt", "data")

'data\\fichero.txt'

In [69]:
# CELDA 72: Eliminar un archivo
# os.remove() elimina permanentemente un archivo
# ¡PRECAUCIÓN! Esta operación no se puede deshacer
os.remove('data/fichero.txt')

In [70]:
# CELDA 73: Obtener el directorio del script actual
# os.path.dirname() obtiene el directorio padre de una ruta
# os.path.abspath() convierte una ruta relativa a absoluta
# '__file__' es una variable especial que contiene la ruta del script
os.path.dirname(os.path.abspath('__file__'))

'c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría'

In [71]:
# CELDA 74: Uso de __file__ en scripts (comentado)
# __file__ funciona en scripts .py pero puede dar error en notebooks
# Se usa para obtener la ubicación del archivo Python en ejecución
import os
# os.path.dirname(os.path.abspath(__file__))

In [72]:
# CELDA 75: Obtener ruta absoluta de un archivo
# os.path.abspath() convierte cualquier ruta (relativa o con '..') a ruta absoluta
# Útil para asegurar que trabajamos con la ruta completa del archivo
os.path.abspath('__file__')

'c:\\Users\\borja\\Desktop\\Bootcamp\\repo_alumnos\\2509_dsft_thebridge_valencia\\2_data_analysis\\2-Pandas\\Teoría\\01_lectura_Archivos\\Teoría\\__file__'