# Acceso Local: Lectura, Escritura y ficheros TXT

En esta unidad vas a ver diferentes maneras de leer y escribir datos desde archivos locales y, en general, volcarlos a un **DataFrame**, aunque lo que aprenderás te servirá para cualquier otro procesamiento que necesites. Rara vez trabajarás únicamente con los datos que genere tu programa de Python, sino que lo normal será acudir a una fuente de datos, o leer de algún archivo.

En concreto en esta sesión veremos la forma genérica de leer y escribir archivos que tiene Python y lo aplicaremos a lo que hemos llamado ficheros de texto plano.

## 1. Archivos

Antes de ir a leer o escribir archivos, es importante saber exactamente qué es un archivo.  
Recordando las primeras píldoras del bootcamp: **Un archivo es un conjunto de datos almacenados en el ordenador en forma de bits.** Los datos se organizan en un formato específico, pudiendo ser un archivo de texto, un ejecutable, etc. como comentamos en las introducciones de la unidad anterior, pero en el fondo todos esos archivos se traducen a nivel binario para el procesado del ordenador.



## 2. Abrir ficheros

Aunque veremos la forma concreta que tiene pandas para abrir archivos (una de las cuales `pd.read_csv` ya la has visto bastantes veces), Python tiene sus propias funciones *built-in* para tratar con ficheros. Básicamente: **`open`**.

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sintaxis:

```python
file_object = open("filename", "mode")

In [8]:
with open("C:/Users/david/Downloads/dog_breeds.txt","r") as open_file:
    all_text=open_file.read()
    print(type(all_text))
    print(all_text)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier



La sintaxis con `with open()` es la forma recomendada para trabajar con archivos porque:
- Abre el archivo automáticamente.
- Lo cierra al finalizar el bloque (incluso si ocurren errores).
- Evita problemas al leer/escribir mientras el archivo está abierto.

**Ejemplo básico:**
```python
with open("ruta/al/archivo.txt", "r") as archivo:
    contenido = archivo.read()
    # Operaciones aquí...
# El archivo se cierra automáticamente al salir del bloque

In [9]:
with open("C:/Users/david/Downloads/dog_breeds.txt","r") as open_file:
    all_text=open_file.readlines()
    print(type(all_text))
    print(all_text)
    

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier']


In [11]:
with open("C:/Users/david/Downloads/dog_breeds.txt","r") as f:
    lineas = [line.replace("\n","") for line in f]
lineas

['Pug',
 'Jack Russell Terrier',
 'English Springer Spaniel',
 'German Shepherd',
 'Staffordshire Bull Terrier',
 'Cavalier King Charles Spaniel',
 'Golden Retriever',
 'West Highland White Terrier',
 'Boxer',
 'Border Terrier']

Una vez almacenado el contenido del archivo en variables, podemos manipularlo:

In [13]:
nuevos_datos=[perrito.replace("Terrier","").replace("Spaniel","") for perrito in lineas]
nuevos_datos

['Pug',
 'Jack Russell ',
 'English Springer ',
 'German Shepherd',
 'Staffordshire Bull ',
 'Cavalier King Charles ',
 'Golden Retriever',
 'West Highland White ',
 'Boxer',
 'Border ']

Y ahora para escribir sólo tenemos que cambiar el modo a "w" (sobreescribiremos lo que haya) o "a" (añadiremos al final)

In [16]:
with open("C:/Users/david/Downloads/dog_breeds.txt","w")as g:
    for linea in nuevos_datos:
        g.write(linea+"\n")
with open("C:/Users/david/Downloads/dog_breeds.txt","r") as f:
    for linea in f:
        print(linea)


Pug

Jack Russell 

English Springer 

German Shepherd

Staffordshire Bull 

Cavalier King Charles 

Golden Retriever

West Highland White 

Boxer

Border 



Hemos visto cómo abrir, leer y escribir ficheros de texto. Con el modificador "b" en los argumentos del `open()` podríamos abrir, leer y escribir ficheros binarios (es decir, cualquier tipo de fichero), pero cómo interpretar lo leído depende de cada fichero. Así que por ahora trabaja con ficheros ".txt" hasta que nos adentremos en CSV, JSON y XML en las píldoras siguientes.

# Acceso Local: Lectura, Escritura y ficheros CSV

**Los ficheros csv (Comma Separated Values) son el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separated Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extensión de archivo es .csv**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el carácter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma

Por supuesto, tenemos el otro gran protagonista en cuanto a almacenamiento de datos en formato tabla, **el Excel**. A ver, son cosas diferentes. El Excel tiene sus formatos (.xlsx, .xls), que encima son muy eficientes ya que el dato va comprimido, pero no deja de ser un software de pago para tratar los datos, mientras que **el CSV es un formato estándar que se utiliza en todos los sistemas operativos para el exportado/importado de datos**.

Como decíamos al principio, los CSVs se llaman *Comma Separated Values* porque todos los valores van separados por comas... bueno, esto no es del todo cierto ya que **puede haber otro carácter que no sea la coma**, como por ejemplo el punto y coma. ¿Por qué? Simplemente porque si tenemos datos decimales, separados por comas, no vamos a saber distinguir cuando una coma es

## Fichero CSV como fichero de texto

Como es un fichero de texto plano, podemos leer los ficheros CSV como hemos visto en la sesión anterior:

In [20]:
with open("C:/Users/david/Downloads/df_liga_2019.csv","r",encoding="utf8") as f:
    datos = [linea.replace("\n","") for linea in f]
datos[0:10]

['id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas',
 '214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo 0 rojas a jugadores del equipo local;Hubo 2 tarjetas amarillas para el equipo visitantes;Hubo 6 amarillas para jugadores del equipo local',
 '214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hubo 2  tarjetas amarillas de jugadores visitantes;Hubo 00 rojas a jugadores visitantes;Hubo 1 rojas a jugadores del equipo local',
 '214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hubo 1 tarjetas rojas sobre el equipo local;Hubo 4 tarjetas amarillas para el equipo visitantes;Hubo

## Pandas y CSV: Lectura

Pero ya lo hemos hecho tantas veces que te será familiar, usando el método `read_csv`:

In [24]:
import pandas as pd
df = pd.read_csv("C:/Users/david/Downloads/df_liga_2019.csv")
df.head(5)

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.1,3.1,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.6,3.8,6.5,Hubo 01 tarjetas amarillas de jugadores visit...


### Parámetros interesantes de `read_csv()`

1. **`index_col`**:  
   Indica qué columna debe usarse como índice (requiere que el archivo tenga cabecera).

2. **`names`**:  
   Permite especificar nombres personalizados para las columnas (asignación posicional: el primer nombre corresponde a la primera columna, etc.).  
   *Útil cuando no se quiere usar la cabecera original del archivo.*

3. **`sep`**:  
   Define el separador de datos (por defecto es coma `,`).  
   *Ejemplo: `sep=';'` para archivos con separador punto y coma.*

4. **`header`**:  
   Indica la ubicación de los nombres de columna (por defecto: primera línea).  
   *Se usa principalmente para archivos sin cabecera (ejemplo: `header=None`), combinado con `names` para asignar nombres.*

### Index_col

In [25]:
df = pd.read_csv("C:/Users/david/Downloads/df_liga_2019.csv",index_col="id_partido")
df

Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


## Names

In [26]:
df.columns

Index(['equipo_local', 'equipo_visitante', 'Division', 'Temporada', 'fecha_dt',
       'goles_local', 'goles_visitante', 'arbitro', 'estadio', 'odd_1',
       'odd_x', 'odd_2', 'Informe_Tarjetas'],
      dtype='object')

In [29]:
df=pd.read_csv("C:/Users/david/Downloads/df_liga_2019.csv",
    names = ["id_fixture", "home_team", "away_team", "division", "season", "date_dt",
             "goals_home", "goals_away", "reference", "stadium", "odd_1", "odd_draw", "odd_2",
             "Card_report"])
df

Unnamed: 0,id_fixture,home_team,away_team,division,season,date_dt,goals_home,goals_away,reference,stadium,odd_1,odd_draw,odd_2,Card_report
0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
1,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
2,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
3,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...
4,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.1,3.1,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
588,214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.4,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
589,214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.1,3.3,3.5,Hubo 00 tarjetas amarillas de jugadores visit...
590,214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.1,3.2,3.6,Hubo 2 tarjetas amarillas de jugadores visita...
591,214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.3,3.1,2.15,Hubo 2 amarillas para jugadores del equipo loc...


## Sep

El argumento `sep` nos permite leer archivos CSV que no usan comas como delimitador.

## Ejemplo básico con delimitador por comas (default)

Primero, probemos a leer un archivo CSV que usa comas como delimitador:

```python
# Por defecto, sep=',' (no es necesario especificarlo)
pd.read_csv("archivo_con_comas.csv")

In [32]:
df = pd.read_csv("C:/Users/david/Downloads/df_liga_2019_pipe.csv")
df

Unnamed: 0,id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas
0,214023|Celta Vigo|Real Madrid|1|2019|2019-08-1...
1,214403|Racing Santander|Malaga|2|2019|2019-08-...
2,214024|Valencia|Real Sociedad|1|2019|2019-08-1...
3,214404|Almeria|Albacete|2|2019|2019-08-17 19:0...
4,214026|Villarreal|Granada CF|1|2019|2019-08-17...
...,...
587,214853|Alcorcon|Girona|2|2019|2020-07-20 21:00...
588,214863|Zaragoza|Ponferradina|2|2019|2020-07-20...
589,214854|Almeria|Malaga|2|2019|2020-07-20 21:00:...
590,214862|Sporting Gijon|Huesca|2|2019|2020-07-20...


In [33]:
df.columns

Index(['id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas'], dtype='object')

In [34]:
df = pd.read_csv("C:/Users/david/Downloads/df_liga_2019_pipe.csv",sep="|", index_col="id_partido")

In [35]:
df

Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


## Pandas y CSV: Escritura

Para escribir un CSV usamos el método `to_csv()`. Tienes el enlace a la documentación para ver más detalle.

## Parámetros importantes:

- **`sep`**:  
  Indica el separador que queramos usar (por defecto usa la coma `","`)

- **`index`**:  
  Controla si se escribe la columna índice:
  - `True` (valor por defecto) - escribe el índice
  - `False` - no escribe el índice

> **Nota importante**: Si escribes un DataFrame con índice pero sin nombre, al leer el archivo aparecerá como "Unnamed". Usa el parámetro `index_label` para asignarle un nombre al índice en ese caso.

In [39]:
df.to_csv("C:/Users/david/Downloads/liga_ejemplo_to_csv",sep="|")

In [40]:
with open("C:/Users/david/Downloads/liga_ejemplo_to_csv","r",encoding="utf8") as f:
    datos= [linea.replace("\n","") for linea in f]
datos[0:12]

['id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas',
 '214023|Celta Vigo|Real Madrid|1|2019|2019-08-17 17:00:00|1|3|Javier Estrada|Abanca-Balaídos|4.75|4.2|1.65|Hubo 01 tajetas rojas al equipo visitante;Hubo 0 rojas a jugadores del equipo local;Hubo 2 tarjetas amarillas para el equipo visitantes;Hubo 6 amarillas para jugadores del equipo local',
 '214403|Racing Santander|Malaga|2|2019|2019-08-17 18:00:00|0|1|Aitor Gorostegui|Campos de Sport de El Sardinero|2.87|3.1|2.55|Hubo 03 amarillas mostradas al equipo local;Hubo 2  tarjetas amarillas de jugadores visitantes;Hubo 00 rojas a jugadores visitantes;Hubo 1 rojas a jugadores del equipo local',
 '214024|Valencia|Real Sociedad|1|2019|2019-08-17 19:00:00|1|1|Jesús Gil|Estadio de Mestalla|1.66|3.75|5.5|Hubo 4 amarillas mostradas al equipo local;Hubo 1 tarjetas rojas sobre el equipo local;Hubo 4 tarjetas amarillas para el equipo visitantes;Hubo

In [41]:
df=pd.read_csv("C:/Users/david/Downloads/liga_ejemplo_to_csv",sep="|")
df

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
587,214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
588,214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
589,214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
590,214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


# ACCESO LOCAL: Ficheros Excel

¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xlsx` y `.xls`. Por suerte, **pandas tiene una función para leer los formatos de archivo de Excel y un método para escribirlos**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con pandas, debido a la cantidad de argumentos que tiene la función `read_excel` que nos van a permitir adaptarnos hasta cierto punto a esa flexibilidad.

In [42]:
import pandas as pd

In [44]:
df

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
587,214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
588,214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
589,214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
590,214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


## Parámetro sheet_name en read_excel()

Al igual que con `read_csv`, existen argumentos clave en `read_excel()` para manejar hojas menos estructuradas:

## **sheet_name**
Controla qué hoja(s) leer de un libro de Excel:

- **Uso básico**:  
  ```python
  pd.read_excel("archivo.xlsx", sheet_name="Hoja1")

Dado que un "libro" excel (yo siempre lo he llamado hoja, pero puede llevar a confusión) puede tener varias hojas, este argumento permite indicar las hojas queremos leer usando su nombre o posición en el "libro". Si no se pone nada lee la primera según esté ordenado el fichero excel.

In [47]:
df = pd.read_excel("C:/Users/david/Downloads/df_liga_2019.xlsx",sheet_name="futbol_2")
df

Unnamed: 0,id_fixture,home_team,away_team,Division,Season,date_dt,goals_home
0,"'goals_away', 'refer...",Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4
5,214025,Leganes,Osasuna,1,2019,2019-08-17 21:00:00,0
6,214406,Zaragoza,Tenerife,2,2019,2019-08-17 21:00:00,2
7,214405,Rayo Vallecano,Mirandes,2,2019,2019-08-17 21:00:00,2
8,214027,Alaves,Levante,1,2019,2019-08-18 17:00:00,1
9,214408,Numancia,Alcorcon,2,2019,2019-08-18 18:00:00,0


## index_col

Tiene el mismo uso que en `read_csv`, sirve para indicar la columna que funciona de índice (si lees varias hojas a la vez puedes pasarle una lista con los índices para cada una pero eso no lo veremos en esta sesión).

In [48]:
df = pd.read_excel("C:/Users/david/Downloads/df_liga_2019.xlsx",index_col="id_partido")

In [49]:
df

Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.20,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.10,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.50,Hubo 4 amarillas mostradas al equipo local;Hub...
214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.10,3.10,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...
214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.60,3.80,6.50,Hubo 01 tarjetas amarillas de jugadores visit...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
214853,Alcorcon,Girona,2,2019,2020-07-20 21:00:00,2,0,Juan Pulido,Estadio Santo Domingo,2.37,2.87,3.40,Hubo 0 tajetas rojas al equipo visitante;Hubo ...
214863,Zaragoza,Ponferradina,2,2019,2020-07-20 21:00:00,2,1,Dámaso Arcediano,Estadio de la Romareda,2.10,3.30,3.50,Hubo 00 tarjetas amarillas de jugadores visit...
214854,Almeria,Malaga,2,2019,2020-07-20 21:00:00,0,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.10,3.20,3.60,Hubo 2 tarjetas amarillas de jugadores visita...
214862,Sporting Gijon,Huesca,2,2019,2020-07-20 21:00:00,0,1,Gorka Sagues,Estadio Municipal El Molinón,3.30,3.10,2.15,Hubo 2 amarillas para jugadores del equipo loc...


## usecols y skiprowsm

Si los datos no empiezan en la columna A y en la fila 1, leeremos mal estos si hacemos uso de la función tal y como hasta ahora:

Para leer correctamente datos que no comienzan en la esquina superior izquierda (columna A, fila 1):

1. **Columnas relevantes**:  
   Los datos van desde la columna **"C" hasta la "N"**

2. **Filas problemáticas**:  
   - Los datos comienzan en la **4ta fila**  
   - Las filas **8 y 14** contienen información no relevante (contando desde 1)

3. **Parámetros clave**:  
   - `usecols`: Especifica qué columnas incluir (ej: "C:N")  
   - `skiprows`: Permite excluir filas específicas (ej: [0,1,2,7,13] para omitir las primeras 3 filas más las filas 8 y 14)

**Nota**: Al contar filas para `skiprows`, Python usa índice 0 (la fila 1 del Excel sería 0 en Python).

In [53]:
df = pd.read_excel("C:/Users/david/Downloads/df_liga_2019.xlsx",sheet_name="futbol_3",usecols="C:N",skiprows=[0,1,2,8,14])
df

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.1
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.6,3.8
5,214025,Leganes,Osasuna,1,2019,2019-08-17 21:00:00,0,1,Javier Alberola,Estadio Municipal de Butarque,2.0,3.2
6,214406,Zaragoza,Tenerife,2,2019,2019-08-17 21:00:00,2,0,Dámaso Arcediano,Estadio de la Romareda,2.0,3.3
7,214405,Rayo Vallecano,Mirandes,2,2019,2019-08-17 21:00:00,2,2,Juan Pulido,Estadio de Vallecas,1.53,3.75
8,214027,Alaves,Levante,1,2019,2019-08-18 17:00:00,1,0,César Soto,Estadio de Mendizorroza,2.15,3.2
9,214408,Numancia,Alcorcon,2,2019,2019-08-18 18:00:00,0,1,Alejandro Muñiz,Nuevo Estadio Los Pajaritos,1.95,3.3


## Pandas y Excel: Escritura

Al igual que con el CSV, tenemos el método `to_excel()` para escribir el **DataFrame** en un archivo Excel.

---

### Recuerda:
- **Poner la extensión** del Excel (`.xlsx`) en el nombre del archivo
- Consulta la documentación para más detalles

### Parámetro clave:
- **`index`**:  
  - Controla si se incluye el índice (valor por defecto: `True`)  
  - Si el DataFrame no tiene índice explícito, se creará una columna llamada `Unnamed: 0` con los valores del índice implícito

> **Nota**: A diferencia de CSV, aquí no usamos el parámetro `sep` ya que Excel no trabaja con separadores de texto.

In [55]:
df.to_excel("C:/Users/david/Downloads/df_liga_2019.xlsx",sheet_name="Test")
df_2=pd.read_excel("C:/Users/david/Downloads/df_liga_2019.xlsx")
df_2

Unnamed: 0.1,Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x
0,0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2
1,1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1
2,2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75
3,3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.1
4,4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.6,3.8
5,5,214025,Leganes,Osasuna,1,2019,2019-08-17 21:00:00,0,1,Javier Alberola,Estadio Municipal de Butarque,2.0,3.2
6,6,214406,Zaragoza,Tenerife,2,2019,2019-08-17 21:00:00,2,0,Dámaso Arcediano,Estadio de la Romareda,2.0,3.3
7,7,214405,Rayo Vallecano,Mirandes,2,2019,2019-08-17 21:00:00,2,2,Juan Pulido,Estadio de Vallecas,1.53,3.75
8,8,214027,Alaves,Levante,1,2019,2019-08-18 17:00:00,1,0,César Soto,Estadio de Mendizorroza,2.15,3.2
9,9,214408,Numancia,Alcorcon,2,2019,2019-08-18 18:00:00,0,1,Alejandro Muñiz,Nuevo Estadio Los Pajaritos,1.95,3.3
