# Introducción a la ciencia de datos con Python
###  Rafa Caballero

# Caso práctico: carga de ficheros


Puedes usar el siguiente índice para saltar a la sección adecuado


**Índice**

[Descarga de ficheros](#Descarga-de-ficheros)

[APIs](#API)

[Carga de ficheros CSV con Pandas](#Carga-de-ficheros-CSV-con-Pandas)

[Carga de ficheros Excel con Pandas](#Carga-de-ficheros-Excel-con-Pandas)

[Carga de ficheros JSON con Pandas](#Carga-de-ficheros-JSON-con-Pandas)

[Extracción de información de ficheros PDF](#Carga-de-ficheros-PDF)

[Extracción de tablas WEB](#Extracción-de-tablas-WEB)

[Yahoo Finance](#yahoo)

[Mostrar dataframes con color](#Color)



<a name="Descarga-de-ficheros"></a>
### Descarga de ficheros

Como veremos, en algunos casos las librerías correspondientes nos permitirán cargar directamente datos a partir de un enlace en internet. Sin embargo, en otras ocasiones tendremos que seguir dos pasos

  1.- Descargar el fichero que queramos usando la librería `requests`

  2.- Manipular el fichero, ya en local, mediante la librería adecuada

Vamos a ver un ejemplo muy sencillo de descarga del último fichero con los datos de inflación, donde el punto 2 es en este caso una grabación del fichero como fichero local.

In [None]:
import requests
url = "https://www.bolsamadrid.es/docs/SBolsas/InformesSB/resumen.pdf"
nombre = "resumen.pdf"
r = requests.get(url, allow_redirects=True) # el fichero queda en la variable r
with open(nombre, 'wb') as f:
    f.write(r.content) # ahora lo grabamos localmente

print(r.status_code)

Se puede comprobar si el fichero se ha descargado correctamente con `r.ok` que contendrá `True` si todo ha ido bien y `False`en caso contrario

In [None]:
r.ok

Si ha habido algún problema puede ser por diferentes causas. La variable `r.status_code`, que será 200 si todo ha sido correcto, no indica con un código la razón del error.

In [None]:
print(r.status_code)


*   200: Todo ha ido bien
*   301: La página redirige a otra; esto podemose evitarlo con `allow_redirects=True`
*  400: El servidor no existe o el formato de algún parámetro es erróneo
* 401: Error de autentificación
* 403: No tenemos permisos para acceder al recurso
* 404: El recurso no existe aunque el servidor sí
* 503: El servidor existe pero no puede atender la demanda

Por tanto el proceso ha tenido este aspecto:

<img src="https://www.dataquest.io/wp-content/uploads/2019/09/api-request.svg"></img>


Además, [requests](https://docs.python-requests.org/) permite pasar parámetros, autenticarse con user, password, descargar de forma "perezosa" para ficheros que no caben en memoria, etc.

También puede utilizarse para descargar páginas html y examinarlas extrayendo información. Sin embargo, para esto es preferible utilizar librerías como `BeautifulSoup` o, si se tiene que interaccionar con la página, `Selenium`

La variable devuelta por requests (llamada `r` en este ejemplo) tiene dos partes:

* El mensaje de error o de éxito `r.status_code`

* Los datos en sí, `r.content`

La instrucción

```
    with open(nombre, 'wb') as f:
      f.write(r.content) # ahora lo grabamos localmente
```

graba el contenido (que es el fichero PDF, ahora mismo localizado en memoria) en un fichero local con el nombre que incluya la variable `nombre`


**Ejercicio 1** Descargar el informe de mercados 2023 disponible en "https://www.bolsasymercados.es/docs/infmercado/2023/esp/Informe-Mercado-BME-2023.pdf". Grabar el fichero localmente con nombre "informe23.pdf"

Mostrar el status de la descarga a ver si todo está bien

**Ejercicio 2** Probar a modificar la URL para que corresponda al ejercicio 2024:

https://www.bolsasymercados.es/docs/infmercado/2023/esp/Informe-Mercado-BME-2024.pdf

y comprobar que el status nos devuelve un error. Grabar el fichero localmente con nombre "informe22.pdf"


Cuando hay error no queremos que grabe nada; esto podemos evitarlo con una instrucción `if`

In [None]:
import requests
url = "https://www.bolsasymercados.es/docs/infmercado/2023/esp/Informe-Mercado-BME-2024.pdf"
nombre = "informe24.pdf"
r = requests.get(url, allow_redirects=True) # el fichero queda en la variable r
if r.ok:
  with open(nombre, 'wb') as f:
      f.write(r.content) # ahora lo grabamos localmente
  print("Descargado")
else:
  print("Error ",r.status_code)

O, en formato de función:

In [None]:
import requests

def descarga_fichero(url,nombrelocal):
  r = requests.get(url, allow_redirects=True) # el fichero queda en la variable r
  if r.ok:
    with open(nombrelocal, 'wb') as f:
        f.write(r.content) # ahora lo grabamos localmente
    print("Descargado")
  else:
    print("Error ",r.status_code)
  return



In [None]:

url = "https://www.bolsasymercados.es/docs/infmercado/2023/esp/Informe-Mercado-BME-2024.pdf"
nombre = "informe24.pdf"

descarga_fichero(url,nombre)

<a name="API"></a>
### APIs

La librería `requests` también es útil para descargar información que no está directamente en una página sino que se puede obtener a partir de una API (Application Program Interface), es decir un servicio que nos proporciona un sitio que contiene los datos utilizando una secuencia de datos bien definida (protocolo).


**Ejemplo**

En este ejempo accedemos a la API de la agencia nacional de meteorología.

Para acceder necesitaremos una clave que podemos obtener [aquí](https://opendata.aemet.es/centrodedescargas/altaUsuario?)

La API nos devuelve la información en dos pasos:

1º Una primera llamada a requests.get con la URL correspondiente al dato que queremos pedir (ver [aqui](https://opendata.aemet.es/dist/index.html?) una lista de posibilidades) y nuestra clave de API nos devolverá un link al fichero con datos y fichero con metadatos

2º Una segunda llamada a requests.get nos permitirá ya obtener los datos y los metadatos con los links devueltos por el paso 1. Además, en esta segunda operación no hace falta la clave de API.

En el siguiente ejemplo vamos a acceder a los datos de las últimas 24 horas de la estación de Navacerrada (código 2462)

In [None]:
import json # para convertir string a JSON
import requests # para descargar ficheros
import pprint # para mostrar JSON en "bonito"

api_key = "eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYWZhY3JAdWNtLmVzIiwianRpIjoiODQzZThiMWItYzdmNS00NTkxLWI1NWQtYWYzYTc0Yjk1OWQ3IiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE2MzEwNTQ2MDksInVzZXJJZCI6Ijg0M2U4YjFiLWM3ZjUtNDU5MS1iNTVkLWFmM2E3NGI5NTlkNyIsInJvbGUiOiIifQ.TXZIXy-nX75cjtqD3932b8zYCQt_OW72vHIBXpFS-vA"
url = "https://opendata.aemet.es/opendata/api/observacion/convencional/datos/estacion/2462"


############################### Paso 1 ##########################
querystring = {"api_key":api_key}
response = requests.get( url,  params=querystring)

# convertirmos a formato JSON para obtener los datos
respuesta = json.loads(response.text)
print("Respuesta paso 1", respuesta)

############################### Paso 2 ####################
pet_datos = requests.get(respuesta['datos'])
valores_datos = json.loads(pet_datos.text)
print("Datos: ")
pprint.pprint(valores_datos)

# para entender los datos mostramos los metadatos
pet_metadatos = requests.get(respuesta['metadatos'])
valores_metadatos = dict(json.loads(pet_metadatos.text))
print("="*50)
print("Metadatos: ")
pprint.pprint(valores_metadatos)



Para entender los datos podemos consultar los metadatos

In [None]:
# para entender los datos mostramos los metadatos
pet_metadatos = requests.get(respuesta['metadatos'])
valores_metadatos = dict(json.loads(pet_metadatos.text))
print("="*50)
print("Metadatos: ")
pprint.pprint(valores_metadatos)

**Ejercicio 3**
Para obtener dos datos con esta API solo tenemos que cambiar la URL. Por ejemplo la siguiente URL nos permite obtener datos históricos de un día y estación concretos. Completar los dos pasos para obtener el resultado

In [None]:
url = "https://opendata.aemet.es/opendata/api/valores/climatologicos/diarios/datos/fechaini/2021-01-06T00%3A00%3A00UTC/fechafin/2021-01-08T23%3A59%3A00UTC/estacion/3194U"

############################### Paso 1 ##########################


<a name="Carga-de-ficheros-CSV-con-Pandas"></a>
### Carga de ficheros CSV con Pandas

[read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) y [read_excel](https://pythonbasics.org/read-excel/) permiten leer ficheros separados por un carácter y ficheros excel
En ambos casos devuelven un dataframe: una tabla en Pandas que representa el conjunto de datos en memoria


##### read_csv

El principal parámetro es la dirección donde se encuentra el fichero. Algunos parámetros comunes de read_csv

- sep: el separador, por defecto “,”
- Header: para indicar si la primera línea contiene la cabecera (por defecto True)
- Thousands, decimal: separadores de miles y de decimales
- encoding: codificación de caracteres. Deber ser una codificaciones estándar


In [None]:
import pandas as pd # normalmente pandas se renombra como pd
fichero = 'https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/madrid/contaminacionLargo.csv'
df = pd.read_csv(fichero)
df

In [None]:

df["NOx"].hist()

El resultado es un dataframe; una tabla de pandas que utilizaremos como nuestro principal almacen de datos. Si el fichero no tiene el formato adecuado, por ejemplo, por la codificación, podemos obtener un error

In [None]:
fichero = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"
df2 = pd.read_csv(fichero)

In [None]:
import pandas as pd
fichero = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"
df2 = pd.read_csv(fichero,encoding="latin1") # o cp1252
df2

##### to_csv
La función de pandas [to_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv) permite grabar un dataframe en formato csv, debemos recordar 2 cosas principalmente:
- se encuentra dentro del objeto dataframe, por eso pondremos df.to_csv, y no pd.to_csv
- Conviene añadir el parámetro index=False para que no incluya el índice o número de línea

In [None]:
fichero = "parocomunidades.csv"
df2.to_csv(fichero, index=False, encoding="utf-8")

**Ejercicio 4**: cargar el fichero que acabamos de grabar y mostrarlo en el notebook

In [None]:
# solución


<a name="Carga-de-ficheros-Excel-con-Pandas"></a>
### Carga de ficheros Excel con Pandas

##### read_excel
La lectura con pd.read_excel utiliza internamente otro librería `xlrd` que habra que instalar sino está en el sistema. Este ejemplo carga un fichero con valores bursátiles

In [None]:
import pandas as pd
fichero='https://github.com/RafaelCaballero/tdm/raw/master/datos/raw_open.xlsx'
df = pd.read_excel(fichero)
df

En el caso de múltiples páginas obtendremos un vector de dataframes. En este ejemplo cargamos datos de accidentes por distritos en la ciudad de Madrid. Se trata de un "libro" excel con hojas de nombre '2009', ..., '2016'

Ojo: para manejar esta posibilidad necesitaremos una versión actualizada de xlrd

In [None]:
#!pip install --upgrade xlrd

In [None]:
import pandas as pd
fichero = "https://github.com/RafaelCaballero/tdm/raw/master/datos/madrid/accidentes_madrid_2009_2016.xlsx"
df_acc = pd.read_excel(fichero,sheet_name='2016')
df_acc

La grabación de ficheros excel se realiza con la función de pandas to_excel, asociada al dataframe. Esta función depende a su vez de dos librerías


    - xlwt para grabar ficheros .xls  (formato hasta Excel2003)
    - openpyxl para ficheros .xlsx (Excel2007 o posterior).



In [None]:
df_acc.to_excel("accidentes.xlsx")

**Ejercicio 5**
Cargar el fichero situado en https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/ciudades_ejemplo.csv
como un dataframe Pandas, y grabarlo a continuación en formato excel.

In [None]:
# solución


<a name="Carga-de-ficheros-JSON-con-Pandas"></a>
### Lectura de ficheros JSON con Pandas

In [None]:
url = "https://ucmdrive.ucm.es/s/ZfHGwYfi2zzJgq2/download/labs_co2.json"
import pandas as pd
df = pd.read_json(url)
df

<a name="Carga-de-ficheros-PDF"></a>
### Extracción de información de ficheros PDF

Este es un tema complejo porque va a depender mucho del formato del interno del PDF. En los casos más sencillos podremos extraer por ejemplo tablas de datos con el paquete tabula-py

In [None]:
!pip install tabula-py
#!pip install tabulate

In [None]:
from tabula import read_pdf

# decargamos el fichero por si no lo hemos hecho ya
url = "https://www.bolsamadrid.es/docs/SBolsas/InformesSB/resumen.pdf"
nombre = "resumen.pdf"
descarga_fichero(url,nombre)

# extraer tablas del fichero
df = read_pdf(nombre,pages="all")[0]  # 0 porque nos quedamos con la primera tabla

df

In [None]:
df = read_pdf(nombre,pages="all",pandas_options={"header": None})[0]  # 0 porque nos quedamos con la primera tabla
df.columns = ["Índice","Anterior","Cierre","Dif","Dif %","Medio","Capitalización"]
df

Ahora podemos grabar el fichero en formato CSV y/o Excel

In [None]:
df.to_csv("resumen.csv",index=False)

**Nota** Si queremos cargar el fichero resumen.csv debemos tener en cuenta que los separadores de miles son puntos y los de valores decimales la coma

In [None]:
fichero = "resumen.csv"
df = pd.read_csv(fichero, thousands='.', decimal=',')
df

Proximamente veremos como manipular esta información, de momento calculemos por ejemplo la media de la columna Dif

In [None]:
df.Dif.mean()

**Ejercicio 6** Grabar el fichero en formato excel, con nombre "resumen.xlsx"

In [None]:
# solución


<a name="Extracción-de-tablas-WEB"></a>
### Extracción de tablas WEB

El método `read_html` lee todas las tablas en una página web. Se devuelven como una lista Python de dataframes, para que posteriormente podamos acceder al que deseemos. El primero será el número 0, el segundo el número 1, y así sucesivamente. También se puede preguntar por el último dataframe/tabla usando la posición -1, por la penúltima con -2, etc.

Ejemplo: primera tabla de la página https://www.ine.es/jaxiT3/Datos.htm?t=2853

In [None]:
url = "https://www.ine.es/jaxiT3/Datos.htm?t=2853"
df_list = pd.read_html(url,encoding="utf-8")
df = df_list[0]
df

En este caso accedemos a la última tabla de la página:
https://datosmacro.expansion.com/paro-epa/espana-comunidades-autonomas


In [None]:
import requests
import pandas as pd

url = 'https://datosmacro.expansion.com/paro-epa/espana-comunidades-autonomas'
df_list = pd.read_html(url)
df = df_list[-1] # la última tabla
df

En ocasiones la lectura nos dará un error de "prohibido"

In [None]:
url = "https://es.investing.com/markets/"
df_list = pd.read_html(url)

En ese caso a veces podemos "hackear" el sistema haciéndole creer al sitio que estamos accediendo a través de un navegador (esto es un truco y habría que consultar las condiciones legales)

In [None]:
import requests
import pandas as pd

url = "https://es.investing.com/markets/"

headers = {
    "User-Agent": ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                   "AppleWebKit/537.36 (KHTML, like Gecko) "
                   "Chrome/126.0.0.0 Safari/537.36"),
    "Accept-Language": "es-ES,es;q=0.9,en;q=0.8",
    "Referer": "https://www.google.com/",
}

resp = requests.get(url, headers=headers, timeout=15)
if resp.ok:
  tablas = pd.read_html(resp.text) # o resp.content
  print(f"Se encontraron {len(tablas)} tablas")
  df = tablas[0]
else:
  df = None
  print("Error")

df

<a name="yahoo"></a>
## Yahoo Finance

Esta librería nos permite acceder a Yahoo Finance, veamos como se usa y algunas de sus posibilidades

##### Instalación

In [None]:
#!pip install yfinance

###### Descarga de datos

In [None]:
import yfinance as yf

# Define el símbolo de cotización de la acción
apple = 'AAPL'
microsoft = "MSFT"

# Crea un objeto Ticker para la acción
apple_data = yf.Ticker(apple)
microsoft_data = yf.Ticker(microsoft)

# Define el rango de fechas para los datos históricos
start_date = '2025-01-01'
end_date = '2025-06-30'

apple_df = apple_data.history(period='1d', start=start_date, end=end_date)
microsoft_df = microsoft_data.history(period='1d', start=start_date, end=end_date)

microsoft_df = microsoft_df.pct_change()
apple_df = apple_df.pct_change()

microsoft_df

##### Gráfico sencillo

In [None]:
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(10, 6)) # proporciones del gráfico

plt.plot(apple_df['Open'], label='Apple')  # Grafica la columna 'Open'
plt.plot(microsoft_df['Open'], label='Microsoft')  # Grafica la columna 'Close'
plt.title('Cotizaciones de Apertura. Inc. Apple y Microsoft')  # Título del gráfico
plt.xlabel('Fecha')  # Etiqueta del eje X
plt.ylabel('Precio de Apertura')  # Etiqueta del eje Y
plt.legend()  # Muestra la leyenda
plt.xticks(rotation=45)  # Rota las etiquetas del eje X para mejorar la legibilidad
plt.grid(True)  # Muestra una cuadrícula en el gráfico
fig.savefig("apple_microsoft.png")
plt.show()  # Muestra el gráfico

También podemos extraer los máximos datos posibles, sin especificar el periodo

In [None]:
historico_apple = apple_data.history(period="max")
historico_apple

In [None]:
historico_apple.reset_index(inplace=True) # convierte el índice en un campo max
historico_apple.plot(x="Date", y="Close")

##### Información general

In [None]:
apple_info=apple_data.info
apple_info

In [None]:
apple_info['totalRevenue']

In [None]:
apple_data.dividends

In [None]:
apple_data.dividends.plot()

<a name="Color"></a>
## Mostrar dataframes con color

Primero cargamos un dataframe con datos del IBEX

In [None]:
import yfinance as yf

# Define el símbolo de cotización de la acción
símbolo = '^IBEX'

# Crea un objeto Ticker para la acción
data = yf.Ticker(símbolo)

# Define el rango de fechas para los datos históricos
start_date = '2025-01-01'
end_date = '2025-06-30'

df = data.history( start=start_date, end=end_date)

df = df[["Open", "High", "Low", "Close", "Volume"]]
df

Mostrar con mapa de colores ([aquí](https://matplotlib.org/stable/users/explain/colors/colormaps.html) una lista de mapas de color)

In [None]:
df.style.background_gradient(cmap='Blues')

Mostrar máximos (aquí una lista de nombres de colores)

In [None]:
df.style.highlight_max(color='lightgreen')

In [None]:
df.style.highlight_min(color='cyan')

Barra de color

In [None]:
df.style.bar(align='left', color='wheat')

Color condicional

In [None]:
def colorea(val):
    color = 'green' if val > df2.Open.mean() else 'red'
    return f'background-color: {color}'

df2 = df[["Open"]]

df2.style.applymap(colorea)