# Entradas y salidas

In [None]:
import numpy as np
import pandas as pd

# Definimos un dataframe con datos de ejemplos
df = pd.DataFrame(np.random.randn(10, 5), columns=["A", "B", "C", "D", "E"])

df

## CSV

### Guardar a CSV

In [None]:
df.to_csv('datos.csv', index=False)

In [None]:
# Borramos el df de la memoria
del(df)

### Cargar desde CSV

In [None]:
df = pd.read_csv('datos.csv')

df

## JSON

### Guardar a JSON

In [None]:
df.to_json('datos.json')

In [None]:
# Borramos el df de la memoria
del(df)

### Cargar desde JSON

In [None]:
df = pd.read_json('datos.json')

df

## Excel

Necesitamos instalar el módulo `openpyxl` para generar y leer este formato:

    pip install openpyxl

In [None]:
!pip install openpyxl

### Guardar a Excel

In [None]:
df.to_excel('datos.xlsx', sheet_name='Sheet1', index=False)

In [None]:
# Borramos el df de la memoria
del(df)

### Cargar desde Excel

In [None]:
df = pd.read_excel('datos.xlsx', sheet_name='Sheet1')

df

## HTML

Podemos extraer información directamente desde tablas de páginas web a partir de la URL. 

Esto se consigue haciendo web scrapping con los módulos `lxml` y `BeautifulSoup4`, por lo que necesitamos instalarlos:

    pip install lxml BeautifulSoup4

In [None]:
!pip install lxml BeautifulSoup4

Una vez instalado `lxml` y `BeautifulSoup4` reiniciamos el kernel (botón girando al lado de stop) y ya estaremos listos:

In [None]:
# Realizamos un scrapping de una tabla de la wikipedia
df = pd.read_html('https://web.archive.org/web/20220717170349/https://en.wikipedia.org/wiki/List_of_countries_by_past_fertility_rate')

Si se encuentra más de una tabla (como en el caso del ejemplo), podemos hacer referencia al primero a través del índice:

In [None]:
df[2]

Podemos hacer un poco de limpieza y dejar los datos presentables:

In [None]:
# Guardamos el dataframe
fertility_rate = df[2]

fertility_rate.head()

In [None]:
# Renombramos la primera columna para que sea más fácil consultarla
fertility_rate.rename(columns = {'Country/dependent territory':'Country'}, inplace=True)

fertility_rate

Ahora podemos realizar consultas cómodamente:

In [None]:
# Índice de natalidad por país entre los años 2010-2015
fertility_rate[["Country", "2010–2015"]]

In [None]:
# Misma consulta aplicando el styler para esconder la primera columna
fertility_rate[["Country", "2010–2015"]].head().style.hide(axis=0)

In [None]:
# Índice de natalidad por país entre los años 1985–1990 ordenado de más a menos (primeros resultados)
fertility_rate[["Country", "1985–1990"]].sort_values(by="1985–1990", ascending=False).head().style.hide(axis=0)

In [None]:
# Índice de natalidad por país entre los años 1985–1990 ordenado de más o menos (últimos resultados)
fertility_rate[["Country", "1985–1990"]].sort_values(by="1985–1990", ascending=False).tail().style.hide(axis=0)

In [None]:
# Vamos a transformar todas las columnas desde la segunda hasta la última a valores númericos
fertility_rate = fertility_rate[1:][:].apply(pd.to_numeric, errors='coerce')

In [None]:
# Ahora podemos consultar la media del índice de natalidad para cada año
fertility_rate.mean()[1:]

Con `Matplotlib`, que aprenderemos en la próxima sección, podemos graficar estos resultados fácilmente:

In [None]:
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = 10,5

fertility_rate.mean()[1:].plot(kind='line', xlabel="Períodos", ylabel="Media de natalidad mundial")

La práctica hace el maestro, os animo a hacer vuestras propias pruebas y googlear cualquier cosa que se os ocurra para aprender mucho más.