# Introducción a Jupyter Notebook, Pandas, Matplotlib, etc.

En esta hoja introduciremos la forma de trabajar con Jupyter Notebook/Google Colab. Veremos cómo los distintos elementos de las librerías de Python interactúan con el notebook para mostrar imágenes, gráficos, etc. También, en las siguientes sesiones los usaremos para acceder a conexiones SQL y a bases de datos NoSQL.

Enlaces a otros tutoriales introductorios (que también se centran en tratamiento de datos para Big Data): [1](https://github.com/CharlestonDataScience/PythonNotebooks/blob/master/notebooks/tutorial_01/pandas_tutorial.ipynb) y [2](https://github.com/phelps-sg/python-bigdata/blob/master/src/main/ipynb/pandas.ipynb), entre otros muchos.

## Jupyter/Colab Notebook

Los *Notebooks* contienen una mezcla de texto y código, y se pueden ir ejecutando paso a paso. En general utilizaremos el lenguaje Python en su versión 3, así que las hojas son en realidad un programa Python que se puede ejecutar en orden, junto con imágenes y texto explicativo adjunto.

Al pulsar Ctrl+Intro en una celda, se ejecuta el código de la celda y se muestra el la siguiente celda. Al pulsar Shift+Intro se ejecuta la celda actual y pasa automáticamente a la siguiente.

Existen también "magics", que sirven para obtener información de la hoja, o ejecutar comandos especiales. Por ejemplo, órdenes de shell, como en la siguiente celda. Hay varios tutoriales Online. Por ejemplo: [Tutorial](https://github.com/esc/scipy2013-tutorial-numpy-ipython/blob/master/ipython.ipynb).

In [None]:
!uname -a

In [None]:
%lsmagic

Actualizamos los paquetes necesarios. En general esto no hace falta en Google Colab, pero sí en Jupyter Notebook.

In [None]:
!sudo apt-get update -qq

In [None]:
!sudo apt-get install -y p7zip

In [None]:
RunningInCOLAB = 'google.colab' in str(get_ipython()) if hasattr(__builtins__,'__IPYTHON__') else False

A continuación mostramos los paquetes que usaremos regularmente para tratar datos, `pandas`, `numpy`, `matplotlib`. Al ser un programa en Python, se pueden importar paquetes que seguirán siendo válidos hasta el final del _notebook_.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

Lo siguiente hace que los gráficos se muestren inline. Para figuras pequeñas se puede utilizar unas figuras interactivas que permiten zoom, usando `%maplotlib nbagg`.

In [None]:
%matplotlib inline
matplotlib.style.use('ggplot')

## Numpy

Numpy es una de las librerías más utilizadas en Python, y ofrece un interfaz sencillo para operaciones eficientes con números, _arrays_ y matrices. Numpy se utilizará de apoyo muchas veces que haya que hacer procesamiento local de datos recogidos de una base de datos, o como preparación para la graficación de datos. En la celda siguiente se muestra un vídeo introductorio, y también se puede acceder a tutoriales online: [Tutorial](https://github.com/esc/scipy2013-tutorial-numpy-ipython/blob/master/operations.ipynb).

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('o8fmjaW9a0A') # Yes, it can also embed youtube videos.

Numpy permite generar y procesar arrays de datos de forma muy eficiente. A continuación se muestran algunos ejemplos:

In [None]:
a = np.array([4,5,6])
print(a.shape)
print(a[0])
a[0] = 9
print (a)

In [None]:
np.arange(10)

In [None]:
np.arange(1,20)

También arrays multidimensionales:

In [None]:
a = np.zeros((2,2))
print (a)

In [None]:
a.ndim

In [None]:
a.dtype

In [None]:
b = np.random.random((2,2))
print (b)

In [None]:
a = np.random.random((2,2))
print(a)

Se pueden aplicar funciones sobre todo el array o matriz, y el resultado será una matriz idéntica con el operador aplicado. Similar a lo que ocurre con la operación `map` de algunos lenguajes de programación (incluído Python):

In [None]:
print (a >= .5)

También se pueden _filtrar_ los elementos de un array o matriz que cumplan una condición. Para eso se utiliza el operador de indización (`[]`) con una expresión booleana.

In [None]:
print (a[a >= .5])

¿Por qué usar Numpy?

`%%capture` captura la salida de la ejecución de la celda en la variable dada como parámetro. Después se puede imprimir.

`%timeit` se utiliza para ejecutar varias veces una instrucción y calcular un promedio de su duración.

In [None]:
%%capture timeit_output

%timeit l1 = range(1,1000)

%timeit l2 = np.arange(1,1000)

In [None]:
print(timeit_output)

In [None]:
x = np.array([[1,2],[3,4]])

print (np.sum(x))  # Compute sum of all elements; prints "10"
print (np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print (np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

In [None]:
x * 2

In [None]:
x ** 2

`numpy` tiene infinidad de funciones, por lo que sería interesante darse una vuelta por su documentación: https://docs.scipy.org/doc/.

## Matplotlib

Matplotlib permite generar gráficos de forma sencilla. Lo veremos aquí primero conectado sólo con `Numpy` y después conectado con `Pandas`.

In [None]:
x = np.arange(0, 3 * np.pi, 0.1)
y = np.sin(x)
plt.subplot()
# Plot the points using matplotlib
plt.plot(x, y)
plt.show()

In [None]:
plt.subplot(211)
plt.plot(range(12))
plt.subplot(212, facecolor='y')
plt.plot(range(100))
plt.show()

In [None]:
# Compute the x and y coordinates for points on sine and cosine curves
x = np.arange(0, 3 * np.pi, 0.1)
y_sin = np.sin(x)
y_cos = np.cos(x)

# Plot the points using matplotlib
plt.plot(x, y_sin)
plt.plot(x, y_cos)
plt.xlabel('x axis label')
plt.ylabel('y axis label')
plt.title('Sine and Cosine')
plt.legend(['Sine', 'Cosine'])
plt.show()

## Pandas

Tutoriales: [1](https://pandas.pydata.org/docs/user_guide/index.html), [2](https://dev.socrata.com/blog/2016/02/01/pandas-and-jupyter-notebook.html), [3](http://nikgrozev.com/2015/12/27/pandas-in-jupyter-quickstart-and-useful-snippets/).

Pandas permite gestionar conjuntos de datos n-dimensionales de diferentes formas, y también conectarlo con matplotlib para hacer gráficas.

Los conceptos principales de Pandas son los `Dataframes` y las `Series`. La diferencia entre ambas es que la serie guarda sólo una serie (una columna o una fila, depende de como se quiera interpretar), mientras que un Dataframe guarda estructuras multidimensaionales agregando series.

Ambas tienen una (o varias) "columna fantasma", que sirve de índice, y que se puede acceder con `d.index` (tanto si `d` es una serie o un dataframe). Si no se especifica un índice, se le añade uno virtual numerando las filas desde cero. Además, los índices pueden ser multidimensionales (por ejemplo, tener un índice por mes y dentro uno por dia de la semana).

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts

In [None]:
ts.describe()

In [None]:
ts = ts.cumsum()
ts.plot();

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=list('ABCD'))

df = df.cumsum()

df.plot();

Se puede hacer plot también de una columna contra otra.

In [None]:
df3 = pd.DataFrame(np.random.randn(1000, 2), columns=['B', 'C']).cumsum()
df3['A'] = pd.Series(list(range(len(df3))))
df3.plot(x='A', y='B');

Valores incompletos. Si no se establecen, se pone a `NaN` (_not a number_).

In [None]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

`fillna()` permite cambiar el valor de los datos faltantes.

In [None]:
df.fillna(0)

In [None]:
pd.DataFrame(d, index=['d', 'b', 'a'])

In [None]:
pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

A continuación se muestra un ejemplo de uso de Pandas para leer datos y procesarlos en un Dataframe.

El primer ejemplo completo carga desde el fichero `swift-question-dates.txt.gz` las fechas de las preguntas en Stackoverflow que contienen el tag "swift".

La función `read_csv` es capaz de leer cualquier fichero CSV y lo convierte en un "Dataframe", una estructura de tabla que guarda también los nombres y los tipos de las columnas, así como un índice por el que se identificarán las tablas. La lista incluye la fecha en donde se produjo una pregunta con el tag "swift". Como los datos en sí son las fechas, hacemos que la columna de fechas haga a su vez de índice.

In [None]:
df = pd.read_csv('https://github.com/dsevilla/bdge/raw/master/intro/swift-question-dates.txt.gz',
                 header=None,
                 names=['date'],
                 compression='gzip',
                 parse_dates=['date'],
                 index_col='date')

In [None]:
df

De la fecha, extraer sólo la fecha (no la hora, que no nos interesa).

In [None]:
df.index = df.index.date

Añadimos una columna de todo "1" para especificar que cada pregunta cuenta como 1.

In [None]:
df['Count'] = 1
df

A los Dataframe de Pandas también se les puede aplicar operaciones de agregación, como `groupby` o `sum`. Finalmente, la funcion `plot()` permite mostrar los datos en un gráfico.

In [None]:
accum = df.groupby(df.index).sum()
accum

In [None]:
# Los 30 primeros registros que tengan un número de preguntas mayor que 20 por día.
accum = accum[accum.Count > 20][:30]
accum

In [None]:
accum[accum.Count > 30][:30].plot.bar()

A continuación comprobamos con la página de la Wikipedia cuándo apareció el lenguaje Swift:

In [None]:
!pip install lxml

In [None]:
dfwiki = pd.read_html('https://en.wikipedia.org/wiki/Swift_(programming_language)',attrs={'class': 'infobox vevent'})

In [None]:
dfwiki[0]

In [None]:
firstdate = dfwiki[0][1][4]
firstdate

In [None]:
from dateutil.parser import parse
dt = parse(firstdate.split(';')[0])
print (dt.date().isoformat())
print (accum.index[0].isoformat())

assert dt.date().isoformat() == accum.index[0].isoformat()

A continuación se muestra cómo ubicar posiciones en un mapa con el paquete `folium`. Se muestra también cómo acceder a distintas posiciones del Dataframe con `iloc`, `loc`, etc.

In [None]:
# cargar municipios y mostrarlos en el mapa
df = pd.read_csv('https://github.com/dsevilla/bdge/raw/master/intro/municipios-2017.csv.gz',header=0,compression='gzip')

In [None]:
df.head()

In [None]:
df.iloc[0]

In [None]:
df.iloc[0].NOMBRE_ACTUAL

In [None]:
df.loc[:,'NOMBRE_ACTUAL']

In [None]:
df.iloc[:,0]

In [None]:
df.PROVINCIA

In [None]:
df[df.PROVINCIA == 'A Coruña']

In [None]:
mula = df[df.NOMBRE_ACTUAL == 'Mula'].iloc[0]
mula

In [None]:
(mula_lat,mula_lon) = (mula.LATITUD_ETRS89, mula.LONGITUD_ETRS89)
(mula_lat,mula_lon)

El paquete `folium` permite generar mapas de posiciones. El siguiente ejemplo centra un mapa en Mula y pone un marcador con su nombre:

In [None]:
!pip install folium

In [None]:
import folium

map = folium.Map(location=[mula_lat, mula_lon],zoom_start=10)
folium.Marker(location = [mula_lat, mula_lon], popup="{} ({} habitantes)".format(mula.NOMBRE_ACTUAL,mula.POBLACION_MUNI)).add_to(map)

map

## Ejercicio

Mostrar con `folium` marcadores para cada pueblo de Murcia. Se pueden usar las funciones `itertuples()` o `iterrows()` de un `Dataframe` para recorrer los elementos del mismo.

## Datos de Stackoverflow

El conjunto de datos de Stackoverflow es un *dump* de datos que cada cierto tiempo realiza el sitio web stackoverflow.com, en particular, la version en español, http://es.stackoverflow.com. El formato de los datos es XML, aunque es muy sencillo de extraer los datos, como veremos a continuación.

El contenido original se puede descargar directamente de los diferentes _dumps_ que se realizan de la página de archive.org: https://archive.org/details/stackexchange.

Sin embargo, nosotros descargaremos una versión fija previamente descargada para que todos partamos de los mismos datos.

## Descarga de los datos

En este caso los datos están disponibles en un repositorio git. Se pueden descargar también de la Web, pero se van actualizando. Los descargamos del repositorio git para que todos tengáis los mismos.

In [48]:
!wget https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.7z.001
!wget https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.7z.002
!wget https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.7z.003

--2024-09-29 20:01:02--  https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.7z.001
Cargado certificado CA '/etc/ssl/certs/ca-certificates.crt'
Resolviendo github.com (github.com)... 140.82.121.4
Conectando con github.com (github.com)[140.82.121.4]:443... conectado.
Petición HTTP enviada, esperando respuesta... 302 Found
Localización: https://raw.githubusercontent.com/dsevilla/bd2-data/main/es.stackoverflow/es.stackoverflow.7z.001 [siguiendo]
--2024-09-29 20:01:02--  https://raw.githubusercontent.com/dsevilla/bd2-data/main/es.stackoverflow/es.stackoverflow.7z.001
Resolviendo raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Conectando con raw.githubusercontent.com (raw.githubusercontent.com)[185.199.111.133]:443... conectado.
Petición HTTP enviada, esperando respuesta... 200 OK
Longitud: 103809024 (99M) [application/octet-stream]
Grabando a: «es.stackoverflow.7z.001.1»

--2024-09-29 20:01:13--  ht

In [None]:
!ls -lh es.stackoverflow.7z*

In [2]:
!7zr x es.stackoverflow.7z.001


7-Zip (a) [64] 17.05 : Copyright (c) 1999-2021 Igor Pavlov : 2017-08-28
p7zip Version 17.05 (locale=es_ES.utf8,Utf16=on,HugeFiles=on,64 bits,8 CPUs x64)

Scanning the drive for archives:
  0M Sca        1 file, 103809024 bytes (99 MiB)

Extracting archive: es.stackoverflow.7z.001
  0% 1 Ope          --
Path = es.stackoverflow.7z.001
Type = Split
Physical Size = 103809024
Volumes = 3
Total Physical Size = 217881776
----
Path = es.stackoverflow.7z
Size = 217881776
--
Path = es.stackoverflow.7z
Type = 7z
Physical Size = 217881776
Headers Size = 244
Method = LZMA2:24
Solid = +
Blocks = 1

      0% - Comments.xm                    2% - Comments.xm                    3% - Comments.xm                    4% - Comments.xm                    5% - Comments.xm                    6% - Comments.xm                    8% - Comments.xm                    9% - Comments.xm                   11% - Comments.xm                   12% - Comments.xm                   13% - Comments.xm                   15% - 

In [None]:
!ls -lh *.xml

## Inspección y procesado

Podemos inspeccionar los ficheros `.xml` para ver su contenido. Son XML, sí, pero ¿con qué formato?

In [None]:
!head Posts.xml

Aunque se puede procesar el formato XML, lo que podemos ver es que cada entrada es exactamente una línea que comienza por "`<row`", y que contiene un conjunto de atributos en formato "`atributo="valor"`". Si lo comprobamos, incluso no existirá ninguna comilla doble **dentro** de otra comilla doble, así que podemos extraer esos pares de forma facil.

La siguiente función procesa el fichero XML línea a línea. Primero separa la parte inicial "`<row`", y después procesa cada par clave/valor. Lo único que hace es construir el conjunto de atributos que hay en todas las entradas. Como vimos, cada fila contenía atributos diferentes. Queremos obtenerlos todos.

La función, en vez de retornar una lista, que ocuparía mucha memoria, retorna un generador, que es una lista (de pares clave-valor, un diccionario) que se va generando a medida que se recorre. Por eso utiliza la construcción `yield` de Python. Esto hace que la función se detenga, y cuando se le pide el siguiente elemento, continúa desde donde se quedó (corrutina).

In [3]:
import re
from typing import Iterator

def generate_elements_from_lines(filename: str) -> Iterator[dict[str, str]]:

  def get_attrs(line: str) -> dict[str, str]:
    (_, attrs) = line.split("<row ", 2)
    return {m.group(1): m.group(2)
              for m in re.finditer(r"(\w*?)=\"(.*?)\"", attrs)}

  with open(filename, "r") as f:
    for line in f:
      if "<row" in line:
        yield get_attrs(line)

In [29]:
first_row = next(generate_elements_from_lines("Posts.xml"))

In [None]:
first_row.keys()

In [30]:
first_row

{'Id': '1',
 'PostTypeId': '1',
 'AcceptedAnswerId': '2',
 'CreationDate': '2015-10-29T15:56:52.933',
 'Score': '40',
 'ViewCount': '780',
 'Body': '&lt;p&gt;Estoy creando un servicio usando &lt;em&gt;ASP.NET WebApi&lt;/em&gt;. Quiero añadir soporte para la negociación del tipo de contenido basado en extensiones en el &lt;em&gt;URI&lt;/em&gt;, así que he añadido lo siguiente al código de inicialización del servicio:&lt;/p&gt;&#xA;&#xA;&lt;pre&gt;&lt;code&gt;public static class WebApiConfig&#xA;{&#xA;  public static void Register(HttpConfiguration config)&#xA;  {&#xA;    config.Formatters.JsonFormatter.AddUriPathExtensionMapping(&quot;json&quot;, &quot;application/json&quot;);&#xA;    config.Formatters.XmlFormatter.AddUriPathExtensionMapping(&quot;xml&quot;, &quot;application/xml&quot;);&#xA;  }&#xA;}&#xA;&lt;/code&gt;&lt;/pre&gt;&#xA;&#xA;&lt;p&gt;Para que esto funcione necesito crear dos rutas para cada acción del controlador (estoy usando exclusivamente enrutamiento basado en atribut

Hay que extraer el conjunto de atributos para saber qué columnas tendrá nuestra tabla/CSV o archivo JSON. Recuérdese que las dos primeras filas del archivo XML tenían diferentes atributos. ¿Cómo se haría esto?

In [4]:
from typing import Iterator

def get_all_attrs(iterator: Iterator[dict[str,str]]) -> set[str]:
  all_attrs: set[str] = set()
  for row in iterator:
    all_attrs.update(row.keys())
  return all_attrs

all_attrs = get_all_attrs(generate_elements_from_lines("Posts.xml"))

El conjunto de atributos es pues:

In [None]:
all_attrs

Como sabemos que el atributo `Id` va a ser la clave primaria, lo ponemos al principio. Además, generamos una lista, no un conjunto, para que el orden sea conocido.

In [5]:
all_attrs.remove('Id')
all_attrs = list(all_attrs)
all_attrs.insert(0,'Id')
all_attrs

['Id',
 'ClosedDate',
 'CommunityOwnedDate',
 'ContentLicense',
 'Title',
 'CreationDate',
 'PostTypeId',
 'Body',
 'Tags',
 'ViewCount',
 'LastEditorDisplayName',
 'Score',
 'LastEditorUserId',
 'AnswerCount',
 'ParentId',
 'LastEditDate',
 'CommentCount',
 'LastActivityDate',
 'AcceptedAnswerId',
 'FavoriteCount',
 'OwnerUserId',
 'OwnerDisplayName']

## Escritura del formato CSV

El formato CSV está especificado en el estándar RFC 4180. https://www.ietf.org/rfc/rfc4180.txt. En general se puede utilizar la biblioteca `csv` de Python 3 y vamos a exportar una línea de cabecera con todos los campos. https://docs.python.org/3/library/csv.html.

Tendremos en cuenta que todas las filas tienen que tener las mismas columnas y en el mismo orden dado por `all_attrs`.

In [6]:
import csv

def write_csv(destfile: str, all_attrs: list[str], iterator: Iterator[dict[str,str]]) -> None:
  with open(destfile, 'w') as wf:
    cw = csv.writer(wf)

    # Escribir la línea de cabecera
    cw.writerow(all_attrs)

    # Recorrer el iterador
    for row in iterator:
      row_to_write = [row.get(att, '') for att in all_attrs]
      cw.writerow(row_to_write)

In [7]:
write_csv('Posts.csv', all_attrs, generate_elements_from_lines('Posts.xml'))

In [8]:
write_csv('Users.csv', all_attrs, generate_elements_from_lines('Users.xml'))

In [9]:
write_csv('Votes.csv', all_attrs, generate_elements_from_lines('Votes.xml'))

In [None]:
write_csv('Tags.csv', all_attrs, generate_elements_from_lines('Tags.xml'))

In [None]:
!head Posts.csv

## Uso de Parquet

![Parquet](https://upload.wikimedia.org/wikipedia/commons/4/47/Apache_Parquet_logo.svg)


El formato Parquet (https://parquet.apache.org) se ha popularizado recientemente con el uso de fuentes de datos en Internet. En general supone una mejora en todos los aspectos con respecto a CSV y en otros con respecto a JSON y JSON lines.

En general, Parquet es un formato de almacenamiento de datos de columnas, que es muy eficiente en términos de espacio y tiempo de acceso. Es un formato binario, pero que se puede leer en muchos lenguajes de programación. Además, permite compresión de datos, lo que lo hace eficiente en tiempo y en espacio.

El formato interno del fichero se describe por encima en la siguiente imagen:

![Parquet](https://camo.githubusercontent.com/d713741348fd88809ec0809de0a9aea7a6358b04f7d2aace673c9286ee290dfb/68747470733a2f2f7261772e6769746875622e636f6d2f6170616368652f706172717565742d666f726d61742f6d61737465722f646f632f696d616765732f46696c654c61796f75742e676966)

El formato Parquet incluye, además de los datos, el esquema de los mismos, lo que hace que se pueda leer sin dar lugar a errores. Esto soluciona el problema que nos encontramos en CSV y JSON, que no incluyen el esquema de los datos.

Es incluso fomentado por el Gobierno de España para publicación de los datos: https://datos.gob.es/es/blog/por-que-deberias-de-usar-ficheros-parquet-si-procesas-muchos-datos

En Python se puede leer con la biblioteca `pyarrow` (https://arrow.apache.org/docs/python/parquet.html).


In [None]:
%pip install pyarrow

In [13]:
import pandas as pd

In [43]:
# Write the df dataframe to parquet file
df = pd.read_csv('Posts.csv', encoding='utf-8', header=0,
                 dtype={'Id': 'Int64', 'PostTypeId': 'Int64', 'AcceptedAnswerId': 'Int64', 'ParentId': 'Int64',
                        'Score': 'Int64', 'ViewCount': 'Int64',
                        'Body': pd.StringDtype(), 'OwnerUserId': 'Int64', 'OwnerDisplayName': pd.StringDtype(),
                        'LastEditorUserId': 'Int64', 'LastEditorDisplayName': pd.StringDtype(),
                        'Title': pd.StringDtype(), 'Tags': pd.StringDtype(), 'AnswerCount': 'Int64',
                        'CommentCount': 'Int64', 'FavoriteCount': 'Int64',
                        'ContentLicense': pd.StringDtype()},
                 parse_dates=['CreationDate','LastEditDate','LastActivityDate','ClosedDate','CommunityOwnedDate'])

In [45]:
df.head()

Unnamed: 0,Id,ClosedDate,CommunityOwnedDate,ContentLicense,Title,CreationDate,PostTypeId,Body,Tags,ViewCount,...,LastEditorUserId,AnswerCount,ParentId,LastEditDate,CommentCount,LastActivityDate,AcceptedAnswerId,FavoriteCount,OwnerUserId,OwnerDisplayName
0,1,NaT,NaT,CC BY-SA 4.0,La creación manual de un alias de ruta con un ...,2015-10-29 15:56:52.933,1,&lt;p&gt;Estoy creando un servicio usando &lt;...,&lt;.net&gt;&lt;asp.net-web-api&gt;&lt;asp.net...,780.0,...,,1.0,,2019-07-07 21:36:17.737,2,2021-03-12 17:49:40.687,2.0,,23,
1,2,NaT,NaT,CC BY-SA 3.0,,2015-10-29 19:14:23.673,2,&lt;p&gt;He encontrado la solución.&lt;/p&gt;&...,,,...,,,1.0,NaT,2,2015-10-29 19:14:23.673,,,23,
2,3,NaT,NaT,CC BY-SA 3.0,¿Es igual utilizar .AsString que .Text para ob...,2015-10-29 23:54:31.947,1,"&lt;p&gt;Luego de ver cierto código, me he dad...",&lt;delphi&gt;,1035.0,...,20.0,3.0,,2015-12-03 16:24:56.370,1,2015-12-18 20:19:25.133,9.0,,21,
3,4,NaT,NaT,CC BY-SA 3.0,,2015-10-30 00:45:47.640,2,&lt;p&gt;&lt;code&gt;.AsString&lt;/code&gt; de...,,,...,25.0,,3.0,2015-12-14 00:58:15.613,0,2015-12-14 00:58:15.613,,,24,
4,5,NaT,NaT,CC BY-SA 3.0,¿Cómo separar las palabras que contiene un str...,2015-10-30 01:15:27.267,1,&lt;p&gt;¿Cuál es la forma más eficiente de se...,&lt;c++&gt;&lt;string&gt;,37867.0,...,729.0,7.0,,2016-09-27 17:46:24.900,1,2020-06-30 02:23:26.197,208.0,,24,


In [46]:
df.to_parquet('Posts.parquet', compression='snappy')


In [47]:
!ls -lh Posts.*

-rw-r--r-- 1 dsevilla users 921M sep 29 18:34 Posts.csv
-rw-r--r-- 1 dsevilla users 357M sep 29 19:57 Posts.parquet
-rw-r--r-- 1 dsevilla users 983M dic  4  2023 Posts.xml
