In [None]:
# Documentación libraría pandas
# https://pandas.pydata.org/docs/index.html
# importar libraría pandas
import pandas as pd

### Parquet

In [None]:
# O formato Parquet é un formato binario comprimido que almacena os datos de xeito columnas (en lugar de almacenalos por filas)
# Está especialmente indicado para dataframes cun grande número de columnas

In [None]:
# https://catalog.data.gov/dataset/social-vulnerability-index-2018-united-states-tract 
# Ficheiro CSV de máis de 200MB
df = pd.read_csv('/huge/datasets/Social_Vulnerability_Index_2018_-_United_States__tract.csv')

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.to_parquet('/huge/datasets/Social_Vulnerability_Index_2018_-_United_States__tract.parquet')

In [None]:
# Parquet é un formato binario (non tentes abrir o ficheiro cun editor de texto)
# Fíxate o nivel de compresión do formato, é dicir, o tamaño do ficheiro resultante

In [None]:
df_pq = pd.read_parquet('/huge/datasets/Social_Vulnerability_Index_2018_-_United_States__tract.parquet')
df_pq.head()                        

In [None]:
# Compara o tempo de execución de lectura do dataset en CSV vs o tempo de lectura do dataset en Parquet
# Observas algunha diferenza???

In [None]:
df_pq.sample(10)

### JSON

In [None]:
# O formato JSON é un formato baseado en texto que segue a sintaxe de obxectos de JavaScript

In [None]:
# https://www.w3schools.com/python/pandas/data.js
# Exemplo con series de datos
df = pd.read_json('../datasets/data.js')

In [None]:
df

In [None]:
# Outros xeitos de mostrar o contido do dataframe
df.to_string()
#print(df.to_string())

In [None]:
# Seleccionar pulso e calorías para as duracións de 60
df60 = df[df.Duration == 60][['Pulse','Calories']]
df60

In [None]:
# Gardar o resultado nun novo ficheiro JSON
df60.to_json('output/data_60.json')

In [None]:
# Abrir e revisar o novo ficheiro creado cun visor de texto

In [None]:
# https://github.com/ankitgoel1602/data-science/tree/master/json-data
# Exemplo de JSON simple de un nivel, sen datos aniñados
df = pd.read_json('../datasets/level_1.json')

In [None]:
df

In [None]:
# Tratamento de JSON semi-estruturado
# https://towardsdatascience.com/how-to-parse-json-data-with-python-pandas-f84fbd0b1025
# Se nos encontramos con estruturas tipo JSON aniñadas non será suficiente con utilizar pd.read_json

In [None]:
# Cargar un dataset JSON remoto
# Dataset con cidades do mundo
url = 'https://raw.githubusercontent.com/lutangar/cities.json/master/cities.json'
df = pd.read_json(url)
df

In [None]:
# Buscar a cidade de Lugo
df[df.name == 'Lugo']

In [None]:
# Buscar a cidade de Coruña
df[df.name.str.contains('Coruña')]

In [None]:
# Buscar con condición sobre unha lista
df[df.name.isin(['Lugo','Pontevedra'])]

In [None]:
## Podemos responder preguntas que nos facemos sobre os datos

In [None]:
# Pregunta: Cantas cidades hai en España?
df[df.country == 'ES'].name.count()

In [None]:
# E cantas en Francia?
df[df.country == 'FR'].name.count()

In [None]:
# Diferenza entre o número de cidades en Francia e España
df[df.country == 'FR'].name.count() - df[df.country == 'ES'].name.count()

### Shapefile

In [None]:
# Relacionados con Shapefile encontramos ficheiros con diferentes extensións: .shp, .dbf, .shx....
# Shapefile é un formato para almacenar información gráfica vectorial, así como información relacionada
# Formatos popularizados por programas de tratamento de datos xeográficos como QGIS ou ArcGIS
# Shapefile é unha colección de tres ficheiros básicos: .shp, .shx e .dbf
# Os tres ficheiros deben estar no mesmo directorio
# +info: https://mxd.codes/articles/what-is-a-shapefile-shp-dbf-and-shx

In [None]:
# Instalar libraría geopandas
import geopandas as gpd

In [None]:
# Ficheiro con información xeográfica dos Concellos de Galicia
# https://www.sergas.es/Saude-publica/GIS-Concellos
gdf = gpd.read_file('../datasets/Concellos/Concellos_IGN.shp')

In [None]:
gdf

In [None]:
# Geopandas crea uns dataframes propios
type(gdf)

In [None]:
# Pintar geodataframe
gdf.plot()

In [None]:
# Pintar provincia da Coruña
gdf[gdf.Provincia == 'Pontevedra'].plot()

### PC-Axis

In [None]:
# PC-Axis é un formato propio de programas estatísticos con moita presenza nas administracións públicas
# O programa orixinal é un desenvolvemento Sueco: PXwin, PxWeb e PXEdit
# O formato dos ficheiros é .px

In [None]:
# O paquete non está en Anaconda: Instalar con:
# pip install pyaxis
# https://pypi.org/project/pyaxis/
from pyaxis import pyaxis 

In [None]:
# Info de criminalidade a nivel estatal en España
# https://estadisticasdecriminalidad.ses.mir.es/publico/portalestadistico/portal/balances.html
px = pyaxis.parse('../datasets/criminalidade_2021_t3.px', encoding='ISO-8859-2')

In [None]:
px

In [None]:
px['DATA']

In [None]:
px['METADATA']

### Ficheiros comprimidos

In [None]:
# Pandas permite ler e importar ficheiros csv comprimidos en .zip, .tar.xz etc...
df = pd.read_csv('../datasets/La_Liga_Winners.zip')
df

In [None]:
df = pd.read_csv('../datasets/La_Liga_Winners.tar.xz')
df.head()

In [None]:
# Salva a un ficheiro .csv comprimido as numerosas victorias do Deportivo na Liga de fútbol (gz->OK , zip->algúns problemas)
deportivo = df[df.Winner.str.contains('Deportivo')]
deportivo.to_csv('output/deportivo_wins.csv.gz',index=False,compression='gzip')