<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


In [2]:
import warnings ## modulo de advertencias codigo limpio
warnings.filterwarnings('ignore')

<p align="justify">
El script <code>import warnings</code> seguido de <code>warnings.filterwarnings('ignore')</code> se utiliza para importar el módulo de advertencias en Python y configurar el entorno para que ignore todas las advertencias que puedan generarse durante la ejecución del código. Esto evita que se muestren mensajes de advertencia al usuario, lo que puede ser útil para reducir el ruido en la salida del programa, aunque también puede ocultar advertencias importantes que podrían señalar problemas potenciales en el código.

 # **<font color="#07a8ed">Cargando datos en Pandas, formatos y archivo de datos 🐼 </font>**

<p align="justify">
Leer datos y hacerlos accesibles, a veces denominado carga de datos, uno de los pasos del ETL: <ul><li>Extract</li><li>Transform</li><li>Load</li></ul></p> <p align="justify">
es el primer paso necesario para todo lo que queremos hacer. El término análisis también se usa a veces para describir la carga de datos de texto y su interpretación como tablas y diferentes tipos de datos. Ahora vamos a desarrollar la entrada y salida de datos usando <code>Pandas</code>, aunque existen numerosas herramientas en otras bibliotecas para hacer lo mismo.
</p>

<p align="justify"> 👀 Por convención, así se importa <code>Pandas</code>:  </p>

In [3]:
import numpy as np
import pandas as pd

 # **<font color="#07a8ed">Leer y escribir datos en formato de texto</font>**

<p align="justify">
<code>Pandas</code> presenta una serie de funciones para leer datos tabulares como un objeto <code>DataFrame</code>.</p>

<p align="justify"> 👀 Esas funciones son:
<ul>
<li><code>read_csv()</code> datos delimitados desde archivo CSV, una dirección URL u objeto similar a un archivo</li>
<li><code>read_fwf()</code> datos en formato de columna de ancho fijo sin delimitadores</li>
<li><code>read_excel()</code> datos tabulares de un archivo Excel XLS o XLSX</li>
<li><code>read_hdf()</code> archivos HDF5 escritos por <code>Pandas</code></li>
<li><code>read_html()</code> todas las tablas que se encuentran en el documento HTML</li>
<li><code>read_json()</code> datos de una cadena, archivo, URL u objeto similar a un archivo JSON (JavaScript Object Notation)</li>
<li><code>read_feather()</code> formato de archivo binario Feather</li>
<li><code>read_orc()</code> formato de archivo binario Apache ORC</li>
<li><code>read_parquet()</code> formato de archivo binario Apache Parquet</li>
<li><code>read_pickle()</code> objeto almacenado por <code>Pandas</code> usando el formato pickle de <code>Python</code></li>
<li><code>read_sas()</code> conjunto de datos SAS almacenado en formato de almacenamiento del sistema SAS</li>
<li><code>read_spss()</code> archivo de datos creado por SPSS</li>
<li><code>read_sql()</code> resultados de una consulta SQL (usando SQLAlchemy)</li>
<li><code>read_sql_table()</code> tabla SQL completa (usando SQLAlchemy); equivalente a una consulta que selecciona todo</li>
<li><code>read_stata()</code> conjunto de datos del formato de archivo Stata</li>
<li><code>read_xml()</code> tabla de datos de un archivo XML</li>
</ul>
</p>

 ## **<font color="#07a8ed">Lectura de archivos en partes</font>**

<p align="justify">
Al procesar archivos muy grandes o descubrir el conjunto correcto de argumentos para procesar correctamente un archivo grande, <code>Pandas</code> permite leer solo una pequeña parte de un archivo o iterar a través de partes más pequeñas del archivo.</p>

In [4]:
datos="https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/beneficios-otorgados-colaborativa-202210.xlsx-Dataset.csv"

In [5]:
subsidios = pd.read_csv(datos)
subsidios.head()

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0
4,Bonificación de tasa crediticia,Redimec SRL,33629783909,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,737628.0


<p align="justify"> 👀 Los puntos suspensivos $...$ indican que se han omitido las filas en el medio del <code>DataFrame</code>. Se puede leer solo una pequeña cantidad de filas (evitando leer todo el archivo), con el parámetro <code>nrows</code> indicando en él, la cantidad de filas o índices que se quieren leer.
</p>

In [8]:
subsidios ## los puntos suspensivos indican que hay filas que no se lograron leer

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530
4,Bonificación de tasa crediticia,Redimec SRL,33629783909,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,737628
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57,Bonificación de tasa crediticia,Biogénesis Bagó S.A.,30653399819,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnología,Buenos Aires,6,Garín,6252010003,RESOL-2021-1052-APN-SIECYGCE#MDP,,7137021
58,ANR,Servicio Nacional De Sanidad Y Calidad Agroali...,30688384547,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnología,Ciudad Autónoma de Buenos Aires,2,Ciudad Autónoma de Buenos Aires,2000010000,RESOL-2021-1052-APN-SIECYGCE#MDP,9165481.0,
59,ANR,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de depósitos a través de sistema ...,20,El proyecto consiste en diseñar y desarrollar ...,"Industria 4.0, Robótica",Córdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,860000.0,
60,Bonificación de tasa crediticia,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de depósitos a través de sistema ...,20,El proyecto consiste en diseñar y desarrollar ...,"Industria 4.0, Robótica",Córdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,,196123


In [6]:
pd.read_csv(datos, nrows=4)

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


<p align="justify"> 👀 Para leer un archivo en partes, se utiliza el parametro <code>chunksize</code> y se especifica el número de filas o índices.
</p>

In [36]:
subsidios = pd.read_csv(datos, nrows=4)
subsidios

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [38]:
subsidios1 = pd.read_csv(datos, nrows=4)
subsidios1

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [39]:
subsidios1.shape

(4, 14)

In [40]:
partes = pd.read_csv(datos, chunksize=20) # dividir el dataset en partes iguales pueden fraccionarlo en partes

<p align="justify">
El script <code>partes = pd.read_csv(datos, chunksize=20)</code> utiliza la función <code>read_csv</code> de la biblioteca pandas para leer un archivo CSV en partes o "chunks" de 20 filas cada una, en lugar de cargar el archivo completo en memoria. Esto es útil para manejar archivos grandes de manera más eficiente, permitiendo procesar los datos en fragmentos más pequeños y reducir el consumo de memoria.
<br><br>
La variable <code>partes</code> contendrá un iterador sobre estos fragmentos de datos.

In [41]:
type(partes)

In [42]:
beneficios = pd.Series([], dtype="int64")

In [43]:
for i in partes:
    beneficios = beneficios.add(i["beneficio_tipo"].value_counts(), fill_value=0)

<p align="justify">
El script itera sobre cada fragmento de datos generado por un iterador de pandas y actualiza la serie <code>beneficios</code> sumando los conteos de valores únicos de la columna <code>"beneficio_tipo"</code> de cada fragmento. El método <code>add</code> combina los conteos acumulados de cada fragmento, utilizando <code>fill_value=0</code> para manejar valores faltantes y asegurarse de que se sumen correctamente incluso si algunos fragmentos tienen categorías diferentes.
<br><br>
Esto permite consolidar los conteos de beneficio a lo largo de todo el conjunto de datos dividido en fragmentos.

In [44]:
beneficios = beneficios.sort_values(ascending=False)
beneficios

beneficio_tipo
ANR                                39.0
Bonificación de tasa crediticia    23.0
dtype: float64

<p align="justify"> 👀 En el caso de la funcion <code>read_csv()</code>, los parámetros más destacados, son los siguientes:
<ul>
<li><code>path()</code> indica la ubicación del sistema de archivos, URL u objeto similar a un archivo</li>
<li><code>sep()</code> caracteres o expresión regular que se usará para dividir campos en cada fila</li>
<li><code>header()</code> número de fila para nombres de columna, debería ser <code>None</code> si no hay encabezado.</li>
<li><code>index_col()</code> número de columna o nombre de columna para usar como índice</li>
<li><code>names()</code> lista de nombres de columnas</li>
<li><code>skiprows()</code> número de filas al principio del archivo para ignorar o lista de números de fila (a partir de 0) para omitir</li>
<li><code>na_values()</code> secuencia de valores para reemplazar con NA</li>
<li><code>keep_default_na()</code> usar o no la lista de valores predeterminados NA (<code>True</code> por defecto)</li>
<li><code>parse_dates()</code> intenta analizar los datos en <code>datetime</code></li>
<li><code>converters()</code> aplicaría la función <code>f</code> a los valores indicados </li>
<li><code>dayfirst()</code> al analizar fechas ambiguas, se le aplica formato internacional</li>
<li><code>verbose()</code> muestra información de análisis diversa</li>
<li><code>encoding()</code> codificación de texto</li>
<li><code>squeeze()</code> Si los datos analizados contienen solo una columna, devuelva una <code>Serie</code></li>
<li><code>thousands()</code> separador de miles</li>
<li><code>decimal()</code> separador decimal</li>
<li><code>engine()</code> motor de conversión y análisis de CSV para usar</li>
</ul>
</p>

 ## **<font color="#07a8ed">Escritura de archivos</font>**

<p align="justify">
Los datos también se pueden exportar a un formato delimitado.</p>

In [45]:
subsidios

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [46]:
subsidios2 = subsidios.iloc[0:10,[0,2]]  ## columna 0 y columna 2 cuit y beneficiario
subsidios2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificación de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificación de tasa crediticia,30638064126


In [47]:
subsidios2.shape

(4, 2)

In [48]:
subsidios2.to_csv("subsidios2.csv") # guardo en un csv ver carpéta esta el archivo, para grabar a un archivo csv

<p align="justify"> 👀 Usando el método <code>to_csv()</code>, podemos escribir los datos en un archivo separado por comas.
</p>

In [49]:
subsidios2.to_csv("subsidios.csv")
!cat subsidios.csv  ### poder visualizar el archivo en la celda, comando que permite visualizar el archivo en la celda comando de consola sintaxis del sistema operativo linux..

,beneficio_tipo,beneficiario_cuit
0,Bonificación de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificación de tasa crediticia,30638064126


<p align="justify">
El script guarda el DataFrame <code>subsidios2</code> en un archivo CSV llamado "subsidios.csv". Luego, el comando <code>!cat subsidios.csv</code> se utiliza para mostrar el contenido del archivo "subsidios2.csv" directamente en la celda, permitiendo verificar el contenido del archivo creado.

<p align="justify"> 👀 Se puede usar otros delimitadores.
</p>

In [50]:
subsidios2.to_csv("subsidios.csv", sep="|")
!cat subsidios.csv

|beneficio_tipo|beneficiario_cuit
0|Bonificación de tasa crediticia|30708334584
1|ANR|30708334584
2|ANR|30638064126
3|Bonificación de tasa crediticia|30638064126


In [51]:
subsidios2.to_csv("subsidios.csv", sep=";")
!cat subsidios.csv

;beneficio_tipo;beneficiario_cuit
0;Bonificación de tasa crediticia;30708334584
1;ANR;30708334584
2;ANR;30638064126
3;Bonificación de tasa crediticia;30638064126


<p align="justify"> 👀 Se puede prescindir del índice.
</p>

In [69]:
subsidios2.to_csv("subsidios.csv", index=False)
!cat subsidios.csv

beneficio_tipo,beneficiario_cuit
Bonificación de tasa crediticia,30708334584
ANR,30708334584
ANR,30638064126
Bonificación de tasa crediticia,30638064126


<p align="justify"> 👀 y tambien, entre otras cosas, se puede prescindir del encabezado.
</p>

In [53]:
subsidios2.to_csv("subsidios.csv", header=False)
!cat subsidios.csv

0,Bonificación de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificación de tasa crediticia,30638064126


In [68]:
df2 = pd.read_csv("/content/subsidios.csv", sep ="|")  ## se puede prescindir del indice ver problema del indice
df2

Unnamed: 0,"0,Bonificación de tasa crediticia,30708334584"
0,"1,ANR,30708334584"
1,"2,ANR,30638064126"
2,"3,Bonificación de tasa crediticia,30638064126"


In [66]:
subsidios

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [70]:
df2 = pd.read_csv("/content/subsidios.csv", sep ="|")  ## se puede prescindir del indice ver problema del indice
df2

Unnamed: 0,"beneficio_tipo,beneficiario_cuit"
0,"Bonificación de tasa crediticia,30708334584"
1,"ANR,30708334584"
2,"ANR,30638064126"
3,"Bonificación de tasa crediticia,30638064126"


 # **<font color="#07a8ed">HTML Web Scraping</font>**

<p align="justify">
<code>Python</code> tiene muchas bibliotecas para leer y escribir datos en los  formatos <code>HTML</code> y <code>XML</code>. Los ejemplos incluyen <code>lxml</code>, <code>Beautiful Soup</code> y <code>html5lib</code>. Si bien <code>lxml</code> es comparativamente mucho más rápido en general, las otras bibliotecas pueden manejar mejor los archivos <code>HTML</code> o <code>XML</code> con formato incorrecto.</p>

<p align="justify"> 👀 <code>Pandas</code> tiene una función integrada, <code>read_html</code> que utiliza todas estas bibliotecas para analizar automáticamente las tablas de los archivos <code>HTML</code> como objetos <code>DataFrame</code>.
</p>

<p align="justify"> 👀 Es recomendable habilitar algunas bibliotecas adicionales, en este caso, las que usa la función <code>read_html</code>.
</p>

In [54]:
import lxml
import bs4
import html5lib

In [55]:
URL = "https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp"

In [71]:
recaudacion = pd.read_html(URL, encoding='iso-8859-1'); ## codificacion bajo norma internacional encoding

<p align="justify"> 👀 El resultado de usar la función <code>read_html</code> es una lista de objetos <code>DataFrame</code>.
</p>

In [57]:
type(recaudacion)

list

In [58]:
len(recaudacion)

1

In [72]:
recaudacion

[                0                1                2                3    \
 0   Ingresos Brutos  Ingresos Brutos  Ingresos Brutos  Ingresos Brutos   
 1             Meses             2000             2001             2002   
 2             Enero         18843926         18114420         12722708   
 3           Febrero         16258743         32180909         11237981   
 4             Marzo         17468327         14453688         11460186   
 5             Abril         17463084         15809614         12300935   
 6              Mayo         15978692         14610889         14265621   
 7             Junio         14676011         14328045         16351168   
 8             Julio         15299790         14675150         17106546   
 9            Agosto         15802483         14475158         18373950   
 10       Septiembre         15756538         16781292         18684199   
 11          Octubre         15731005         13506128         18518490   
 12        Noviembre     

In [73]:
df = recaudacion[0]  # traeme el primer elemento de esa lista
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,241,242,243,244,245,246,247,248,249,250
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


In [74]:
type(df)

In [75]:
df.info()  # tiene 251 columnas y 14 filas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Columns: 251 entries, 0 to 250
dtypes: object(251)
memory usage: 27.6+ KB


In [78]:
df.loc[:,0:25].info() # solo las primeras 25 columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 26 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       14 non-null     object
 1   1       14 non-null     object
 2   2       14 non-null     object
 3   3       14 non-null     object
 4   4       14 non-null     object
 5   5       14 non-null     object
 6   6       14 non-null     object
 7   7       14 non-null     object
 8   8       14 non-null     object
 9   9       14 non-null     object
 10  10      14 non-null     object
 11  11      14 non-null     object
 12  12      14 non-null     object
 13  13      14 non-null     object
 14  14      14 non-null     object
 15  15      14 non-null     object
 16  16      14 non-null     object
 17  17      14 non-null     object
 18  18      14 non-null     object
 19  19      14 non-null     object
 20  20      14 non-null     object
 21  21      14 non-null     object
 22  22      14 non-null     obje

<p align="justify">Este es un <code>DataFrame</code> ideal para hacer tareas de limpieza y transformación de datos.
</p>

 # **<font color="#07a8ed">Algunos formatos de datos binarios</font>**

<p align="justify">
Una forma sencilla de almacenar o serializar datos en formato binario es usar el módulo integrado de <code>Python</code> denominado <code>pickle</code>. Todos los objetos <code>Pandas</code> tienen un metodo <code>to_pickle()</code> que escribe los datos en formato <code>pickle</code>.</p>

In [60]:
subsidios1

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [79]:
subsidios2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificación de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificación de tasa crediticia,30638064126


 ## **<font color="#07a8ed">Pickle</font>**

In [80]:
subsidios2.to_pickle("subsidios.pkl")

In [84]:
df = pd.read_pickle("subsidios.pkl")
df

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificación de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificación de tasa crediticia,30638064126


 ## **<font color="#07a8ed">Parquet</font>**

In [82]:
subsidios1.to_parquet("subsidios.parquet")

In [88]:
df_parquet = pd.read_parquet("subsidios.parquet")
df_parquet

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


 # **<font color="#07a8ed">Otros formatos</font>**

 ## **<font color="#07a8ed">Json</font>**

In [63]:
subsidios1.to_json("subsidios.json")

In [87]:
df_json = pd.read_json("subsidios.json")
df_json

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


 ## **<font color="#07a8ed">Hdf</font>**

In [64]:
subsidios1.to_hdf("subsidios.h5", key="df")

In [89]:
df_hdf = pd.read_hdf("subsidios.h5")
df_hdf

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificación de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotació...",1,La provisión de una plataforma informática y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificación de tasa crediticia,Laboratorio Biológico Tandil SRL,30638064126,Fabricación de Polarímetro nacional,2,Industrialización del codesarrollo realizado e...,Biotecnología \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


<br>
<br>
<p align="center"><b>
💗
<font color="#07a8ed">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
