<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


In [None]:
import warnings
warnings.filterwarnings('ignore')  ## modulo para ignorar advertencias

<p align="justify">
El script <code>import warnings</code> seguido de <code>warnings.filterwarnings('ignore')</code> se utiliza para importar el m√≥dulo de advertencias en Python y configurar el entorno para que ignore todas las advertencias que puedan generarse durante la ejecuci√≥n del c√≥digo. Esto evita que se muestren mensajes de advertencia al usuario, lo que puede ser √∫til para reducir el ruido en la salida del programa, aunque tambi√©n puede ocultar advertencias importantes que podr√≠an se√±alar problemas potenciales en el c√≥digo.

 # **<font color="#07a8ed">Cargando datos en Pandas, formatos y archivo de datos üêº </font>**

<p align="justify">
Leer datos y hacerlos accesibles, a veces denominado carga de datos, uno de los pasos del ETL: <ul><li>Extract</li><li>Transform</li><li>Load</li></ul></p> <p align="justify">
es el primer paso necesario para todo lo que queremos hacer. El t√©rmino an√°lisis tambi√©n se usa a veces para describir la carga de datos de texto y su interpretaci√≥n como tablas y diferentes tipos de datos. Ahora vamos a desarrollar la entrada y salida de datos usando <code>Pandas</code>, aunque existen numerosas herramientas en otras bibliotecas para hacer lo mismo.
</p>

<p align="justify"> üëÄ Por convenci√≥n, as√≠ se importa <code>Pandas</code>:  </p>

In [None]:
import numpy as np
import pandas as pd

 # **<font color="#07a8ed">Leer y escribir datos en formato de texto</font>**

<p align="justify">
<code>Pandas</code> presenta una serie de funciones para leer datos tabulares como un objeto <code>DataFrame</code>.</p>

<p align="justify"> üëÄ Esas funciones son:
<ul>
<li><code>read_csv()</code> datos delimitados desde archivo CSV, una direcci√≥n URL u objeto similar a un archivo</li>
<li><code>read_fwf()</code> datos en formato de columna de ancho fijo sin delimitadores</li>
<li><code>read_excel()</code> datos tabulares de un archivo Excel XLS o XLSX</li>
<li><code>read_hdf()</code> archivos HDF5 escritos por <code>Pandas</code></li>
<li><code>read_html()</code> todas las tablas que se encuentran en el documento HTML</li>
<li><code>read_json()</code> datos de una cadena, archivo, URL u objeto similar a un archivo JSON (JavaScript Object Notation)</li>
<li><code>read_feather()</code> formato de archivo binario Feather</li>
<li><code>read_orc()</code> formato de archivo binario Apache ORC</li>
<li><code>read_parquet()</code> formato de archivo binario Apache Parquet</li>
<li><code>read_pickle()</code> objeto almacenado por <code>Pandas</code> usando el formato pickle de <code>Python</code></li>
<li><code>read_sas()</code> conjunto de datos SAS almacenado en formato de almacenamiento del sistema SAS</li>
<li><code>read_spss()</code> archivo de datos creado por SPSS</li>
<li><code>read_sql()</code> resultados de una consulta SQL (usando SQLAlchemy)</li>
<li><code>read_sql_table()</code> tabla SQL completa (usando SQLAlchemy); equivalente a una consulta que selecciona todo</li>
<li><code>read_stata()</code> conjunto de datos del formato de archivo Stata</li>
<li><code>read_xml()</code> tabla de datos de un archivo XML</li>
</ul>
</p>

 ## **<font color="#07a8ed">Lectura de archivos en partes</font>**

<p align="justify">
Al procesar archivos muy grandes o descubrir el conjunto correcto de argumentos para procesar correctamente un archivo grande, <code>Pandas</code> permite leer solo una peque√±a parte de un archivo o iterar a trav√©s de partes m√°s peque√±as del archivo.</p>

In [None]:
datos="https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/beneficios-otorgados-colaborativa-202210.xlsx-Dataset.csv"

In [None]:
subsidios = pd.read_csv(datos)
subsidios.head(10)

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificaci√≥n de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificaci√≥n de tasa crediticia,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0
4,Bonificaci√≥n de tasa crediticia,Redimec SRL,33629783909,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,737628.0
5,ANR,Redimec SRL,33629783909,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,8313999.0,
6,ANR,Itecnis SRL,30709392243,‚ÄúSistema de Certificaci√≥n de Desinfecci√≥n (DCS)‚Äù,3,"Sistema de Certificaci√≥n de Desinfecci√≥n ""DCS""...",Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-359-APN-SIECYGCE#MDP,4460000.0,
7,Bonificaci√≥n de tasa crediticia,Terragene SA,30709585939,‚ÄúSistema de Certificaci√≥n de Desinfecci√≥n (DCS)‚Äù,3,"Sistema de Certificaci√≥n de Desinfecci√≥n ""DCS""...",Biotecnolog√≠a \n,Santa Fe,82,Rosario,82084270000,RESOL-2021-359-APN-SIECYGCE#MDP,,3853802.0
8,ANR,Terragene SA,30709585939,‚ÄúSistema de Certificaci√≥n de Desinfecci√≥n (DCS)‚Äù,3,"Sistema de Certificaci√≥n de Desinfecci√≥n ""DCS""...",Biotecnolog√≠a \n,Santa Fe,82,Rosario,82084270000,RESOL-2021-359-APN-SIECYGCE#MDP,6050000.0,
9,ANR,Colven SA,30560312411,Sistema de Control y Transmisi√≥n satelital de ...,4,Desarrollo de sistema de control de carga tran...,Software,Santa Fe,82,Guadalupe Norte,82049070000,RESOL-2021-412-APN-SIECYGCE#MDP,600000.0,


In [None]:
subsidios

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificaci√≥n de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificaci√≥n de tasa crediticia,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530
4,Bonificaci√≥n de tasa crediticia,Redimec SRL,33629783909,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,737628
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57,Bonificaci√≥n de tasa crediticia,Biog√©nesis Bag√≥ S.A.,30653399819,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnolog√≠a,Buenos Aires,6,Gar√≠n,6252010003,RESOL-2021-1052-APN-SIECYGCE#MDP,,7137021
58,ANR,Servicio Nacional De Sanidad Y Calidad Agroali...,30688384547,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnolog√≠a,Ciudad Aut√≥noma de Buenos Aires,2,Ciudad Aut√≥noma de Buenos Aires,2000010000,RESOL-2021-1052-APN-SIECYGCE#MDP,9165481.0,
59,ANR,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de dep√≥sitos a trav√©s de sistema ...,20,El proyecto consiste en dise√±ar y desarrollar ...,"Industria 4.0, Rob√≥tica",C√≥rdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,860000.0,
60,Bonificaci√≥n de tasa crediticia,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de dep√≥sitos a trav√©s de sistema ...,20,El proyecto consiste en dise√±ar y desarrollar ...,"Industria 4.0, Rob√≥tica",C√≥rdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,,196123


<p align="justify"> üëÄ Los puntos suspensivos $...$ indican que se han omitido las filas en el medio del <code>DataFrame</code>. Se puede leer solo una peque√±a cantidad de filas (evitando leer todo el archivo), con el par√°metro <code>nrows</code> indicando en √©l, la cantidad de filas o √≠ndices que se quieren leer.
</p>

In [None]:
pd.read_csv(datos, nrows=4)

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificaci√≥n de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificaci√≥n de tasa crediticia,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [None]:
subsidios1 = pd.read_csv(datos, nrows=4)
subsidios1

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificaci√≥n de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128.0
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificaci√≥n de tasa crediticia,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530.0


In [None]:
subsidios.shape ## filas y columnas del dataset

(62, 14)

In [None]:
subsidios.columns  ## columnas del dataset

Index(['beneficio_tipo', 'beneficiario_razon_social', 'beneficiario_cuit',
       'proyecto_nombre', 'proyecto_id', 'proyecto_resumen', 'sector_edc',
       'provincia_nombre', 'provincia_id', 'localidad_nombre', 'localidad_id',
       'resolucion', 'anr_abonado', 'subsidio_tasa_credito'],
      dtype='object')

In [None]:
subsidios.dtypes  ## listo tipos de datos

Unnamed: 0,0
beneficio_tipo,object
beneficiario_razon_social,object
beneficiario_cuit,int64
proyecto_nombre,object
proyecto_id,int64
proyecto_resumen,object
sector_edc,object
provincia_nombre,object
provincia_id,int64
localidad_nombre,object


In [None]:
subsidios.ndim  ## dimension del dataset

2

In [None]:
subsidios.map(type)  ## mapea los tipos de datos

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'str'>
1,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'float'>
2,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'float'>
3,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'str'>
4,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'str'>
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'str'>
58,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'float'>
59,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'float'>
60,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'str'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'int'>,<class 'str'>,<class 'float'>,<class 'str'>


In [None]:
subsidios.size  ## tama√±o del dataset cantidad de datos del dataset

868

In [None]:
62 * 14 ### filas por columnas

868

<p align="justify"> üëÄ Para leer un archivo en partes, se utiliza el parametro <code>chunksize</code> y se especifica el n√∫mero de filas o √≠ndices.
</p>

In [None]:
datos

'https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/beneficios-otorgados-colaborativa-202210.xlsx-Dataset.csv'

In [None]:
partes = pd.read_csv(datos, chunksize=20)

<p align="justify">
El script <code>partes = pd.read_csv(datos, chunksize=20)</code> utiliza la funci√≥n <code>read_csv</code> de la biblioteca pandas para leer un archivo CSV en partes o "chunks" de 20 filas cada una, en lugar de cargar el archivo completo en memoria. Esto es √∫til para manejar archivos grandes de manera m√°s eficiente, permitiendo procesar los datos en fragmentos m√°s peque√±os y reducir el consumo de memoria.
<br><br>
La variable <code>partes</code> contendr√° un iterador sobre estos fragmentos de datos.

In [None]:
type(partes)

In [None]:
beneficios = pd.Series([], dtype="int64")

In [None]:
beneficios  ### serie vacia

Unnamed: 0,0


In [None]:
for i in partes:
    beneficios = beneficios.add(i["beneficio_tipo"].value_counts(), fill_value=0)

<p align="justify">
El script itera sobre cada fragmento de datos generado por un iterador de pandas y actualiza la serie <code>beneficios</code> sumando los conteos de valores √∫nicos de la columna <code>"beneficio_tipo"</code> de cada fragmento. El m√©todo <code>add</code> combina los conteos acumulados de cada fragmento, utilizando <code>fill_value=0</code> para manejar valores faltantes y asegurarse de que se sumen correctamente incluso si algunos fragmentos tienen categor√≠as diferentes.
<br><br>
Esto permite consolidar los conteos de beneficio a lo largo de todo el conjunto de datos dividido en fragmentos.

In [None]:
beneficios  ###

Unnamed: 0_level_0,0
beneficio_tipo,Unnamed: 1_level_1
ANR,39.0
Bonificaci√≥n de tasa crediticia,23.0


In [None]:
beneficios = beneficios.sort_values(ascending=False)
beneficios

Unnamed: 0_level_0,0
beneficio_tipo,Unnamed: 1_level_1
ANR,39.0
Bonificaci√≥n de tasa crediticia,23.0


<p align="justify"> üëÄ En el caso de la funcion <code>read_csv()</code>, los par√°metros m√°s destacados, son los siguientes:
<ul>
<li><code>path()</code> indica la ubicaci√≥n del sistema de archivos, URL u objeto similar a un archivo</li>
<li><code>sep()</code> caracteres o expresi√≥n regular que se usar√° para dividir campos en cada fila</li>
<li><code>header()</code> n√∫mero de fila para nombres de columna, deber√≠a ser <code>None</code> si no hay encabezado.</li>
<li><code>index_col()</code> n√∫mero de columna o nombre de columna para usar como √≠ndice</li>
<li><code>names()</code> lista de nombres de columnas</li>
<li><code>skiprows()</code> n√∫mero de filas al principio del archivo para ignorar o lista de n√∫meros de fila (a partir de 0) para omitir</li>
<li><code>na_values()</code> secuencia de valores para reemplazar con NA</li>
<li><code>keep_default_na()</code> usar o no la lista de valores predeterminados NA (<code>True</code> por defecto)</li>
<li><code>parse_dates()</code> intenta analizar los datos en <code>datetime</code></li>
<li><code>converters()</code> aplicar√≠a la funci√≥n <code>f</code> a los valores indicados </li>
<li><code>dayfirst()</code> al analizar fechas ambiguas, se le aplica formato internacional</li>
<li><code>verbose()</code> muestra informaci√≥n de an√°lisis diversa</li>
<li><code>encoding()</code> codificaci√≥n de texto</li>
<li><code>squeeze()</code> Si los datos analizados contienen solo una columna, devuelva una <code>Serie</code></li>
<li><code>thousands()</code> separador de miles</li>
<li><code>decimal()</code> separador decimal</li>
<li><code>engine()</code> motor de conversi√≥n y an√°lisis de CSV para usar</li>
</ul>
</p>

 ## **<font color="#07a8ed">Escritura de archivos</font>**

<p align="justify">
Los datos tambi√©n se pueden exportar a un formato delimitado.</p>

In [None]:
subsidios

Unnamed: 0,beneficio_tipo,beneficiario_razon_social,beneficiario_cuit,proyecto_nombre,proyecto_id,proyecto_resumen,sector_edc,provincia_nombre,provincia_id,localidad_nombre,localidad_id,resolucion,anr_abonado,subsidio_tasa_credito
0,Bonificaci√≥n de tasa crediticia,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,,4008128
1,ANR,Esg Dilec SA,30708334584,"Sistema multiplataforma de lectura, explotaci√≥...",1,La provisi√≥n de una plataforma inform√°tica y d...,Industria 4.0,Santa Fe,82,Rosario,82084270000,RESOL-2021-407-APN-SIECYGCE#MDP,4954725.0,
2,ANR,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,4482165.0,
3,Bonificaci√≥n de tasa crediticia,Laboratorio Biol√≥gico Tandil SRL,30638064126,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Biotecnolog√≠a \n,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,720530
4,Bonificaci√≥n de tasa crediticia,Redimec SRL,33629783909,Fabricaci√≥n de Polar√≠metro nacional,2,Industrializaci√≥n del codesarrollo realizado e...,Software,Buenos Aires,6,Tandil,6791050000,RESOL-2021-416-APN-SIECYGCE#MDP,,737628
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57,Bonificaci√≥n de tasa crediticia,Biog√©nesis Bag√≥ S.A.,30653399819,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnolog√≠a,Buenos Aires,6,Gar√≠n,6252010003,RESOL-2021-1052-APN-SIECYGCE#MDP,,7137021
58,ANR,Servicio Nacional De Sanidad Y Calidad Agroali...,30688384547,Desarrollo de cepas extra-regionales para banc...,19,El proyecto consiste en el desarrollo de cepas...,Biotecnolog√≠a,Ciudad Aut√≥noma de Buenos Aires,2,Ciudad Aut√≥noma de Buenos Aires,2000010000,RESOL-2021-1052-APN-SIECYGCE#MDP,9165481.0,
59,ANR,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de dep√≥sitos a trav√©s de sistema ...,20,El proyecto consiste en dise√±ar y desarrollar ...,"Industria 4.0, Rob√≥tica",C√≥rdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,860000.0,
60,Bonificaci√≥n de tasa crediticia,Ferretera General\nPaz S.R.L.,30707297154,Relevamiento de dep√≥sitos a trav√©s de sistema ...,20,El proyecto consiste en dise√±ar y desarrollar ...,"Industria 4.0, Rob√≥tica",C√≥rdoba,14,Freyre,14140220000,RESOL-2022-160-APN-SIECYGCE#MDP,,196123


In [None]:
subsidios2 = subsidios.iloc[0:10,[0,2]]
subsidios2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


In [None]:
subsidios2.shape

(10, 2)

<p align="justify"> üëÄ Usando el m√©todo <code>to_csv()</code>, podemos escribir los datos en un archivo separado por comas.
</p>

In [None]:
subsidios2.to_csv("subsidios.csv") # para grabar a un archivo csv

In [None]:
subsidios2.to_csv("subsidios.csv")
!cat subsidios.csv # para poder visualizar el archivo en la celda

,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


<p align="justify">
El script guarda el DataFrame <code>subsidios2</code> en un archivo CSV llamado "subsidios.csv". Luego, el comando <code>!cat subsidios.csv</code> se utiliza para mostrar el contenido del archivo "subsidios.csv" directamente en la celda, permitiendo verificar el contenido del archivo creado.

<p align="justify"> üëÄ Se puede usar otros delimitadores.
</p>

In [None]:
subsidios2.to_csv("subsidios.csv", sep=";")
!cat subsidios.csv

;beneficio_tipo;beneficiario_cuit
0;Bonificaci√≥n de tasa crediticia;30708334584
1;ANR;30708334584
2;ANR;30638064126
3;Bonificaci√≥n de tasa crediticia;30638064126
4;Bonificaci√≥n de tasa crediticia;33629783909
5;ANR;33629783909
6;ANR;30709392243
7;Bonificaci√≥n de tasa crediticia;30709585939
8;ANR;30709585939
9;ANR;30560312411


In [None]:
subsidios2.to_csv("subsidios.csv", sep="|")
!cat subsidios.csv

|beneficio_tipo|beneficiario_cuit
0|Bonificaci√≥n de tasa crediticia|30708334584
1|ANR|30708334584
2|ANR|30638064126
3|Bonificaci√≥n de tasa crediticia|30638064126
4|Bonificaci√≥n de tasa crediticia|33629783909
5|ANR|33629783909
6|ANR|30709392243
7|Bonificaci√≥n de tasa crediticia|30709585939
8|ANR|30709585939
9|ANR|30560312411


In [None]:
df2 = pd.read_csv("/content/subsidios.csv", sep="|")
df2

Unnamed: 0.1,Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,0,Bonificaci√≥n de tasa crediticia,30708334584
1,1,ANR,30708334584
2,2,ANR,30638064126
3,3,Bonificaci√≥n de tasa crediticia,30638064126
4,4,Bonificaci√≥n de tasa crediticia,33629783909
5,5,ANR,33629783909
6,6,ANR,30709392243
7,7,Bonificaci√≥n de tasa crediticia,30709585939
8,8,ANR,30709585939
9,9,ANR,30560312411


<p align="justify"> üëÄ Se puede prescindir del √≠ndice.
</p>

In [None]:
subsidios2.to_csv("subsidios.csv", index=False)
!cat subsidios.csv

beneficio_tipo,beneficiario_cuit
Bonificaci√≥n de tasa crediticia,30708334584
ANR,30708334584
ANR,30638064126
Bonificaci√≥n de tasa crediticia,30638064126
Bonificaci√≥n de tasa crediticia,33629783909
ANR,33629783909
ANR,30709392243
Bonificaci√≥n de tasa crediticia,30709585939
ANR,30709585939
ANR,30560312411


In [None]:
df2 = pd.read_csv("/content/subsidios.csv")
df2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


<p align="justify"> üëÄ y tambien, entre otras cosas, se puede prescindir del encabezado.
</p>

In [None]:
subsidios2.to_csv("subsidios.csv", index=False, header=True) # con encabezados
!cat subsidios.csv

beneficio_tipo,beneficiario_cuit
Bonificaci√≥n de tasa crediticia,30708334584
ANR,30708334584
ANR,30638064126
Bonificaci√≥n de tasa crediticia,30638064126
Bonificaci√≥n de tasa crediticia,33629783909
ANR,33629783909
ANR,30709392243
Bonificaci√≥n de tasa crediticia,30709585939
ANR,30709585939
ANR,30560312411


In [None]:
df2 = pd.read_csv("/content/subsidios.csv")
df2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


In [None]:
subsidios2.to_csv("subsidios.csv", index=False, header=False) # sin encabezados
!cat subsidios.csv

Bonificaci√≥n de tasa crediticia,30708334584
ANR,30708334584
ANR,30638064126
Bonificaci√≥n de tasa crediticia,30638064126
Bonificaci√≥n de tasa crediticia,33629783909
ANR,33629783909
ANR,30709392243
Bonificaci√≥n de tasa crediticia,30709585939
ANR,30709585939
ANR,30560312411


In [None]:
df2 = pd.read_csv("/content/subsidios.csv")
df2

Unnamed: 0,Bonificaci√≥n de tasa crediticia,30708334584
0,ANR,30708334584
1,ANR,30638064126
2,Bonificaci√≥n de tasa crediticia,30638064126
3,Bonificaci√≥n de tasa crediticia,33629783909
4,ANR,33629783909
5,ANR,30709392243
6,Bonificaci√≥n de tasa crediticia,30709585939
7,ANR,30709585939
8,ANR,30560312411


 # **<font color="#07a8ed">HTML Web Scraping</font>**

<p align="justify">
<code>Python</code> tiene muchas bibliotecas para leer y escribir datos en los  formatos <code>HTML</code> y <code>XML</code>. Los ejemplos incluyen <code>lxml</code>, <code>Beautiful Soup</code> y <code>html5lib</code>. Si bien <code>lxml</code> es comparativamente mucho m√°s r√°pido en general, las otras bibliotecas pueden manejar mejor los archivos <code>HTML</code> o <code>XML</code> con formato incorrecto.</p>

<p align="justify"> üëÄ <code>Pandas</code> tiene una funci√≥n integrada, <code>read_html</code> que utiliza todas estas bibliotecas para analizar autom√°ticamente las tablas de los archivos <code>HTML</code> como objetos <code>DataFrame</code>.
</p>

<p align="justify"> üëÄ Es recomendable habilitar algunas bibliotecas adicionales, en este caso, las que usa la funci√≥n <code>read_html</code>.
</p>

In [None]:
# import lxml
# import bs4
# import html5lib

In [None]:
URL = "https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp"

In [None]:
recaudacion = pd.read_html(URL, encoding='iso-8859-1')

<p align="justify"> üëÄ El resultado de usar la funci√≥n <code>read_html</code> es una lista de objetos <code>DataFrame</code>.
</p>

In [None]:
type(recaudacion)

list

In [None]:
len(recaudacion)

1

In [None]:
df = recaudacion[0]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,241,242,243,244,245,246,247,248,249,250
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


<p align="justify">Este es un <code>DataFrame</code> ideal para hacer tareas de limpieza y transformaci√≥n de datos.
</p>

In [None]:
df.loc[:,0:25]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641,14525560710,47346036894
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915,14960067498,52411425612
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415,15059684558,56751086613
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5,17487400044,60502130948
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694,18906730844,64921410660
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858,20011320650,66006863236
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943,22575360462,66390437802
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335,24771434365,


 # **<font color="#07a8ed">Algunos formatos de datos binarios</font>**

<p align="justify">
Una forma sencilla de almacenar o serializar datos en formato binario es usar el m√≥dulo integrado de <code>Python</code> denominado <code>pickle</code>. Todos los objetos <code>Pandas</code> tienen un metodo <code>to_pickle()</code> que escribe los datos en formato <code>pickle</code>.</p>

In [None]:
subsidios2

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


 ## **<font color="#07a8ed">Pickle</font>**

In [None]:
subsidios2.to_pickle("subsidios.pkl")

In [None]:
df_pickle = pd.read_pickle("subsidios.pkl")
df_pickle

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


 ## **<font color="#07a8ed">Parquet</font>**

In [None]:
subsidios2.to_parquet("subsidios.parquet")

In [None]:
df_parquet = pd.read_parquet("subsidios.parquet")
df_parquet

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


 # **<font color="#07a8ed">Otros formatos</font>**

 ## **<font color="#07a8ed">Json</font>**

In [None]:
subsidios2.to_json("subsidios.json")

In [None]:
df_json = pd.read_json("subsidios.json")
df_json

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


 ## **<font color="#07a8ed">Hdf</font>**

In [None]:
subsidios2.to_hdf("subsidios.h5", key="df")

In [None]:
df_hdf = pd.read_hdf("subsidios.h5", key="df")
df_hdf

Unnamed: 0,beneficio_tipo,beneficiario_cuit
0,Bonificaci√≥n de tasa crediticia,30708334584
1,ANR,30708334584
2,ANR,30638064126
3,Bonificaci√≥n de tasa crediticia,30638064126
4,Bonificaci√≥n de tasa crediticia,33629783909
5,ANR,33629783909
6,ANR,30709392243
7,Bonificaci√≥n de tasa crediticia,30709585939
8,ANR,30709585939
9,ANR,30560312411


<br>
<br>
<p align="center"><b>
üíó
<font color="#07a8ed">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
