<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.01/bds_web_scraping_001_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Web Scraping en Administración Tributaria Mendoza</font>**

<p align="center">
<img src="https://atm.mendoza.gov.ar/wp-content/uploads/2023/01/Frente-Atm.png">
</p>



https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp


<p align="justify">
👀 En la página web de la Administración Tributaria Mendoza, podemos ver la recaudación por ejercicios fiscales del Impuesto sobre los Ingresos Brutos. Lo que vamos a hacer, es tomar esos datos y generar nuestro <code>DataFrame</code>. Una vez generado, lo vamos a ordenar para poder hacer un gráfico.</p>

 # **<font color="DeepPink">Habilitando bibliotecas requeridas</font>**

 ## **<font color="DeepPink">Para análisis de datos</font>**

In [None]:
import numpy as np
import pandas as pd

 ## **<font color="DeepPink">Para web scraping</font>**

In [None]:
import lxml
import bs4
import html5lib

 ## **<font color="DeepPink">Configuraciones del DataFrame</font>**

In [None]:
pd.options.display.precision = 2
pd.options.display.float_format = "{:.2f}".format

 ## **<font color="DeepPink">Para graficos</font>**

In [None]:
import plotly.express as px
import plotly.graph_objects as go

 # **<font color="DeepPink">Obtención de datos</font>**

<p align="justify"> 👀 A un objeto, le asignamos la dirección URL donde se encuentra la información.
</p>

In [None]:
data = "https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp"

# **<font color="DeepPink">Creando un DataFrame</font>**


<p align="justify"> 👀 Utilizamos el método <code>read_html()</code> de <code>Pandas</code>.
</p>

In [None]:
lista = pd.read_html(data)

<p align="justify"> 👀 Vemos que el objeto al cual se le asigno la lectura del html, es una lista, y lo verificamos con <code>type()</code>. En este caso, esta lista tiene un solo elemento y ese elemento es un <code>DataFrame</code>, es decir, el método <code>read_html()</code> genera listas de $n$ elementos, al consultar o llamar a los elementos, se visualizan los <code>DataFrames</code>.
</p>

In [None]:
type(lista)

list

In [None]:
len(lista)

1

In [None]:
df = lista[0]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


<p align="justify"> 👀 Ahora colocamos los nombres de las columnas, teniendo en cuenta la etiqueta $1$ del indice. Pero al hacer eso, vemos que a las columnas se le asigna un nombre. Por ese motivo, se establece con la propiedad <code>columns.name</code> que las columnas no tengan nombre. Por otro lado, con el método <code>display()</code> se puede visualizar el <code>DataFrame</code> cuando queremos verlo entre operaciones que estamos desarrollando en nuestro script, como por ejemplo, la celda a continuación:
</p>

In [None]:
df.columns = df.loc[1]
display(df)
df.columns.name = None
df

1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,NaN,NaN.1,NaN.2,NaN.3,NaN.4,NaN.5,NaN.6,NaN.7,NaN.8,NaN.9
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,NaN,NaN.1,NaN.2,NaN.3,NaN.4,NaN.5,NaN.6,NaN.7,NaN.8,NaN.9
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


<p align="justify"> 👀 Ahora filtramos por los indices que queremos ver, que son los correspondientes a los datos mensuales, la recaudación de Enero a Diciembre. Esto directamente lo hacemos con la selección de indices, el método <code>loc[]</code>. La idea de este paso, es poder realizar a continuación, la eliminación de datos nulos.
</p>

In [None]:
df = df.loc[2:13]
df

<p align="justify"> 👀 Ahora eliminamos las columnas que tienen todos sus datos nulos, ya que puede pasar que en el ejercicio fiscal en marcha, solo esten cargados algunos meses de recaudación, es decir, los meses anteriores al mes de la fecha que estamos consultando. Esos datos se irán completando, a medida que pase el tiempo y lleguemos a fin de año.
</p>

In [None]:
df = df.dropna(axis=1, how="all")
df

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0,14525560710.0
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0,14960067498.0
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0,15059684558.0
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,604987628,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858.0,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,604665547,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943.0,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,693626723,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335.0,
10,Septiembre,15756538,16781292,18684199,25513569,31578993,43003892,63159166,70058014,91342609,...,673022303,831099102,1141604417,1518901732,2059133833,2874249708,3102345313,5349090672,10903034059.0,
11,Octubre,15731005,13506128,18518490,25042384,33774686,41477902,63007199,72036143,90090534,...,766913451,897798301,1098256448,1483261492,2154164859,2863717767,3254208843,5368896164,11468663772.0,


<p align="justify"> 👀 Ahora seteamos el indice con la columna <code>Meses</code>, para dejar todo el <code>DataFrame</code> con valores "numéricos" pero vamos a verificar que tipo de datos tiene para ajustarlo al tipo de datos que corresponde, es decir, que nuestros datos sean numéricos.
</p>

In [None]:
df.set_index("Meses", inplace=True)
df

<p align="justify"> 👀 Los datos de nuestro <code>DataFrame</code> no son numericos.
</p>

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, Enero to Diciembre
Data columns (total 24 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   2000    12 non-null     object
 1   2001    12 non-null     object
 2   2002    12 non-null     object
 3   2003    12 non-null     object
 4   2004    12 non-null     object
 5   2005    12 non-null     object
 6   2006    12 non-null     object
 7   2007    12 non-null     object
 8   2008    12 non-null     object
 9   2009    12 non-null     object
 10  2010    12 non-null     object
 11  2011    12 non-null     object
 12  2012    12 non-null     object
 13  2013    12 non-null     object
 14  2014    12 non-null     object
 15  2015    12 non-null     object
 16  2016    12 non-null     object
 17  2017    12 non-null     object
 18  2018    12 non-null     object
 19  2019    12 non-null     object
 20  2020    12 non-null     object
 21  2021    12 non-null     object
 22  2022    12 non-null   

In [None]:
df = df.astype("float")

<p align="justify"> 👀 Ahora si son numéricos decimales.
</p>

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, Enero to Diciembre
Data columns (total 24 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   2000    12 non-null     float64
 1   2001    12 non-null     float64
 2   2002    12 non-null     float64
 3   2003    12 non-null     float64
 4   2004    12 non-null     float64
 5   2005    12 non-null     float64
 6   2006    12 non-null     float64
 7   2007    12 non-null     float64
 8   2008    12 non-null     float64
 9   2009    12 non-null     float64
 10  2010    12 non-null     float64
 11  2011    12 non-null     float64
 12  2012    12 non-null     float64
 13  2013    12 non-null     float64
 14  2014    12 non-null     float64
 15  2015    12 non-null     float64
 16  2016    12 non-null     float64
 17  2017    12 non-null     float64
 18  2018    12 non-null     float64
 19  2019    12 non-null     float64
 20  2020    12 non-null     float64
 21  2021    12 non-null     float64
 22

<p align="justify"> 👀 Vamos a crear un diccionario para colocar los nombres de los meses y su equivalente numérico. La idea es mapear en el <code>DataFrame</code> y convertir los nombres de los meses en números. De esa forma, al graficar, el eje $X$ va a estar más ordenado.
</p>

In [None]:
Meses = {"Enero":1, "Febrero":2, "Marzo":3, "Abril":4, "Mayo":5, "Junio":6,
         "Julio":7, "Agosto":8, "Septiembre":9, "Octubre":10, "Noviembre":11, "Diciembre":12}

Aplicamos el metodo <code>map()</code> al indice de nuestro <code>DataFrame</code>, y supuestamente con esto, ya estaría limpio todo nuestro <code>DataFrame</code>, pero lo que queremos hacer a continuación es reordenarlo solo a los efectos de graficar, ya que la distribución de los datos se encuentra a lo ancho, y <code>Plotly</code> utiliza <code>DataFrames</code> con formato a lo largo.

In [None]:
df.index = df.index.map(Meses)

In [None]:
df

Unnamed: 0_level_0,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,18843926.0,18114420.0,12722708.0,20192886.0,28492948.0,37455922.0,48307581.0,61131913.0,88818881.0,92258442.0,...,617487225.0,782112955.0,990329978.0,1317982229.0,1642808124.0,2195529730.0,3068476937.0,4210333243.0,6815275641.0,14525560710.0
2,16258743.0,32180909.0,11237981.0,20257924.0,26276427.0,35131740.0,45290618.0,58230197.0,76675888.0,87810745.0,...,594553955.0,729820564.0,919810308.0,1194014665.0,1497939109.0,2103363732.0,3246583141.0,4035920128.0,6525087915.0,14960067498.0
3,17468327.0,14453688.0,11460186.0,19766456.0,27124258.0,33982257.0,45654235.0,58267059.0,74072263.0,78868768.0,...,574800388.0,702603251.0,965441676.0,1202600310.0,1492442509.0,2143791335.0,2869934807.0,3969197922.0,6633613415.0,15059684558.0
4,17463084.0,15809614.0,12300935.0,20503786.0,32466739.0,39149216.0,47268950.0,61113108.0,88241185.0,85345414.0,...,590621171.0,741563435.0,1046270167.0,1386964121.0,1611327512.0,2277286791.0,2711722096.0,4446800638.0,7882943560.5,
5,15978692.0,14610889.0,14265621.0,20988947.0,30252979.0,39887132.0,60082271.0,65113469.0,90479860.0,89655037.0,...,608269518.0,770937471.0,1043528821.0,1288922134.0,1630360944.0,2456053054.0,2558796240.0,4285918498.0,8485148694.0,
6,14676011.0,14328045.0,16351168.0,21041197.0,30687746.0,39160678.0,56268381.0,65906755.0,83292810.0,87674064.0,...,604987628.0,774531242.0,991656616.0,1291359719.0,1725684002.0,2334065968.0,2601499359.0,4477259473.0,8272230858.0,
7,15299790.0,14675150.0,17106546.0,21763328.0,30962034.0,39205417.0,59484119.0,66270873.0,88028892.0,90860861.0,...,604665547.0,856524734.0,1105998076.0,1355228857.0,1734466058.0,2419755126.0,2800037597.0,4653112414.0,9777144943.0,
8,15802483.0,14475158.0,18373950.0,23185411.0,31937418.0,40688413.0,58732118.0,67496826.0,94763397.0,93054929.0,...,693626723.0,859765325.0,1127364425.0,1460045961.0,1884253360.0,2761171810.0,3271900805.0,4977782152.0,10673847335.0,
9,15756538.0,16781292.0,18684199.0,25513569.0,31578993.0,43003892.0,63159166.0,70058014.0,91342609.0,96826061.0,...,673022303.0,831099102.0,1141604417.0,1518901732.0,2059133833.0,2874249708.0,3102345313.0,5349090672.0,10903034059.0,
10,15731005.0,13506128.0,18518490.0,25042384.0,33774686.0,41477902.0,63007199.0,72036143.0,90090534.0,104056432.0,...,766913451.0,897798301.0,1098256448.0,1483261492.0,2154164859.0,2863717767.0,3254208843.0,5368896164.0,11468663772.0,


In [None]:
lista = []

In [None]:
for i, j in enumerate(df.columns):
  datos = pd.DataFrame(df[j])
  datos = datos.rename(columns={j:"iibb"})
  datos["Año"] = 2000+i
  datos = datos[["Año","iibb"]]
  lista.append(datos)

In [None]:
iibb = pd.concat(lista)
iibb.index.name = "Mes"
iibb.reset_index(inplace=True)

In [None]:
iibb

Unnamed: 0,Mes,Año,iibb
0,1,2000,18843926.00
1,2,2000,16258743.00
2,3,2000,17468327.00
3,4,2000,17463084.00
4,5,2000,15978692.00
...,...,...,...
283,8,2023,
284,9,2023,
285,10,2023,
286,11,2023,


# **<font color="DeepPink">Gráfico</font>**


In [None]:
px.line(iibb.query("Año > 2002 & Año < 2005"),
        x="Mes",
        y="iibb",
        color="Año",
        template="gridon",
        title="Ingresos Brutos",
        markers=True,
        labels={"iibb":"Recaudación"})