<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.py/bds_pandas_000_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true)

![](https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true)


<p align="justify"><b>
<font color="DeepPink">
💗 En este notebook se desarrollarán algunos conceptos para empezar a recordar nuestra experiencia con Pandas. El objetivo de este notebook es traer los datos de la página web de la Administración Tributaria Mendoza, y generar un dataframe con la recaudación impositiva anual.
</font>
</p>



<p>
<font color="DeepPink">

**👀 Antes que nada, verificamos la versión de Python con la cual estamos trabajando...**

</font>
</p>

In [None]:
!python3 -V

Python 3.8.10


 # **<font color="DeepPink">Algo más que 10 minutos...</font>**

## **<font color="DeepPink">Habilitando bibliotecas de análisis de datos...</font>**

In [None]:
import numpy as np
import pandas as pd

https://pandas.pydata.org/

## **<font color="DeepPink">Obtención de datos</font>**



<p align="justify"><b>
<font color="DeepPink">Buscamos la página web en donde se encuentran los datos que queremos adquirir. Luego, al objeto <code>data</code> le asignamos la dirección URL de la página web de la Administración Tributaria Mendoza.

</font>
</p>


https://www.atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_por_impuesto_anual.jsp

In [None]:
data = "https://www.atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_por_impuesto_anual.jsp"

## **<font color="DeepPink">Creando un dataframe</font>**


### **<font color="DeepPink">Leyendo los datos</font>**

<p align="justify"><b>
<font color="DeepPink">
Utilizamos el método de Pandas <code>read_html()</code> para leer los datos de la página web, y utilizamos los parámetros <code>index_col=0</code> y <code>header=1</code> para hacer un poco legigle los datos...

</font>
</p>


In [None]:
lista = pd.read_html(data, flavor="html5lib", index_col=0, header=1)

<p align="justify">
<font color="DeepPink">

**Se procede a verificar el objeto creado con el método ```type()```...**

</font>
</p>

In [None]:
type(lista)

list

### **<font color="DeepPink">Visualizando los datos</font>**

<p align="justify"><b>
<font color="DeepPink">
Verificamos la cantidad de elementos que tiene la lista con el método <code>len()</code> y luego, llamamos al objeto <code>df</code> para ver los datos...

</font>
</p>

In [None]:
len(lista)

23

<p align="justify"><b>
<font color="DeepPink">
El objeto tiene $23$ elementos, que corresponden a las diferentes tablas con las recaudaciones de los impuestos por año fiscal, desde el año $2000$ hasta el año $2022$...

</font>
</p>

### **<font color="DeepPink">Dando el formato de dataframe</font>**

<p align="justify"><b>
<font color="DeepPink">
Primero vamos a visualizar el último elemento de la lista, ya sabiendo que la lista posee $23$ elementos, entonces llamamos al último...

</font>
</p>

In [None]:
lista[22]

Unnamed: 0_level_0,Impuestos 2000 - 2022,Impuestos 2000 - 2022.1,Impuestos 2000 - 2022.2,Impuestos 2000 - 2022.3,Impuestos 2000 - 2022.4,Impuestos 2000 - 2022.5,Impuestos 2000 - 2022.6,Impuestos 2000 - 2022.7,Impuestos 2000 - 2022.8,Impuestos 2000 - 2022.9,...,Impuestos 2000 - 2022.40,Impuestos 2000 - 2022.41,Impuestos 2000 - 2022.42,Impuestos 2000 - 2022.43,Impuestos 2000 - 2022.44,Impuestos 2000 - 2022.45,Impuestos 2000 - 2022.46,Impuestos 2000 - 2022.47,Impuestos 2000 - 2022.48,Impuestos 2000 - 2022.49
2022,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos,,,,,,...,,,,,,,,,,
,,,,,,,,,,,...,,,,,,,,,,
Enero,179013389,6815275641,83236124,277734375,960633347,,,,,,...,,,,,,,,,,
,,,,,,,,,,,...,,,,,,,,,,
Febrero,223999109,6525087915,327088196,2165283816,851884008,,,,,,...,,,,,,,,,,
,,,,,,,,,,,...,,,,,,,,,,
Marzo,218445045,6633613415,1377477738,675398064,810314736,,,,,,...,,,,,,,,,,
,,,,,,,,,,,...,,,,,,,,,,
Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58,,,,,,...,,,,,,,,,,
,,,,,,,,,,,...,,,,,,,,,,


<p align="justify"><b>
<font color="DeepPink">
El elemento tiene aspecto de dataframe, por lo cual podemos inferir que la lista, es una lista de dataframes, y cada uno de sus elementos es un dataframe correspondiente a cada uno de los años de recaudación, desde el año $2000$ hasta el año actual. Por lo tanto, el último elemento de la lista, es el año actual.

</font>
</p>

<p align="justify">
<font color="DeepPink">

> **Lo primero que vamos a hacer es eliminar las columnas con datos faltantes...**
</font>
</p>

In [None]:
df = lista[22].dropna(axis=1, how="all")

In [None]:
df

Unnamed: 0_level_0,Impuestos 2000 - 2022,Impuestos 2000 - 2022.1,Impuestos 2000 - 2022.2,Impuestos 2000 - 2022.3,Impuestos 2000 - 2022.4
2022,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
,,,,,
Enero,179013389,6815275641,83236124,277734375,960633347
,,,,,
Febrero,223999109,6525087915,327088196,2165283816,851884008
,,,,,
Marzo,218445045,6633613415,1377477738,675398064,810314736
,,,,,
Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
,,,,,


<p align="justify">
<font color="DeepPink">

> **Ahora vamos a renombrar las columnas del dataframe, con los datos de la primera fila, que son los impuestos provinciales...**
</font>
</p>

In [None]:
df.columns = df.iloc[0,]

In [None]:
df

nan,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
2022,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
,,,,,
Enero,179013389,6815275641,83236124,277734375,960633347
,,,,,
Febrero,223999109,6525087915,327088196,2165283816,851884008
,,,,,
Marzo,218445045,6633613415,1377477738,675398064,810314736
,,,,,
Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
,,,,,


<p align="justify">
<font color="DeepPink">

> **Vemos que las columnas tienen por nombre ```nan```, vamos a eliminar ese nombre y no dejar ningún nombre a las columnas...**
</font>
</p>

In [None]:
df.columns.name = None

In [None]:
df

Unnamed: 0_level_0,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
2022,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
,,,,,
Enero,179013389,6815275641,83236124,277734375,960633347
,,,,,
Febrero,223999109,6525087915,327088196,2165283816,851884008
,,,,,
Marzo,218445045,6633613415,1377477738,675398064,810314736
,,,,,
Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
,,,,,


<p align="justify">
<font color="DeepPink">

> **Ahora al indice del dataframe, en donde estan los meses del ejercicio fiscal, le vamos a poner un nombre, para luego, ingresarlo como columna al dataframe...**
</font>
</p>

In [None]:
df.index.name = "Mes"

In [None]:
df.reset_index(inplace=True)

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
1,,,,,,
2,Enero,179013389,6815275641,83236124,277734375,960633347
3,,,,,,
4,Febrero,223999109,6525087915,327088196,2165283816,851884008
5,,,,,,
6,Marzo,218445045,6633613415,1377477738,675398064,810314736
7,,,,,,
8,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
9,,,,,,


<p align="justify">
<font color="DeepPink">

> **Ahora vamos a eliminar las filas que tengan todos sus datos faltantes, para ello usamos el método de Pandas ```dropna()``` con los parámetros ```axis=0``` para indicar que queremos eliminar las filas, y el parametro ```how=all```, es decir eliminar las filas en donde todos sus datos son faltantes...**
</font>
</p>

In [None]:
df = df.dropna(axis=0, how="all")

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
2,Enero,179013389,6815275641,83236124,277734375,960633347
4,Febrero,223999109,6525087915,327088196,2165283816,851884008
6,Marzo,218445045,6633613415,1377477738,675398064,810314736
8,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
10,Mayo,260269325,8485148694,429439154,511257271,1083550836
12,Junio,243073675,8272230858,192503829,986531047,1081415464
14,Julio,187551741,9777144943,423569483,562866368,1138253314
16,Agosto,214209657,10673847335,208783168,1051893523,1189081026
18,Septiembre,220741077,10903034059,454538851,539079630,1405661757


<p align="justify">
<font color="DeepPink">

> **Lo que vamos a hacer ahora, es ordenar el indice, usando el método ```reset_index()```, eliminando el índice, sin ingresarlo al dataframe, y con posterioridad a ello, vamos a eliminar la primera fila y la última fila del dataframe, pero con el uso de filtros...**
</font>
</p>

In [None]:
df.reset_index(drop=True, inplace=True)

In [None]:
df = df[(df.Automotor != "Automotor") & (df.Mes != "Totales")]

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
1,Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
2,Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
3,Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
4,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
5,Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
6,Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
7,Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
8,Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
9,Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
10,Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


<p align="justify">
<font color="DeepPink">

> **Ahora vamos a verificar el tipo de datos de cada una de las series del dataframe, y convertir los ```objects``` en ```float```, para ello, vamos a sacar la serie Mes, convirtiendola en el indice, y luego le vamos a aplicar el cambio del tipo de dato a todo el dataframe...**
</font>
</p>

In [None]:
df.set_index("Mes", drop=True, inplace=True)

In [None]:
df

Unnamed: 0_level_0,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
Mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


In [None]:
df = df.astype("float")

In [None]:
df.reset_index(inplace=True)

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013400.0,6815276000.0,83236120.0,277734400.0,960633300.0
1,Febrero,223999100.0,6525088000.0,327088200.0,2165284000.0,851884000.0
2,Marzo,218445000.0,6633613000.0,1377478000.0,675398100.0,810314700.0
3,Abril,233420600.0,7882944000.0,214670300.0,925755800.0,952296500.0
4,Mayo,260269300.0,8485149000.0,429439200.0,511257300.0,1083551000.0
5,Junio,243073700.0,8272231000.0,192503800.0,986531000.0,1081415000.0
6,Julio,187551700.0,9777145000.0,423569500.0,562866400.0,1138253000.0
7,Agosto,214209700.0,10673850000.0,208783200.0,1051894000.0,1189081000.0
8,Septiembre,220741100.0,10903030000.0,454538900.0,539079600.0,1405662000.0
9,Octubre,203839900.0,11468660000.0,212987300.0,497258200.0,1211573000.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Mes              12 non-null     object 
 1   Ingresos Varios  11 non-null     float64
 2   Ingresos Brutos  11 non-null     float64
 3   Inmobiliario     11 non-null     float64
 4   Automotor        11 non-null     float64
 5   Sellos           11 non-null     float64
dtypes: float64(5), object(1)
memory usage: 704.0+ bytes


<p align="justify">
<font color="DeepPink">

> **Ahora, solo a los efectos estéticos, vamos a configurar que los datos numéricos no tengan notación científica, y que tengan dos decimales, (este tema lo vamos a desarrollar en el próximo notebook)...**
</font>
</p>

In [None]:
pd.options.display.precision = 2
pd.options.display.float_format = "{:.2f}".format

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
1,Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
2,Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
3,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
4,Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
5,Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
6,Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
7,Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
8,Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
9,Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


<p align="justify"><b>
<font color="DeepPink">
✅ Ya tenemos nuestro dataframe correspondiente al último ejercicio fiscal con los datos numéricos.
</font>
</p>



---
<p align="justify"><b>
<font color="DeepPink">
💗 Ahora vamos a desarrollar, en el próximo notebook, opciones y configuraciones del dataframe...
</font>
</p>

---