<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.py/bds_pandas_001.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true)

![](https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true)

<p align="justify"><b>
<font color="DeepPink">
💗 En este notebook se desarrollarán opciones y personalización del comportamiento del dataframe y su visualización. Los datos del dataframe son los adquiridos de la página web de la Administración Tributaria Mendoza relacionados con la recaudación impositiva anual.
</font>
</p>


<p>
<font color="DeepPink">

**👀 Antes que nada, verificamos la versión de Python con la cual estamos trabajando...**

</font>
</p>

In [None]:
!python3 -V

Python 3.8.16


 # **<font color="DeepPink">Algo más que 10 minutos... opciones y configuraciones...</font>**

<p>
<font color="DeepPink">

**Pandas tiene una API de opciones y configuraciones. Esta API tiene $5$ funciones relevantes:**

</font>
</p>

<p>
<font color="DeepPink">

- **```get_option()``` obtiene el valor de una opción.**
- **```set_option()``` establece el valor de una opción.**
- **```describe_option()``` muestra las descripciones de una o más opciones.**
- **```reset_option()``` establece una o más opciones a su valor predeterminado.**
- **```option_context()``` ejecuta un bloque de código con un conjunto de opciones que vuelven a la configuración anterior, después de la ejecución.**

</font>
</p>

## **<font color="DeepPink">Habilitando bibliotecas de análisis de datos...</font>**

In [None]:
import numpy as np
import pandas as pd

https://pandas.pydata.org/

## **<font color="DeepPink">Obtención de datos y creación del dataframe</font>**



https://www.atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_por_impuesto_anual.jsp

In [None]:
data = "https://www.atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_por_impuesto_anual.jsp"
lista = pd.read_html(data, flavor="html5lib", index_col=0, header=1)
df = lista[22].dropna(axis=1, how="all")
df.columns = df.iloc[0,]
df.columns.name = None
df.index.name = "Mes"
df.reset_index(inplace=True)
df = df.dropna(axis=0, how="all")
df.reset_index(drop=True,inplace=True)
df = df[(df.Automotor != "Automotor") & (df.Mes != "Totales")]
df.set_index("Mes", drop=True, inplace=True)
df = df.astype("float")
df.reset_index(inplace=True)
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013400.0,6815276000.0,83236120.0,277734400.0,960633300.0
1,Febrero,223999100.0,6525088000.0,327088200.0,2165284000.0,851884000.0
2,Marzo,218445000.0,6633613000.0,1377478000.0,675398100.0,810314700.0
3,Abril,233420600.0,7882944000.0,214670300.0,925755800.0,952296500.0
4,Mayo,260269300.0,8485149000.0,429439200.0,511257300.0,1083551000.0
5,Junio,243073700.0,8272231000.0,192503800.0,986531000.0,1081415000.0
6,Julio,187551700.0,9777145000.0,423569500.0,562866400.0,1138253000.0
7,Agosto,214209700.0,10673850000.0,208783200.0,1051894000.0,1189081000.0
8,Septiembre,220741100.0,10903030000.0,454538900.0,539079600.0,1405662000.0
9,Octubre,203839900.0,11468660000.0,212987300.0,497258200.0,1211573000.0


<p align="justify"><b>
<font color="DeepPink">
Como podemos ver, tenemos un dataframe con la recaudación anual de impuestos provinciales. En el caso de los datos numéricos, se puede observar que su notación es científica. Nuestro objetivo será configurar el dataframe y darle otro aspecto, y que los datos numéricos tengan dos decimales...

</font>
</p>


<p>
<font color="DeepPink">

> **Vamos a verificar nuestro dataframe, con el método ```info()```...**
</font>
</p>

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Mes              12 non-null     object 
 1   Ingresos Varios  11 non-null     float64
 2   Ingresos Brutos  11 non-null     float64
 3   Inmobiliario     11 non-null     float64
 4   Automotor        11 non-null     float64
 5   Sellos           11 non-null     float64
dtypes: float64(5), object(1)
memory usage: 704.0+ bytes


## **<font color="DeepPink">Opciones y configuraciones</font>**


https://pandas.pydata.org/docs/user_guide/options.html

<p align="justify"><b>
<font color="DeepPink">
👀 Entonces, habiamos dicho que pandas puede configurar el comportamiento global del dataframe, y su visualización, esto es muy útil porque contribuye al análisis de los datos.<br><br>
Con el método <code>describe_option()</code> se puede ver la configuración actual del dataframe... Si dentro de los paréntesis no se establece un parámetro, el método entonces muestra todas las opciones y configuraciones disponibles del dataframe...
</font>
</p>

<p align="justify"><b>
<font color="DeepPink">
Por el contrario, si como parámetro se establece una opción, entonces se podrá acceder a todas las configuraciones posibles de esa opción, como lo sería en el caso del parámetro <code>display</code> como se muestra a continuación...
</font>
</p>

```python
pd.describe_option('display')
```


### **<font color="DeepPink">Formato cientifico y cantidad de decimales</font>**

<font color="DeepPink">

> **```display.precision``` se utiliza para configurar la cantidad de decimales...**
</font>

In [None]:
pd.describe_option('display.precision')

display.precision : int
    Floating point output precision in terms of number of places after the
    decimal, for regular formatting as well as scientific notation. Similar
    to ``precision`` in :meth:`numpy.set_printoptions`.
    [default: 6] [currently: 6]


<font color="DeepPink">

**```float_format``` establece el comportamiento de los decimales, y cambia el aspecto científico de los números...**
</font>

In [None]:
pd.describe_option('float_format')

display.float_format : callable
    The callable should accept a floating point number and return
    a string with the desired format of the number. This is used
    in some places like SeriesFormatter.
    See formats.format.EngFormatter for an example.
    [default: None] [currently: None]


In [None]:
pd.options.display.precision = 2

In [None]:
df.describe()

Unnamed: 0,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
count,11.0,11.0,11.0,11.0,11.0
mean,219000000.0,9080000000.0,399000000.0,793000000.0,1090000000.0
std,23200000.0,2080000000.0,349000000.0,513000000.0,182000000.0
min,179000000.0,6530000000.0,83200000.0,278000000.0,810000000.0
25%,209000000.0,7350000000.0,211000000.0,522000000.0,956000000.0
50%,221000000.0,8490000000.0,327000000.0,563000000.0,1080000000.0
75%,229000000.0,10800000000.0,442000000.0,956000000.0,1200000000.0
max,260000000.0,12400000000.0,1380000000.0,2170000000.0,1410000000.0


In [None]:
pd.options.display.float_format = "{:.2f}".format

In [None]:
df.describe()

Unnamed: 0,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
count,11.0,11.0,11.0,11.0,11.0
mean,218700202.99,9077969616.59,399016994.23,793225722.2,1087271779.69
std,23158730.57,2080774830.09,349092352.49,513495285.71,182090045.78
min,179013389.0,6525087915.0,83236124.0,277734375.0,810314736.0
25%,209024755.5,7349109600.75,210885243.5,521841042.5,956464930.79
50%,220741077.0,8485148694.0,327088196.0,562866368.0,1083550836.0
75%,228709849.96,10788440697.0,441989002.5,956143448.11,1200326841.0
max,260269325.0,12420675590.0,1377477738.0,2165283816.0,1405661757.0


### **<font color="DeepPink">Cantidad de filas del dataframe</font>**

In [None]:
pd.describe_option('display.max_rows')

display.max_rows : int
    If max_rows is exceeded, switch to truncate view. Depending on
    `large_repr`, objects are either centrally truncated or printed as
    a summary view. 'None' value means unlimited.

    In case python/IPython is running in a terminal and `large_repr`
    equals 'truncate' this can be set to 0 and pandas will auto-detect
    the height of the terminal and print a truncated object which fits
    the screen height. The IPython notebook, IPython qtconsole, or
    IDLE do not run in a terminal and hence it is not possible to do
    correct auto-detection.
    [default: 60] [currently: 60]


In [None]:
pd.describe_option('display.min_rows')

display.min_rows : int
    The numbers of rows to show in a truncated view (when `max_rows` is
    exceeded). Ignored when `max_rows` is set to None or 0. When set to
    None, follows the value of `max_rows`.
    [default: 10] [currently: 10]


In [None]:
df.shape

(12, 6)

In [None]:
pd.options.display.max_rows = None

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
1,Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
2,Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
3,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
4,Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
5,Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
6,Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
7,Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
8,Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
9,Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


<P align="justify"><b>
<font color="DeepPink">
...y para volver a los parámetros iniciales... se utiliza el método <code>reset_option()</code> y entre paréntesis se coloca la opción que se quiere regresar a los valores por defecto...
</font>
</p>

In [None]:
pd.reset_option("display.max_rows")

<p align="justify"><b>
<font color="DeepPink">
...si lo que se quiere es ver mas de cinco filas iniciales y finales cuando se visualiza el dataframe, entonces se utiliza <code>display.min_rows</code>...
</font>

<font color="DeepPink">

**Ejemplo, tres filas iniciales y tres finales...**</font>

In [None]:
pd.options.display.min_rows = 6

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
1,Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
2,Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
3,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
4,Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
5,Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
6,Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
7,Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
8,Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
9,Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


In [None]:
pd.reset_option("display.min_rows")

In [None]:
df

Unnamed: 0,Mes,Ingresos Varios,Ingresos Brutos,Inmobiliario,Automotor,Sellos
0,Enero,179013389.0,6815275641.0,83236124.0,277734375.0,960633347.0
1,Febrero,223999109.0,6525087915.0,327088196.0,2165283816.0,851884008.0
2,Marzo,218445045.0,6633613415.0,1377477738.0,675398064.0,810314736.0
3,Abril,233420590.92,7882943560.5,214670297.57,925755849.22,952296514.58
4,Mayo,260269325.0,8485148694.0,429439154.0,511257271.0,1083550836.0
5,Junio,243073675.0,8272230858.0,192503829.0,986531047.0,1081415464.0
6,Julio,187551741.0,9777144943.0,423569483.0,562866368.0,1138253314.0
7,Agosto,214209657.0,10673847335.0,208783168.0,1051893523.0,1189081026.0
8,Septiembre,220741077.0,10903034059.0,454538851.0,539079630.0,1405661757.0
9,Octubre,203839854.0,11468663772.0,212987319.0,497258187.0,1211572656.0


---
<p align="justify"><b>
<font color="DeepPink">
💗El desafío ahora, es automatizar los scrips para que de la lista inicial, se puedan crear todos los dataframes resultantes en virtud de los ejercicios fiscales que tiene la lista, es decir, desde el año $2000$ hasta el año actual.
</font>
</p>

---