<a href="https://colab.research.google.com/github/fpbarberis/notebooks/blob/main/Favio_Barberis_Actividad_Final_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/P4DA/blob/main/Logo.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


**FAVIO BARBERIS**

 # **<font color="RoyalBlue">Web Scraping en Administración Tributaria Mendoza</font>**

<p align="center">
<img src="https://atm.mendoza.gov.ar/wp-content/uploads/2023/01/Frente-Atm.png">
</p>



https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp


<p align="justify">
En la página web de la Administración Tributaria Mendoza, podemos ver la recaudación por ejercicios fiscales del Impuesto sobre los Ingresos Brutos. Lo que vamos a hacer, es tomar esos datos y generar nuestro <code>DataFrame</code>. Una vez generado, vamos a graficar los distintos ejercicios y ver las diferencias entre ellos, y tambien hacemos algunos análisis estadísticos.</p>

Entonces ¿que tenemos que hacer?

- Generar nuestro DataFrame, tiene desde el año $2000$ hasta el año $2022$.
  - Sería conveniente que los meses estén expresados en números.
  - Los meses deben ser el indice del DataFrame.
  - La dimensión final del objeto es $(12, 23)$
- Graficar los primeros tres o cinco ejercicios.
- Graficar los últimos tres o cinco ejercicios.
- Hacer un breve análisis estadísticos de algún ejercicio, por ejemplo:
  - Ver máxima recaudación
  - Ver mínima recaudación
  - Ver algúna recaudación "atípica"
- Graficos recomendados (libertad de elección)
  - Lineal
  - Dispersión
  - Histograma
  - Boxplot

 # **<font color="RoyalBlue">Habilitando bibliotecas requeridas</font>**

 ## **<font color="RoyalBlue">Para análisis de datos</font>**

In [1]:
import numpy as np
import pandas as pd

 ## **<font color="RoyalBlue">Para web scraping</font>**

In [2]:
import lxml
import bs4
import html5lib

 ## **<font color="RoyalBlue">Configuraciones del DataFrame</font>**

In [3]:
pd.options.display.precision = 2
pd.options.display.float_format = "{:.2f}".format

 ## **<font color="RoyalBlue">Para graficos</font>**

In [4]:
import plotly.express as px

# **<font color="RoyalBlue">Creando un DataFrame</font>**


In [5]:
data = "https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp"
lista = pd.read_html(data)
df = lista[0]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


<p align="justify"> 👀 A partir de acá, hacer la magia...
</p>

In [6]:
# diccionario para modificar nombres de meses por números
Meses = {"Enero":1, "Febrero":2, "Marzo":3, "Abril":4, 
        "Mayo":5, "Junio": 6,
        "Julio":7, "Agosto":8,
        "Septiembre":9,"Octubre": 10,
        "Noviembre":11, "Diciembre":12}

In [7]:
df1 = df.copy()

In [8]:
# elimina filas con datos nulos
df1.dropna(axis=1, how="any", inplace=True)

In [9]:
# valores a utilizar como columnas
df1.columns = df1.loc[1]

In [10]:
df1.columns.name = None

In [11]:
# filtra la primera fila "Ingresos Brutos"
df1 = df1. loc[2:13]

In [12]:
# Setea los Meses como índice del df
df1.set_index("Meses", inplace=True)

In [13]:
# Podemos ver que los valores del df son de tipo object, y nos interesa tenerlos como valores flotantes
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, Enero to Diciembre
Data columns (total 23 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   2000    12 non-null     object
 1   2001    12 non-null     object
 2   2002    12 non-null     object
 3   2003    12 non-null     object
 4   2004    12 non-null     object
 5   2005    12 non-null     object
 6   2006    12 non-null     object
 7   2007    12 non-null     object
 8   2008    12 non-null     object
 9   2009    12 non-null     object
 10  2010    12 non-null     object
 11  2011    12 non-null     object
 12  2012    12 non-null     object
 13  2013    12 non-null     object
 14  2014    12 non-null     object
 15  2015    12 non-null     object
 16  2016    12 non-null     object
 17  2017    12 non-null     object
 18  2018    12 non-null     object
 19  2019    12 non-null     object
 20  2020    12 non-null     object
 21  2021    12 non-null     object
 22  2022    12 non-null   

In [14]:
# cambia el nombre de cada mes por su numero correspondiente en el diccionario "Meses" creado anteriormente
df1.index = df1.index.map(Meses)

In [15]:
# convierete a tipo float los valores del df
df1 = df1.astype("float")

In [16]:
# En este punto tenemos un df de 12 filas y 23 columnas
df1

Unnamed: 0_level_0,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,18843926.0,18114420.0,12722708.0,20192886.0,28492948.0,37455922.0,48307581.0,61131913.0,88818881.0,92258442.0,...,397924131.0,617487225.0,782112955.0,990329978.0,1317982229.0,1642808124.0,2195529730.0,3068476937.0,4210333243.0,6815275641.0
2,16258743.0,32180909.0,11237981.0,20257924.0,26276427.0,35131740.0,45290618.0,58230197.0,76675888.0,87810745.0,...,384301390.0,594553955.0,729820564.0,919810308.0,1194014665.0,1497939109.0,2103363732.0,3246583141.0,4035920128.0,6525087915.0
3,17468327.0,14453688.0,11460186.0,19766456.0,27124258.0,33982257.0,45654235.0,58267059.0,74072263.0,78868768.0,...,380740043.0,574800388.0,702603251.0,965441676.0,1202600310.0,1492442509.0,2143791335.0,2869934807.0,3969197922.0,6633613415.0
4,17463084.0,15809614.0,12300935.0,20503786.0,32466739.0,39149216.0,47268950.0,61113108.0,88241185.0,85345414.0,...,409508295.0,590621171.0,741563435.0,1046270167.0,1386964121.0,1611327512.0,2277286791.0,2711722096.0,4446800638.0,7882943560.5
5,15978692.0,14610889.0,14265621.0,20988947.0,30252979.0,39887132.0,60082271.0,65113469.0,90479860.0,89655037.0,...,434638392.0,608269518.0,770937471.0,1043528821.0,1288922134.0,1630360944.0,2456053054.0,2558796240.0,4285918498.0,8485148694.0
6,14676011.0,14328045.0,16351168.0,21041197.0,30687746.0,39160678.0,56268381.0,65906755.0,83292810.0,87674064.0,...,443506242.0,604987628.0,774531242.0,991656616.0,1291359719.0,1725684002.0,2334065968.0,2601499359.0,4477259473.0,8272230858.0
7,15299790.0,14675150.0,17106546.0,21763328.0,30962034.0,39205417.0,59484119.0,66270873.0,88028892.0,90860861.0,...,457074198.0,604665547.0,856524734.0,1105998076.0,1355228857.0,1734466058.0,2419755126.0,2800037597.0,4653112414.0,9777144943.0
8,15802483.0,14475158.0,18373950.0,23185411.0,31937418.0,40688413.0,58732118.0,67496826.0,94763397.0,93054929.0,...,476677270.0,693626723.0,859765325.0,1127364425.0,1460045961.0,1884253360.0,2761171810.0,3271900805.0,4977782152.0,10673847335.0
9,15756538.0,16781292.0,18684199.0,25513569.0,31578993.0,43003892.0,63159166.0,70058014.0,91342609.0,96826061.0,...,517929584.0,673022303.0,831099102.0,1141604417.0,1518901732.0,2059133833.0,2874249708.0,3102345313.0,5349090672.0,10903034059.0
10,15731005.0,13506128.0,18518490.0,25042384.0,33774686.0,41477902.0,63007199.0,72036143.0,90090534.0,104056432.0,...,485045463.0,766913451.0,897798301.0,1098256448.0,1483261492.0,2154164859.0,2863717767.0,3254208843.0,5368896164.0,11468663772.0


# ***GRAFICOS***

**INGRESOS BRUTOS - AÑOS 2000, 2001, 2002**

In [17]:
# Filtra los datos para los años 2000, 2001, 2002
df_plot = df1.loc[:, ["2000", "2001", "2002"]].reset_index()
# Renombra la columna del índice a 'Meses'
df_plot = df_plot.rename(columns={'index': 'Meses'})

In [75]:
# Gráfico lineal
fig = px.line(df_plot, x="Meses", y=["2000", "2001", "2002"], labels={'value': 'Ingresos brutos','variable':'Año'},
              title='Ingresos brutos por mes (2000-2001-2002)', template='plotly_white', markers=True)
fig.show()

**INGRESOS BRUTOS - AÑOS 2020, 2021, 2022**

In [19]:
# Filtra los datos para los años 2020, 2021, 2022
df_plot_last = df1.loc[:, ["2020", "2021", "2022"]].reset_index()
# Renombra la columna del índice a 'Meses'
df_plot_last = df_plot_last.rename(columns={'index': 'Meses'})

In [76]:
# Gráfico lineal
fig_ = px.line(df_plot_last, x="Meses", y=["2020", "2021", "2022"],
               labels={'value': 'Ingresos brutos','variable':'Año'},
               title='Ingresos brutos por mes (2020-2021-2022)', template='plotly_white', markers=True)
fig_.show()

# **Análisis de los datos correspondientes al año 2001**

In [21]:
# dataframe con los valores filtrados para este año
df_2001 = df1[["2001"]]

In [22]:
df_2001.describe()

Unnamed: 0,2001
count,12.0
mean,16162705.75
std,5310180.39
min,11570299.0
25%,14122565.75
50%,14543023.5
75%,16052533.5
max,32180909.0


Boxplot para ver valores atípicos facilmente

In [24]:
fig_boxplot2001 = px.box(df_2001, y="2001",
             title=f'Boxplot de Ingresos Brutos - Año {"2001"}',
             labels={'Meses': 'Meses', "2001": 'Ingresos Brutos'},
             color_discrete_sequence=['#FFA07A'],
             width=800, height=400)

# Resalta los puntos atípicos (outliers)
fig_boxplot2001.update_traces(marker=dict(color='#8B0000', size=8))  # Color y tamaño personalizados para outliers

# Actualiza el estilo del gráfico
fig_boxplot2001.update_layout(
    title_x=0.5,  # Centra el título
    font=dict(size=12),  # Tamaño de fuente del título y los ejes
    showlegend=False,
    margin=dict(l=50, r=50, t=50, b=50),  # Márgenes del gráfico
    paper_bgcolor='white',  # Color de fondo del gráfico
    plot_bgcolor='white'  # Color de fondo del área de trazado del gráfico
)
fig_boxplot2001.show()


**Valor máximo y valor mínimo de recaudación del año 2001**

In [25]:
maxim_2001 = df1["2001"].max()

In [26]:
minim_2001 = df1["2001"].min()

In [None]:
promedio_2001 = df_2001.mean()[0]

In [79]:
print(f"El menor valor de recaudación del año 2001 fue: ${minim_2001}, \nel valor promedio de recaudación fue: ${promedio_2001},\ny el mayor fue: ${maxim_2001}")

El menor valor de recaudación del año 2001 fue: $11570299.0, 
el valor promedio de recaudación fue: $16162705.75,
y el mayor fue: $32180909.0


# **Análisis de los datos correspondientes al año 2022**

In [28]:
# dataframe con los valores filtrados para este año
df_2022 = df1[["2022"]]

In [29]:
fig_boxplot2022 = px.box(df_2022, y="2022",
             title=f'Boxplot de Ingresos Brutos - Año {"2022"}',
             labels={'Meses': 'Meses', "2022": 'Ingresos Brutos'},
             color_discrete_sequence=['#FFA07A'],
             width=800, height=400)

# Actualiza el estilo del gráfico
fig_boxplot2022.update_layout(
    title_x=0.5,  # Centra el título
    font=dict(size=12),  # Tamaño de fuente del título y los ejes
    showlegend=False,
    margin=dict(l=50, r=50, t=50, b=50),  # Márgenes del gráfico
    paper_bgcolor='white',  # Color de fondo del gráfico
    plot_bgcolor='white'  # Color de fondo del área de trazado del gráfico
)
fig_boxplot2022.show()


**Valor máximo y valor mínimo de recaudación del año 2022**

In [83]:
df1["2022"].describe()

count            12.00
mean     9402561313.79
std      2280425170.90
min      6525087915.00
25%      7616026580.62
50%      9131146818.50
75%     11044441487.25
max     12973069983.00
Name: 2022, dtype: float64

In [30]:
maxim_2022 = df1["2022"].max()

In [31]:
minim_2022 = df1["2022"].min()

In [84]:
promedio_2022 = df1["2022"].mean()

In [85]:
print(f"El menor valor de recaudación del año 2022 fue: ${minim_2022},\nel valor promedio de recaudación fue: ${promedio_2022},\ny el mayor fue: ${maxim_2022}")

El menor valor de recaudación del año 2022 fue: $6525087915.0,
el valor promedio de recaudación fue: $9402561313.791666,
y el mayor fue: $12973069983.0


**Otros gráficos**

In [33]:
# Para graficar todos los años juntos
df_plot = df1.reset_index()
# Renombra la columna del índice a 'Meses'
df_plot = df_plot.rename(columns={'index': 'Meses'})

In [34]:
years = ['2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007',
       '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016',
       '2017', '2018', '2019', '2020', '2021', '2022']

In [67]:
# Gráfico lineal todos 
fig_ = px.line(df_plot, x='Meses', y=years,
               labels={'value': 'Ingresos brutos','variable':'Año'},
               title='Ingresos brutos por mes - De 2000 a 2022', template='plotly_white', markers=True)
fig_.show()

**Más Outliers**

In [100]:
# dataframe con los valores filtrados para este año
df_2008 = df1[["2008"]]

In [92]:
fig_boxplot2008 = px.box(df_2008, y="2008",
             title=f'Boxplot de Ingresos Brutos - Año {"2008"}',
             labels={'Meses': 'Meses', "2008": 'Ingresos Brutos'},
             color_discrete_sequence=['#33FF6E'],
             width=800, height=400)

# Actualiza el estilo del gráfico
fig_boxplot2008.update_layout(
    title_x=0.5,  # Centra el título
    font=dict(size=12),  # Tamaño de fuente del título y los ejes
    showlegend=False,
    margin=dict(l=50, r=50, t=50, b=50),  # Márgenes del gráfico
    paper_bgcolor='white',  # Color de fondo del gráfico
    plot_bgcolor='white'  # Color de fondo del área de trazado del gráfico
)
fig_boxplot2008.show()


In [93]:
df_2008.describe()

Unnamed: 0,2008
count,12.0
mean,86592161.83
std,6000723.64
min,74072263.0
25%,84791496.75
50%,88135038.5
75%,90187865.5
max,94763397.0


En el grafico anterior puede verse un valor atípico de $74072263.00, bastante inferior a la media en este ejercicio.

**SCATTER PLOT DE VALORES DE TODOS LOS AÑOS**

In [36]:
# Transpone datos de columnas en filas para graficar más facilmente
df_melt = df1.melt(id_vars=None, value_vars=years, var_name='Año', value_name='Ingresos brutos')

In [37]:
df_melt['Año'] = pd.to_numeric(df_melt['Año'])

In [71]:
fig_scatter = px.scatter(df_melt, x='Año', y='Ingresos brutos', color='Año', title='Ingresos brutos por año', template='plotly_white')
fig_scatter.update_xaxes(title='Año')
fig_scatter.update_yaxes(title='Ingresos brutos')
fig_scatter.show()

In [56]:
# promedio de ingresos brutos por año
promedio_por_año = df_melt.groupby("Año").mean()
promedio_por_año

Unnamed: 0_level_0,Ingresos brutos
Año,Unnamed: 1_level_1
2000,16247662.83
2001,16162705.75
2002,15987290.25
2003,22408277.33
2004,30984649.0
2005,39776899.83
2006,55316722.83
2007,65613790.08
2008,86592161.83
2009,93092442.5


In [74]:
# Gráfico lineal todos los años
fig_promedio_por_año = px.bar(promedio_por_año, x=years, y='Ingresos brutos',
               labels={'y': 'Ingresos brutos $','x':'Año'},
               title='Promedio ingresos brutos por año', template='plotly_white', color=years)
fig_promedio_por_año.show()