<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/pandas/bds_pandas_004_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Limpieza y transformación de datos 🐼</font>**

<p align="justify">
Durante el transcurso del análisis y el modelado de datos, una cantidad significativa de tiempo es dedicada a la preparación de datos: carga, limpieza, y transformación. A menudo se informa que tales tareas ocupan el $80$% o más del tiempo de un analista.<br><br> A veces, la forma en que se almacenan los datos en archivos o bases de datos no tiene el formato correcto para una tarea en particular. Muchos investigadores optan por realizar un procesamiento de datos en un lenguaje de programación de propósito general, como lo es <code>Python</code>.<br><br> Afortunadamente <code>Pandas</code> junto con las características integradas del lenguaje <code>Python</code> proporciona un conjunto de herramientas flexiblea y de alto nivel que permite manipular los datos en la forma correcta.
</p>

<p align="justify"> 👀 Por convención, así se importa <code>Pandas</code>:  </p>

In [None]:
import numpy as np
import pandas as pd

 # **<font color="DeepPink">Manejo de datos faltantes</font>**

<p align="justify">
La falta de datos ocurre comúnmente en muchas aplicaciones de análisis de datos. Todas las estadísticas descriptivas de los objetos <code>Pandas</code> excluyen los datos faltantes de forma predeterminada. La forma en que se representan los datos faltantes en los objetos <code>Pandas</code> es algo imperfecta, pero suficiente para la mayoría de los casos del mundo real.</p>

<p align="justify"> 👀 Vamos a traer un conjunto de datos de la web.
</p>

In [None]:
import lxml
import bs4
import html5lib

In [None]:
URL = "https://atm.mendoza.gov.ar/portalatm/zoneBottom/datosInteres/recaudacion/recaudacion_impuesto_ingresos.jsp"
recaudacion = pd.read_html(URL)
df = recaudacion[0]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,
5,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,,,,,,,,,,
6,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,,,,,,,,,,
7,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,,,,,,,,,,
8,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,,,,,,,,,,
9,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,,,,,,,,,,


<p align="justify"> 👀 <code>Pandas</code> usa el valor de coma flotante <code>NaN</code>, que no es un número, para representar los datos que faltan. El método <code>isna()</code> nos da una serie booleana con <code>True</code> para los valores nulos.
</p>

In [None]:
df.isna().head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,True,True
2,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,True,True
3,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,True,True
4,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,True,True,True,True,True,True


<p align="justify"> 👀 En <code>Pandas</code> se adopta por convención decirles a los datos faltantes, datos no disponibles, los <code>NA</code>. En  aplicaciones estadísticas, los datos no disponibles pueden ser datos que no existen o que existen pero no se observaron (debido a problemas con la recopilación de datos, por ejemplo un valor desconocido en una encuesta).<br><br> Al limpiar los datos para el análisis, a menudo es importante estudiar los datos faltantes para identificar los problemas de recopilación de datos o posibles sesgos en los datos causados ​​por los datos faltantes. <br><br>El valor integrado <code>None</code> de <code>Python</code> también se trata como dato no disponible. <code>Pandas</code> ha intentado que el trabajo con datos no disponibles sea coherente en todos los tipos de datos.
</p>

<p align="justify"> 👀 Algunas funciones relacionadas con el manejo de datos no disponibles:
<ul>
<li><code>dropna()</code> filtra las etiquetas de los ejes en función de si faltan datos en los valores de cada etiqueta, con distintos umbrales para la cantidad de datos faltantes que se deben tolerar</li>
<li><code>fillna()</code> completa los datos faltantes con algún valor predeterminado o utilizando algún método</li>
<li><code>isna()</code> devuelve valores booleanos que indican qué valores faltan</li>
<li><code>notna()</code> negación de <code>isna()</code></li>
</ul>
</p>

 ## **<font color="DeepPink">Filtrado de datos faltantes</font>**

<p align="justify">
Hay algunas formas de filtrar los datos que faltan, como por ejemplo <code>dropna()</code>. Esta función devuelve el objeto solo con los datos no nulos y sus respectivos valores de índice.
</p>

In [None]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,


In [None]:
df.shape

(14, 241)

In [None]:
df.dropna(axis=1, how="any", inplace=True)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415


In [None]:
df.shape

(14, 24)

<p align="justify"> 👀 Si se desea mantener por ejemplo, filas que contienen como máximo un cierto número de datos faltantes, entonces se puede indicar con el parámetro <code>thresh</code>.


 ## **<font color="DeepPink">Rellenado de datos faltantes</font>**

<p align="justify"> En lugar de filtrar datos faltantes, y tal vez descartar otros datos junto con ese filtrado, es posible rellenarlos de varias maneras. El método <code>fillna()</code> es el más utilizado en <code>Pandas</code>. Utilizar <code>fillna()</code> con una constante reemplaza los valores faltantes con ese valor establecido como constante.

In [None]:
recaudacion = pd.read_html(URL)
df = recaudacion[0]
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,,,,,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,,,,,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,,,,,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,,,,,,,,,,


In [None]:
df.fillna(0).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,0,0,0,0,0,0,0,0,0,0
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,0,0,0,0,0,0,0,0,0,0
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,0,0,0,0,0,0,0,0,0,0
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,0,0,0,0,0,0,0,0,0,0


<p align="justify"> 👀 Usando <code>fillna()</code> con un diccionario, se puede establecer un valor de relleno diferente para cada columna indicada en el diccionario.

In [None]:
df.fillna({231:0, 232:0.5, 233:1, 234:1.5}).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,231,232,233,234,235,236,237,238,239,240
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,0,0.5,1,1.5,,,,,,
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,0,0.5,1,1.5,,,,,,
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,0,0.5,1,1.5,,,,,,
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,0,0.5,1,1.5,,,,,,


<p align="justify"> 👀 Algunos parámetros
<ul>
<li><code>value()</code> valor u objeto similar a un diccionario para completar los valores que faltan</li>
<li><code>method()</code> método de interpolación <code>bfill</code> rellena hacia atrás, <code>ffill</code> rellena hacia adelante, y por defecto el valor establecido es <code>None</code></li>
<li><code>axis()</code> eje para rellenar, siendo filas o columas el valor indicado</li>
<li><code>limit()</code> para el llenado hacia adelante y hacia atrás, es el  número máximo de períodos consecutivos para llenar</li>
</ul>
</p>

 # **<font color="DeepPink">Transformación de datos</font>**

 ## **<font color="DeepPink">Eliminación de duplicados</font>**

<p align="justify">
El método <code>duplicated()</code> devuelve una serie booleana que indica si cada fila de un <code>DataFrame</code> es un duplicado (sus valores de columna son exactamente iguales a los de una fila anterior) o no lo es.
</p>

In [None]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
dtype: bool

<p align="justify"> 👀 En este caso no tenemos duplicados en el <code>DataFrame</code>, pero si los hubiera, se podrían eliminar con el método <code>drop_duplicates()</code>. Ambos métodos por defecto consideran todas las columnas, pero como alternativa, se puede especificar cualquier subconjunto de ellos para detectar duplicados.

 ## **<font color="DeepPink">Transformar datos usando una función o mapeo</font>**

<p align="justify"> Para muchos conjuntos de datos, es posible realizar alguna transformación basada en los valores de una matriz, serie o columna en un <code>DataFrame</code>.

In [None]:
df.dropna(axis=1, how="any", inplace=True)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,...,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos,Ingresos Brutos
1,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
2,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641
3,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915
4,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415


<p align="justify"> 👀 Supongamos que deseamos agregar una columna que indique con números el mes resultante de la columna Meses. Previo a ello, vamos a poner nombres de columnas y eliminar el indice cero.

In [None]:
df.columns = df.iloc[1]
df.columns.name = None
df.drop([0,1], axis=0, inplace=True)
df.reset_index(drop=True, inplace=True)

In [None]:
df.head()

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0


<p align="justify"> 👀 El método <code>map()</code> en una serie acepta una función o un objeto similar a un diccionario que contiene un mapeo para hacer la transformación de valores que estamos requiriendo.



In [None]:
df.head()

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0


In [None]:
Mes = {"Enero":1, "Febrero":2, "Marzo":3, "Abril":4, "Mayo":5, "Junio":6,
       "Julio":7, "Agosto":8, "Septiembre":9, "Octubre":10, "Noviembre":11, "Diciembre":12}

In [None]:
df.Meses = df.Meses.map(Mes)
df

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,1,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,2,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,3,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,4,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,5,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0
5,6,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,443506242,604987628,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858.0
6,7,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,457074198,604665547,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943.0
7,8,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,476677270,693626723,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335.0
8,9,15756538,16781292,18684199,25513569,31578993,43003892,63159166,70058014,91342609,...,517929584,673022303,831099102,1141604417,1518901732,2059133833,2874249708,3102345313,5349090672,10903034059.0
9,10,15731005,13506128,18518490,25042384,33774686,41477902,63007199,72036143,90090534,...,485045463,766913451,897798301,1098256448,1483261492,2154164859,2863717767,3254208843,5368896164,11468663772.0


<p align="justify"> 👀 Otra forma:




In [None]:
df.head()

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,1,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,2,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,3,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,4,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,5,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0


In [None]:
Meses = {1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril", 5:"Mayo", 6:"Junio",
         7:"Julio", 8:"Agosto", 9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"}

In [None]:
def meses(x):
  return Meses[x]

In [None]:
df.Meses = df.Meses.map(meses)
df

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0
5,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,443506242,604987628,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858.0
6,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,457074198,604665547,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943.0
7,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,476677270,693626723,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335.0
8,Septiembre,15756538,16781292,18684199,25513569,31578993,43003892,63159166,70058014,91342609,...,517929584,673022303,831099102,1141604417,1518901732,2059133833,2874249708,3102345313,5349090672,10903034059.0
9,Octubre,15731005,13506128,18518490,25042384,33774686,41477902,63007199,72036143,90090534,...,485045463,766913451,897798301,1098256448,1483261492,2154164859,2863717767,3254208843,5368896164,11468663772.0


<p align="justify"> 👀 Otra forma:


In [None]:
df.head()

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0


In [None]:
Mes = {"Enero":1, "Febrero":2, "Marzo":3, "Abril":4, "Mayo":5, "Junio":6,
       "Julio":7, "Agosto":8, "Septiembre":9, "Octubre":10, "Noviembre":11, "Diciembre":12}

In [None]:
df.Meses = df.Meses.map(lambda x: Mes[x])
df

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,1,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,2,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,3,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,4,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,5,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0
5,6,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,443506242,604987628,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858.0
6,7,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,457074198,604665547,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943.0
7,8,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,476677270,693626723,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335.0
8,9,15756538,16781292,18684199,25513569,31578993,43003892,63159166,70058014,91342609,...,517929584,673022303,831099102,1141604417,1518901732,2059133833,2874249708,3102345313,5349090672,10903034059.0
9,10,15731005,13506128,18518490,25042384,33774686,41477902,63007199,72036143,90090534,...,485045463,766913451,897798301,1098256448,1483261492,2154164859,2863717767,3254208843,5368896164,11468663772.0


 ## **<font color="DeepPink">Sustitución de datos</font>**

<p align="justify"> Completar los datos que faltan con el método <code>fillna()</code> es un caso especial de reemplazo general. Como hemos visto, <code>map()</code> se puede usar para modificar un subconjunto de valores en un objeto, pero <code>replace()</code> proporciona una forma más simple y flexible de hacerlo.

In [None]:
df.head()

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,1,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,2,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,3,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,4,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,5,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0


In [None]:
Meses = {1:"Enero", 2:"Febrero", 3:"Marzo", 4:"Abril", 5:"Mayo", 6:"Junio",
         7:"Julio", 8:"Agosto", 9:"Septiembre", 10:"Octubre", 11:"Noviembre", 12:"Diciembre"}

In [None]:
df.replace(Meses, inplace=True)
df

Unnamed: 0,Meses,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Enero,18843926,18114420,12722708,20192886,28492948,37455922,48307581,61131913,88818881,...,397924131,617487225,782112955,990329978,1317982229,1642808124,2195529730,3068476937,4210333243,6815275641.0
1,Febrero,16258743,32180909,11237981,20257924,26276427,35131740,45290618,58230197,76675888,...,384301390,594553955,729820564,919810308,1194014665,1497939109,2103363732,3246583141,4035920128,6525087915.0
2,Marzo,17468327,14453688,11460186,19766456,27124258,33982257,45654235,58267059,74072263,...,380740043,574800388,702603251,965441676,1202600310,1492442509,2143791335,2869934807,3969197922,6633613415.0
3,Abril,17463084,15809614,12300935,20503786,32466739,39149216,47268950,61113108,88241185,...,409508295,590621171,741563435,1046270167,1386964121,1611327512,2277286791,2711722096,4446800638,7882943560.5
4,Mayo,15978692,14610889,14265621,20988947,30252979,39887132,60082271,65113469,90479860,...,434638392,608269518,770937471,1043528821,1288922134,1630360944,2456053054,2558796240,4285918498,8485148694.0
5,Junio,14676011,14328045,16351168,21041197,30687746,39160678,56268381,65906755,83292810,...,443506242,604987628,774531242,991656616,1291359719,1725684002,2334065968,2601499359,4477259473,8272230858.0
6,Julio,15299790,14675150,17106546,21763328,30962034,39205417,59484119,66270873,88028892,...,457074198,604665547,856524734,1105998076,1355228857,1734466058,2419755126,2800037597,4653112414,9777144943.0
7,Agosto,15802483,14475158,18373950,23185411,31937418,40688413,58732118,67496826,94763397,...,476677270,693626723,859765325,1127364425,1460045961,1884253360,2761171810,3271900805,4977782152,10673847335.0
8,Septiembre,15756538,16781292,18684199,25513569,31578993,43003892,63159166,70058014,91342609,...,517929584,673022303,831099102,1141604417,1518901732,2059133833,2874249708,3102345313,5349090672,10903034059.0
9,Octubre,15731005,13506128,18518490,25042384,33774686,41477902,63007199,72036143,90090534,...,485045463,766913451,897798301,1098256448,1483261492,2154164859,2863717767,3254208843,5368896164,11468663772.0


 ## **<font color="DeepPink">Discretización</font>**

<p align="justify"> Los datos continuos a menudo se discretizan o se separan en "contenedores" para su análisis. Supongamos que tenemos datos sobre un grupo de personas en un estudio comercial y deseamos agruparlos en grupos de edad discretos




In [None]:
edad = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

<p align="justify"> 👀 Dividámoslos en grupos de 18 a 25, de 26 a 35, de 36 a 60 y, finalmente, de 61 años o más. Para hacerlo, tenemos que usar <code>cut()</code>


In [None]:
contenedores = [18, 25, 35, 60, 100]

In [None]:
categorias = pd.cut(edad, contenedores)

In [None]:
categorias

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

<p align="justify"> 👀 Cada contenedor se identifica mediante un tipo de valor de intervalo especial que contiene el límite inferior y superior de cada contenedor


In [None]:
pd.value_counts(categorias)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
