<a href="https://colab.research.google.com/github/cristiandarioortegayubro/pandito/blob/main/colab/pandas_002.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 p align="center">
<b>
<font color="DeepPink">
Saliendo de lo pandito
</font>
</h1>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true" width="400">
</p>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/pandito/blob/main/images/imagen-001.png?raw=true" width="300">
</p>



<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Métodos y funciones esenciales</font>**

<p align="justify"> 👀 Por convención, así se importa <code>Pandas</code>:  </p>

In [None]:
import numpy as np
import pandas as pd

 # **<font color="DeepPink">Aritmética y alineación de datos</font>**

<p align="justify">
Las estructuras de datos que debemos manejar son: <code>Series</code> y <code>DataFrame</code>. Si bien no son una solución universal para todos los problemas que se pueden plantear, proporcionan una base sólida para una amplia variedad de tareas de datos.</p>

In [None]:
ventas = pd.Series([230.1, 44.5, 17.2, 151.5, 180.8, 68.90, 144.90], name="ventas")
periodico = pd.Series([22.1, 10.4, 9.3, 18.5, 12.9], name="periodico")
radio = pd.Series([37.8, 39.3, 45.9, 41.3, 10.8, 41.9, 36.9], name="radio")
tv = pd.Series([69.2, 45.1, 69.3, 58.5, 58.4, 52.5], name="tv")

In [None]:
ventas

0    230.1
1     44.5
2     17.2
3    151.5
4    180.8
5     68.9
6    144.9
Name: ventas, dtype: float64

In [None]:
type(ventas)

pandas.core.series.Series

In [None]:
ventas.name

'ventas'

<p align="justify">
<code>Pandas</code> simplifica el trabajo con objetos que tienen diferentes índices, cuando agregamos objetos, si el índice de uno de esos objetos no es el mismo, el índice resultante será la unión de los pares de índices.<br><br>Por ejemplo:</p>

In [None]:
print(f"La serie {periodico.name} tiene {len(periodico)} elementos \nLa serie {radio.name} tiene {len(radio)} elementos \nLa serie {tv.name} tiene {len(tv)} elementos")

La serie periodico tiene 5 elementos 
La serie radio tiene 7 elementos 
La serie tv tiene 6 elementos


In [None]:
multimedia = periodico + radio + tv

In [None]:
len(multimedia)

7

In [None]:
multimedia

0    129.1
1     94.8
2    124.5
3    118.3
4     82.1
5      NaN
6      NaN
dtype: float64

<p align="justify">
La alineación de datos internos introduce valores faltantes en las ubicaciones de las etiquetas que no se superponen, es decir, aquellas series que tienen más elemenos, o elementos que no están en otras series.</p>

<p align="justify"> 👀 En el caso de los <code>DataFrame</code>, la alineación se realiza tanto en filas como en columnas:
</p>

In [None]:
ventas1 = pd.Series([1200, 4250, 3090, 3400], index=[2019,2020,2022,2023])
costo1 = pd.Series([800, 1900, 1200, 1450], index=[2019,2020,2022,2023])
bruto1 = ventas1 - costo1

In [None]:
ventas2 = pd.Series([4250, 2050, 3400], index=[2020,2021,2023])
costo2 = pd.Series([1900, 1000, 1450], index=[2020,2021,2023])
bruto2 = ventas2 - costo2

In [None]:
sucursal1 = {"ventas":ventas1,"costo":costo1,"bruto":bruto1}
sucursal2 = {"ventas":ventas2,"costo":costo2,"bruto":bruto2}

In [None]:
sucursal1 = pd.DataFrame(sucursal1).T
sucursal2 = pd.DataFrame(sucursal2).T

In [None]:
sucursal1

Unnamed: 0,2019,2020,2022,2023
ventas,1200,4250,3090,3400
costo,800,1900,1200,1450
bruto,400,2350,1890,1950


In [None]:
sucursal2

Unnamed: 0,2020,2021,2023
ventas,4250,2050,3400
costo,1900,1000,1450
bruto,2350,1050,1950


In [None]:
sucursal1 + sucursal2

Unnamed: 0,2019,2020,2021,2022,2023
ventas,,8500,,,6800
costo,,3800,,,2900
bruto,,4700,,,3900


<p align="justify"> 👀 Dado que hay columnas (ejercicios comerciales) en las sucursales que no están en ambos objetos <code>DataFrame</code>, aparecen como faltantes en el resultado (sumatoria de las sucursales). <br><br>Lo mismo sucedería para las filas con etiquetas que no son comunes a los objetos que se incluyen en la operación aritmética.
</p>

 # **<font color="DeepPink">Métodos aritméticos y valores de relleno</font>**

<p align="justify"> En las operaciones aritméticas entre objetos indexados de manera diferente, es posible completar valores con un valor especial, como $0$, cuando se encuentra una etiqueta de eje en un objeto pero no en el otro. <br><br>Aquí hay un ejemplo en el que establecemos un valor particular, un valor nulo, usando <code>np.nan</code>:
</p>

In [None]:
np.random.seed(123)
sucursal3 = pd.DataFrame(np.random.rand(12).reshape((3, 4)),columns=[2018,2020,2021,2023])
sucursal4 = pd.DataFrame(np.random.rand(20).reshape((4, 5)),columns=[2019,2020,2021,2022,2023])

In [None]:
sucursal3.loc[1, 2020] = np.nan

In [None]:
sucursal3.iloc[:,2]

0    0.226851
1    0.980764
2    0.343178
Name: 2021, dtype: float64

In [None]:
sucursal3.loc[1, 2021] = sucursal3[2021].mean()

In [None]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.980764,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [None]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.438572,0.059678,0.398044,0.737995,0.182492
1,0.175452,0.531551,0.531828,0.634401,0.849432
2,0.724455,0.611024,0.722443,0.322959,0.361789
3,0.228263,0.293714,0.630976,0.092105,0.433701


<p align="justify"> 👀 Entonces si sumamos los <code>DataFrame</code>, la alineación se realiza tanto en filas como en columnas, tal cual como vimos anteriormente:
</p>

In [None]:
sucursal3 + sucursal4

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,,,0.345817,0.624896,,0.733806
1,,,,1.512592,,1.534262
2,,,1.003141,1.065621,,1.090838
3,,,,,,


 ## **<font color="DeepPink">Valores de relleno</font>**

<p align="justify"> 👀 Pero si usamos el método <code>add()</code> con el parámetro <code>fill_value</code> entonces el resultado es el siguiente:
</p>

In [None]:
sucursal3.add(sucursal4, fill_value=0)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,0.696469,0.438572,0.345817,0.624896,0.737995,0.733806
1,0.719469,0.175452,0.531551,1.512592,0.634401,1.534262
2,0.480932,0.724455,1.003141,1.065621,0.322959,1.090838
3,,0.228263,0.293714,0.630976,0.092105,0.433701


In [None]:
sucursal4.add(sucursal3, fill_value=0)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,0.696469,0.438572,0.345817,0.624896,0.737995,0.733806
1,0.719469,0.175452,0.531551,1.512592,0.634401,1.534262
2,0.480932,0.724455,1.003141,1.065621,0.322959,1.090838
3,,0.228263,0.293714,0.630976,0.092105,0.433701


<p align="justify"> 👀 De otra manera, al volver a indexar una <code>Serie</code> o un <code>DataFrame</code>, también se puede especificar un valor de relleno diferente:
</p>

In [None]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.533395,0.393558,0.177769,0.257846
1,0.13025,,0.483876,0.006368
2,0.75586,0.062163,0.964831,0.474005


In [None]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.285437,0.902667,0.781059,0.998951,0.645025
1,0.729935,0.013322,0.451336,0.721916,0.503051
2,0.775613,0.729369,0.961444,0.5615,0.349608
3,0.323687,0.739323,0.5775,0.378766,0.84374


In [None]:
sucursal3.reindex(columns=sucursal4.columns, fill_value=0)

Unnamed: 0,2019,2020,2021,2022,2023
0,0,0.393558,0.177769,0,0.257846
1,0,,0.483876,0,0.006368
2,0,0.062163,0.964831,0,0.474005


 ## **<font color="DeepPink">Otros métodos aritméticos</font>**

<p align="justify"> 👀 Otros métodos aritméticos:
<ul>
<li><code>add()</code> método para la suma</li>
<li><code>sub()</code> método para la resta</li>
<li><code>div()</code> método para dividir</li>
<li><code>mul()</code> método para multiplicar</li>
<li><code>pow()</code> método para potencia</li>
</ul>
</p>

 ## **<font color="DeepPink">Operaciones entre <code>DataFrame</code> y <code>Series</code></font>**

<p align="justify"> Al igual que con las matrices <code>NumPy</code> de diferentes dimensiones, también se puede hacer operaciones aritméticas entre los <code>DataFrame</code> y las <code>Series</code>.
</p>

<p align="justify"> 👀 Primero vamos a ver el comportamiento en un array de <code>NumPy</code>:
</p>

In [None]:
array = np.arange(20.).reshape((4, 5))
array

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.]])

In [None]:
array[0]

array([0., 1., 2., 3., 4.])

In [None]:
array - array[0]

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 5.,  5.,  5.,  5.,  5.],
       [10., 10., 10., 10., 10.],
       [15., 15., 15., 15., 15.]])

<p align="justify"> 👀 Cuando hacemos la operación aritmética de resta, la resta se realiza por cada fila. Esto se conoce como transmisión. Ahora vemos como se comporta la misma operación entre un <code>DataFrame</code> y una <code>Serie</code>.
</p>

In [None]:
frame = sucursal3
frame

Unnamed: 0,2018,2020,2021,2023
0,0.533395,0.393558,0.177769,0.257846
1,0.13025,,0.483876,0.006368
2,0.75586,0.062163,0.964831,0.474005


In [None]:
serie = frame.iloc[0]
serie

2018    0.533395
2020    0.393558
2021    0.177769
2023    0.257846
Name: 0, dtype: float64

In [None]:
frame - serie

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,-0.403145,,0.306107,-0.251478
2,0.222465,-0.331395,0.787062,0.21616


In [None]:
resultado = (serie - frame).round(2)
resultado

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,0.4,,-0.31,0.25
2,-0.22,0.33,-0.79,-0.22


 # **<font color="DeepPink">Apply( ) y mapeo de funciones</font>**

<p align="justify"> 👀 Las funciones de  <code>NumPy</code> tambien se pueden aplicar en objetos <code>Pandas</code>.
</p>

In [None]:
resultado

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,0.4,,-0.31,0.25
2,-0.22,0.33,-0.79,-0.22


In [None]:
np.abs(resultado)

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,0.4,,0.31,0.25
2,0.22,0.33,0.79,0.22


<p align="justify"> 👀 Otra operación frecuente es aplicar una función para arreglos unidimensionales a cada columna o fila de un objeto bidimensional. El método de los <code>DataFrame</code> denominado <code>apply()</code> hace exactamente eso, arreglos unidimensionales.<br><br> Por ejemplo, primero vamos a crear una función que permita calcular el valor máximo y el valor mínimo de una <code>Serie</code> y esa función la vamos a aplicar con <code>apply()</code>. Lo mismo podriamos hacer con una función <code>lambda</code>, es decir, aplicar una función <code>lambda</code>.
</p>

In [None]:
frame2 = frame.round(2)
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


In [None]:
def f1(x):
  return x.max() - x.min()

In [None]:
frame2.apply(f1)

2018    0.63
2020    0.33
2021    0.78
2023    0.46
dtype: float64

In [None]:
frame2.apply(lambda x: x.max() - x.min())

2018    0.63
2020    0.33
2021    0.78
2023    0.46
dtype: float64

In [None]:
frame2.apply(f1, axis="columns")

0    0.35
1    0.47
2    0.90
dtype: float64

In [None]:
frame2.apply(lambda x: x.max() - x.min(), axis="columns")

0    0.35
1    0.47
2    0.90
dtype: float64

<p align="justify"> 👀 También se pueden usar funciones de <code>Python</code> basadas en cada uno de los elementos. Supongamos que deseamos aplicar formatos a partir de cada elemento de un <code>DataFrame</code>, es decir, en cada dato.<br><br> Podemos hacer esto con <code>applymap()</code></p>

In [None]:
frame

Unnamed: 0,2018,2020,2021,2023
0,0.533395,0.393558,0.177769,0.257846
1,0.13025,,0.483876,0.006368
2,0.75586,0.062163,0.964831,0.474005


In [None]:
def f2(x):
  return f"{x:.2f}"

In [None]:
frame.applymap(f2)

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


In [None]:
frame.applymap(lambda x: f"{x:.2f}")

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


 # **<font color="DeepPink">Métodos matemáticos y estadísticos</font>**

<p align="justify">
Los objetos de <code>Pandas</code> están equipados con un conjunto de métodos matemáticos y estadísticos. La mayoría de estos métodos entran en la categoría de reducciones, acumulaciones o estadísticas descriptivas, métodos que extraen un valor único (como la suma o la media) de una <code>Serie</code>, o una <code>Serie</code> de valores de las filas o columnas de un <code>DataFrame</code>. <br><br> 👀 En comparación con métodos similares que se encuentran en las matrices <code>NumPy</code>, los métodos de <code>Pandas</code> tienen un manejo integrado para los datos faltantes. </p>

In [None]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


 ## **<font color="DeepPink">Reducciones</font>**

<p align="justify">
👀 El método <code>sum()</code> devuelve una <code>Serie</code> que contiene la suma de las columnas resultantes de un <code>DataFrame</code>:
</p>

In [None]:
frame2.sum()

2018    1.42
2020    0.45
2021    1.62
2023    0.74
dtype: float64

<p align="justify">
👀 Pero si lo que quiero sumar es toda el índice, entonces utilizamos el parametro <code>axis</code>, con el valor <code>columns</code>:
</p>

In [None]:
frame2.sum(axis="columns")

0    1.36
1    0.62
2    2.25
dtype: float64

 ## **<font color="DeepPink">Acumulaciones</font>**

<p align="justify">
👀 El método <code>cumsum()</code> devuelve una <code>Serie</code> que contiene la suma acumulada de las columnas resultantes de un <code>DataFrame</code>. Acá tambien se puede utilizar el parámetro <code> axis </code>, con el valor <code>columns</code>.
</p>

In [None]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


In [None]:
frame2.cumsum()

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.66,,0.66,0.27
2,1.42,0.45,1.62,0.74


In [None]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.39,0.18,0.26
1,0.13,,0.48,0.01
2,0.76,0.06,0.96,0.47


In [None]:
frame2.cumsum(axis="columns")

Unnamed: 0,2018,2020,2021,2023
0,0.53,0.92,1.1,1.36
1,0.13,,0.61,0.62
2,0.76,0.82,1.78,2.25


 ## **<font color="DeepPink">Estadisticas descriptivas</font>**

<p align="justify">
👀 Algunos métodos no son reducciones ni acumulaciones. <code>describe()</code> es uno de esos ejemplos. Produce múltiples estadísticas de  una sola vez, expresadas en un resúmen.
</p>

In [None]:
frame2.describe().round(2)

Unnamed: 0,2018,2020,2021,2023
count,3.0,2.0,3.0,3.0
mean,0.47,0.22,0.54,0.25
std,0.32,0.23,0.39,0.23
min,0.13,0.06,0.18,0.01
25%,0.33,0.14,0.33,0.14
50%,0.53,0.22,0.48,0.26
75%,0.64,0.31,0.72,0.36
max,0.76,0.39,0.96,0.47


In [None]:
frame2.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
2018,3.0,0.47,0.32,0.13,0.33,0.53,0.64,0.76
2020,2.0,0.22,0.23,0.06,0.14,0.22,0.31,0.39
2021,3.0,0.54,0.39,0.18,0.33,0.48,0.72,0.96
2023,3.0,0.25,0.23,0.01,0.14,0.26,0.36,0.47


 ## **<font color="DeepPink">Otros métodos matemáticos</font>**

<p align="justify"> 👀 Otros métodos matemáticos y estadísticos, son los siguientes:
<ul>
<li><code>count()</code> número de valores no nulos</li>
<li><code>min()</code> el valor mínimo</li>
<li><code>argmin()</code> ubicaciones de índice (enteros) en las que se obtiene el valor mínimo, no disponible en objetos <code>DataFrame</code></li>
<li><code>argmax()</code> ubicaciones de índice (enteros) en las que se obtiene el valor máximo, no disponible en objetos <code>DataFrame</code></li>
<li><code>idxmin()</code> etiquetas de índice en las que se obtiene el valor mínimo</li>
<li><code>idxmax()</code> etiquetas de índice en las que se obtiene el valor máximo</li>
<li><code>quantile()</code> cuantil de muestra que va de $0$ a $1$ (predeterminado: $0,5$)</li>
<li><code>mean()</code> media de valores</li>
<li><code>median()</code> mediana aritmética ($50$% cuantil) de valores</li>
<li><code>mad()</code> desviación absoluta media del valor medio</li>
<li><code>prod()</code> producto de todos los valores</li>
<li><code>var()</code> varianza de los valores</li>
<li><code>std()</code> desviación estándar de los valores</li>
<li><code>skew()</code> sesgo muestral de los valores</li>
<li><code>kurt()</code> curtosis de los valores</li>
<li><code>diff()</code> diferencia aritmética de los valores</li>
<li><code>pct_change()</code> cambios porcentuales de los valores</li>
</ul>
</p>

 # **<font color="DeepPink">Correlación y covarianza</font>**

<p align="justify">
Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a partir de argumentos. </p>

In [None]:
resultado = sucursal1.T
resultado

Unnamed: 0,ventas,costo,bruto
2019,1200,800,400
2020,4250,1900,2350
2022,3090,1200,1890
2023,3400,1450,1950


<p align="justify">
Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a partir de argumentos. </p>

<p align="justify">
👀 Podemos calcular la correlación con el método <code>corr()</code> entre las ventas y los costos.
</p>

In [None]:
resultado["ventas"].corr(resultado["costo"]).round(2)

0.96

In [None]:
resultado.ventas.corr(resultado.costo).round(2)

0.96

<p align="justify">
👀 También podemos calcular la covarianza con el método <code>cov()</code> entre las ventas y los costos.
</p>

In [None]:
resultado["ventas"].cov(resultado["costo"]).round(2)

567750.0

In [None]:
resultado.ventas.cov(resultado.costo).round(2)

567750.0

<p align="justify">
👀 Podemos calcular la correlación en todo el <code>DataFrame</code>. Esto es lo que conocemos como matriz de correlación.
</p>

In [None]:
resultado.corr()

Unnamed: 0,ventas,costo,bruto
ventas,1.0,0.957384,0.987853
costo,0.957384,1.0,0.900874
bruto,0.987853,0.900874,1.0


<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
