<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="#07a8ed">Empezando a utilizar Pandas 🐼 </font>**

<p align="justify"> 👀 Por convención, así se importa <code>Pandas</code>:  </p>

In [2]:
import numpy as np
import pandas as pd

<p align="justify"> 👀 Pero como vamos a usar mucho los <code>DataFrame</code> y las <code>Series</code> de <code>Pandas</code>, entonces podemos hacer esto:  </p>

In [3]:
from pandas import Series, DataFrame

 # **<font color="#07a8ed">Aritmética y alineación de datos</font>**

<p align="justify">
Las estructuras de datos que debemos manejar son: <code>Series</code> y <code>DataFrame</code>. Si bien no son una solución universal para todos los problemas que se pueden plantear, proporcionan una base sólida para una amplia variedad de tareas de datos.</p>

In [4]:
ventas = pd.Series([230.1, 44.5, 17.2, 151.5, 180.8, 68.90, 144.90], name="Ventas")
periodico = pd.Series([22.1, 10.4, 9.3, 18.5, 12.9], name="Periodico")
radio = pd.Series([37.8, 39.3, 45.9, 41.3, 10.8, 41.9, 36.9], name="Radio")
tv = pd.Series([69.2, 45.1, 69.3, 58.5, 58.4, 52.5], name="Tv")

In [5]:
ventas

Unnamed: 0,Ventas
0,230.1
1,44.5
2,17.2
3,151.5
4,180.8
5,68.9
6,144.9


In [6]:
type(ventas)

In [7]:
ventas.name # atributo nombre del objeto ventas

'Ventas'

<p align="justify">
<code>Pandas</code> simplifica el trabajo con objetos que tienen diferentes índices, cuando agregamos objetos, si el índice de uno de esos objetos no es el mismo, el índice resultante será la unión de los pares de índices.<br><br>Por ejemplo:</p>

In [8]:
ventas.corr(periodico)

0.8576318592110518

In [9]:
print(f"La serie {periodico.name} tiene {len(periodico)} elementos \nLa serie {radio.name} tiene {len(radio)} elementos \nLa serie {tv.name} tiene {len(tv)} elementos")

La serie Periodico tiene 5 elementos 
La serie Radio tiene 7 elementos 
La serie Tv tiene 6 elementos


In [10]:
periodico

Unnamed: 0,Periodico
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [11]:
radio

Unnamed: 0,Radio
0,37.8
1,39.3
2,45.9
3,41.3
4,10.8
5,41.9
6,36.9


In [12]:
tv

Unnamed: 0,Tv
0,69.2
1,45.1
2,69.3
3,58.5
4,58.4
5,52.5


In [13]:
multimedia = periodico + radio + tv

In [14]:
len(multimedia)

7

In [15]:
multimedia

Unnamed: 0,0
0,129.1
1,94.8
2,124.5
3,118.3
4,82.1
5,
6,


In [16]:
radio[0]+tv[0]+periodico[0]

129.1

<p align="justify">
<mark> La alineación de datos internos introduce valores faltantes en las ubicaciones de las etiquetas que no se superponen</mark>, es decir, aquellas series que tienen más elemenos, o elementos que no están en otras series.</p>

<p align="justify"> 👀 En el caso de los <code>DataFrame</code>, la alineación se realiza tanto en filas como en columnas:
</p>

In [17]:
ventas1 = pd.Series([1200, 4250, 3090, 3400], index=[2019,2020,2022,2023])
costo1 = pd.Series([800, 1900, 1200, 1450], index=[2019,2020,2022,2023])
bruto1 = ventas1 - costo1

In [18]:
ventas2 = pd.Series([4250, 2050, 3400], index=[2020,2021,2023])
costo2 = pd.Series([1900, 1000, 1450], index=[2020,2021,2023])
bruto2 = ventas2 - costo2

In [19]:
sucursal1 = {"ventas":ventas1,"costo":costo1,"bruto":bruto1}
sucursal2 = {"ventas":ventas2,"costo":costo2,"bruto":bruto2}

In [20]:
sucursal1 = pd.DataFrame(sucursal1).T
sucursal2 = pd.DataFrame(sucursal2).T

In [21]:
sucursal1

Unnamed: 0,2019,2020,2022,2023
ventas,1200,4250,3090,3400
costo,800,1900,1200,1450
bruto,400,2350,1890,1950


In [22]:
sucursal2

Unnamed: 0,2020,2021,2023
ventas,4250,2050,3400
costo,1900,1000,1450
bruto,2350,1050,1950


In [23]:
sucursal1 + sucursal2

Unnamed: 0,2019,2020,2021,2022,2023
ventas,,8500,,,6800
costo,,3800,,,2900
bruto,,4700,,,3900


<p align="justify"> 👀 Dado que hay columnas (ejercicios comerciales) en las sucursales que no están en ambos objetos <code>DataFrame</code>, aparecen como faltantes en el resultado (sumatoria de las sucursales). <br><br>Lo mismo sucedería para las filas con etiquetas que no son comunes a los objetos que se incluyen en la operación aritmética.
</p>

 # **<font color="#07a8ed">Métodos aritméticos, valores de relleno y operaciones</font>**

<p align="justify"> En las operaciones aritméticas entre objetos indexados de manera diferente, es posible completar valores con un valor especial, como $0$, cuando se encuentra una etiqueta de eje en un objeto pero no en el otro. <br><br>Aquí hay un ejemplo en el que establecemos un valor particular, un valor nulo, usando <code>np.nan</code>:
</p>

In [24]:
np.random.seed(123)
np.random.rand(12) # muestra de 12 elementos de distribucion uniforme entre 0 y 1

array([0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897,
       0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752,
       0.34317802, 0.72904971])

In [25]:
np.random.seed(123)
np.random.rand(12).reshape((3, 4)) # vector a matriz de 3 filas por 4 columnas

array([[0.69646919, 0.28613933, 0.22685145, 0.55131477],
       [0.71946897, 0.42310646, 0.9807642 , 0.68482974],
       [0.4809319 , 0.39211752, 0.34317802, 0.72904971]])

In [26]:
np.random.seed(123)
sucursal3 = pd.DataFrame(np.random.rand(12).reshape((3, 4)),columns=[2018,2020,2021,2023])
sucursal4 = pd.DataFrame(np.random.rand(20).reshape((4, 5)),columns=[2019,2020,2021,2022,2023])

In [27]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,0.423106,0.980764,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [28]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.438572,0.059678,0.398044,0.737995,0.182492
1,0.175452,0.531551,0.531828,0.634401,0.849432
2,0.724455,0.611024,0.722443,0.322959,0.361789
3,0.228263,0.293714,0.630976,0.092105,0.433701


In [29]:
sucursal3.loc[1, 2020] # un elemento de la sucursal 3

0.42310646012446096

In [30]:
sucursal3.loc[1, 2020] = np.nan # convierto el elemento en valor nulo

In [31]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.980764,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [32]:
sucursal3.iloc[:,2]

Unnamed: 0,2021
0,0.226851
1,0.980764
2,0.343178


In [33]:
sucursal3.loc[1, 2021]

0.9807641983846155

In [34]:
sucursal3[2021].mean()

0.516931222699896

In [35]:
sucursal3.loc[1, 2021] = sucursal3[2021].mean()

In [36]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.516931,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [37]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.438572,0.059678,0.398044,0.737995,0.182492
1,0.175452,0.531551,0.531828,0.634401,0.849432
2,0.724455,0.611024,0.722443,0.322959,0.361789
3,0.228263,0.293714,0.630976,0.092105,0.433701


<p align="justify"> 👀 Entonces si sumamos los <code>DataFrame</code>, la alineación se realiza tanto en filas como en columnas, tal cual como vimos anteriormente:
</p>

In [38]:
sucursal3 + sucursal4 # los nulos me quedan en columnas que no aparecen y filas que no aparecen

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,,,0.345817,0.624896,,0.733806
1,,,,1.048759,,1.534262
2,,,1.003141,1.065621,,1.090838
3,,,,,,


 ## **<font color="#07a8ed">Valores de relleno</font>**

<p align="justify"> 👀 Pero si usamos el método <code>add()</code> con el parámetro <code>fill_value</code> entonces el resultado es el siguiente:
</p>

In [39]:
sucursal3.add(sucursal4, fill_value=0)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,0.696469,0.438572,0.345817,0.624896,0.737995,0.733806
1,0.719469,0.175452,0.531551,1.048759,0.634401,1.534262
2,0.480932,0.724455,1.003141,1.065621,0.322959,1.090838
3,,0.228263,0.293714,0.630976,0.092105,0.433701


In [40]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.438572,0.059678,0.398044,0.737995,0.182492
1,0.175452,0.531551,0.531828,0.634401,0.849432
2,0.724455,0.611024,0.722443,0.322959,0.361789
3,0.228263,0.293714,0.630976,0.092105,0.433701


In [41]:
sucursal3.add(sucursal4)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,,,0.345817,0.624896,,0.733806
1,,,,1.048759,,1.534262
2,,,1.003141,1.065621,,1.090838
3,,,,,,


In [42]:
sucursal3.add(sucursal4, fill_value=0)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,0.696469,0.438572,0.345817,0.624896,0.737995,0.733806
1,0.719469,0.175452,0.531551,1.048759,0.634401,1.534262
2,0.480932,0.724455,1.003141,1.065621,0.322959,1.090838
3,,0.228263,0.293714,0.630976,0.092105,0.433701


In [43]:
sucursal4.add(sucursal3, fill_value=0)

Unnamed: 0,2018,2019,2020,2021,2022,2023
0,0.696469,0.438572,0.345817,0.624896,0.737995,0.733806
1,0.719469,0.175452,0.531551,1.048759,0.634401,1.534262
2,0.480932,0.724455,1.003141,1.065621,0.322959,1.090838
3,,0.228263,0.293714,0.630976,0.092105,0.433701


<p align="justify"> 👀 De otra manera, al volver a indexar una <code>Serie</code> o un <code>DataFrame</code>, también se puede especificar un valor de relleno diferente:
</p>

In [44]:
sucursal3

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.516931,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [45]:
sucursal4

Unnamed: 0,2019,2020,2021,2022,2023
0,0.438572,0.059678,0.398044,0.737995,0.182492
1,0.175452,0.531551,0.531828,0.634401,0.849432
2,0.724455,0.611024,0.722443,0.322959,0.361789
3,0.228263,0.293714,0.630976,0.092105,0.433701


In [46]:
sucursal3.reindex(columns=sucursal4.columns, fill_value=0) # no se generan rellenos con cero, porque sucursal4 2020 no tiene nulo-reindexo con columnas d sucursal 4

Unnamed: 0,2019,2020,2021,2022,2023
0,0,0.286139,0.226851,0,0.551315
1,0,,0.516931,0,0.68483
2,0,0.392118,0.343178,0,0.72905


In [47]:
sucursal4.reindex(columns=sucursal3.columns, fill_value=0)

Unnamed: 0,2018,2020,2021,2023
0,0,0.059678,0.398044,0.182492
1,0,0.531551,0.531828,0.849432
2,0,0.611024,0.722443,0.361789
3,0,0.293714,0.630976,0.433701


 ## **<font color="#07a8ed">Otros métodos aritméticos</font>**

<p align="justify"> 👀 Otros métodos aritméticos:
<ul>
<li><code>add()</code> método para la suma</li>
<li><code>sub()</code> método para la resta</li>
<li><code>div()</code> método para dividir</li>
<li><code>mul()</code> método para multiplicar</li>
<li><code>pow()</code> método para potencia</li>
</ul>
</p>

 ## **<font color="#07a8ed">Operaciones entre <code>DataFrame</code> y <code>Series</code></font>**

<p align="justify"> Al igual que con las matrices <code>NumPy</code> de diferentes dimensiones, también se puede hacer operaciones aritméticas entre los <code>DataFrame</code> y las <code>Series</code>.
</p>

<p align="justify"> 👀 Primero vamos a ver el comportamiento en un array de <code>NumPy</code>:
</p>

In [48]:
array = np.arange(20.).reshape((4, 5))
array

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.]])

In [49]:
array[0]

array([0., 1., 2., 3., 4.])

In [50]:
array - array[0]

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 5.,  5.,  5.,  5.,  5.],
       [10., 10., 10., 10., 10.],
       [15., 15., 15., 15., 15.]])

<p align="justify"> 👀 Cuando hacemos la operación aritmética de resta, la resta se realiza por cada fila. Esto se conoce como transmisión. Ahora vemos como se comporta la misma operación entre un <code>DataFrame</code> y una <code>Serie</code>.
</p>

In [51]:
frame = sucursal3
frame

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.516931,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [52]:
serie = frame.iloc[0]
serie

Unnamed: 0,0
2018,0.696469
2020,0.286139
2021,0.226851
2023,0.551315


In [53]:
frame - serie

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,0.023,,0.29008,0.133515
2,-0.215537,0.105978,0.116327,0.177735


In [54]:
resultado = (serie - frame).round(2)
resultado

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,-0.02,,-0.29,-0.13
2,0.22,-0.11,-0.12,-0.18


 # **<font color="#07a8ed">Aplicación y mapeo de funciones</font>**

<p align="justify"> 👀 Las funciones de  <code>NumPy</code> tambien se pueden aplicar en objetos <code>Pandas</code>.
</p>

In [55]:
resultado

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,-0.02,,-0.29,-0.13
2,0.22,-0.11,-0.12,-0.18


In [56]:
np.abs(resultado)

Unnamed: 0,2018,2020,2021,2023
0,0.0,0.0,0.0,0.0
1,0.02,,0.29,0.13
2,0.22,0.11,0.12,0.18


<p align="justify"> 👀 Otra operación frecuente es aplicar una función para arreglos unidimensionales a cada columna o fila de un objeto bidimensional. El método de los <code>DataFrame</code> denominado <code>apply()</code> hace exactamente eso, arreglos unidimensionales.<br><br> Por ejemplo, primero vamos a crear una función que permita calcular la diferencia entre el valor máximo y el valor mínimo de una <code>Serie</code> y esa función la vamos a aplicar con <code>apply()</code>. Lo mismo podriamos hacer con una función <code>lambda</code>, es decir, aplicar una función <code>lambda</code>.
</p>

In [57]:
frame2 = frame.round(2)
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [58]:
def f1(x): # tome de cada elemento de la serie el maximo menos el minimo valor
  return x.max() - x.min()

In [59]:
type(frame2)

In [60]:
f1(frame2) #  aplique funcion1 a frame2, la funcion aplica metodos sencillos, sino apply funcion

Unnamed: 0,0
2018,0.24
2020,0.1
2021,0.29
2023,0.18


In [61]:
frame2.apply(f1) ## aplico la funcion de apply

Unnamed: 0,0
2018,0.24
2020,0.1
2021,0.29
2023,0.18


In [62]:
frame2.apply(lambda x: x.max() - x.min()) # aplica una funcion lambda

Unnamed: 0,0
2018,0.24
2020,0.1
2021,0.29
2023,0.18


In [63]:
resultado = frame2.apply(lambda x: x.max() - x.min())

In [64]:
type(resultado)

In [65]:
resultado.name = "Diferencia" # cambio el nombre de la serie

In [66]:
resultado

Unnamed: 0,Diferencia
2018,0.24
2020,0.1
2021,0.29
2023,0.18


In [67]:
type(resultado)

In [68]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [69]:
frame2.apply(f1, axis="columns")  # por columnas

Unnamed: 0,0
0,0.47
1,0.2
2,0.39


In [70]:
frame2.apply(f1, axis=0) ## por columnas

Unnamed: 0,0
2018,0.24
2020,0.1
2021,0.29
2023,0.18


In [71]:
frame2.apply(f1, axis=1) ## por columnas

Unnamed: 0,0
0,0.47
1,0.2
2,0.39


In [72]:
frame2.apply(f1, 1)  #3 por columnas

Unnamed: 0,0
0,0.47
1,0.2
2,0.39


In [73]:
frame2.apply(lambda x: x.max() - x.min(), axis="columns")

Unnamed: 0,0
0,0.47
1,0.2
2,0.39


In [74]:
frame2.apply(lambda x: x.max() - x.min(), axis=1)

Unnamed: 0,0
0,0.47
1,0.2
2,0.39


<p align="justify"> 👀 También se pueden usar funciones de <code>Python</code> basadas en cada uno de los elementos. Supongamos que deseamos aplicar formatos a partir de cada elemento de un <code>DataFrame</code>, es decir, en cada dato.<br><br> Podemos hacer esto con <code>map()</code></p>

In [75]:
frame

Unnamed: 0,2018,2020,2021,2023
0,0.696469,0.286139,0.226851,0.551315
1,0.719469,,0.516931,0.68483
2,0.480932,0.392118,0.343178,0.72905


In [76]:
def f2(x):  ## 2 decimales
  return f"{x:.2f}" ## f"{x:.2f}" 3 la funcion que creo es incompatible con el float

In [77]:
frame.round(2)

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [78]:
frame.map(f2)

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [79]:
frame.applymap(f2)

  frame.applymap(f2)


Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [80]:
frame.map(lambda x: f"{x:.2f}").info()  #3 aplicando se trabsforma en cadena de caracteres   object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   2018    3 non-null      object
 1   2020    3 non-null      object
 2   2021    3 non-null      object
 3   2023    3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


In [81]:
frame.map(f2) # aplico el mapeo a cada elemento del DataFrame

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [82]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   2018    3 non-null      float64
 1   2020    2 non-null      float64
 2   2021    3 non-null      float64
 3   2023    3 non-null      float64
dtypes: float64(4)
memory usage: 224.0 bytes


 # **<font color="#07a8ed">Métodos matemáticos y estadísticos</font>**

<p align="justify">
Los objetos de <code>Pandas</code> están equipados con un conjunto de métodos matemáticos y estadísticos. La mayoría de estos métodos entran en la categoría de reducciones, acumulaciones o estadísticas descriptivas, métodos que extraen un valor único (como la suma o la media) de una <code>Serie</code>, o una <code>Serie</code> de valores de las filas o columnas de un <code>DataFrame</code>. <br><br> 👀 En comparación con métodos similares que se encuentran en las matrices <code>NumPy</code>, los métodos de <code>Pandas</code> tienen un manejo integrado para los datos faltantes. </p>

In [83]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [84]:
frame2.shape

(3, 4)

 ## **<font color="#07a8ed">Reducciones</font>**

<p align="justify">
👀 El método <code>sum()</code> devuelve una <code>Serie</code> que contiene la suma de las columnas resultantes de un <code>DataFrame</code>:
</p>

In [85]:
suma_columna = frame2.sum()
suma_columna.name = "Suma"
suma_columna

Unnamed: 0,Suma
2018,1.9
2020,0.68
2021,1.09
2023,1.96


In [86]:
type(suma_columna)

In [87]:
suma_columna.shape # serie 4 filas

(4,)

<p align="justify">
👀 Pero si lo que quiero sumar es todo el índice, entonces utilizamos el parametro <code>axis</code>, con el valor <code>columns</code>:
</p>

In [88]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [89]:
suma_indice = frame2.sum(axis="columns")
suma_indice.name = "Suma"
suma_indice

Unnamed: 0,Suma
0,1.77
1,1.92
2,1.94


In [90]:
suma_indice.shape # serie de 3 columnas

(3,)

 ## **<font color="#07a8ed">Acumulaciones</font>**

<p align="justify">
👀 El método <code>cumsum()</code> devuelve una <code>Serie</code> que contiene la suma acumulada de las columnas resultantes de un <code>DataFrame</code>. Acá tambien se puede utilizar el parámetro <code> axis </code>, con el valor <code>columns</code>.
</p>

In [91]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [92]:
frame2.cumsum()

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,1.42,,0.75,1.23
2,1.9,0.68,1.09,1.96


In [93]:
frame2

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.29,0.23,0.55
1,0.72,,0.52,0.68
2,0.48,0.39,0.34,0.73


In [94]:
frame2.cumsum(axis="columns")

Unnamed: 0,2018,2020,2021,2023
0,0.7,0.99,1.22,1.77
1,0.72,,1.24,1.92
2,0.48,0.87,1.21,1.94


 ## **<font color="#07a8ed">Estadisticas descriptivas</font>**

<p align="justify">
👀 Algunos métodos no son reducciones ni acumulaciones. <code>describe()</code> es uno de esos ejemplos. Produce múltiples estadísticas de  una sola vez, expresadas en un resúmen.
</p>

In [95]:
frame2.describe().round(2)

Unnamed: 0,2018,2020,2021,2023
count,3.0,2.0,3.0,3.0
mean,0.63,0.34,0.36,0.65
std,0.13,0.07,0.15,0.09
min,0.48,0.29,0.23,0.55
25%,0.59,0.32,0.29,0.62
50%,0.7,0.34,0.34,0.68
75%,0.71,0.36,0.43,0.7
max,0.72,0.39,0.52,0.73


In [96]:
frame2.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
2018,3.0,0.63,0.13,0.48,0.59,0.7,0.71,0.72
2020,2.0,0.34,0.07,0.29,0.32,0.34,0.36,0.39
2021,3.0,0.36,0.15,0.23,0.29,0.34,0.43,0.52
2023,3.0,0.65,0.09,0.55,0.62,0.68,0.7,0.73


In [97]:
frame2.pct_change().round(2)

  frame2.pct_change().round(2)


Unnamed: 0,2018,2020,2021,2023
0,,,,
1,0.03,0.0,1.26,0.24
2,-0.33,0.34,-0.35,0.07


 ## **<font color="#07a8ed">Otros métodos matemáticos</font>**

<p align="justify"> 👀 Otros métodos matemáticos y estadísticos, son los siguientes:
<ul>
<li><code>count()</code> número de valores no nulos</li>
<li><code>min()</code> el valor mínimo</li>
<li><code>argmin()</code> ubicaciones de índice (enteros) en las que se obtiene el valor mínimo, no disponible en objetos <code>DataFrame</code></li>
<li><code>argmax()</code> ubicaciones de índice (enteros) en las que se obtiene el valor máximo, no disponible en objetos <code>DataFrame</code></li>
<li><code>idxmin()</code> etiquetas de índice en las que se obtiene el valor mínimo</li>
<li><code>idxmax()</code> etiquetas de índice en las que se obtiene el valor máximo</li>
<li><code>quantile()</code> cuantil de muestra que va de $0$ a $1$ (predeterminado: $0,5$)</li>
<li><code>mean()</code> media de valores</li>
<li><code>median()</code> mediana aritmética ($50$% cuantil) de valores</li>
<li><code>mad()</code> desviación absoluta media del valor medio</li>
<li><code>prod()</code> producto de todos los valores</li>
<li><code>var()</code> varianza de los valores</li>
<li><code>std()</code> desviación estándar de los valores</li>
<li><code>skew()</code> sesgo muestral de los valores</li>
<li><code>kurt()</code> curtosis de los valores</li>
<li><code>diff()</code> diferencia aritmética de los valores</li>
<li><code>pct_change()</code> cambios porcentuales de los valores</li>
</ul>
</p>

 # **<font color="#07a8ed">Correlación y covarianza</font>**

<p align="justify">
Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a partir de argumentos. </p>

In [98]:
resultado = sucursal1.T
resultado

Unnamed: 0,ventas,costo,bruto
2019,1200,800,400
2020,4250,1900,2350
2022,3090,1200,1890
2023,3400,1450,1950


<p align="justify">
Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a partir de argumentos. </p>

<p align="justify">
👀 Podemos calcular la correlación con el método <code>corr()</code> entre las ventas y los costos.
</p>

In [99]:
resultado["ventas"].corr(resultado["costo"]).round(2)

0.96

In [100]:
resultado.ventas.corr(resultado.costo).round(2)

0.96

<p align="justify">
La correlación es una medida estadística que indica la fuerza y la dirección de la relación entre dos variables. Se mide con el coeficiente de correlación, que puede variar entre -1 y 1:
<br><br>

- **1** indica una correlación positiva perfecta: cuando una variable aumenta, la otra también lo hace en proporción directa.
- **-1** indica una correlación negativa perfecta: cuando una variable aumenta, la otra disminuye en proporción directa.
- **0** indica que no hay correlación lineal entre las variables.

<p align="justify">
<br>
En el script <code>resultado["ventas"].corr(resultado["costo"])</code>, se está calculando el coeficiente de correlación entre dos columnas de un DataFrame de pandas: <code>ventas</code> y <code>costo</code>.
<br><br>

- **`resultado["ventas"]`**: Es una serie que representa las ventas en un conjunto de datos.
- **`resultado["costo"]`**: Es una serie que representa los costos en el mismo conjunto de datos.

<p align="justify">
<br>
La función <code>corr()</code> calcula el coeficiente de correlación entre estas dos series. El valor resultante te dirá cómo están relacionadas las ventas y los costos:
<br><br>

- Si el coeficiente es cercano a 1, hay una fuerte relación positiva: a mayor costo, mayores ventas.
- Si el coeficiente es cercano a -1, hay una fuerte relación negativa: a mayor costo, menores ventas.
- Si el coeficiente es cercano a 0, no hay una relación lineal significativa entre ventas y costos.



<p align="justify">
👀 También podemos calcular la covarianza con el método <code>cov()</code> entre las ventas y los costos.
</p>

In [104]:
resultado["ventas"].cov(resultado["costo"]).round(2)  # la covarianza es la direccion de la relacion de 2 variables

567750.0

In [102]:
resultado.ventas.cov(resultado.costo).round(2)

567750.0

<p align="justify">
👀 Podemos calcular la correlación en todo el <code>DataFrame</code>. Esto es lo que conocemos como matriz de correlación.
</p>

In [103]:
resultado.corr()

Unnamed: 0,ventas,costo,bruto
ventas,1.0,0.957384,0.987853
costo,0.957384,1.0,0.900874
bruto,0.987853,0.900874,1.0


<br>
<br>
<p align="center"><b>
💗
<font color="#07a8ed">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
