<a href="https://colab.research.google.com/github/cristiandarioortegayubro/pandito/blob/main/colab/pandas_001.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 p align="center">
<b>
<font color="DeepPink">
Saliendo de lo pandito
</font>
</h1>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true" width="400">
</p>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/pandito/blob/main/images/imagen-001.png?raw=true" width="300">
</p>



<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Conociendo Pandas</font>**

<p align="justify">
El m√≥dulo <code>Pandas</code> es una herramienta importante en el desarrollo de los siguientes notebooks. Contiene estructuras de datos y herramientas de manipulaci√≥n de datos para que la limpieza y el an√°lisis de datos sea r√°pido. <br><br> <code>Pandas</code> usualmente se usa en conjunto con herramientas de computaci√≥n num√©rica como <code>NumPy</code> y como <code>SciPy</code>. Tambien con bibliotecas anal√≠ticas como <code>statsmodels</code> y <code>scikit-learn</code> y bibliotecas de visualizaci√≥n de datos como <code>seaborn</code> y <code>plotly</code>. <br><br> <code>Pandas</code> adopta partes significativas del estilo idiom√°tico de <code>NumPy</code>, especialmente funciones basadas en matrices y una preferencia por el procesamiento de datos sin bucles <code>for</code>.<br><br> Mientras que <code>Pandas</code> adopta muchos modismos de <code>NumPy</code>, la mayor diferencia que tienen ambos m√≥dulos es que <code>Pandas</code> est√° dise√±ado para trabajar con datos tabulares o heterog√©neos mientras que <code>NumPy</code>, por el contrario, es el m√°s adecuado para trabajar con datos de matrices num√©ricas homog√©neas.Desde que se convirti√≥ en un proyecto de c√≥digo abierto en 2010, <code>Pandas</code> ha madurado hasta convertirse en una biblioteca bastante grande que es aplicable en un amplio conjunto de casos de uso del mundo real. La comunidad de desarrolladores y usuarios de <code>Pandas</code> han sido una parte clave de su √©xito.
</p>

<p align="justify"> üëÄ Por convenci√≥n, de esta manera se importa <code>Pandas</code>:  </p>

In [1]:
import numpy as np
import pandas as pd

 # **<font color="DeepPink">Estructuras de datos</font>**

<p align="justify">
Las estructuras de datos que debemos manejar son: <code>Series</code> y <code>DataFrame</code>. Si bien no son una soluci√≥n universal para todos los problemas que se pueden plantear, proporcionan una base s√≥lida para una amplia variedad de tareas de datos. Estas estructuras de datos son fundamentales en <code>Pandas</code>.
</p>

 ## **<font color="DeepPink">Serie</font>**

<p align="justify">
Una serie es un objeto unidimensional similar a una matriz que contiene una secuencia de valores (similares a los tipos NumPy) del mismo tipo y una matriz asociada de etiquetas de datos, denominada √≠ndice. <br><br> La serie m√°s simple se forma a partir de solo una matriz de datos:</p>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Image_0005.jpg?raw=true" width="600" height="">
</p>


<p align="justify"> üëÄ
Con el m√©todo <code>Series()</code> de <code>Pandas</code> creamos la serie, solamente pasando una lista de elementos (del mismo tipo de datos) podemos crear nuestra serie, y luego podemos asignar esta serie a un objeto. Para verla, solamente llamamos al objeto.
</p>

In [2]:
serie = pd.Series([7, 9, 5])

In [3]:
serie

0    7
1    9
2    5
dtype: int64

<p align="justify"> üëÄ
La representaci√≥n de una serie que se muestra interactivamente muestra el √≠ndice a la izquierda y los valores a la derecha. Como no especificamos un √≠ndice para los datos, se crea uno predeterminado que consiste en valores enteros. <br><br>Para obtener una representaci√≥n de matriz, se usa el atributo <code>array</code> y para visualizar el indice de los elementos de la serie, se usa el atributo <code>index</code>.
</p>

In [4]:
serie.array

<PandasArray>
[7, 9, 5]
Length: 3, dtype: int64

In [5]:
serie.index

RangeIndex(start=0, stop=3, step=1)

<p align="justify"> üëÄ
Puede ser que se quiera crear una serie con un √≠ndice que identifique cada punto de datos con una etiqueta. Por ejemplo:
</p>

In [6]:
indice = pd.Series([40, 42, 45, 43], index=["d", "b", "a", "c"])

In [7]:
indice

d    40
b    42
a    45
c    43
dtype: int64

In [8]:
indice.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [9]:
"b" in indice

True

In [10]:
"h" in indice

False

<p align="justify"> üëÄ
Si tenemos los datos contenidos en un diccionario, entonces se puede crear una serie. Por ejemplo:
</p>

In [11]:
ESP = {"Activo": 35000, "Pasivo": 10000, "Patrimonio Neto": 25000}

In [12]:
esp = pd.Series(ESP)

In [13]:
esp

Activo             35000
Pasivo             10000
Patrimonio Neto    25000
dtype: int64

In [14]:
esp[0] == esp[1] + esp[2]

True

<p align="justify"> üëÄ
Y una serie puede convertirse en diccionario con el metodo <code>to_dict()</code>. Por ejemplo:
</p>

In [15]:
esp.to_dict()

{'Activo': 35000, 'Pasivo': 10000, 'Patrimonio Neto': 25000}

 ## **<font color="DeepPink">DataFrame</font>**

<p align="justify">
Un DataFrame representa una tabla de datos y contiene una colecci√≥n ordenada y con nombre de columnas, cada una de las cuales puede ser un tipo de valor diferente (num√©rico, cadena, booleano, etc.). El DataFrame tiene un √≠ndice de fila y columna.
</p>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Image_0007.jpg?raw=true"width="600" height="">
</p>


<p align="justify"> üëÄ
Si bien un DataFrame es f√≠sicamente bidimensional, puede usarlo para representar datos de dimensiones superiores en un formato tabular utilizando la indexaci√≥n jer√°rquica... Hay muchas maneras de construir un DataFrame, aunque una de las m√°s comunes es desde un diccionario de listas de igual longitud o matrices <code>NumPy</code>.
</p>

In [16]:
ventas = [230.1, 44.5, 17.2, 151.5, 180.8]
periodico = [22.1, 10.4, 9.3, 18.5, 12.9]
radio = [37.8, 39.3, 45.9, 41.3, 10.8]
tv = [69.2, 45.1, 69.3, 58.5, 58.4]

In [17]:
diccionario = {"Ventas":ventas,
               "Radio":radio,
               "Tv":tv,
               "Periodico":periodico}

In [18]:
df = pd.DataFrame(diccionario)

In [19]:
df

Unnamed: 0,Ventas,Radio,Tv,Periodico
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


<p align="justify"> üëÄ
A la hora de la creacion del DataFrame se puede especificar el orden de las columnas. <br><br>Por ejemplo:
</p>

In [20]:
df = pd.DataFrame(diccionario, columns=["Ventas","Periodico", "Radio", "Tv"])

In [21]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv
0,230.1,22.1,37.8,69.2
1,44.5,10.4,39.3,45.1
2,17.2,9.3,45.9,69.3
3,151.5,18.5,41.3,58.5
4,180.8,12.9,10.8,58.4


<p align="justify"> üëÄ
Si se coloca una columna que no estaba, entonces aparece con valores nulos en el DataFrame. Por ejemplo:
</p>

In [22]:
df = pd.DataFrame(diccionario, columns=["Ventas", "Periodico", "Radio", "Tv", "Media"])

In [23]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,
1,44.5,10.4,39.3,45.1,
2,17.2,9.3,45.9,69.3,
3,151.5,18.5,41.3,58.5,
4,180.8,12.9,10.8,58.4,


<p align="justify"> üëÄ
Se pueden sumar las columnas del DataFrame. Por ejemplo:
</p>

In [24]:
df.Media = df.Periodico + df.Radio + df.Tv

In [25]:
df[["Ventas","Media","Periodico","Radio","Tv"]]

Unnamed: 0,Ventas,Media,Periodico,Radio,Tv
0,230.1,129.1,22.1,37.8,69.2
1,44.5,94.8,10.4,39.3,45.1
2,17.2,124.5,9.3,45.9,69.3
3,151.5,118.3,18.5,41.3,58.5
4,180.8,82.1,12.9,10.8,58.4


<p align="justify"> üëÄ
Podemos hacer transpoci√≥n del DataFrame. Por ejemplo:
</p>

In [26]:
df.T

Unnamed: 0,0,1,2,3,4
Ventas,230.1,44.5,17.2,151.5,180.8
Periodico,22.1,10.4,9.3,18.5,12.9
Radio,37.8,39.3,45.9,41.3,10.8
Tv,69.2,45.1,69.3,58.5,58.4
Media,129.1,94.8,124.5,118.3,82.1


<p align="justify">
üü° Hay que tener en cuenta que la transposici√≥n descarta los tipos de datos de columna, si las columnas no tienen todas el mismo tipo de datos, por lo que hacer transposici√≥n y hacerla posteriormente de nuevo, puede generar la perdida de informaci√≥n de los datos anteriores. Las columnas se convierten en matrices de objetos puros en este caso.
</p>

 # **<font color="DeepPink">Selecci√≥n de Datos </font>**

<p align="justify">
Algunos m√©todos para la interacci√≥n con los datos contenidos en una serie o DataFrame. Para ello, vamos a generar un DataFrame con los valores de la cotizaci√≥n del dolar.</p>

In [27]:
!pip install yfinance 

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


 ## **<font color="DeepPink">Selecci√≥n por etiquetas</font>**

<p align="justify">
<code>Pandas</code> proporciona un conjunto de m√©todos para lograr una indexaci√≥n. Este es un protocolo estricto basado en la inclusi√≥n. En el caso de indexaci√≥n por etiquetas este es un protocolo estricto basado en la inclusi√≥n. Cada etiqueta solicitada debe existir, tanto en el indice como en las columnas. Al seleccionar por ejemplo filas (indice) se incluye el l√≠mite inicial indicado y el l√≠mite final. <br><br> üëÄ Los n√∫meros enteros son etiquetas v√°lidas, pero se refieren a las etiquetas del indice (cuando la etiqueta es num√©rica) y no a la posici√≥n de cada fila. Lo mismo pasa cuando en el √≠ndice tenemos fechas.
</p>

~~~python
df.loc[fila inicial : fila final, columna inicial : columna final]
~~~


In [28]:
import yfinance as yf 
dolar_oficial = yf.download("ARS=X", start="2023-01-03").round(2)

[*********************100%***********************]  1 of 1 completed


In [29]:
dolar_oficial.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-01-03,178.15,178.51,177.1,178.15,178.15,0
2023-01-04,178.38,178.73,177.39,178.38,178.38,0
2023-01-05,178.58,179.03,178.04,178.58,178.58,0
2023-01-06,178.91,179.95,178.86,178.91,178.91,0
2023-01-09,179.07,180.23,178.56,179.07,179.07,0


<p align="justify">
Vamos a seleccionar los valores de apertura y de cierre, es decir, las columnas <code>Open</code> y <code>Close</code>.</p>



In [30]:
dolar_oficial.loc[:,["Open","Close"]].head()

Unnamed: 0_level_0,Open,Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-03,178.15,178.15
2023-01-04,178.38,178.38
2023-01-05,178.58,178.58
2023-01-06,178.91,178.91
2023-01-09,179.07,179.07


<p align="justify">
O podemos seleccionar tambi√©n desde el d√≠a $03$ de enero al d√≠a $06$ de enero.</p>


In [31]:
dolar_oficial.loc["2023-01-03":"2023-01-06",:]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-01-03,178.15,178.51,177.1,178.15,178.15,0
2023-01-04,178.38,178.73,177.39,178.38,178.38,0
2023-01-05,178.58,179.03,178.04,178.58,178.58,0
2023-01-06,178.91,179.95,178.86,178.91,178.91,0


 ## **<font color="DeepPink">Selecci√≥n por posici√≥n</font>**

<p align="justify">
<code>Pandas</code> proporciona un conjunto de m√©todos para obtener una indexaci√≥n puramente basada en enteros. La sem√°ntica sigue de cerca lo definido en <code>Python</code> y <code>NumPy</code>. Al seleccionar, se incluye el l√≠mite inicial $n$, mientras que se excluye el l√≠mite final $m$, es decir desde $n$ hasta $m-1$ <br><br> üëÄ En los par√°metros de la selecci√≥n, siempre se indica primero las filas y luego las columnas. En el caso de seleccionar de un DataFrame, se hace de la siguiente forma:
</p>

~~~python
df.iloc[fila inicial : fila final, columna inicial : columna final]
~~~


<p align="justify">
Vamos a seleccionar los valores de apertura y de cierre, es decir, las columnas <code>Open</code> y <code>Close</code>, pero usando este tipo de selecci√≥n.</p>


In [32]:
dolar_oficial.iloc[:,[0,3]].head()

Unnamed: 0_level_0,Open,Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-03,178.15,178.15
2023-01-04,178.38,178.38
2023-01-05,178.58,178.58
2023-01-06,178.91,178.91
2023-01-09,179.07,179.07


<p align="justify">
O podemos seleccionar tambi√©n desde el d√≠a $03$ de enero al d√≠a $06$ de enero.</p>


In [33]:
dolar_oficial.iloc[0:4,:]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-01-03,178.15,178.51,177.1,178.15,178.15,0
2023-01-04,178.38,178.73,177.39,178.38,178.38,0
2023-01-05,178.58,179.03,178.04,178.58,178.58,0
2023-01-06,178.91,179.95,178.86,178.91,178.91,0


<p align="justify">
Tambi√©n podemos seleccionar la posici√≥n del dato.</p>


In [34]:
dolar_oficial.iloc[0]

Open         178.15
High         178.51
Low          177.10
Close        178.15
Adj Close    178.15
Volume         0.00
Name: 2023-01-03 00:00:00, dtype: float64

 ## **<font color="DeepPink">Filtros</font>**

<p align="justify">
<code>Pandas</code> nos permite llevar a cabo algunas opciones para filtrar nuestros datos, incluidas las m√°scaras booleanas y algunos m√©todos especiales. Con las m√°scaras booleanas, probamos nuestros datos contra alg√∫n valor y obtenemos una estructura de la misma forma, excepto que est√° llena de valores que son <code>True</code> o <code>False</code>.
</p>


In [35]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


### **<font color="DeepPink"> Mayor ```>``` Mayor igual ```>=``` Menor ```<``` Menor igual ```<=```</font>**

<p align="justify">
Filtramos los valores Radio mayores a $40$.</p>


In [36]:
df[df.Radio > 40]

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3


<p align="justify">
Ahora filtramos los valores Radio mayores a $40$, pero con el m√©todo <code>query()</code>.</p>


In [37]:
df.query("Radio > 40")

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3


### **<font color="DeepPink">Dos o m√°s condiciones verdaderas ```&```</font>**

<p align="justify">
Para visualizar m√°s de dos condiciones verdaderas, es decir todas las condiciones verdaderas se usa el s√≠mbolo &...</p>


In [38]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [39]:
df[(df.Periodico > 11) & (df.Radio > 41)]

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
3,151.5,18.5,41.3,58.5,118.3


In [40]:
df.query("Periodico > 11 & Radio > 41")

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
3,151.5,18.5,41.3,58.5,118.3


### **<font color="DeepPink">Dos o m√°s condiciones, alguna verdadera ```|```</font>**

<p align="justify">
Para visualizar m√°s de dos condiciones y alguna de ellas es verdadera, se usa el s√≠mbolo |...</p>


In [41]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [42]:
df[(df.Periodico > 15) | (df.Radio > 41)]

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3


In [43]:
df.query("Periodico > 15 | Radio > 41")

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3


### **<font color="DeepPink">Conjunto de valores ```between()```</font>**

<p align="justify">
Para un conjunto de valores entre un intervalo determinado...</p>


In [44]:
df

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
2,17.2,9.3,45.9,69.3,124.5
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [45]:
df[df.Periodico.between(10.4, 22.1)]

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [46]:
df.query("Periodico >= 10.4 & Periodico <= 22.1")

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
0,230.1,22.1,37.8,69.2,129.1
1,44.5,10.4,39.3,45.1,94.8
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [47]:
df[df.Periodico.between(10.4, 22.1, inclusive="neither")]

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


In [48]:
df.query("Periodico > 10.4 & Periodico < 22.1")

Unnamed: 0,Ventas,Periodico,Radio,Tv,Media
3,151.5,18.5,41.3,58.5,118.3
4,180.8,12.9,10.8,58.4,82.1


<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
