 # **<font color="DarkBlue">Funcionalidades esenciales 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Indexación, selección y filtrado de datos</font>**

<p align="justify">
La indexación, selección y filtrado de datos son conceptos fundamentales en Pandas que permiten a los usuarios acceder, manipular y analizar datos de manera eficiente dentro de un DataFrame o Series. A continuación, se presenta una explicación detallada de estos conceptos, junto con ejemplos aplicados al ámbito de negocios.



 ## **<font color="DarkBlue">Indexación de Datos </font>**

<p align="justify">
Ejemplo: Supongamos que una empresa tiene un DataFrame que almacena las ventas mensuales de diferentes productos. Para acceder a las ventas de febrero del "Producto B", se utiliza la siguiente indexación:

In [None]:
import pandas as pd

 ## **<font color="DarkBlue">Indexación por etiquetas</font>**

<p align="justify">
<code>Pandas</code> proporciona un conjunto de métodos para lograr una indexación. Este es un protocolo estricto basado en la inclusión. En el caso de indexación por etiquetas este es un protocolo estricto basado en la inclusión. Cada etiqueta solicitada debe existir, tanto en el indice como en las columnas. Al seleccionar por ejemplo filas (indice) se incluye el límite inicial indicado y el límite final. <br><br> 👀 Los números enteros son etiquetas válidas, pero se refieren a las etiquetas del indice (cuando la etiqueta es numérica) y no a la posición de cada fila. Lo mismo pasa cuando en el índice tenemos fechas.
</p>

~~~python
df.loc[fila inicial : fila final, columna inicial : columna final]
~~~


In [None]:
# Datos de ventas
data = {
    'Producto': ['Producto A', 'Producto B', 'Producto C'],
    'Enero': [1000, 1500, 1200],
    'Febrero': [1100, 1400, 1300],
    'Marzo': [1200, 1600, 1250]
}

In [None]:
# Creando el DataFrame
df = pd.DataFrame(data)
df.set_index('Producto', inplace=True)
df

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
# Indexar por etiqueta
ventas_febrero = df.loc['Producto B', 'Febrero']
ventas_febrero

1400

<p align="justify">
Vamos a seleccionar los ventas de Enero y de Febrero, es decir, las columnas <code>Enero</code> y <code>Febrero</code>.</p>



In [None]:
df.loc[:, ["Enero", "Febrero"]] # [fila inicial : fila final , [lista de columnas]]

Unnamed: 0_level_0,Enero,Febrero
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Producto A,1000,1100
Producto B,1500,1400
Producto C,1200,1300


In [None]:
df.loc[:,["Enero","Febrero"]].head(2)

Unnamed: 0_level_0,Enero,Febrero
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Producto A,1000,1100
Producto B,1500,1400


<p align="justify">
O podemos seleccionar también desde el producto B al producto C.</p>


In [None]:
df.loc["Producto B":"Producto C",:] # [fila inicial : fila final , todas las columnas]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.loc["Producto B":"Producto C", ["Enero", "Marzo"]]

Unnamed: 0_level_0,Enero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Producto B,1500,1600
Producto C,1200,1250


In [None]:
df.loc[["Producto A"], ["Febrero", "Marzo"]]

Unnamed: 0_level_0,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Producto A,1100,1200


 ## **<font color="DarkBlue">Indexación por posición</font>**

<p align="justify">
<code>Pandas</code> proporciona un conjunto de métodos para obtener una indexación puramente basada en enteros. La semántica sigue de cerca lo definido en <code>Python</code> y <code>NumPy</code>. Al seleccionar, se incluye el límite inicial $n$, mientras que se excluye el límite final $m$, es decir desde $n$ hasta $m-1$ <br><br> 👀 En los parámetros de la selección, siempre se indica primero las filas y luego las columnas. En el caso de seleccionar de un DataFrame, se hace de la siguiente forma:
</p>

~~~python
df.iloc[fila inicial : fila final, columna inicial : columna final]
~~~


<p align="justify">
Vamos a seleccionar los valores de apertura y de cierre, es decir, las columnas <code>Open</code> y <code>Close</code>, pero usando este tipo de selección.</p>


In [None]:
df.columns

Index(['Enero', 'Febrero', 'Marzo'], dtype='object')

In [None]:
df.iloc[:,[0,2]].head(2)

Unnamed: 0_level_0,Enero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Producto A,1000,1200
Producto B,1500,1600


<p align="justify">
O podemos seleccionar también ...</p>


In [None]:
df.iloc[0:3,:]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.iloc[[0],:]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200


<p align="justify">
También podemos seleccionar la posición del dato.</p>


In [None]:
df.iloc[0]

Unnamed: 0,Producto A
Enero,1000
Febrero,1100
Marzo,1200


In [None]:
df.iloc[[0]]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200


 ## **<font color="DarkBlue">Filtrado de Datos</font>**

<p align="justify">
<code>Pandas</code> nos permite llevar a cabo algunas opciones para filtrar nuestros datos, incluidas las máscaras booleanas y algunos métodos especiales. Con las máscaras booleanas, probamos nuestros datos contra algún valor y obtenemos una estructura de la misma forma, excepto que está llena de valores que son <code>True</code> o <code>False</code>.
</p>


In [None]:
df

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


### **<font color="DarkBlue"> Mayor ```>``` Mayor igual ```>=``` Menor ```<``` Menor igual ```<=```</font>**

<p align="justify">
Filtramos los valores de Enero mayores a $1200$.</p>


In [None]:
df[df.Enero > 1200]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600


<p align="justify">
Ahora filtramos los valores de Enero mayores a $1200$, pero con el método <code>query()</code>.</p>


In [None]:
df.query("Enero > 1200")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600


### **<font color="DarkBlue">Dos o más condiciones verdaderas ```&```</font>**

<p align="justify">
Para visualizar más de dos condiciones verdaderas, es decir todas las condiciones verdaderas se usa el símbolo &...</p>


In [None]:
df

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df[(df.Enero > 1000) & (df.Febrero > 1100)]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.query("Enero > 1000 & Febrero > 1100")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.query("Enero > 1000 and Febrero > 1100")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600
Producto C,1200,1300,1250


### **<font color="DarkBlue">Dos o más condiciones, alguna verdadera ```|```</font>**

<p align="justify">
Para visualizar más de dos condiciones y alguna de ellas es verdadera, se usa el símbolo |...</p>


In [None]:
df

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df[(df.Febrero > 1400) | (df.Marzo > 1300)]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600


In [None]:
df.query("Febrero > 1400 | Marzo > 1300")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600


In [None]:
df.query("Febrero > 1400 or Marzo > 1300")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto B,1500,1400,1600


### **<font color="DarkBlue">Conjunto de valores ```between()```</font>**

<p align="justify">
Para un conjunto de valores entre un intervalo determinado...</p>


In [None]:
df

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df[df.Febrero.between(1100, 1400)]

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.query("Febrero >= 1100 & Febrero <= 1400")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df.query("Febrero >= 1100 and Febrero <= 1400")

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto A,1000,1100,1200
Producto B,1500,1400,1600
Producto C,1200,1300,1250


In [None]:
df[df.Febrero.between(1100, 1400, inclusive="neither")] # excluye los extremos

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto C,1200,1300,1250


In [None]:
df.query("Febrero > 1100 & Febrero < 1400") # excluye los extremos

Unnamed: 0_level_0,Enero,Febrero,Marzo
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Producto C,1200,1300,1250


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
