<a href="https://colab.research.google.com/github/jjAguil/Tareas-Simulacion/blob/main/Pandas_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas
Pandas es una librería *open-source* para manipulación y análisis de datos.
Proporciona estructuras de datos de fácil uso, así como funciones implementadas
de manera eficiente para trabajar sobre los datos de dichas estructuras. Los
casos más comúnes de uso para Pandas son: datos tabulares (datos que podríamos
tener en tablas de Excel) y series de tiempo. Sus estructuras de datos
principales son: DataFrames y Series.

## Series
- Una serie es un arreglo unidimensional con etiquetas
- Puede almacenar datos de cualquier tipo
- Análogo a una columna de un DataFrame (tabla)
- Cada elemento de la serie tiene un índice asociado. Recuperación de datos
fácil y eficiente

Entre sus principales características encontramos:
- 1D: Es una simple columna de datos
- Índice: cada elemento puede ser asociado con una etiqueta
- Datos Homogéneos: Contiene datos de un solo tipo
- Pueden crearse a partir de diferentes tipos de datos como: listas, arreglos de
numpy, diccionarios, entre otros
- Se pueden realizar diversas operaciones matemáticas y lógicas sobre ella

## DataFrame
Un DataFrame es una estructura de datos bidimensional, que almacena datos de
tipo tabular; similar a una hoja de cálculo de Excel. Está conformado por filas
y columnas, donde cada columna puede contener diferentes tipos de datos:
numéricos, *strings*, fechas, etc.

Los DataFrames son muy versátiles y son capaces de manejar diversos tipos de
datos y operaciones. Una forma común de visualizar a un DataFrame es como una
colección de Series, aunque veremos que eso no es del todo cierto.

Principales características de los DataFrames
- Estructura Tabular: organización en filas y columnas
- Columnas: cada columnda tiene un nombre asociado, y pueden contener diferentes
tipos de datos
- Índices: son etiquetas para las filas
- Flexibilidad: Podemos crearlos a partir de diferentes fuentes: diccionarios, listas, CSV, Excel, SQL, etc.
- Manipulación de datos: ofrece métodos para filtrar, transformar, agregar y
analizar datos
- Datos perdidos: proveen herramientas para lidiar con datos perdidos o
incompletos
- Alineación: Alinean los datos de manera automática basándose en los índices,
volviendo las operaciones entre DataFrames triviales

# Importar Pandas
Por convención, se importa la librería pandas de la siguiente manera:
```python
import pandas as pd
```

In [None]:
import pandas as pd
import numpy as np

# Creación de DataFrames
Existen diversas maneras de crear un DataFrame con Pandas. Para todos los casos
donde no creamos un DataFrame importando datos externos, la función para hacerlo
es `pd.DataFrame()`. A continuación, una lista de formas comúnes de crear
DataFrames
1. **A partir de un diccionario de listas o arreglos**

En el diccionario, las llaves representarán los nombres de las columnas; los
valores representan los datos a lo largo de la columna correspondiente. *Nota*:
Todas las listas/arrays deben tener la misma longitud.


In [None]:
data = {'Nombre': ['Tania', 'Cesar', 'Miguel'],
        'Edad': [25, 29, 28],
        'Ciudad': ['CDMX', 'Tula', 'Tulancingo']}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Tania,25,CDMX
1,Cesar,29,Tula
2,Miguel,28,Tulancingo


2. **A partir de una lista de diccionarios**

Aquí las estructuras de datos se invierten. Cada diccionario representa una fila
del DataFrame, las llaves representan el nombre de la columna a la cual se le
asignará el valor correspondiente.


In [None]:
data = [
    {'Nombre': 'Tania', 'Edad': 25, 'Ciudad': 'CDMX'},
    {'Nombre': 'Cesar', 'Edad': 29, 'Ciudad': 'Tula'},
    {'Nombre': 'Miguel', 'Edad': 28, 'Ciudad': 'Tulancingo'}
]
df = pd.DataFrame(data)
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Tania,25,CDMX
1,Cesar,29,Tula
2,Miguel,28,Tulancingo


3. **A partir de arreglos de Numpy**

Se debe proveer tanto los datos mediante el arreglo numpy, como el nombre de las
columnas al momento de crear del DataFrame.


In [None]:
import numpy as np

data = np.array([
    ['Tania', 25, 'CDMX'],
    ['Cesar', 29, 'Tula'],
    ['Miguel', 28, 'Tulancingo']
])

df = pd.DataFrame(data, columns=['Nombre', 'Edad', 'Ciudad'])
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Tania,25,CDMX
1,Cesar,29,Tula
2,Miguel,28,Tulancingo


4. **A partir de un archivo CSV**

Los archivos CSV contienen datos separados por comas (**C**omma **S**eparated
**V**alues). Para ello, se utiliza la función `read_csv()`


In [None]:
df = pd.read_csv('./df_creation.csv', index_col=0)
df.head()

Unnamed: 0_level_0,Edad,Ciudad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Tania,25,CDMX
Cesar,29,Tula
Miguel,28,Tulancingo


In [None]:
df.loc['Miguel', 'Edad']

28

5. **A partir de un archivo de Excel**

Similar a los archivos CSV, podemos crear un DataFrame a partir de un archivo
de excel mediante la función `read_excel()`.



In [None]:
_df = pd.read_excel('df_creation.xlsx', index_col=0)
_df.head()


Unnamed: 0_level_0,Edad,Ciudad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Tania,25,CDMX
Cesar,29,Tula
Miguel,28,Tulancingo


In [None]:
_df.index

Index(['Tania', 'Cesar', 'Miguel'], dtype='object', name='Nombre')

In [None]:
_df.shape

(3, 2)

6. **A partir de un Diccionario de Series**

Las llaves del diccionario son los nombres de las columnas y los valores son
Series de Pandas.


In [None]:
data = {
    'Nombre': pd.Series(['Tania', 'Cesar', 'Miguel']),
    'Edad': pd.Series([25, 29, 28]),
    'Ciudad': pd.Series(['CDMX', 'Tula', 'Tulancingo'])
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Tania,25,CDMX
1,Cesar,29,Tula
2,Miguel,28,Tulancingo


In [None]:
df.shape

(3, 3)

Para acceder a un valor del DataFrame, hacemos una indización similar a la que
realizamos con arreglos de Numpy. Por ejemplo:
- La entrada `[0, 'Nombre']` tiene el valor `Tania`
- La entrada `[1, 'Ciudad']` tiene el valor `Tula`
- La entrada `[2, 'Edad']` tiene el valor `28`

# Primeros Pasos
## Shape
Al igual que los arrays de numpy, los DataFrames también tienen *forma*, para
obtener dicho valor, también debemos acceder al atributo `shape` del DataFrame

In [None]:
# importar dataset Iris para ejemplos
from sklearn import datasets

iris = datasets.load_iris(as_frame=True)
df = iris.data

In [None]:
print(f"La shape de df es: {df.shape}")

La shape de df es: (150, 4)


## Head
El método `head()` nos permite una vista rápida al DataFrame. Jupyter nos
mostrará las primeras 5 filas, por default de la tabla, con lo que podemos
darnos una idea de las columnas y los tipos de datos que contienen

In [None]:
df.head(10)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


## Tail
Similar a `head()` pero con las últimas filas

In [None]:
df.tail(15)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
135,7.7,3.0,6.1,2.3
136,6.3,3.4,5.6,2.4
137,6.4,3.1,5.5,1.8
138,6.0,3.0,4.8,1.8
139,6.9,3.1,5.4,2.1
140,6.7,3.1,5.6,2.4
141,6.9,3.1,5.1,2.3
142,5.8,2.7,5.1,1.9
143,6.8,3.2,5.9,2.3
144,6.7,3.3,5.7,2.5


## Index y Columns
Estos atributos contienen los nombres de las columnas y de los índices,
respectivamente

In [None]:
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=150, step=1)

## Describe e Info - Obteniendo información del DataFrame
`describe()` nos regresa información estadística sobre las columnas

In [None]:
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## Acceder a los diferentes datos
Podemos utilizar una indización similar a la de los diccionarios para acceder
a una columnda dada de nuestro DataFrame. La sintáxis para ellos es:
`data_frame['nombre de columna']`

In [None]:
df['sepal length (cm)']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal length (cm), Length: 150, dtype: float64

Para acceder al valor de una fila específica, podemos escribir:
`data_frame['nombre de columna'][indice]`

**Nota**: pronto veremos por qué la indización en cadena puede ser problemática,
especialmente cuando queremos asignar algún valor; en el caso de simplemente
acceder a él, no existe mayor problema.

In [None]:
df['sepal length (cm)'][1]

4.9

# Regresando al BlockManager
Crearemos un nuevo DataFrame, con diferentes tipos de datos

In [None]:
df = pd.DataFrame({
    'int64_1': np.array([1, 2, 3], dtype=np.int64),
    'int64_2': np.array([10, 20, 30], dtype=np.int64),
    'int32_1': np.array([9, 8, 7], dtype=np.int32),
    'float64_1': np.array([.1, .5, .7], dtype=np.float64),
    'string': ['hola', 'numpy', 'pandas']
})

df.head()

Unnamed: 0,int64_1,int64_2,int32_1,float64_1,string
0,1,10,9,0.1,hola
1,2,20,8,0.5,numpy
2,3,30,7,0.7,pandas


Recordemos que el BlockManager agrupa las columnas de los mismos tipos de datos
en *bloques*.
![](https://drive.google.com/uc?id=1uL-AuDzeh-hIV3sKbFDwciRO_HkkltrC)

En el caso del ejemplo anterior, las columnas `int64_1` e `int64_2` deben estar
almacenadas en el mismo bloque de memoria, es decir, en el mismo arreglo de
Numpy.

Si accedemos a cada una de las columnas, parece que conforman objetos (arreglos)
diferentes.

In [None]:
df['int64_1'].values

array([1, 2, 3])

In [None]:
type(df['int64_1'].values)

numpy.ndarray

In [None]:
df['int64_1'].values.shape

(3,)

In [None]:
df['int64_2'].values

array([10, 20, 30])

In [None]:
type(df['int64_2'].values)

numpy.ndarray

Sin embargo, podemos constatar que, *under the hood*, son el mismo objeto

In [None]:
df['int64_2'].values.shape

(3,)

In [None]:
df['int64_1'].values.base

array([[ 1,  2,  3],
       [10, 20, 30]])

In [None]:
df['int64_2'].values.base

array([[ 1,  2,  3],
       [10, 20, 30]])

In [None]:
df['string'].values.base

array([['hola', 'numpy', 'pandas']], dtype=object)

In [None]:
df['int32_1'].values.base

array([[9, 8, 7]], dtype=int32)

Obeservemos como, a pesar de que en el DataFrame Pandas nos muestra los valores
como columnas, en realidad están guardados como filas, es decir, cada fila del
arreglo *base*, corresponde a una columna del DataFrame.

Esto tiene que ver con la forma en que Numpy almacena sus arrays en memoria, que
es en *row major order*, es decir, los elementos se almacenan de manera
contigua en la memoria, por filas. Por lo tanto, para operaciones vectorizadas,
es más rápido trabajar las operaciones sobre las filas, ya que al estar juntas
en memoria, el procesador puede ejecutar sus operaciones de manera más rápida.

Veamos un ejemplo:

In [None]:
a = np.ones((10000, 10000), dtype='float')

In [None]:
%timeit a.mean(axis=0)

85.6 ms ± 4.72 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%timeit a.mean(axis=1)

75.9 ms ± 2.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
del(a)

Retomando los DataFrames y el BlockManager, podemos observar cómo es que el
DataFrame se almacena en memoria mediante el atributo `_data`

In [None]:
df._data

BlockManager
Items: Index(['int64_1', 'int64_2', 'int32_1', 'float64_1', 'string'], dtype='object')
Axis 1: RangeIndex(start=0, stop=3, step=1)
NumericBlock: slice(0, 2, 1), 2 x 3, dtype: int64
NumericBlock: slice(2, 3, 1), 1 x 3, dtype: int32
NumericBlock: slice(3, 4, 1), 1 x 3, dtype: float64
ObjectBlock: slice(4, 5, 1), 1 x 3, dtype: object

# Beneficios del BlockManager
La idea detrás del BlockManager es que, a pesar de tener datos tabulares,
a veces queremos realizar la misma operación en todos los valores de varias
columnas al mismo tiempo.

Aún cuando las operaciones entre arrays sueles estar implementadas de manera
eficiente, tener todas las columnas sobre las cuales se va a operar en un único
arreglo suele ser aún más eficiente. Por ejemplo:

In [None]:
# crear columnas por separado
a1 = np.arange(128 * 1024 * 1024)
a2 = np.arange(128 * 1024 * 1024)

# Crear un nuevo arreglo, con dos filas y el mismo número de columnas que el
# número de elementos que a1 y a2
a_both = np.empty((2, a1.shape[0]))
a_both[0, :] = a1
a_both[1, :] = a2

a_both_T = np.empty((a1.shape[0], 2))
a_both_T[:, 0] = a1
a_both_T[:, 1] = a2

In [None]:
# tiempo de ejecución de la suma de dos arreglos por separado
%timeit a1 + a2

468 ms ± 4.69 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
# tiempo de ejecución con un solo arreglo. Modo filas, igual que pandas
%timeit np.sum(a_both, axis=1)

222 ms ± 15.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
# tiempo de ejecución con un solo arreglo, guardandolo como columnas
%timeit np.sum(a_both_T, axis=0)

3.19 s ± 302 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# Regresando a los índices
A pesar de que podemos acceder mediante corchetes a los diferentes elementos del
DataFrame, `pandas` provee sus propios operadores: `loc` y `iloc`. En general,
para operaciones *avanzadas*, son los operadores recomendados. Como buena
práctica, lo mejor es acostumbrarse desde un inicio a utilizarlos en todas las
operaciones.

## Acceso a elementos mediante índices numéricos
Aquí es donde entra el operador `iloc`.

In [None]:
df = iris.data
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
# obtener todos los elementos de la columna 3
df.iloc[:, 3]

0      0.2
1      0.2
2      0.2
3      0.2
4      0.2
      ... 
145    2.3
146    1.9
147    2.0
148    2.3
149    1.8
Name: petal width (cm), Length: 150, dtype: float64

In [None]:
# obtener toda la fila 2
df.iloc[2, :]

sepal length (cm)    4.7
sepal width (cm)     3.2
petal length (cm)    1.3
petal width (cm)     0.2
Name: 2, dtype: float64

In [None]:
# obtener el dato de la fila 2, columna 1
df.iloc[2, 1]

3.2

In [None]:
# también aplican los indices negativos y los slices
df.iloc[:3, -2:]

Unnamed: 0,petal length (cm),petal width (cm)
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2


## Acceso a los elementos mediante etiquetas
También podemos acceder a los elementos del DataFrame mediante sus etiquetas,
tanto para las filas como para las columnas, para ello, hacemos uso del operador
`loc`. Es importante recalcar que aquí no importa la posición de los datos, sino
sus etiquetas.

In [None]:
df.loc[0, 'sepal width (cm)']

3.5

In [None]:
df.loc[:3, ['sepal width (cm)', 'petal length (cm)']]

Unnamed: 0,sepal width (cm),petal length (cm)
0,3.5,1.4
1,3.0,1.4
2,3.2,1.3
3,3.1,1.5


En nuestro ejemplo con `loc` usamos inidices numéricos para las filas porque
es la forma en la que están definidos los índices.

In [None]:
df = pd.DataFrame({
    'int64_1': np.array([1, 2, 3], dtype=np.int64),
    'int64_2': np.array([10, 20, 30], dtype=np.int64),
    'int32_1': np.array([9, 8, 7], dtype=np.int32),
    'float64_1': np.array([.1, .5, .7], dtype=np.float64),
    'string': ['hola', 'numpy', 'pandas']
}, index=['hola', 'numpy', 'pandas'])

df.head()

Unnamed: 0,int64_1,int64_2,int32_1,float64_1,string
hola,1,10,9,0.1,hola
numpy,2,20,8,0.5,numpy
pandas,3,30,7,0.7,pandas


In [None]:
df.loc['hola', 'int64_1']

1

In [None]:
df.loc['pandas']

int64_1           3
int64_2          30
int32_1           7
float64_1       0.7
string       pandas
Name: pandas, dtype: object

In [None]:
# retomando iloc
df.iloc[-1]

sepal length (cm)    5.9
sepal width (cm)     3.0
petal length (cm)    5.1
petal width (cm)     1.8
Name: 149, dtype: float64

## Comparación entre `loc` y `iloc`
Existe una **fuerte diferencia** entre el uso de `iloc` y `loc` y cómo es que
estos manejan los índices.

Para ejemplificarlo, retomemos nuestro dataset Iris, en el cual los índices de
las filas son valores numéricos.

`iloc` usa el método tradicional de Python para indizar, en el cual, si
especificamos un slice, Python incluye el límite inferior pero **excluye el
límite superior**. Esto tiene sentido cuando manejamos índices numéricos y
conceptualizamos nuestro DataFrame como una gran **matriz** o **arreglo
bidimensional** de numpy.

Por otro lado, `loc` **incluye tanto el límite inferior como el superior**. Esto
se debe a que `loc` se decanta por etiquetas que pueden ser texto, como en el
ejemplo anterior; estas etiquetas, además, pueden no estar ordenadas
alfabéticamente, por lo tanto, suena un poco ilógico excluir al último elemento.
Es importante, entonces, recordar este aspecto cuando se trabaje con `loc`
y las etiquetas de las filas sean valores numéricos.

Por ejemplo:
- `df.iloc[0:1000]` regresará mil elementos, pero
- `df.loc[0:1000]` regresará 1001 elementos

La manera en que `iloc` y `loc` regresen los mismos mil elementos sería:
- `df.iloc[0:1000]`
- `df.loc[0:999]`

In [None]:
df = iris.data
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
print(df.loc[0:50].shape)
print(df.iloc[0:50].shape)

(51, 4)
(50, 4)


In [None]:
print(df.loc[0:4])
print()
print()
print(df.iloc[0:4])

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2


   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2


In [None]:
print(df.loc[0:4])
print()
print()
print(df.iloc[0:5])

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2


   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2


# Máscaras
Hasta ahora, hemos visto como acceder a elementos mediante índices o etiquetas
*duras*, basándonos únicamente en la estructura del DataFrame. Sin embargo,
cuando hacemos análisis de datos normalmente tenemos que hacernos--y
respondernos--preguntas, para lo cual normalmente tenemos que plantear ciertas
condiciones para filtrar nuestros datos y poder realizar un mejor análisis.

Por ejemplo, podemos querer analizar únicamente las flores que tienen un
ancho de sépalo mayor a la *media*.

In [None]:
sepal_width_mean = df.loc[:, 'sepal width (cm)'].mean()
print(f"Ancho de sepalo promedio: {sepal_width_mean}")

Ancho de sepalo promedio: 3.0573333333333337


In [None]:
mask = df.loc[:, 'sepal width (cm)'] > sepal_width_mean
mask

0       True
1      False
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148     True
149    False
Name: sepal width (cm), Length: 150, dtype: bool

In [None]:
df_arriba_media = df.loc[mask]

In [None]:
df_arriba_media

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
...,...,...,...,...
140,6.7,3.1,5.6,2.4
141,6.9,3.1,5.1,2.3
143,6.8,3.2,5.9,2.3
144,6.7,3.3,5.7,2.5


Notemos como, de los 150 patrones de flores que tiene el dataset original,
ahora nos quedamos únicamente con 67. Otro punto que vale la pena recalcar, es
que en el nuevo dataset se conservaron los índices numéricos del DataFrame
original.

In [None]:
df_arriba_media.iloc[66]

sepal length (cm)    6.2
sepal width (cm)     3.4
petal length (cm)    5.4
petal width (cm)     2.3
Name: 148, dtype: float64

In [None]:
df_arriba_media.loc[148]

sepal length (cm)    6.2
sepal width (cm)     3.4
petal length (cm)    5.4
petal width (cm)     2.3
Name: 148, dtype: float64

In [None]:
df_arriba_media.iloc[66] == df_arriba_media.loc[148]

sepal length (cm)    True
sepal width (cm)     True
petal length (cm)    True
petal width (cm)     True
Name: 148, dtype: bool

También podemos conjuntar condiciones o filtros, de modo que seamos más
específicos con los datos que estamos trabajando. Además, podemos crear una
máscara en un DataFrame o Series y aplicar dicho filtro en otro DataFrame.

Por ejemplo, guardaremos una nueva variable llamada `target`, que contiene la
clase a la que pertenecen cada una de las instancias (flores) del dataset Iris.

In [None]:
target = iris.target
target

0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 150, dtype: int64

Podemos observar que la longitud de `target` es la misma que la de `df`

In [None]:
print(f"target shape: {target.shape}")
print(f"df shape: {df.shape}")

target shape: (150,)
df shape: (150, 4)


El dataset Iris se forma de flores de tres clases distintas: Setosa, Versicolor
y Virginica, codificadas como: 0, 1 y 2, respectivamente.

In [None]:
target.unique()

array([0, 1, 2])

Ahora, trabajemos con las flores que pertenecen a la clase 0 y que su ancho de
pétalo sea mayor a la media

In [None]:
# obtener la media del ancho de petalo de todo el dataset
mean_petal_width = df.loc[:, 'petal width (cm)'].mean()

# obtener mascara sobre la columna petal width de df
mask_mean = df.loc[:, 'petal width (cm)'] > mean_petal_width

# obtener mascara sobre target, para quedarnos únicamente con la clase cero
mask_cero = target == 0

# quedarnos unicamente con los elementos que cumplen ambas condiciones
df.loc[(mask_mean) & (mask_cero)]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)


**NO** tenemos ningún elemento que cumpla con ambas condiciones. Probemos ahora
si existen instancias que cumplan con alguna de las condiciones

In [None]:
# quedarnos unicamente con los elementos que cumplen una condicion o la otra
df.loc[(mask_mean) | (mask_cero)]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


**Nos quedamos con todos los elementos de la clase cero**, esto nos lleva a la
conclusión de que todos las flores Setosa de este dataset, tienen un ancho de
pétalo menor o igual a la media.

Probemos ahora con recuperar todos los elementos que pertenezcan a la clase cero
o uno, y cuyo largo de sepalo sea mayor a 4.7. Lo haremos tanto con `loc`,
como con `iloc`

In [None]:
"""con loc"""
# mascara de clase
mask_class = (target == 0) | (target == 1)

# mascara de sepalo
mask_sepal_length = df.loc[:, 'sepal length (cm)'] > 4.7

# mascara conjunta
mask = mask_class & mask_sepal_length

df_loc = df.loc[mask]
df_loc

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
7,5.0,3.4,1.5,0.2
...,...,...,...,...
95,5.7,3.0,4.2,1.2
96,5.7,2.9,4.2,1.3
97,6.2,2.9,4.3,1.3
98,5.1,2.5,3.0,1.1


Nos quedamos con 89 filas de 100 posibles. ¿Por qué 100? Ya que estamos aislando
dos clases y cada una tiene 50 instancias, lo máximo que podríamos regresar
serían las 100 instancias.

Hagamos ahora lo mismo pero con iloc. Notemos, primero, que la columna
`sepal length (cm)` es la primera, por lo que le corresponde el índice numérico
cero.

In [None]:
"""con iloc"""
# mascara de clase. Queda igual que la vez pasada ya que target solo tiene una
# columna
mask_class = (target == 0) | (target == 1)

# mascara de sepalo
mask_sepal_length = df.iloc[:, 0] > 4.7

# mascara conjunta
mask = mask_class & mask_sepal_length

# al aplicar máscaras booleanas, debemos usar FORZOSAMENTE el operador loc
df_iloc = df.loc[mask]
df_iloc

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
7,5.0,3.4,1.5,0.2
...,...,...,...,...
95,5.7,3.0,4.2,1.2
96,5.7,2.9,4.2,1.3
97,6.2,2.9,4.3,1.3
98,5.1,2.5,3.0,1.1


In [None]:
# checar si todos los elementos de df_iloc.index son igual a los elementos de
# df_loc.index. Con esto checamos haber recuperado exactamente los mismos
# elementos con ambos métodos
print("Se recuperaron exactamente los mismos elementos?: "
      + f"{'Sí' if np.all(df_iloc.index == df_loc.index) else 'No :()'}")

Se recuperaron exactamente los mismos elementos?: Sí
