## Pandas

#### ¿Qué es Pandas?
- **Definición**: Pandas es una biblioteca de software (paquete) que agrega funcionalidades a Python para la manipulación y el análisis de datos.
- **Usos Principales**: Se utiliza principalmente para la limpieza de datos, análisis exploratorio, y visualización de datos estadísticos.

#### Importancia de Pandas en Data Science
- **Facilita el Manejo de Datos**: Pandas simplifica el manejo de datos, para enfocarnos en el análisis.
- **Adaptado a Diferentes Fuentes de Datos**: Puede trabajar con una variedad de formatos de datos, como CSV, Excel, bases de datos SQL, entre otros.
- **Esencial para Análisis de Datos**: Es una herramienta clave en cualquier flujo de trabajo de Data Science para la preparación y exploración de datos.

#### Importación de Pandas
- **¿Dónde está Pandas?**: A pesar de que Pandas no forma parte de la estructura original de Python, es una librería adicional que Anaconda instaló en nuestra computadora al mismo momento que instaló Python.
- **Comando de instalación**: En caso de no utilizar Anaconda, se debe ejecutar **sólo la primera vez**: ```pip install pandas```
- **Importar Pandas**: A pesar de que ya está instalado, debes importarlo a tu entorno de trabajo (cuaderno) para utilizarlo en el código de python.
- **Comando de importación**: ```import pandas as pd```

In [2]:
import pandas as pd

## Tipos de Datos en Pandas

Así como python tiene sus propios tipos de datos incorporados (integers, strings, listas, etc), pandas trae 2 nuevos tipos de datos que serán la estructura principal del análisis, y estos tipos de datos son: las **series** y los **dataframes**.

En pandas vamos a trabajar esencialmente con datos organizados como tablas. La principal diferencia es que a las tablas de pandas les llamamos **dataframes**, y a las columnas de pandas les llamamos **series**.

Entonces series y dataframes serán los **nuevos tipos de datos** que incorporamos a nuestra colección.

Ahora, vamos a crear un conjunto de datos en python (no en pandas aún). Lo que vamos a crear es un **diccionario** con dos pares de *clave:valor*, pero los valores van a estar compuestos por **listas**.

In [4]:
datos = {"nombre": ["Pedro", "Juan", "Micaela"], "edad": [19, 25, 46]}
datos

{'nombre': ['Pedro', 'Juan', 'Micaela'], 'edad': [19, 25, 46]}

In [10]:
type(datos)

dict

##### DataFrames

Ahora vamos a usar **pandas** para abrir ese diccionario, pero convertido en un dataframe, usando el método **DataFrame()** de Pandas, y almacenándolo en la variable ```df```.

In [8]:
df = pd.DataFrame(datos)

df

Unnamed: 0,nombre,edad
0,Pedro,19
1,Juan,25
2,Micaela,46


In [12]:
type(df)

pandas.core.frame.DataFrame

##### Series

El segundo tipo de datos que incorpora Pandas, son las **series**. Las series son las columnas de los DataFrames.

En el caso de ```df``` tenemos 2 series (la serie *nombre* y la serie *edad*), ya que la primera columna, aunque parece una serie más, solo se trata de los índices de cada registro o fila de nuestro dataframe.

Podemos acceder a las series de nuestro objeto dataframe, usando el sistema de **corchetes**, o el de notación de **punto**.

In [14]:
df["nombre"]

0      Pedro
1       Juan
2    Micaela
Name: nombre, dtype: object

In [16]:
type(df["nombre"])

pandas.core.series.Series

In [20]:
df.nombre

0      Pedro
1       Juan
2    Micaela
Name: nombre, dtype: object

Entonces, un **DataFrame** es una tabla *bidimensional*, con *etiquetas en filas y columnas*, y si tomamos cualquier columna de un DataFrame por separado, vamos a tener entonces una **serie** que es el segundo elemento de pandas.

Las series son un array de *una sola dimensión*, con *etiquetas para sus elementos*.

##### Atributos y Dimensiones

Tanto los dataframes como las series tienen cada uno de ellos un conjunto de atributos y de dimensiones.

Por ejemplo, en relación a sus dimensiones, un **DataFrame** tiene **dos dimensiones**, que son el *alto* y el *ancho*, identificados por las filas y las columnas.

Mientras que una **serie** tiene solamente **una dimensión** que son sus filas, porque la columna siempre va a ser una.

En cuanto a sus atributos principales, un **DataFrame** tiene **tres atributos** principales que son sus *índices (o filas)*, sus *columnas* y sus *valores*.

Las **series** tienen solo **dos de estos atributos**, o sea, el *índice o las filas* y los *valores*.

![atributos.png](atributos.png)

## DataFrames

Como ya vimos, en Pandas, un DataFrame es una **estructura de datos bidimensional**. Esencialmente es una tabla con filas y columnas, muy similar a una hoja de cálculo o una tabla de base de datos.

Anteriormente creamos un dataframe a partir de un diccionario. Esta vez lo vamos a hacer **a partir de una fuente externa**, como es un **archivo csv**.

Antes de seguir, asegúrate de haber descargado el archivo "precipitaciones.csv" que encontrarás en el aula virtual en la carpeta de esta clase. Una vez que lo descargues, **importamos Pandas**, y usamos el método **read_csv()** para cargar el contenido de ese archivo dentro de nuestro dataframe.

In [22]:
import pandas as pd

In [26]:
df = pd.read_csv(r"C:\Users\migue\OneDrive\Documentos\Minería de Datos/Precipitaciones.csv")

df

Unnamed: 0,region,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
0,A CORUNA,240.5,293.4,31.0,80.6,149.5,108.9,44.6,21.8,96.5,154.5,100.8,214.8,1536.9
1,ALBACETE,68.1,28.0,26.2,65.3,25.4,50.0,2.0,34.5,48.0,44.8,33.1,14.1,439.5
2,ALICANTE,49.2,3.7,63.2,85.8,57.2,20.0,9.2,5.0,44.0,41.1,47.4,1.8,427.6
3,ALMERIA,56.3,5.2,35.8,43.1,38.8,16.9,10.2,1.9,17.4,27.3,32.6,3.2,288.7
4,ARABA,96.8,79.9,38.0,52.0,37.7,107.8,8.5,17.7,63.3,38.5,212.2,197.3,949.7
5,ASTURIAS,196.9,138.4,34.4,73.1,67.4,131.2,22.5,19.2,90.3,74.2,309.8,205.3,1362.7
6,AVILA,67.6,104.5,5.6,83.4,25.7,44.4,5.5,14.2,97.9,91.7,33.9,47.5,621.9
7,BADAJOZ,62.2,78.5,7.7,61.3,13.0,29.6,0.0,2.7,80.5,77.6,10.2,59.3,482.6
8,ILLES BALEARS,81.2,5.3,53.9,22.0,54.4,28.5,8.8,10.0,73.2,55.6,229.9,18.1,640.9
9,BARCELONA,26.8,28.4,16.4,72.2,26.0,42.3,18.7,25.7,76.0,40.6,72.8,2.2,448.1


In [32]:
df_2 = pd.read_csv("C:/Users/migue/OneDrive/Documentos/Minería de Datos/Precipitaciones.csv")   # Otra forma de cargar un archivo externo (atención a las barras!!)

df_2

Unnamed: 0,region,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
0,A CORUNA,240.5,293.4,31.0,80.6,149.5,108.9,44.6,21.8,96.5,154.5,100.8,214.8,1536.9
1,ALBACETE,68.1,28.0,26.2,65.3,25.4,50.0,2.0,34.5,48.0,44.8,33.1,14.1,439.5
2,ALICANTE,49.2,3.7,63.2,85.8,57.2,20.0,9.2,5.0,44.0,41.1,47.4,1.8,427.6
3,ALMERIA,56.3,5.2,35.8,43.1,38.8,16.9,10.2,1.9,17.4,27.3,32.6,3.2,288.7
4,ARABA,96.8,79.9,38.0,52.0,37.7,107.8,8.5,17.7,63.3,38.5,212.2,197.3,949.7
5,ASTURIAS,196.9,138.4,34.4,73.1,67.4,131.2,22.5,19.2,90.3,74.2,309.8,205.3,1362.7
6,AVILA,67.6,104.5,5.6,83.4,25.7,44.4,5.5,14.2,97.9,91.7,33.9,47.5,621.9
7,BADAJOZ,62.2,78.5,7.7,61.3,13.0,29.6,0.0,2.7,80.5,77.6,10.2,59.3,482.6
8,ILLES BALEARS,81.2,5.3,53.9,22.0,54.4,28.5,8.8,10.0,73.2,55.6,229.9,18.1,640.9
9,BARCELONA,26.8,28.4,16.4,72.2,26.0,42.3,18.7,25.7,76.0,40.6,72.8,2.2,448.1


In [34]:
type(df)

pandas.core.frame.DataFrame

### Métodos y Atributos

Vamos a ver algunos Métodos y Atributos clave para explorar los DataFrames en Pandas.

In [36]:
df.head()

Unnamed: 0,region,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
0,A CORUNA,240.5,293.4,31.0,80.6,149.5,108.9,44.6,21.8,96.5,154.5,100.8,214.8,1536.9
1,ALBACETE,68.1,28.0,26.2,65.3,25.4,50.0,2.0,34.5,48.0,44.8,33.1,14.1,439.5
2,ALICANTE,49.2,3.7,63.2,85.8,57.2,20.0,9.2,5.0,44.0,41.1,47.4,1.8,427.6
3,ALMERIA,56.3,5.2,35.8,43.1,38.8,16.9,10.2,1.9,17.4,27.3,32.6,3.2,288.7
4,ARABA,96.8,79.9,38.0,52.0,37.7,107.8,8.5,17.7,63.3,38.5,212.2,197.3,949.7


Método que muestra las primeras filas del DataFrame.

In [38]:
df.head(3)

Unnamed: 0,region,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
0,A CORUNA,240.5,293.4,31.0,80.6,149.5,108.9,44.6,21.8,96.5,154.5,100.8,214.8,1536.9
1,ALBACETE,68.1,28.0,26.2,65.3,25.4,50.0,2.0,34.5,48.0,44.8,33.1,14.1,439.5
2,ALICANTE,49.2,3.7,63.2,85.8,57.2,20.0,9.2,5.0,44.0,41.1,47.4,1.8,427.6


Si no colocas ningún parámetro en los paréntesis de *head()*, por defecto va a mostrar las primeras 5 filas. Pero si agregas un parámetro numérico, mostrará esa cantidad de filas.

In [40]:
df.tail()

Unnamed: 0,region,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
47,TOLEDO,83.0,51.1,7.5,62.5,15.0,27.1,3.3,18.6,70.5,94.7,16.4,29.9,479.6
48,VALENCIA,61.9,16.8,49.3,86.4,33.8,34.2,17.1,30.9,99.3,46.1,46.6,5.5,527.9
49,VALLADOLID,29.2,69.1,4.1,65.1,24.3,58.3,1.9,3.8,54.1,40.2,41.7,35.9,427.7
50,ZAMORA,53.0,112.0,6.8,63.7,19.8,54.2,3.1,9.6,78.5,55.3,29.0,50.3,535.3
51,ZARAGOZA,52.0,30.0,3.6,52.7,38.3,57.5,13.5,13.2,61.5,27.4,76.6,23.4,449.7


Método que muestra las últimas filas. Por defecto mostrará 5 filas, pero al igual que *head()* puedes pedirle un parámetro específico.

In [42]:
df.shape

(52, 14)

Atributo que devuelve una tupla con el número de filas y columnas. Shape no es un método, sino un atributo. Por esa razón se pide sin paréntesis.

In [44]:
df.columns

Index(['region', 'enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio',
       'julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre',
       'anual'],
      dtype='object')

Atributo que devuelve una lista los nombres de las columnas.

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   region      52 non-null     object 
 1   enero       52 non-null     float64
 2   febrero     52 non-null     float64
 3   marzo       52 non-null     float64
 4   abril       52 non-null     float64
 5   mayo        52 non-null     float64
 6   junio       52 non-null     float64
 7   julio       52 non-null     float64
 8   agosto      52 non-null     float64
 9   septiembre  52 non-null     float64
 10  octubre     52 non-null     float64
 11  noviembre   52 non-null     float64
 12  diciembre   52 non-null     float64
 13  anual       52 non-null     float64
dtypes: float64(13), object(1)
memory usage: 5.8+ KB


Método que proporciona un resumen, incluyendo el tipo de datos y los valores no nulos.

In [56]:
type(df["region"][5])

str

In [58]:
df.describe()

Unnamed: 0,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,anual
count,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0,52.0
mean,92.996154,78.632692,26.684615,64.5,38.305769,54.182692,11.840385,17.178846,62.246154,54.373077,82.494231,76.192308,659.626923
std,57.127171,67.45428,31.473913,21.421942,29.079576,36.821635,13.25639,13.939496,28.581205,36.619785,91.689789,80.409042,352.905548
min,26.8,2.3,3.3,3.5,0.7,1.1,0.0,0.0,0.9,1.0,7.1,1.8,108.2
25%,53.825,32.825,9.125,53.95,18.875,26.325,1.6,4.85,46.0,29.825,32.375,22.075,455.925
50%,73.95,62.6,17.2,62.7,35.65,50.4,6.15,16.5,62.3,46.55,46.95,47.95,548.55
75%,97.3,102.55,35.425,77.625,48.75,78.025,17.875,26.55,81.625,74.5,102.725,107.0,665.15
max,261.9,335.7,209.8,128.4,149.5,145.0,46.8,57.0,122.8,175.7,384.6,314.7,1575.4


Método que ofrece estadísticas descriptivas de las columnas numéricas.

## Series

Ahora vamos a seleccionar la serie *"Región"* para trabajar con ella.

In [64]:
serie = df["region"]

serie

0                   A CORUNA
1                   ALBACETE
2                   ALICANTE
3                    ALMERIA
4                      ARABA
5                   ASTURIAS
6                      AVILA
7                    BADAJOZ
8              ILLES BALEARS
9                  BARCELONA
10                   BIZKAIA
11                    BURGOS
12                   CACERES
13                     CADIZ
14                 CANTABRIA
15                 CASTELLON
16                     CEUTA
17               CIUDAD REAL
18                   CORDOBA
19                    CUENCA
20                  GIPUZKOA
21                    GIRONA
22                   GRANADA
23               GUADALAJARA
24                    HUELVA
25                    HUESCA
26                      JAEN
27                  LA RIOJA
28                LAS PALMAS
29                      LEON
30                    LLEIDA
31                      LUGO
32                    MADRID
33                    MALAGA
34            

In [66]:
type(serie)

pandas.core.series.Series

In [68]:
serie.head()

0    A CORUNA
1    ALBACETE
2    ALICANTE
3     ALMERIA
4       ARABA
Name: region, dtype: object

Conceptualmente una Serie en Pandas es un **arreglo unidimensional** (es decir, de una sola dimensión), que es capaz de almacenar cualquier tipo de datos.

Como hemos visto, las series tienen un **índice** asociado a cada **registro**. Esto significa que aunque parece que tuviera dos columnas (la del **índice** y la de los **datos**), solo se trata de una, ya que **el índice no es información**, sino una etiqueta pegada a la información propiamente dicha.

Si bien podemos crear una serie a partir de un dataframe (como hicimos anteriormente), también puedes **crear series a partir de objetos de python** como listas, usando el método **Series()** de Pandas.

In [70]:
datos = [10, 20, 30, 40, 50]

serie2 = pd.Series(datos)
serie2

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [72]:
type(serie2)

pandas.core.series.Series

In [74]:
serie2[0]

10

In [76]:
serie2[3]

40

Cada elemento de la lista se ha transformado en un item de mi Serie, y a cada elemento **se le ha asignado un índice numérico comenzando desde cero**.

También se puede **asignar índices personalizados** a las series, a través del parámetro *"index"* de las Series. **Nota:** Para ver los parámetros puede utilizarse el comando: *Shift+TAB* luego de escribir la función.

In [82]:
indices = ["a", "b", "c", "d", "e"]
serie2 = pd.Series(datos, indices)

serie2

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [84]:
serie2["c"]

30

Comprobemos los **tipos de datos** que estamos manejando.

In [86]:
type(serie2)

pandas.core.series.Series

In [88]:
type(serie2["c"])

numpy.int64

Por otra parte, cuando creamos series a partir de **diccionarios**:

In [92]:
paises_capitales = {"Argentina": "CABA", "Peru": "Lima", "España": "Madrid"}

serie3 = pd.Series(paises_capitales)
serie3

Argentina      CABA
Peru           Lima
España       Madrid
dtype: object

Como puedes ver, en estos casos las **claves** se transforman automáticamente en **índices alfabéticos**.

También puedo indexarlos usando esos índices.

In [94]:
serie3["Argentina"]

'CABA'

## Operaciones Básicas con Series

Además, se pueden realizar operaciones básicas con las series.

In [96]:
serie = pd.Series([10, 20, 30, 40, 50])
serie

0    10
1    20
2    30
3    40
4    50
dtype: int64

Ahora seleccionemos el **primer item** con la notación de corches, y le **sumamos 10**.

In [98]:
serie[0] = serie[0] + 10

serie

0    20
1    20
2    30
3    40
4    50
dtype: int64

Podemos también sumarle 10 a **cada uno** de los items

In [100]:
serie = serie + 10

serie

0    30
1    30
2    40
3    50
4    60
dtype: int64

Puedes realizarse cualquier otra operación, como por ejemplo multiplicar.

In [102]:
serie = serie * 2

serie

0     60
1     60
2     80
3    100
4    120
dtype: int64

## Limpieza de Datos

Durante la preparación de nuestros datos (antes de poder usarlos para hacer análisis y ciencia de datos) hay un proceso fundamental que se llama **limpieza de datos**. Si no limpiamos adecuadamente nuestros datos, corremos el riesgo de que luego contaminen el resultado de nuestros análisis.

La limpieza de datos es un proceso que no puedes obviar, porque la mayoría de las veces, los datos provienen de fuentes externas, y nada te garantiza que los creadores de esos registros hayan seguido protocolos estrictos al generar esa información.

La limpieza de datos implica hacer procedimientos como:
* Exploración de datos.
* Identificación de valores faltantes o nulos.
* Manejo de esos valores.
* Manejo (corrección) de tipos de datos inapropiados (por ejemplo una columna fecha que esté en formato string en formato datetime).
* Eliminación de duplicados.

Vamos a aprender a realizar algunas tareas básicas de limpieza de datos utilizando Pandas en Python. 

Vamos a usar un conjunto de datos muy sencillo, pero apropiado como ejemplo, y que representa una pequeña tabla de ventas. 

In [104]:
datos = {"ID_producto": [1001, 1002, 1003, 1003],
         "Cantidad_vendida": [30, None, 25, 25],
         "Precio": [20.5, 15.0, None, 22.5]}

df = pd.DataFrame(datos)
df

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5


### Paso Inicial: Exploración

Usaremos los métodos de dataframes que ya hemos aprendido, para identificar la estructura y calidad de nuestros datos de origen:

In [106]:
df.head()

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5


In [108]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID_producto       4 non-null      int64  
 1   Cantidad_vendida  3 non-null      float64
 2   Precio            3 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 228.0 bytes


### Paso 1: Identificar Valores Faltantes (nulos)

In [110]:
df.isnull()

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,False,False,False
1,False,True,False
2,False,False,True
3,False,False,False


In [112]:
df.isnull().sum()

ID_producto         0
Cantidad_vendida    1
Precio              1
dtype: int64

### Paso 2: Manejo de Valores Faltantes

En este punto llega el momento de tomar decisiones. No hay soluciones únicas, sino que siempre va a depender del caso. En ocasiones será conveniente eliminar las filas con datos inválidos. En ocasiones será reemplazarlos por otros valores.

##### Opción 1 - Eliminar registros que contienen valores nulos

In [114]:
df_eliminados = df.dropna()

df_eliminados

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
3,1003,25.0,22.5


In [118]:
df ## el DataFrame inicial no se ve modificado (si no lo sobreescribimos)

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5


##### Opción 2: Reemplazar los Valores Nulos con Otros Valores

In [120]:
valores = {"Cantidad_vendida": 0, "Precio": df["Precio"].mean()}

df_reemplazados = df.fillna(valores)
df_reemplazados

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,0.0,15.0
2,1003,25.0,19.333333
3,1003,25.0,22.5


### Paso 3: Corrección de Tipos de Datos

In [122]:
type(df_reemplazados["Cantidad_vendida"][0])

numpy.float64

In [124]:
df_reemplazados["Cantidad_vendida"] = df_reemplazados["Cantidad_vendida"].astype(int)

df_reemplazados

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333
3,1003,25,22.5


In [126]:
type(df_reemplazados["Cantidad_vendida"][0])

numpy.int32

### Paso 4: Eliminación de Duplicados

In [128]:
df_reemplazados = df_reemplazados.drop_duplicates()

df_reemplazados

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333
3,1003,25,22.5


En este caso no funcionó, porque buscó registros completos que estén duplicados. Si queremos eliminar los duplicados que se repitan sólo en uno de los campos, usamos el parámetro `subset`.

In [130]:
df_reemplazados = df_reemplazados.drop_duplicates(subset="ID_producto")

df_reemplazados

Unnamed: 0,ID_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333


## Filtrado de Series

Vamos a crear una serie en la que luego aplicaremos el filtrado.

In [134]:
serie = pd.Series([5, 10, 15, 20, 25])
serie

0     5
1    10
2    15
3    20
4    25
dtype: int64

El **filtrado** es como realizar *preguntas específicas* a nuestros datos. Por ejemplo, podríamos querer saber qué elementos son mayores que un número específico.

Supongamos que en la serie anterior queremos saber **qué números son mayores que 15**.

Para hacer esto, vamos a construir una **condición** y aplicarla a nuestra *serie*.

In [138]:
filtro = serie > 15

serie_filtrada = serie[filtro]

serie_filtrada

3    20
4    25
dtype: int64

Veamos cómo se ve la variable **filtro** que hemos creado en el medio del proceso.

In [140]:
filtro

0    False
1    False
2    False
3     True
4     True
dtype: bool

Como podemos ver, lo que hicimos fue crear una nueva **Serie** que contiene **valores booleanos** (*True* para elementos que cumplen la condición, y *False* para los que no).

Luego, usamos la serie **filtro** para "indexar" solo los elementos de **serie** que son *True*, y que por lo tanto son mayores que 15. De alguna manera este es el mismo proceso de indexación que aplicábamos antes, porque lo que pones en las llaves cuadradas es el valor que quieres obtener, solo que al hacerlo de esta manera **obtenemos más de un valor que cumple con el criterio de indexación**, y a ese proceso le llamamos **filtrado**.

Vemos también que es posible filtrar series compuestas por valores de **texto**.

In [142]:
serie2 = pd.Series(["banana", "manzana", "melon", "pera"])
serie2

0     banana
1    manzana
2      melon
3       pera
dtype: object

El objetivo es filtrar la **serie2**, para obtener solamente los items que contienen la letra "m" en su nombre. Para lograrlo aplicaremos un método de los strings que se llama **contains()** que permite verificar si un determinado string contiene un determinado substring.

Por lo tanto, deberíamos comenzar por ver qué tipos de datos estoy manipulando, para identificar si podemos utilizar **contains()** en este caso.

In [144]:
type(serie2)

pandas.core.series.Series

In [146]:
type(serie2[3])

str

Notemos algo interesante, si bien serie2 **contiene strings**, serie2 **no es un string**.

serie2 **es una Serie**.

Por lo tanto, en serie2 solo puedo usar métodos propios de los objetos serie, y no puedo usar métodos de string (como *contains*).

**Imprimamos los métodos de los objetos serie** para ver si disponemos de alguna alternativa.

In [148]:
dir(serie2)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__column_consortium_standard__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__

La mala noticia es que los objetos serie no tienen ningún método **contains()**.

Pero lo que **sí tienen** es un **método str**.

**Veamos qué hace str**

In [150]:
help(serie2.str)

Help on StringMethods in module pandas.core.strings.accessor object:

class StringMethods(pandas.core.base.NoNewAttributesMixin)
 |  StringMethods(data) -> 'None'
 |
 |  Vectorized string functions for Series and Index.
 |
 |  NAs stay NA unless handled otherwise by a particular method.
 |  Patterned after Python's string methods, with some inspiration from
 |  R's stringr package.
 |
 |  Examples
 |  --------
 |  >>> s = pd.Series(["A_Str_Series"])
 |  >>> s
 |  0    A_Str_Series
 |  dtype: object
 |
 |  >>> s.str.split("_")
 |  0    [A, Str, Series]
 |  dtype: object
 |
 |  >>> s.str.replace("_", "")
 |  0    AStrSeries
 |  dtype: object
 |
 |  Method resolution order:
 |      StringMethods
 |      pandas.core.base.NoNewAttributesMixin
 |      builtins.object
 |
 |  Methods defined here:
 |
 |  __getitem__(self, key)
 |
 |  __init__(self, data) -> 'None'
 |      Initialize self.  See help(type(self)) for accurate signature.
 |
 |  __iter__(self) -> 'Iterator'
 |
 |  capitalize(self)


Según la ayuda, el **método str** sirve para asignar *"funciones vectorizadas de strings"* a la series y a sus índices.

Este método entonces nos va a permitir que podamos **usar métodos de strings que han sido adaptados para que funcionen con las series**.

In [152]:
filtro_2 = serie2.str.contains("m")

filtro_2

0    False
1     True
2     True
3    False
dtype: bool

In [154]:
serie2[filtro_2]

1    manzana
2      melon
dtype: object

## Agregación de Series

Ahora vamos a aprender sobre las agregaciones en Pandas. La agregación consiste en un conjunto de herramientas poderosas para **resumir nuestros datos**.

Básicamente una agregación es una **operación que combina varios valores de datos en un solo valor representativo**, como un promedio o una suma total.

Veremos las agregaciones más comunes utilizando una serie básica.

In [1]:
import pandas as pd

In [3]:
numeros = pd.Series([10, 20, 30, 40, 50])
numeros

0    10
1    20
2    30
3    40
4    50
dtype: int64

### Promedio - mean()

In [5]:
promedio = numeros.mean()
promedio

30.0

### Suma - sum()

In [7]:
suma = numeros.sum()
suma

150

### Máximo - max()

In [10]:
maximo = numeros.max()
maximo

50

### Mínimo - min()

In [13]:
minimo = numeros.min()
minimo

10

Pandas también ofrece otros métodos de agregación como `.median()`, `.std()`, y `.quantile()` que pueden ser igualmente útiles.

Las agregaciones son fundamentales para el análisis de datos, ya que nos permiten obtener información resumida y descriptiva de nuestros conjuntos de datos.