# Más `pandas`

## Manejando datos faltantes

Hemos visto que `pandas` automágicamente es capaz de manejar valores faltantes o inexistentes, a través de distintas etiquetas como `NaN`, `NA`, etc., dependiendo del tipo de dato que se esté utilizando. Más allá de la lectura de los datos, muchos de los métodos nativos de `pandas` son capaces de trabajar aún cuando falten datos. Sin embargo, puede ser necesario intervenir efectivamente sobre esos datos para poder continuar con ese procesamiento.

In [1]:
import numpy as np 
import pandas as pd

In [2]:
d = np.array([['auto','moto',np.nan,None,'bicicleta'],[4,2,0.0,None,2]])
d


array([['auto', 'moto', nan, None, 'bicicleta'],
       [4, 2, 0.0, None, 2]], dtype=object)

In [3]:
s = pd.DataFrame(d.T,columns=['vehículos','ruedas'])
s

Unnamed: 0,vehículos,ruedas
0,auto,4.0
1,moto,2.0
2,,0.0
3,,
4,bicicleta,2.0


In [4]:
s.isna()


Unnamed: 0,vehículos,ruedas
0,False,False
1,False,False
2,True,False
3,True,True
4,False,False


In [5]:
s.dropna() # equivalente a s[s.notna()]

Unnamed: 0,vehículos,ruedas
0,auto,4
1,moto,2
4,bicicleta,2


In [6]:
s.dropna(axis=1) # equivalente a s.dropna(axis='columns')

0
1
2
3
4


In [7]:
s.dropna(how='all') # elimina las filas que tengan todos los valores nulos

Unnamed: 0,vehículos,ruedas
0,auto,4.0
1,moto,2.0
2,,0.0
4,bicicleta,2.0


También se puede usar el argumento 'thresh=<valor>' para acotar la cantidad de valores inexistentes que se quieren eliminar. Por ejemplo, `thresh=3` eliminará todas aquellas filas que tienen 3 o más valores faltantes.

Es posible también que uno no pueda trabajar con valores inexistentes, y tiene que cambiarlos por algún valor. Para ello está el método `fillna`.

In [8]:
df = pd.DataFrame(np.random.standard_normal((7, 3)),columns=['A','B','C'])

df.iloc[:4,2] = np.nan
df.iloc[1:3,0] = None 

df

Unnamed: 0,A,B,C
0,0.377913,-0.770393,
1,,-0.009935,
2,,0.904126,
3,-0.077318,-0.022459,
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


In [9]:
df.fillna(0) # rellena los valores nulos con 0

Unnamed: 0,A,B,C
0,0.377913,-0.770393,0.0
1,0.0,-0.009935,0.0
2,0.0,0.904126,0.0
3,-0.077318,-0.022459,0.0
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


In [10]:
df.fillna({'A':0,'C':2}) # rellena los valores nulos con 0, 1 y 2 respectivamente

Unnamed: 0,A,B,C
0,0.377913,-0.770393,2.0
1,0.0,-0.009935,2.0
2,0.0,0.904126,2.0
3,-0.077318,-0.022459,2.0
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


In [11]:
df.ffill() # rellena los valores nulos con el valor anterior

Unnamed: 0,A,B,C
0,0.377913,-0.770393,
1,0.377913,-0.009935,
2,0.377913,0.904126,
3,-0.077318,-0.022459,
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


In [12]:
df.ffill(axis=1) # rellena los valores nulos con el valor anterior en la misma fila

Unnamed: 0,A,B,C
0,0.377913,-0.770393,-0.770393
1,,-0.009935,-0.009935
2,,0.904126,0.904126
3,-0.077318,-0.022459,-0.022459
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


In [13]:
df.bfill() # rellena los valores nulos con el valor siguiente

Unnamed: 0,A,B,C
0,0.377913,-0.770393,-0.418672
1,-0.077318,-0.009935,-0.418672
2,-0.077318,0.904126,-0.418672
3,-0.077318,-0.022459,-0.418672
4,0.827397,2.037912,-0.418672
5,0.047666,-1.048824,0.24814
6,-0.943052,1.499018,0.048949


Estos métodos para reemplazar de valores inexistentes son un caso particular de un método para reemplazar valores en forma general, denominado `replace` y puede ser útil para reemplazar valores que, por alguna razón, se encuentran fuera del rango esperado de los datos (un precio negativo, una edad mayor a 120 años, etc.). Veamos cómo funciona:

In [14]:
p = pd.Series([23,4,-8,12,27,-9])
p

0    23
1     4
2    -8
3    12
4    27
5    -9
dtype: int64

In [15]:
p.replace(-9,np.nan) # reemplaza -9 por NaN

0    23.0
1     4.0
2    -8.0
3    12.0
4    27.0
5     NaN
dtype: float64

In [16]:
p.replace({-9:np.nan,-8:0}) # reemplaza -9 por NaN y 23 por 0

0    23.0
1     4.0
2     0.0
3    12.0
4    27.0
5     NaN
dtype: float64

In [17]:
p<0 

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [18]:
p[p < 0]

2   -8
5   -9
dtype: int64

In [19]:
list(p[p < 0])

[-8, -9]

In [20]:
p.replace(list(p[p < 0]),[86,22]) # encuentro los valores < 0 y los reemplazo por 86 y 22 respectivamente

0    23
1     4
2    86
3    12
4    27
5    22
dtype: int64

> **Nota:** el método `replace()` genera un nuevo dato.

## Indicadores

Otro tipo de transformación para el modelado estadístico es convertir una variable en un
_indicador_. Si una columna en un `DataFrame` tiene k valores distintos, se derivará una matriz
o `DataFrame` con k columnas conteniendo unos y ceros, por ejemplo:

In [None]:
df = pd.DataFrame({'key': ['a','a','b','d','a','c','c'],'datos': np.random.standard_normal(7)})
df

In [None]:
pd.get_dummies(df['key'],dtype=int) # crea variables dummy

## Manejando índices múltiples

Hemos visto hasta ahora que los índices nos etiquetan cada una de las filas de un `DataFrame`. Pandas tiene la posibilidad de utilizar índices múltiples o _jerárquicos_ con el objeto de añadir dimensionalidad a las tablas. 
La implementación de esta característica consiste en utilizar tuplas como índices para etiquetar cada fila:


In [None]:
# Índices jerárquicos: ciudades, productos, años
index = [
    ("Buenos Aires", "Zapatos", 2022),
    ("Buenos Aires", "Ropa", 2022),
    ("Buenos Aires", "Ropa", 2023),
    ("Córdoba", "Zapatos", 2023),
    ("Córdoba", "Ropa", 2023),
    ("Rosario", "Zapatos", 2023),
]

In [None]:
index = pd.MultiIndex.from_tuples(index, names=["Ciudad", "Producto", "Año"])
print(type(index))
index

In [None]:
# Datos
data = {
    "Ventas": [200, 150, 300, 400, 250, 500],
    "Costo": [120, 80, 180, 240, 150, 300]
}

In [None]:
df = pd.DataFrame(data, index=index)
df

Si queremos obtener ciertas filas específicas, usamos `.loc`. 

In [None]:
# Acceso por niveles del índice
print("\nDatos de 'Buenos Aires' en 2022:")
print(df.loc[("Buenos Aires", slice(None), 2022), :])

La función `slice` se usa para determinar el rango de filas en cada componente del índice. `slice(None)` implica usar todos los valores posibles para dicha componente del índice.

### Agrupando

La potencia de los índices múltiples radica en poder agrupar datos de acuerdo a una determinada componente del índice. Para ello se utiliza el método `.groupby()`, que agrupa los valores de acuerdo al nivel (`level`) indicado: 

In [None]:
# Resumen por nivel del índice
print("\nVentas totales por ciudad:")
print(df.groupby(level="Ciudad")["Ventas"].sum())

Si uno quisiera calcular el monto total de ventas por ciudad y por año, por ejemplo, se podría hacer:

In [None]:
# Agrupar por 'Ciudad' y 'Año' y sumar el costo
df["Total"] = df["Ventas"] * df["Costo"]
df


In [None]:
costo_anual_ciudad_x_año = df.groupby(level=["Ciudad", "Año"])["Total"].sum()

# Mostrar el resultado
print("Costo anual por ciudad por año:")
print(costo_anual_ciudad_x_año)


In [None]:
costo_anual_ciudad = df.groupby(level=["Ciudad"])["Total"].sum()

# Mostrar el resultado
print("Costo anual por ciudad:")
print(costo_anual_ciudad)

## Apilando y desapilando

Otra operación es apilar o desapilar el dataframe de índices múltiples:

In [None]:
df.unstack() # desapila el índice

In [None]:
df.unstack().columns

Tal como se ve en el ejemplo anterior, **las columnas también pueden ser descriptas con índices jerárquicos**

In [None]:
df.unstack().unstack() # desapila el índice

## Categorías

Es muy posible que en nuestro conjunto de datos tengamos valores repetidos. 


In [None]:
s = pd.Series(["Pequeño", "Mediano", "Grande", "Pequeño", "Grande", "Mediano"])
s

In [None]:
s_cat = s.astype("category")
s_cat

In [None]:
s_cat.cat.categories


In [None]:
s_cat.cat.codes

In [None]:
dict(enumerate(s_cat.cat.categories))

En el caso de un `DataFrame`, uno puede convertir una columna en una categoría reasignandola:

In [None]:
precios = [100, 200, 300, 150, 250, 180]

df = pd.DataFrame({'precios':precios,'tamaño':s})
df

In [None]:
df['tamaño']

In [None]:
df['tamaño'] = df['tamaño'].astype('category')
df['tamaño']

El beneficio principal del uso de categorías tiene que ver con la eficiencia en la memoria y en las operaciones:

In [None]:
N = 10_000_000

s = pd.Series(['a','b','c','d']* (N//4))
s_cat = s.astype('category')

In [None]:
print(s.memory_usage(deep=True))
print(s_cat.memory_usage(deep=True))

In [None]:
%timeit s.value_counts()

In [None]:
%timeit s_cat.value_counts()

-----

## Ejercicio 15(a)

1. Retome el `DataFrame` creado en el ejercicio 14(a), y genere un nuevo `DataFrame` utilizando adecuadamente índices jerárquicos.

-----