# Funciones vectorizadas y limpieza de datos


## **Aritmética con Series y Funciones vectorizadas**

map nos permite aplicar una función a una lista "elemento por elemento". Hay una manera todavía más fácil de aplicar este tipo de procesos a una Serie gracias a la aritmética con Series y a las funciones vectorizadas. Aplicar una transformación es tan fácil como esto:

In [None]:
import pandas as pd

In [None]:
serie_1 = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])


Recuerdas cómo utilizamos map para aplicar una función elemento por elemento a un arreglo. Podemos utilizar funciones vectorizadas para hacer esto mismo con Series y DataFrames de pandas. Esto resulta sumamente eficiente pues pandas está construido para funcionar de esta manera. Primero que nada, veamos cómo es posible aplicar operaciones aritméticas a Series de pandas y son aplicadas elemento por elemento. Por ejemplo:



In [None]:
serie_1 + 10


In [None]:
serie_1 * 10


In [None]:
(serie_1 + 10) * 100


In [None]:
serie_1 * 60 / 100


Podemos también aplicar funciones de manera vectorizada a una Serie de pandas. Esto quiere decir que, sin necesidad de utilizar map la función se aplica automáticamente a cada elemento. Vamos a utilizar una librería llamada numpy para probar algunas de estas funciones vectorizadas.



In [None]:
import numpy as np


In [None]:
np.power(serie_1, 2)


In [None]:
np.sqrt(serie_1)


## **Agregaciones**

Las agregaciones son una variación de las funciones vectorizadas. Lo que hacen es tomar un arreglo (una Serie, por ejemplo), aplicar una operación a todos los elementos y regresar un resultado único que es la agregación o reducción del arreglo. Una agregación se ve así:



In [None]:
serie = pd.Series([1, 2, 3, 4, 5])


In [None]:
serie.sum()


In [None]:
serie.min()


In [None]:
serie.max()


In [None]:
serie.max()


## **Funciones vectorizadas y agregaciones con DataFrames**

In [None]:
datos = {
    'precio': [34, 54, 223, 78, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 10, 2, 5, 45, 2],
    'productos_vendidos': [3, 45, 23, 76, 24, 6, 2]
}

df = pd.DataFrame(datos, index=["Guadalajara", "CDMX", "Cuernavaca", "Ciudad Juarez", "Cancún", "Conzumel", "Irapuato"])

In [None]:
df

In [None]:
df * 100

In [None]:
(df + 100) / 2

También podemos aplicar funciones vectorizadas con el mismo resultado:



In [None]:
np.power(df, 2)


In [None]:
np.sqrt(df)


In [None]:
np.sin(df) + 100


In [None]:
df.sum(axis=1)


In [None]:
df.min()


In [None]:
df.min(axis=1)


In [None]:
df.max()


In [None]:
df.max(axis=1)


## **Valores NaN**

Los valores NaN (Not a Number) son bastante indeseables porque no podemos utilizarlos para realizar análisis estadístico u operaciones aritméticas. Es por eso que uno de los primeros pasos en la Limpieza de Datos suele ser la eliminación de estos valores.

Los NaNs se ven así en un DataFrame:

In [None]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

df = pd.DataFrame(datos, index=["Morelos", "Guerrero", "CDMX", "Estado de México", "Puebla", "San Luis", "Queretaro"])

In [None]:
df

Para contarlos podemos usar una función vectorizada llamada isna, que nos regresa esto:



In [None]:
df.isna()


isna regresa True cuando encuentra un NaN y False cuando el valor es válido.

Después, podemos contar cuántos NaNs existen usando la agregación sum, que suma 1 por cada True y 0 por cada False:

In [None]:
df.isna().sum(axis=0)


In [None]:
df.isna().sum(axis=1)


## **LIMPIANDO NA´s**

Hay 3 operaciones básicas que podemos realizar para eliminar NaNs de nuestros datasets:

1. Eliminar filas con NaNs
2. Eliminar columnas con NaNs
3. Llenar los NaNs con algún valor.

Exploremos las 3 opciones.

In [None]:
df

Para limpiar las filas que tengan mínimo 1 valor NaN, se utiliza dropna(axis=0, how='any'):



In [None]:
df.dropna(axis=0, how='any')


Con el axis=0 le estamos diciendo que queremos eliminar por filas. Con how='any' le decimos que queremos eliminar cualquier fila que tenga mínimo un NaN.

Si quisiéramos eliminar sólo las filas donde todos los valores sean NaN, podemos usar axis='all':

In [None]:
df.dropna(axis=0, how='all')


Estos resultados no se aplican directamente al DataFrame original. Si queremos que persistan tenemos que asignarlos a otra variable:



In [None]:
df_dropped = df.dropna(axis=0, how='all')


**Limpiando NaNs por columnas**


Vamos a agregar una columna:



In [None]:
df['descuento'] = np.nan


In [None]:
df

Al igual que por filas, eliminar NaNs por columna también se puede hacer usando ´any´ y ´all´. La única diferencia es que ahora hay que usar axis=1 para que se haga la eliminación por columnas:

In [None]:
df.dropna(axis=1, how='any')


In [None]:
df_dropped = df.dropna(axis=1, how='all')


**Llenando NaNs con valores**


Otra cosa que podemos hacer es llenar los valores NaN con algún otro valor.

Por ejemplo, digamos que tenemos este dataset:

In [None]:
df

Lo primero que hay que hacer es eliminar filas y columnas donde todos los valores sean NaN, puesto que no nos sirven de nada:



In [None]:
df_no_nans = df.dropna(axis=0, how='all')
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Ahora, digamos que podemos asumir que si hay un valor NaN en "productos_vendidos" es porque no ha sido vendido aún. En ese caso podemos rellenar ese NaN usando fillna:

In [None]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)

df_no_nans

In [None]:
df_no_nans.dropna(axis=0)


## **LEYENDO CSV**

Para leer un archivo .csv en pandas, usamos read_csv y le indicamos que el separador (el signo que delimita las columnas en el archivo .csv) es una coma:



In [None]:
df = pd.read_csv('../../Datasets/melbourne_housing-raw.csv', sep=',')

df

In [None]:
df.shape


In [None]:
df.head(5)


In [None]:
df.isna().sum()


In [None]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

df_2.isna().sum()

In [None]:
df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')

df_2.isna().sum()

In [None]:
df_dropped = df_2.dropna(axis=0, how='any')

df_dropped.isna().sum()

In [None]:
df_dropped.shape


In [None]:
writer = pd.ExcelWriter('Report.xlsx')

df_dropped.to_excel(writer, sheet_name='Clean',index=False)

In [None]:
from google.colab import files
files.download('Report.xlsx')

## **Reindexando y renombrando columnas**

Limpiemos nuestro dataset hasta que esté justo como lo dejamos en el Ejemplo pasado:



In [None]:
df_dropped


Ahora, tenemos dos situaciones:

La primera es que nuestro índice no coincide con el número de filas que tenemos. En este caso, dado que nuestro índice es secuencial y numérico, y no tiene ningún significado además de eso, nos convendría que reflejara la cantidad de filas que tenemos en nuestro dataset.

Para lograr eso vamos a usar el método reset_index:



In [None]:
df_dropped.reset_index()


Nuestro índice ya está correcto, pero ahora tenemos un columna llamada index que contiene el índice original. Como no queremos guardar esos datos, agregamos la opción drop=True para eliminar el índice anterior:

In [None]:
df_dropped.reset_index(drop=True)


In [None]:
df_dropped = df_dropped.reset_index(drop=True)


Ahora tenemos un problema con los nombres de las columnas: Tienen inconsistencias en la manera cómo están nombradas y algunas incluso tienen errores ortográficos. Vamos a cambiarles los nombres para tener consistencia:



In [None]:
column_name_mapping = {
    'Suburb': 'suburb',
    'Address': 'address',
    'Rooms': 'rooms',
    'Type': 'type',
    'Price': 'price',
    'Method': 'method',
    'SellerG': 'seller_g',
    'Date': 'date',
    'Distance': 'distance',
    'Postcode': 'post_code',
    'Bedroom2': 'bedrooms',
    'Bathroom': 'bathroom',
    'Car': 'car',
    'Landsize': 'land_size',
    'CouncilArea': 'council_area',
    'Lattitude': 'latitude',
    'Longtitude': 'longitude',
    'Regionname': 'region_name',
    'Propertycount': 'property_count'
}

In [None]:
df_renamed = df_dropped.rename(columns=column_name_mapping)

df_renamed