# Sesión 05: Funciones vectorizadas y limpieza de datos

## Ejemplo 1: Funciones vectorizadas con Series

**Series**

Las Series se pueden crear tanto a partir de listas como de diccionarios. De manera opcional podemos especificar una lista con las etiquetas de las filas.

Las funciones vectorizadas son aquellas que pueden operar sobre arreglos (o vectores) de datos de manera eficiente sin necesidad de bucles explícitos.
Esto significa que puedes aplicar la misma operación a cada elemento de un arreglo de datos de una sola vez, en lugar de iterar sobre cada elemento individualmente. Esto puede resultar en un rendimiento significativamente mejorado.

In [None]:
# En caso de no estar instalada
!pip install pandas

In [None]:
#Impotaciones necesarias
import pandas as pd
import numpy as np

In [None]:
serie_1 = pd.Series([1,2,3,4,5,6,7,8,9,10])

In [None]:
(serie_1 + 10) * 100

0    1100
1    1200
2    1300
3    1400
4    1500
5    1600
6    1700
7    1800
8    1900
9    2000
dtype: int64

##Metodos de Numpy

In [None]:
# Potencia
np.power(serie_1, 2)

0      1
1      4
2      9
3     16
4     25
5     36
6     49
7     64
8     81
9    100
dtype: int64

In [None]:
#Raiz
np.sqrt(serie_1)

0    1.000000
1    1.414214
2    1.732051
3    2.000000
4    2.236068
5    2.449490
6    2.645751
7    2.828427
8    3.000000
9    3.162278
dtype: float64

In [None]:
# Definimos dos arrays
a = np.array([1,2,3])
b = np.array([4,5,6])
# Returns total sum for each group
resultado = np.add(a,b)
resultado

array([5, 7, 9])

In [None]:
# Definimos dos arrays
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Usamos np.multiply() para multiplicar los arrays
resultado = np.multiply(a, b)
resultado

array([ 4, 10, 18])

In [None]:
# Definimos una matriz cuadrada
matriz = np.array([[1, 2], [3, 4]])

# Calculamos su determinante
determinante = np.linalg.det(matriz)

print(determinante)  # Salida: -2.000000000000000

-2.0000000000000004


## Ejemplo 2: Funciones de Agregacion

Las funciones de agregación son aquellas que toman múltiples valores y devuelven un solo valor que resume alguna propiedad de esos valores. Algunos ejemplos comunes de funciones de agregación incluyen la suma, el promedio, la mediana, el mínimo y el máximo.

[Link de Apoyo](https://https://sparkbyexamples.com/pandas/pandas-aggregate-functions-with-examples/)

In [None]:
import pandas as pd
import numpy as np

In [None]:
serie_2 = pd.Series([1,2,4,5])

In [None]:
# Empezamos a usar funciones de agregacion
# sum()	Returns total sum for each group
serie_2.sum()

12

In [None]:
# count()	Returns count for each group
serie_2.count()

4

In [None]:
# min()	Returns minimum value for each group
serie_2.min()

1

In [None]:
# max()	Returns maximum value for each group
serie_2.max()

5

In [None]:
# mean()	Returns mean for each group. Same as average()
serie_2.mean()

3.0

In [None]:
serie = pd.Series([1, 2, 3, 4, 5])
mediana = serie.median()
print(mediana)  # Salida: 3.0

3.0


In [None]:
# Desviacion Estandar
serie = pd.Series([1, 2, 3, 4, 5])
desviacion = serie.std()
print(desviacion)  # Salida: 1.5811388300841898

1.5811388300841898


In [None]:
# Funcion Unicos
serie = pd.Series([1, 2, 2, 3, 3, 3])
unicos = serie.unique()
print(unicos)  # Salida: array([1, 2, 3])

[1 2 3]


In [None]:
# Setear, Devuelve un conjunto eliminando los elementos repetidos
numeros = [1, 2, 2, 3, 4, 4, 5]
conjunto_numeros = set(numeros)
print(conjunto_numeros)
# Salida: {1, 2, 3, 4, 5} conjunto en Python

{1, 2, 3, 4, 5}


In [None]:
# tupla = (1,2,3), son inmutables
numeros = {1,1,1,2,2,3,3,4,4} #Conjunto, son mutables
print(numeros)

{1, 2, 3, 4}


## Diferencia Vectorizadas VS Agregacion

En resumen, las funciones vectorizadas son aquellas que operan de manera eficiente sobre arreglos de datos sin necesidad de bucles, mientras que las funciones de agregación son aquellas que resumen múltiples valores en un solo valor.

**Funciones Vectorizadas:**
* Eficiencia:
* Legibilidad y Simplicidad: Pueden hacer que tu código sea más legible y conciso, ya que tienden a expresar operaciones de manera más clara y compacta.
* Flexibilidad: Permiten operar sobre Arreglos de diferentes tamaños y formas sin necesidad de bucles explícitos.

**Funciones de Agregación:**

* Resumen de Datos: Son esenciales para resumir grandes conjuntos de datos y obtener información clave sobre ellos.
Por ejemplo, calcular la media, la suma, el máximo o el mínimo de un conjunto de valores

* Análisis Estadístico: Son cruciales en el análisis estadístico y en la generación de métricas descriptivas que resuman la distribución de los datos.

* Tratamiento de Datos Agrupados: Son fundamentales cuando se trabaja con datos agrupados o cuando se necesita calcular estadísticas resumidas por grupos.

## Ejemplo 3: Funciones vectorizadas y agregaciones con DataFrames

In [None]:
import pandas as pd
import numpy as np

In [None]:
datos = {
    'precio': [34, 54, 223, 78, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 10, 2, 5, 45, 2],
    'productos_vendidos': [3, 45, 23, 76, 24, 6, 2]
}

In [None]:
df = pd.DataFrame(data=datos, index=["Pokemaster", "Cegatron", "Pikame Mucho",
                         "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [None]:
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


In [None]:
# Aplicando funciones vectorizadas con el mismo resultado
#Potencia
np.power(df,2)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1156,9,9
Cegatron,2916,36,2025
Pikame Mucho,49729,100,529
Lazarillo de Tormes,6084,4,5776
Stevie Wonder,3136,25,576
Needle,144,2025,36
El AyMeDuele,1156,4,4


In [None]:
#raices
np.sqrt(df)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,5.830952,1.732051,1.732051
Cegatron,7.348469,2.44949,6.708204
Pikame Mucho,14.933185,3.162278,4.795832
Lazarillo de Tormes,8.831761,1.414214,8.717798
Stevie Wonder,7.483315,2.236068,4.898979
Needle,3.464102,6.708204,2.44949
El AyMeDuele,5.830952,1.414214,1.414214


In [None]:
# Funciones de Agregacion
#Funcion Seno
np.sin(df) + 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,100.529083,100.14112,100.14112
Cegatron,99.441211,99.720585,100.850904
Pikame Mucho,100.053053,99.455979,99.15378
Lazarillo de Tormes,100.513978,100.909297,100.566108
Stevie Wonder,99.478449,99.041076,99.094422
Needle,99.463427,100.850904,99.720585
El AyMeDuele,100.529083,100.909297,100.909297


El resultado será un nuevo DataFrame donde se ha aplicado la función seno y luego se le ha sumado 100 a cada elemento.

In [None]:
# Si usamos agregaciones, las agregaciones se hacen de manera automática por columna:
# Axis 0 es la columna y axis 1 es la fila
df.sum(axis=0)

precio                491
cantidad_en_stock      73
productos_vendidos    179
dtype: int64

In [None]:
# Axis 1 es la fila
df.sum(axis=1)

Pokemaster              40
Cegatron               105
Pikame Mucho           256
Lazarillo de Tormes    156
Stevie Wonder           85
Needle                  63
El AyMeDuele            38
dtype: int64

In [None]:
df.head(7)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pikame Mucho,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


In [None]:
df.min()

precio                12
cantidad_en_stock      2
productos_vendidos     2
dtype: int64

In [None]:
df.min(axis=1)

Pokemaster              3
Cegatron                6
Pikame Mucho           10
Lazarillo de Tormes     2
Stevie Wonder           5
Needle                  6
El AyMeDuele            2
dtype: int64

In [None]:
df.max(axis=0)

precio                223
cantidad_en_stock      45
productos_vendidos     76
dtype: int64

In [None]:
#Ejercicio Extra
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

df_inverted = df.iloc[::-1].reset_index(drop=True)
print(df_inverted)

***df_inverted = df.iloc[::-1].reset_index(drop=True):***

**df.iloc[::-1]**
Invierte las filas del DataFrame df. El ::-1 significa que estamos tomando todas las filas, pero en orden inverso.

**reset_index(drop=True)**
 Reinicia el índice del DataFrame resultante después de la inversión. El drop=True evita que se añada una columna adicional con el índice anterior.

## Ejemplo 4: Identificación y conteo de NaNs

In [None]:
# Not a Number Nan = None = Null
import pandas as pd
import numpy as np

In [None]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

In [None]:
df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho",
                                "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele"])

In [None]:
df.head(7)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
# isna regresa True cuando encuentra un NaN y False cuando el valor es válido.
df.isna()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,False,False,False
Cegatron,False,False,False
Pikame Mucho,True,False,False
Lazarillo de Tormes,True,True,True
Stevie Wonder,False,False,False
Needle,False,False,False
El AyMeDuele,False,False,True


In [None]:
#Funcion de agregacion
# Suma cada True
df.isna().sum(axis=0)

precio                2
cantidad_en_stock     1
productos_vendidos    2
dtype: int64

In [None]:
df.isna().sum(axis=1)

Pokemaster             0
Cegatron               0
Pikame Mucho           1
Lazarillo de Tormes    3
Stevie Wonder          0
Needle                 0
El AyMeDuele           1
dtype: int64

## Ejemplo 5: Limpiando nans

In [None]:
import pandas as pd
import numpy as np

In [None]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}

In [None]:
df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes",
                                "Stevie Wonder", "Needle", "El AyMeDuele"])


In [None]:
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


Para limpiar las filas que tengan mínimo 1 valor NaN, se utiliza:
* **dropna(axis=0, how='any')** :

**how='any'**: Especifica cómo se determinará si una fila o columna se eliminará:

**how='any'**: Si cualquier valor en la fila (o columna, dependiendo de axis) es NaN, entonces esa fila (o columna) será eliminada.

**how='all'**: Si todos los valores en la fila (o columna) son NaN, entonces esa fila (o columna) será eliminada.

In [None]:
#Elimina la fila/renglon que contenga al menos un NaN
#Crea un nuevo dataframe
df.dropna(axis=0, how='any')

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


In [None]:
#DataFrame original
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
# Asignamos el resultado a df_dropped
# Elimina la fila/renglon que contenga solo NaN
df_dropped = df.dropna(axis=0, how='all')
df_dropped.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
#Agremos una columna con solo valores NaN
df['descuento'] = np.nan
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


In [None]:
# Eliminando la fila si tiene algun valor NaN
df.dropna(axis=1, how='any')

Pokemaster
Cegatron
Pikame Mucho
Lazarillo de Tormes
Stevie Wonder
Needle
El AyMeDuele


In [None]:
# Eliminando la columna si tiene solo valores NaN
df_dropped = df.dropna(axis=1, how='all')
df_dropped.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
# Llenando NaNs con valores
df.head(10) #DataFrame original

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pikame Mucho,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


In [None]:
# Eliminamos renglones que cumplan con todos sus valores en NaN
df_no_nans = df.dropna(axis=0, how='all')

In [None]:
# Eliminamos columnas que cumplan con todos sus valores en NaN
df_no_nans = df_no_nans.dropna(axis=1, how='all')

In [None]:
df_no_nans = df.dropna(axis=0, how='all')
df_no_nans = df_no_nans.dropna(axis=1, how='all')

df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [None]:
# Reemplazando y dando valores por default
# fillna('valor de relleno')
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)
df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pikame Mucho,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


In [None]:
df_no_nans.dropna(axis=0)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


## Ejemplo 6: Limpiando NaNs en un dataset real

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('Datasets/melbourne_housing-raw.csv', sep=',')

df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [4]:
df.shape # obtener el total de renglones y columnas

(19740, 21)

In [6]:
df.isna().sum()

Suburb               0
Address              0
Rooms                0
Type                 0
Price             4344
Method               0
SellerG              0
Date                 0
Distance             8
Postcode             8
Bedroom2          4413
Bathroom          4413
Car               4413
Landsize          4796
BuildingArea     11123
YearBuilt        10389
CouncilArea       4444
Lattitude         4292
Longtitude        4292
Regionname           8
Propertycount        8
dtype: int64

In [7]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

df_2.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          8
Propertycount       8
dtype: int64

In [8]:
df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')

df_2.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          0
Propertycount       8
dtype: int64

In [9]:
df_dropped = df_2.dropna(axis=0, how='any')

df_dropped.isna().sum()

Suburb           0
Address          0
Rooms            0
Type             0
Price            0
Method           0
SellerG          0
Date             0
Distance         0
Postcode         0
Bedroom2         0
Bathroom         0
Car              0
Landsize         0
CouncilArea      0
Lattitude        0
Longtitude       0
Regionname       0
Propertycount    0
dtype: int64

In [10]:
df_dropped.shape

(11646, 19)

In [11]:
df_dropped.to_csv('melbourne_housing-result.csv')

## Ejemplo 7: Reindexando y renombrando columnas

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('/content/drive/MyDrive/BEDU/Python_Tecnolochicas/Datasets/melbourne_housing-raw.csv', sep=',')

df.head()

In [None]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

In [None]:
df_2['Regionname'] = df_2['Regionname'].fillna('Unknown')

In [None]:
df_dropped = df_2.dropna(axis=0, how='any')

In [None]:
df_dropped.head()

In [None]:
df_dropped.reset_index()

In [None]:
df_dropped.reset_index(drop=True)

In [None]:
df_dropped = df_dropped.reset_index(drop=True)

In [None]:
# Nombramiento de columnas
column_name_mapping = {
    'Suburb': 'suburb',
    'Address': 'address',
    'Rooms': 'rooms',
    'Type': 'type',
    'Price': 'price',
    'Method': 'method',
    'SellerG': 'seller_g',
    'Date': 'date',
    'Distance': 'distance',
    'Postcode': 'post_code',
    'Bedroom2': 'bedrooms',
    'Bathroom': 'bathroom',
    'Car': 'car',
    'Landsize': 'land_size',
    'CouncilArea': 'council_area',
    'Lattitude': 'latitude',
    'Longtitude': 'longitude',
    'Regionname': 'region_name',
    'Propertycount': 'property_count'
}

In [None]:
df_renamed = df_dropped.rename(columns=column_name_mapping)

df_renamed