# Operaciones matemáticas y trigonométricas: Raíz cuadrada, exponente y logaritmo

In [7]:
import numpy as np
from sklearn.metrics import root_mean_squared_error

"""
1- Crea dos vectores con 10 valores aleatorios int entre 30 y 60 (vector 1) y con 10 valores float del 0.1 al 9.9 (vector 2)
2- El primer vector se corresponderá con el valor real y e segundo vector con el valor presicho por el modelo. 
3- Calcula el RMSE con la función root_mean_squared_error de Scikit-learn y además también utilizando la fórmula tradicional.
4- Imprime el resultado de ambas formas.
5- ¿Hay diferencia entre los resultados?
"""
datos_reales = np.random.randint(30, 60, size=(10))
datos_predichos = np.random.uniform(0.1, 9.9, 10)
print(f"Datos reales: {datos_reales}")
print("Datos predichos: ", datos_predichos)

sk_rmse = root_mean_squared_error(datos_reales, datos_predichos)
print("-" * 50)
print(f"RSME mediante Scikit-learn (Porcentaje): {sk_rmse:.2f} %")
print(f"RSME mediante Scikit-learn: {sk_rmse}")

print("-" * 50)
rmse = np.sqrt(np.mean((datos_reales - datos_predichos) ** 2))
print(f"RMSE mediante fórmula (Porcentaje): {rmse:.2f} %")
print("RMSE mediante fórmula: ", rmse)
# No hay una diferencia apreciable entre los resultados

Datos reales: [34 32 41 37 51 56 32 30 32 34]
Datos predichos:  [9.62277853 8.41935548 7.17294931 2.41265221 2.60946956 0.49624918
 7.06449632 1.18673004 4.40549772 2.07684818]
--------------------------------------------------
RSME mediante Scikit-learn (Porcentaje): 34.85 %
RSME mediante Scikit-learn: 34.85066361885396
--------------------------------------------------
RMSE mediante fórmula (Porcentaje): 34.85 %
RMSE mediante fórmula:  34.85066361885396


# Ordenamiento

In [8]:
# Creamos una matriz de 3x3 con valores aleatorios entre 1 y 9
array_2d = np.random.randint(1, 10, size=(3, 3))
print("Matriz original:\n ", array_2d)

# Mediante la función seed() podemos dejar estáticos los valores aleatorios primeramente generados cada vez que volvemos a ejecutar el código
np.random.seed(42)

# Usando sort() ,que devuelve una copia del array pasado como parámetro, ordenamos el array
# Ordenamiento sobre filas (Por defecto)
sorted_rows = np.sort(array_2d, axis=1)
# Ordenamiento sobre columnas
sorted_columns = np.sort(array_2d, axis=0)
print("Matriz ordenada por filas:\n ", sorted_rows)
print("Matriz ordenada por columnas:\n ", sorted_columns)

# Ejemplo pero usando strings, realiza el ordenamiento por orden alfabético
palabras = np.array(
    ["CASA", "CASANOVA", "ANA", "ANDAMIO", "PERRO", "PÉRTIGA", "TUCÁN", "TUCUMÁN"]
)
palabras_ordenadas = np.sort(palabras)
print("Palabras ordenadas: ", palabras_ordenadas)

Matriz original:
  [[7 1 4]
 [4 5 7]
 [7 4 7]]
Matriz ordenada por filas:
  [[1 4 7]
 [4 5 7]
 [4 7 7]]
Matriz ordenada por columnas:
  [[4 1 4]
 [7 4 7]
 [7 5 7]]
Palabras ordenadas:  ['ANA' 'ANDAMIO' 'CASA' 'CASANOVA' 'PERRO' 'PÉRTIGA' 'TUCUMÁN' 'TUCÁN']


# BÚSQUEDAS Y FILTROS

In [9]:
# Array de ejemplo
array_1d = np.array([1, 5, 7, 3, 65, 2, 1, 32, 44, 55, 64, 21, 89])

# Devuelve el index del valor mas pequeño
min_index = np.argmin(array_1d)
print("Index del valor mas pequeño: ", min_index)

# Devuelve el index del valor mas grande
max_index = np.argmax(array_1d)
print("Index del valor mas grande: ", max_index)

# Filtrado mediante cualquier expresión booleana en la indexación
array_filtrado1 = array_1d[array_1d > 35]
print("Valores filtrados con indexación: ", array_filtrado1)

# Parecido al anterior pero devuelve los index en vez de los valores
array_filtrado2 = np.where(array_1d > 35)
print("Index de los valores filtrados: ", array_filtrado2)

# Ejemplo del uso de where()
edades = np.random.randint(0, 80, size=10)
print("Valores edades: ", edades)
edades_cladificadas = np.where(edades >= 37, "Adulto", "Joven")
print("Edades clasificadas: ", edades_cladificadas)

# Otro ejemplo pero sustituyendo los valores que coincidan con una condición
array_5d = np.random.randint(1, 101, size=(1, 2, 3, 4, 5))
print("Arrat 5D: ", array_5d)
array_5d[array_5d < 50] = 50
print("Array 5D reemplazado: ", array_5d)

Index del valor mas pequeño:  0
Index del valor mas grande:  12
Valores filtrados con indexación:  [65 44 55 64 89]
Index de los valores filtrados:  (array([ 4,  8,  9, 10, 12]),)
Valores edades:  [51 14 71 60 20 74 74 23  2 21]
Edades clasificadas:  ['Adulto' 'Joven' 'Adulto' 'Adulto' 'Joven' 'Adulto' 'Adulto' 'Joven'
 'Joven' 'Joven']
Arrat 5D:  [[[[[ 53   2  88  30  38]
    [  2  64  60  21  33]
    [ 76  58  22  89  49]
    [ 91  59  42  92  60]]

   [[ 80  15  62  62  47]
    [ 62  51  55  64   3]
    [ 51   7  21  73  39]
    [ 18   4  89  60  14]]

   [[  9  90  53   2  84]
    [ 92  60  71  44   8]
    [ 47  35  78  81  36]
    [ 50   4   2   6  54]]]


  [[[  4  54  93  63  18]
    [ 90  44  34  74  62]
    [100  14  95  48  15]
    [ 72  78  87  62  40]]

   [[ 85  80  82  53  24]
    [ 26  89  60  41  29]
    [ 15  45  65  89  71]
    [  9  88   1   8  88]]

   [[ 63  11  81   8  35]
    [ 35  33   5  41  28]
    [  7  73  72  12  34]
    [ 33  48  23  62  88]]]]]
Array 5D r

# Leer datos CSV
Mediante Numpy

In [10]:
from tabulate import tabulate

data = np.genfromtxt(
    "Catalog_v2.csv", delimiter=",", skip_header=1, filling_values=0, dtype=str
)

column_1 = data[:, 0]
column_2 = data[:, 1]
column_3 = data[:, 2]
fila_6 = data[4, :]

"""
print("Columna 1: ", column_1)
print("Columna 2: ", column_2)
print("Columna 3: ", column_3)"""
print("Fila 6: ", fila_6)

print(tabulate(data, headers="keys", tablefmt="psql"))

FileNotFoundError: Catalog_v2.csv not found.

Mediante Pandas

In [11]:
import pandas as pd

# Leemos el csv y lo cargamos en un dataframe
df = pd.read_csv("Product_v6.csv")

# Mediante head() imprimimos las primeras 5 filas
print("5 primeras filas: ", df.head())

print(tabulate(df, headers="keys", tablefmt="psql"))

df.columns = df.columns.str.strip()
print("Todas las columnas: ", df.columns)

# accedemos a la columna de nombre 'value' mediante indexación
print("Columna code: ", df["value"])

# Slicing en dataframe mediante la funcion iloc[]
print("Fila 2: ", df.iloc[1, :])
print("Columa 5: ", df.iloc[:, 4])

# Cambiar las variables de configuración de pandas para imprimir el dataframe entero
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)


print(df)

FileNotFoundError: [Errno 2] No such file or directory: 'Product_v6.csv'

In [None]:
# Leemos el CSV y lo convertimos en un Dataframe
df = pd.read_csv("Product_v6.csv")

# Creamos un array de Numpy mediante la columna 'value'
array_values = np.array(df["value"])

# Reducimos la varianza de los datos aplicando la raiz cuadrado sobre ellos
sqrt_array_values = np.sqrt(array_values)

# Añadimos nuestro array como una nueva columna al dataframe
df["sqrt_values"] = sqrt_array_values

# Creamos un nuevo CSV con nuestro dataframe modificado
df.to_csv("datos_modificados.csv", index=False)

# Aplicamos un 10% a todos los valores de sqrt_values
df["raw_sqrt"] = df["sqrt_values"] * 0.9

# Realizamos un filtrado de datos mediante la funcion .loc[condicion, "nombre_columna"] (Multiplicamos por 2 los valores de Value mayores a 1000)
df.loc[df["value"] > 1000, "value"] *= 2

# Elevamos al cuadrado todos los valores de la columna raw_sqrt menores de 60 y mayores de 40
df.loc[(df["raw_sqrt"] < 60) & (df["raw_sqrt"] > 40), "raw_sqrt"] **= 2

# Mostramos el nuevo Dataframe
print(tabulate(df, headers="keys", tablefmt="psql"))


+----+--------------+---------------+-------------------------+---------------+------------------------------+---------------------+-----------------------+----------+---------+-----------------+------------------------+-----------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------+---------------+---------------------------------+---------------+------------+
|    | partNumber   | productType   | category.code           | brand.code    | family.code                  | line.code           |   productSegment.code | status   |   value | valueCurrency   | defaultQuantityUnits   | name                                                                  | description                                                                                                | plannerCode   | sourceLink                      |   sqrt_values |   raw_sqrt |
|----+--------------+---------------+-

# ESTADÍSTICA

In [12]:
# Creamos un data frame con valores aleatorios
df = pd.DataFrame({
    "id": range(1, 11), 
    "ventas": np.random.randint(100, 1000, size=10)
    })

# MEDIA: Valor promedio de un conjunto de valores
df['media_ventas'] = df["ventas"].mean()

# MEDIANA: Valor central en una serie de datos ordenados ascendentemente
df["mediana_ventas"] = df["ventas"].median()

# DESVIACIÓN ESTÁNDAR: Calcula la dispersión de los datos respecto a la media.
df["desviacion_ventas"] = df["ventas"].std()

# NORMALIZACIÓN: Mediante la media y la desviación estándar
df["ventas_normalizadas"] = (df["ventas"] - df["ventas"].mean()) / df["ventas"].std() # Se aplica la fórmula de normalización Z-score: (X - media) / desviación estándar
# Mediante esta operación definimos los datos en una escala donde la media es 0 y la desviación estándar es 1

# Miniejercicio: Crea una nueva columna que contenga la media  y otra columna con la desviación estándar de ventas_normalizadas
df["media_ventas_normalizadas"] = df["ventas_normalizadas"].mean()
df["desviacion_ventas_normalizadas"] = df["ventas_normalizadas"].std()

print(tabulate(df, headers="keys", tablefmt="psql"))



+----+------+----------+----------------+------------------+---------------------+-----------------------+-----------------------------+----------------------------------+
|    |   id |   ventas |   media_ventas |   mediana_ventas |   desviacion_ventas |   ventas_normalizadas |   media_ventas_normalizadas |   desviacion_ventas_normalizadas |
|----+------+----------+----------------+------------------+---------------------+-----------------------+-----------------------------+----------------------------------|
|  0 |    1 |      904 |            718 |            762.5 |              218.46 |             0.851413  |                -9.71445e-18 |                                1 |
|  1 |    2 |      198 |            718 |            762.5 |              218.46 |            -2.3803    |                -9.71445e-18 |                                1 |
|  2 |    3 |      783 |            718 |            762.5 |              218.46 |             0.297537  |                -9.71445e-18 |    

In [None]:
import scipy.stats as stats

"""1- Leer el csv ShipmentLine_v3 y convertiro en DataFrame
2- Almacenar en un array los valores de la columna "order.orderIdentifier", y en otro array los valores de la columna "value"
3- Aplizar la normalización Z-Score a los ambas columnas.
4- Vamos a comprobar si realmente la desviación de los valores normalizados es 1
y si la media de los valores normalizados es 0 (o ronda el 0)"""
df = pd.read_csv("ShipmentLine_v3.csv")

order_ids_column = df["order.orderIdentifier"]
value_column = df["value"]

order_ids_column = stats.zscore(order_ids_column)
value_column = stats.zscore(value_column)

df_normalizado = pd.DataFrame({
    "Ids_normalizados" : order_ids_column,
    "Valores_normalizados" : value_column,
    "Media_ids_normalizados" : order_ids_column.mean(),
    "Media_valores_normalizados" : value_column.mean(),
    "Desviacion_ids_normalizados" : order_ids_column.std(),
    "Desviacion" : order_ids_column.std()
})
print(tabulate(df_normalizado, headers="keys", tablefmt="psql"))


+-----+--------------------+------------------------+--------------------------+------------------------------+-------------------------------+--------------+
|     |   Ids_normalizados |   Valores_normalizados |   Media_ids_normalizados |   Media_valores_normalizados |   Desviacion_ids_normalizados |   Desviacion |
|-----+--------------------+------------------------+--------------------------+------------------------------+-------------------------------+--------------|
|   0 |          -2.13437  |             1.76715    |              1.42109e-16 |                  1.77636e-17 |                             1 |            1 |
|   1 |          -2.13437  |            -0.407217   |              1.42109e-16 |                  1.77636e-17 |                             1 |            1 |
|   2 |          -2.13437  |            -0.407217   |              1.42109e-16 |                  1.77636e-17 |                             1 |            1 |
|   3 |          -2.13437  |             0.723

In [None]:
# Declaramos un dataframe de ejemplo con el que trabajar
df = pd.DataFrame({
    "valores_aleatorios" : np.random.randint(20 , 50, size=10)
})


# Calculo de minimos, maximos y percentiles con pandas 
print('-' * 30)
print("Valores aleatorios")
print("Mínimo: ", df["valores_aleatorios"].min())
print("Máximo: ", df["valores_aleatorios"].max())
print("Percentil 25: ", df["valores_aleatorios"].quantile(0.25))
print("Percentil 50: ", df["valores_aleatorios"].quantile(0.50))
print("Percentil 80: ", df["valores_aleatorios"].quantile(0.80))


# APLICAR UNA FUNCIÓN A UNA COLUMNA
def clasificar_valores(valor):
    if valor < 25:
        return "Bajo"
    elif valor < 35:
        return "Medio"
    else:
        return "Alto"

df["valores_clasificados"] = df["valores_aleatorios"].apply(clasificar_valores)

# Clasificar los datos en categorías según los percentiles

print(tabulate(df, headers="keys", tablefmt="psql"))

------------------------------
Valores aleatorios
Mínimo:  20
Máximo:  48
Percentil 25:  31.0
Percentil 50:  40.5
Percentil 80:  44.2
+----+----------------------+------------------------+
|    |   valores_aleatorios | valores_clasificados   |
|----+----------------------+------------------------|
|  0 |                   48 | Alto                   |
|  1 |                   40 | Alto                   |
|  2 |                   42 | Alto                   |
|  3 |                   20 | Bajo                   |
|  4 |                   22 | Bajo                   |
|  5 |                   37 | Alto                   |
|  6 |                   44 | Alto                   |
|  7 |                   29 | Medio                  |
|  8 |                   41 | Alto                   |
|  9 |                   45 | Alto                   |
+----+----------------------+------------------------+
