### Librerías

In [1]:
import pandas as pd
import numpy as np
import os

### Carga de datos

In [2]:
mainpath = r'C:\Users\carlo\OneDrive\GITHUB - Repositorios\Datasets'
filename = "Datos ventas.csv"
fullpath = os.path.join(mainpath,filename)
dataset = pd.read_csv(filepath_or_buffer = fullpath, sep = ";", encoding = "utf8")
type(dataset)

pandas.core.frame.DataFrame

## Medidas de tendencia central

### Media aritmética o promedio

El método mean permite decidir tomar en cuenta o no a los valores faltantes.

In [5]:
dataset['Ventas [unid]'].mean(skipna = False)

nan

In [6]:
np.nanmean(dataset['Ventas [unid]'])

4.968196819681968

In [7]:
# np.mean devolverá nan cuando tiene un array en su argumento
# Si se alimenta a np.mean con una serie de pandas,
# entonces no tamará en cuenta a los valores vacíos
np.mean(dataset['Ventas [unid]'])

4.968196819681968

### Mediana

In [8]:
dataset2 = pd.DataFrame({'Name' : ['Tom', 'nick', 'krish', 'jack', 'Charlie'],
                         'Age'  : [1, 2, 5, np.nan,9]})

In [9]:
dataset2['Age'].median(skipna = True)

3.5

In [15]:
np.median(dataset2['Age'])

nan

In [11]:
np.nanmedian(dataset2["Age"])

3.5

### Moda

La moda es el valor o categoría más frecuente dentro de un conjunto de datos. Dado que se considera como "popular" podría representar un estándar o valor representatitvo para el dataset.

In [18]:
Puntaje = [32, 15, 115, 42, 30, 10, 10, 12]

Name = ['Mike', 'Andy', 'Nicol', 'Jordan',
               'Jordan', 'Ronald', 'Ronald', 'Andy']

Función para calcular la moda. Tome en cuenta la cantidad de valores que se pretende estudiar.

In [130]:
def f_mode(dataset_mode):
    # Diccionario vacío
    frequency = {}
    
    # El método get(keyname,value) devuelve un valor de un diccionario
    for value in dataset_mode:
        
        # Para el elemento 'value' se extrae su recuento y se suma 1 (a modo de conteo)
        frequency[value] = frequency.get(value, 0) + 1

    # El método values() develve los valor de un diccionario como lista
    most_frequent = max(frequency.values())

    modes = [key for key, value in frequency.items() if value == most_frequent]

    return modes

In [133]:
f_mode(Name)

['Andy', 'Jordan', 'Ronald']

Existen alternativas fuera de la librería Pandas y Numpy para calcular la moda:

In [16]:
from statistics import multimode

In [19]:
multimode(Name)

['Andy', 'Jordan', 'Ronald']

In [20]:
multimode(Puntaje)

[10]

## Medidas de dispersión

### Rango o alcance

El rango de una variable se concibe como la diferencia entre el valor máximo y el mínimo. Es bastante sensible a valores atípicos.

In [21]:
# Utilizando las fómulas de mínimo y máximo
data = pd.DataFrame({'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
                     'Age':[1, 2, 5, np.NaN,9]})

print('Valor máximo: ', max(data["Age"]))
print('Valor mínimo: ', min(data["Age"]))

rango = max(data["Age"]) - min(data["Age"])
print(f"El rango es: {rango}")

Valor máximo:  9.0
Valor mínimo:  1.0
El rango es: 8.0


In [25]:
# Utilizando las fómulas de numpy
# Si existen valores en blanco se debe hacer una transformación adicional
# para no afectar los valores máximos y mínimos de una variable

data = pd.DataFrame({'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
                     'Age':[1, 2, 5, np.NaN,9]})

data["Age"] = data["Age"].fillna(np.mean(data["Age"]))
rango = np.ptp(data["Age"])
print(f"El rango es: {rango}")

El rango es: 8.0


### Varianza

Varianza muestral

In [26]:
data = pd.DataFrame({'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
        'Age':[1, 2, 5, np.NaN,9]})

print(np.var(data["Age"], ddof = 1))

print(np.nanvar(data["Age"], ddof = 1))

print(pd.DataFrame.var(data["Age"],skipna = False, ddof = 1))

12.916666666666666
12.916666666666666
nan


Varianza poblacional

In [12]:
data = {'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
        'Age':[1, 2, 5, np.NaN,9]}
data = pd.DataFrame(data)

print(np.var(data["Age"], ddof = 0))

print(np.nanvar(data["Age"], ddof = 0))

print(pd.DataFrame.var(data["Age"],skipna = False, ddof = 0))

9.6875
9.6875
nan


### Desviación estándar

In [13]:
data = {'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
        'Age':[1, 2, 5, np.NaN,9]}
data = pd.DataFrame(data)

print(np.std(data["Age"], ddof = 1))

print(np.nanstd(data["Age"], ddof = 1))

print(pd.DataFrame.std(data["Age"],skipna = False, ddof = 1))

3.593976442141304
3.593976442141304
nan


### Coeficiente de variación
Esta medida de variación expresa la desviación estándar como un porcentaje de la media. Permite comparar distribuciones.

In [69]:
data = {'Name':['Tom', 'nick', 'krish', 'jack', 'Charlie'],
        'Age':[1, 2, 5, np.NaN,9]}
data = pd.DataFrame(data)

CV = (np.std(data["Age"], ddof = 1)) / (np.mean(data["Age"]))

print(f"El coeficiente de variación de la variable edad es de : {round(CV*100,2)} %")

El coeficiente de variación de la variable edad es de : 84.56 %


## Otras medidas

### Reemplazar valores NaN con 0

In [None]:
# Utilizando Pandas para una columna
data['Age'] = data['Age'].fillna(0)
data

In [None]:
# Utilizando Pandas para todo el data frame
data.fillna(0)

### Redondear números

In [None]:
np.round(3.14159265359,2)

# <span style='color:#3ba9e6'>Matemáticas generales: librería *math*

El módulo "math" de Python contiene funciones que permiten realizar operaciones típicas de las matemáticas. El conjunto completo de funciones puede consultarse de https://docs.python.org/3/library/math.html

In [1]:
import math

### <span style='color:#402060'>Algunas constantes matemáticas

<span style='color:#402060'>*Número PI*

In [5]:
math.pi

3.141592653589793

<span style='color:#402060'>*Número e*

In [6]:
math.e

2.718281828459045

<span style='color:#402060'>*Thau (Equivale a dos veces Pi)*

In [3]:
math.tau

6.283185307179586

<span style='color:#402060'>*Infinito*

In [4]:
math.inf

inf

In [5]:
math.inf == float('inf')

True

<span style='color:#402060'>*Valor NaN (not a number)*

In [6]:
math.nan

nan

### <span style='color:#402060'>Funciones logarítmicas y exponenciales

<span style='color:#402060'>***Constante e elevado a cierto exponente*** <br>
    La potencia figura en el argumento de la función

In [7]:
math.exp(1)

2.718281828459045

In [1]:
2**6

64

<span style='color:#402060'>***Potencia***

In [9]:
math.pow(5,2)

25.0

In [8]:
# nan está ideado para operar según reglas matemáticas
# funcion para potencias
math.pow(math.nan,0)

1.0

<span style='color:#402060'>***Logaritmos*** <br>
    Si la función posee un argumento, entonces se calculará el logaritmo natural (base e)

In [16]:
math.log(10000,10)

4.0

In [17]:
math.log(math.e)

1.0

### <span style='color:#402060'>Tipos de errores

<span style='color:#402060'>***Error en la introducción de un parámetro***

In [19]:
math.sqrt(-1)

ValueError: math domain error

<span style='color:#402060'>***Error de rango*** <br>
    Excesivas cifras de cálculo

In [26]:
math.exp(10000)

OverflowError: math range error

### <span style='color:#402060'>Representación numérica

Funciones de redondeo

In [18]:
# Redondeo al alza
math.ceil(3.4523)

4

In [25]:
# Redondeo a la baja
math.floor(3.4523)

3

In [27]:
# Truncar un número real a uno entero
math.trunc(3.952)

3

Copiar el signo

In [22]:
math.copysign(3,-2)

-3.0

Valor absoluto

In [23]:
math.fabs(5)

5.0

In [24]:
math.fabs(-23)

23.0

Factorial

In [30]:
math.factorial(4)

24

Resto de una divsión

In [35]:
math.fmod(7,3)

1.0

In [36]:
math.remainder(7,3)

1.0

Cociente de una división exclusivamente

In [33]:
7//3

2

División tradicional

In [37]:
7/3

2.3333333333333335

Separar la parte entera y la parte decimal

In [40]:
math.modf(4.25)

(0.25, 4.0)

Máximo común divisor

In [41]:
math.gcd(24,36)

12

Comprombar si un número es finito

In [42]:
math.isfinite(2.5)

True

In [43]:
math.isinf(4.7)

False

In [44]:
math.isnan(1.3)

False

Comprobar la similitud entre dos números

In [47]:
math.sqrt(2)**2 == 2

False

In [49]:
# Comprueba el nivel de cercanía entre dos números respecto a cierta tolerancia.
math.isclose(math.sqrt(2)**2, 2, rel_tol = 1e-09)

True

### <span style='color:#402060'>Operadores de decisión

In [50]:
x = int(input("Escribe un número:"))

Escribe un número: 5


In [51]:
if x == 5:
    print("Escribiste el número ",x)

Escribiste el número  5


In [2]:
x = int(input("Escribe un número:"))
if x < 8 :
    print("Escribiste un número menor que 8")
elif x < 10:
    print("Escribiste un número menor que 10 y mayor o igual que 8")
else:
    print("El número es mayor o igual a 10")

Escribe un número:4
Escribiste un número menor que 8


In [56]:
x = int(input("Escribe un número:"))
if x > 0 and x < 10:
    print("Escribiste un número comprendido en el rango de 0 a 10")
else:
    print("Rango no válido")

Escribe un número: -5


Rango no válido


In [60]:
x = int(input("Escribe un número:"))
if x < 0 or x > 10:
    print("Escribiste un número que no está comprendido en el rango de 0 a 10")

Escribe un número: 11


Escribiste un número que no está comprendido en el rango de 0 a 10


### <span style='color:#402060'>Funciones matemáticas

Función exponencial

In [64]:
# Esta función es más precisa que utilizar e**3
math.exp(3)

20.085536923187668

Potencias

In [63]:
math.pow(5,3)

125.0

In [65]:
math.expm1(1)

1.718281828459045

In [66]:
# Se pierde precisión...
math.exp(1) - 1

1.718281828459045

In [68]:
math.exp(1e-05) - 1

1.0000050000069649e-05

In [69]:
math.expm1(1e-05)

1.0000050000166667e-05

In [3]:
math.log(12)

2.4849066497880004

In [4]:
math.log(12,2)

3.5849625007211565

In [5]:
math.log1p(1e-05)

9.99995000033333e-06

In [6]:
math.log2(32)

5.0

In [8]:
math.sqrt(64)

8.0

Funciones trigonométricas

In [11]:
# El argumento de la función debe ser en radianes
math.sin(180)

-0.8011526357338304

In [12]:
math.cos(math.pi)

-1.0

In [13]:
math.tan(math.pi/2)

1.633123935319537e+16

In [14]:
math.asin(1)

1.5707963267948966

In [15]:
math.acos(0)

1.5707963267948966

In [16]:
# Los resultados de la función están en radianes
math.atan(1)

0.7853981633974483

In [18]:
# Trnasformación de radianes a grados
math.degrees(0.7853981633974483)

45.0

In [19]:
math.cos(math.radians(60))

0.5000000000000001

In [20]:
# Calcular el módulo de un vector
# Los parámetros son coordenadas x,y
math.hypot(3,4)

5.0

In [23]:
# Hallar el ángulo del vector con el eje horizontal
math.degrees(math.atan2(4,3))

53.13010235415598

In [25]:
math.erf(math.pi)

0.9999911238536323

In [26]:
math.erfc(math.pi)

8.876146367641612e-06