In [1]:
# Numpy es clave en el desarrollo de funciones numéricas.
import numpy as np
import pandas as pd
import scipy
# SciPy contiene módulos para optimización, álgebra lineal, integración, interpolación, funciones especiales
import scipy.stats
#Usamos Pandas para traer el data frame con el que vamos a trabajar.
df = pd.read_csv('Files/bicicletas-compartidas.csv')

In [4]:
df.columns

Index(['fecha', 'bicis-compartidas', 'temp-obs', 'sens-temp', 'hum', 'viento',
       'codigo-clima', 'festivo', 'findesemana', 'cuartil-ano'],
      dtype='object')

In [8]:
df.head()

Unnamed: 0,fecha,bicis-compartidas,temp-obs,sens-temp,hum,viento,codigo-clima,festivo,findesemana,cuartil-ano
0,2015-01-04 00:00:00,182,3.0,2.0,93.0,6.0,3.0,0.0,1.0,3.0
1,2015-01-04 01:00:00,138,3.0,2.5,93.0,5.0,1.0,0.0,1.0,3.0
2,2015-01-04 02:00:00,134,2.5,2.5,96.5,0.0,1.0,0.0,1.0,3.0
3,2015-01-04 03:00:00,72,2.0,2.0,100.0,0.0,1.0,0.0,1.0,3.0
4,2015-01-04 04:00:00,47,2.0,0.0,93.0,6.5,1.0,0.0,1.0,3.0


In [9]:
# Definimos la variable "y" que vamos a analizar, variable objetivo. Que será bicicletas compartidas
y = df['bicis-compartidas'].values
y

array([182, 138, 134, ..., 337, 224, 139], dtype=int64)

In [11]:
# Limpiamos el arreglo de los ceros, valores que no permiten hacer calculo en numpy. 
# Le estamos diciendo, con  numpy "donde cuente y==0 cambielo por un 1 si no, conserve y"
y = np.where(y == 0, 1, y)

Mediciones Básicas

In [12]:
# Mínimo valor del df
np.min(y)

1

In [13]:
#Máximo valor del df
np.max(y)

7860

In [14]:
# promedio-average: sum(yi)/n
np.mean(y)

1143.1016997817849

In [15]:
# Estamos probando con funciones de numpy y python para realizar el mismo promedio.
np.sum(y)/len(y)

1143.1016997817849

Media Geometrica

In [16]:
# Calculamos la media geométrica
scipy.stats.mstats.hmean(y)

241.65180305136826

In [17]:
#El valor que divide el conjunto de datos en dos mitades. Es el famoso percentil 50.
np.median(y)

844.0

In [26]:
# En numpy la moda no viene declarada, por lo que hay que calcularla.
# moda = valor de "y" con la máxima frecuencia
# Inicializamos como un valor nulo con numpy Nan, nan quiere decir que es un valor nulo.
moda =np.nan
# Empezamos a contar valores y frecuencias, para hacer esto podemos hacerlo con "unique". 
# La función unique() nos permite encontrar los valores únicos de un array 
valores, conteo_valores = np.unique(y, return_counts = True)
# Con argmax encontramos la posición de mayor valor. Retorna índices del máximo valor a lo largo del eje.
pos = np.argmax(conteo_valores)
# La moda será la posición asociada al máximo conteo.
moda = valores[pos]
moda

46

In [21]:
# Medidas de dispersión Desviación estándar.
# Que tanto se alejan los valores "yi" de su promedio
np.std(y)

1085.0768508213835

In [28]:
moda = np.max(conteo_valores)

Revisiones

In [22]:
# Añadimos un valor extremo para saber qué tanto cambian estos valores
y_alterado = y.copy()
y_alterado[ y_alterado == max(y_alterado)] = 10000000
# Queremos ver e cambio en la media cuando encontramos un valor extremo. o Outliers.
print( np.mean(y) )

1143.1016997817849


In [23]:
# La media de y_alterada muestra las desviaciones.
print( np.mean(y_alterado) )

1716.9009417709888


In [24]:
# Pero la mediana es la misma. Para probarlo se hallarla media en ambas y
print( np.median(y))

844.0


In [25]:
print( np.median(y_alterado))

844.0
