
# Ejercicio de desarrollo. Dataframes y proceso

### 1. Crea un dataframe con 1000 registros para tres datos con valores aleatorios generados

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as st
from sklearn.preprocessing import MinMaxScaler

In [10]:
# Creamos un dataframe
# x --> entre 20 y 50
# y --> entre 50 y 150
# z --> entre 10000 y 40000

data = {'x': np.random.normal(30, 10, size = 1000),
        'y': np.random.normal(100, 40, size = 1000),
        'z': np.random.normal(25000, 5000, size = 1000)
        }

df = pd.DataFrame(data)

df


Unnamed: 0,x,y,z
0,38.470664,102.672033,21454.581548
1,32.020699,183.693763,18935.385720
2,25.676628,80.269380,17846.267652
3,44.658706,100.158103,33604.239361
4,42.092708,54.606477,29370.997636
...,...,...,...
995,18.119729,188.314912,24540.488047
996,36.119508,16.210635,29501.912866
997,17.993883,121.948806,22949.451243
998,22.083382,127.050654,22017.501525


## 2. Muestra los datos estadísticos de cada variable (media, desviación típica, máx, mín, etc)

In [11]:
statistical_data = df.describe()

statistical_data

Unnamed: 0,x,y,z
count,1000.0,1000.0,1000.0
mean,29.851134,98.795261,25083.437511
std,9.881241,38.092465,4929.964494
min,-1.084305,-16.845053,10115.77561
25%,23.468496,73.100147,21504.679932
50%,29.957772,100.914318,25172.781833
75%,36.415151,124.835894,28702.094616
max,60.243775,217.120627,39400.51028


## 3. Usando la distribución normal calcula las siguientes probabilidades:



*   Calcula (usando la distribución normal) la probabilidad que el valor y esté entre 55 y 70
*   Calcula (usando la distribución normal) la probabilidad que el valor z esté entre 20000 y 30000



In [12]:
py1 = (55 - 100) / 40
py2 = (70 - 100) / 40
pz1 = (20000 - 25000) / 5000
pz2 = (30000 - 25000) / 5000

py = st.norm.cdf(py2) - st.norm.cdf(py1)
pz = st.norm.cdf(pz2) - st.norm.cdf(pz1)

print(f"La probabilidad entre 55 y 70 es {py}")
print(f"La probabilidad entre 55 y 70 es {pz}")

La probabilidad entre 55 y 70 es 0.09633283524005942
La probabilidad entre 55 y 70 es 0.6826894921370859


## 4. Realiza una función que reciba un dataframe y un nombre de columna y devuelva una tupla con los valores (XL, XN) corresponde al intervalo al cual si no pertenece un valor puede ser considerado como outlier



*   Realiza la función usando el método basado en cuantiles


*   Esta función además deberá recibir otro parámetro (k) que indica si queremos detectar outliers débiles (k=1.5) o no (k=3)





In [13]:
def outlier_detection(df, column_name, k):

  Q1 = df.quantile(0.25)
  Q3 = df.quantile(0.75)
  IQR = Q3 - Q1

  xL = Q1 - k * IQR
  xN = Q3 + k * IQR
  tupla = ()

  for i in range(len(df)):
    if df[column_name][i] < xL[column_name] or df[column_name][i] > xN[column_name]:
      tupla = tupla + (df[column_name][i],)

  return tupla

outlier_detection(df, 'x', 1.5)


(1.3389545105942346,
 -1.0843052063923935,
 56.86408534180195,
 58.18446438334222,
 57.182467720758865,
 60.24377543175529,
 3.8288304269603266,
 57.70699944179285,
 3.2178829956182042)

## 5. Introduce deliberadamente dos valores fuera de los rangos en alguno de los atributos (x,y,z) y, usando el método jackknife detecte las observaciones influyentes para la media. Haz lo mismo para la mediana. Comenta los resultados obtenidos

In [None]:
# Introducimos valores fuera de los rangos, por ejemplo:
df.loc[0, 'x'] = 100
df.loc[1, 'y'] = 300

def is_any_influence_value(df, col, k=1.5):
    n = len(df[col])
    mean_jackknife = np.zeros(n)
    
    for i in range(n):
        data_without_i = np.delete(df[col].values, i)
        mean_jackknife[i] = np.mean(data_without_i)
    
    Q1 = np.quantile(mean_jackknife, 0.25)
    Q3 = np.quantile(mean_jackknife, 0.75)
    IQR = Q3 - Q1
    xL = Q1 - k * IQR
    xU = Q3 + k * IQR
    
    # Valores influyentes
    influents = []
    for i in range(n):
        if mean_jackknife[i] < xL or mean_jackknife[i] > xU:
            influents.append(i)
            print(f"La media de la coordenada '{col}' [{i}] = {mean_jackknife[i]:.4f} es influyente")
    return influents

print("Valores influyentes en la columna 'x':")
is_any_influence_value(df, 'x', k=1.5)

print("\nValores influyentes en la columna 'y':")
is_any_influence_value(df, 'y', k=1.5)    

Valores influyentes en la columna 'x':
La media de la coordenada 'x' [0] = 29.8425 es influyente
La media de la coordenada 'x' [247] = 29.9413 es influyente
La media de la coordenada 'x' [345] = 29.9437 es influyente
La media de la coordenada 'x' [401] = 29.8857 es influyente
La media de la coordenada 'x' [586] = 29.8844 es influyente
La media de la coordenada 'x' [658] = 29.8854 es influyente
La media de la coordenada 'x' [675] = 29.8823 es influyente
La media de la coordenada 'x' [728] = 29.9388 es influyente
La media de la coordenada 'x' [742] = 29.8848 es influyente
La media de la coordenada 'x' [873] = 29.9394 es influyente

Valores influyentes en la columna 'y':
La media de la coordenada 'y' [1] = 98.7103 es influyente
La media de la coordenada 'y' [171] = 98.8019 es influyente
La media de la coordenada 'y' [250] = 99.0171 es influyente
La media de la coordenada 'y' [326] = 99.0164 es influyente
La media de la coordenada 'y' [389] = 98.7932 es influyente
La media de la coordenada

[1, 171, 250, 326, 389, 470, 496, 611, 639, 646, 805]

## 6. Utiliza MinMaxScaler para realizar un escalado del dataframe creado en el ejercicio 1. Muestra los resultados y comenta que ha sucedido

In [None]:
# Instanciamos el scaler
caler = MinMaxScaler()

# Aplicamos el escalado a nuestro dataframe
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("********\nESCALADO\n********\n", df_scaled.describe())

********
ESCALADO
********
                  x            y            z
count  1000.000000  1000.000000  1000.000000
mean      0.306645     0.365341     0.511108
std       0.100150     0.121596     0.168346
min       0.000000     0.000000     0.000000
25%       0.242894     0.283878     0.388902
50%       0.307091     0.371662     0.514159
75%       0.370972     0.447162     0.634676
max       1.000000     1.000000     1.000000


## 7. Bitcoin price dataframe



*   Importa el dataset como un dataframe de pandas
*   Selecciona los dos atributos numéricos
*   Calcula la media y la varianza de esos dos datos numéricos
*   Realiza un estudio para determinar si contiene outliers (en el caso que no encuentres outliers, introduce uno deliberadamente)
*   Usa el método jackknife para detectar si hay observaciones influyentes para la media en alguno de los atributos
*   Escala los atributos usando MinMaxScaler



In [85]:
# Importar el dataset
data = pd.read_csv('data/bitcoin.csv')

In [86]:
# Mostramos los datos que contiene este dataset
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 610782 entries, 0 to 610781
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   unix        610782 non-null  int64  
 1   date        610782 non-null  object 
 2   symbol      610782 non-null  object 
 3   open        610782 non-null  float64
 4   high        610782 non-null  float64
 5   low         610782 non-null  float64
 6   close       610782 non-null  float64
 7   Volume BTC  610782 non-null  float64
 8   Volume USD  610782 non-null  float64
dtypes: float64(6), int64(1), object(2)
memory usage: 41.9+ MB


Unnamed: 0,unix,date,symbol,open,high,low,close,Volume BTC,Volume USD
0,1646106180,2022-03-01 03:43:00,BTC/USD,43046.58,43046.58,43046.58,43046.58,0.0,0.0
1,1646106060,2022-03-01 03:41:00,BTC/USD,43018.23,43046.59,43018.23,43046.58,0.142977,6154.673021
2,1646106000,2022-03-01 03:40:00,BTC/USD,43022.24,43022.24,43016.03,43016.03,0.00923,397.037957
3,1646105940,2022-03-01 03:39:00,BTC/USD,43035.16,43035.16,42999.44,42999.44,0.82095,35300.390268
4,1646105880,2022-03-01 03:38:00,BTC/USD,43077.82,43077.82,43049.46,43049.46,0.02221,956.143143


In [87]:
# Elegimos en nuestro caso dos valores numéricos, que serán 24h High y 24h Low
df = data[['high', 'low']]
df.head()

Unnamed: 0,high,low
0,43046.58,43046.58
1,43046.59,43018.23
2,43022.24,43016.03
3,43035.16,42999.44
4,43077.82,43049.46


In [88]:
# Calculamos la media y la varianza de 24h High (USD) y 24h Low (USD)
mean_high = df['high'].mean()
mean_low = df['low'].mean()

var_high = df['high'].var()
var_low = df['low'].var()

print("\nMedia y Varianza:")
print(f"Media de 'high': {mean_high}, Varianza de 'high': {var_high}")
print(f"Media de 'low': {mean_low}, Varianza de 'low': {var_low}")


Media y Varianza:
Media de 'high': 46509.783597060814, Varianza de 'high': 89393206.87774411
Media de 'low': 46454.08571211986, Varianza de 'low': 89361773.39350961


In [89]:
# Realizar un estudio para determinar si contiene outliers
# Usaremos el método basado en cuartiles

def outliers(df, col, k=1.5):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1

    # Establecicendo un valor de k = 1.5 para outliers débiles
    k = 1.5
    xL = Q1 - k * IQR
    xU = Q3 + k * IQR
    outliers = df[(df[col] < xL) | (df[col] > xU)].index.tolist()
    return outliers

outliers_high = outliers(df, 'high', k=1.5)
outliers_low =outliers(df, 'low', k=1.5)

print("Outliers en la columna 'high': ", outliers_high)
print("Outliers en la columna 'low': ", outliers_low)


# Al no haber outliers, agregamos uno manualmente:

if not outliers_high or outliers_low:
    df.loc[1, 'high'] = 70000
    df.loc[1, 'low'] = 80000
    print("Outlier en 'high' con valor 70000")

outliers_high_new = outliers(df, 'high', k=1.5)
print("Outliers en 'high' tras introducir manualmente un outlier: ", outliers_high_new)


Outliers en la columna 'high':  []
Outliers en la columna 'low':  []
Outlier en 'high' con valor 70000
Outliers en 'high' tras introducir manualmente un outlier:  []


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[1, 'high'] = 70000
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[1, 'low'] = 80000


In [92]:
# Usamos el método de Jackknife para detectar observaciones influyentes:
def is_any_influence_value(df, col, k=1.5):
    n = len(df[col])
    mean_jackknife = np.zeros(n)
    
    for i in range(n):
        data_without_i = np.delete(df[col].values, i)
        mean_jackknife[i] = np.mean(data_without_i)
    
    Q1 = np.quantile(mean_jackknife, 0.25)
    Q3 = np.quantile(mean_jackknife, 0.75)
    IQR = Q3 - Q1
    xL = Q1 - k * IQR
    xU = Q3 + k * IQR
    
    # Valores influyentes
    influents = []
    for i in range(n):
        if mean_jackknife[i] < xL or mean_jackknife[i] > xU:
            influents.append(i)
            print(f"La media de la coordenada '{col}' [{i}] = {mean_jackknife[i]:.4f} es influyente")
    return influents

# Creamos una copia para introducir los valores manualmente:
df_copy = df.copy()
df_copy.loc[0, 'high'] = 150000
df_copy.loc[0, 'low'] = 100000

print("\nInfluencia Jackknife para 'high':")
is_any_influence_value(df_copy, 'high', k=1.5)

print("\nInfluencia Jackknife para 'low':")
is_any_influence_value(df_copy, 'low', k=1.5)



Influencia Jackknife para 'high':


KeyboardInterrupt: 

In [93]:
# Instanciamos el scaler
scaler = MinMaxScaler()

# Aplicamos el escalado a nuestro dataframe
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("\n********\nESCALADO\n********\n", df_scaled.describe())



********
ESCALADO
********
                 high            low
count  610782.000000  610782.000000
mean        0.148948       0.259046
std         0.077760       0.130815
min         0.000000       0.000000
25%         0.080265       0.143434
50%         0.150492       0.261572
75%         0.218263       0.375607
max         1.000000       1.000000
