# Estadistica con Python

## Librería Pandas

### Importamos las librerías que usaremos
La convención común es importar pandas como "pd"

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Creamos un dataset con los datos de un electrocardiograma

La función head() nos ayuda a ver las primeras lineas del dataframe

In [None]:
ecg = pd.read_csv ("ecg.csv", header = None, low_memory=False)

ecg.head(20)


### Separamos el dataframe

In [None]:


# Dividimos el DataFrame en dos
info = ecg.iloc[:17]  # Seleccionamos las filas de información
data = ecg.iloc[17:]  # Seleccionamos las filas de datos

print(info)
print(data)


### Limpiamos las columnas sin información

In [None]:
# Eliminamos las columnas sin información
data.drop([1,2], axis=1, inplace=True)

data.head()

In [None]:
# Revisamos el tipo de datos que almacena

data[0] = data[0].astype(int)

print (data.dtypes)


### Graficamos la señal para ver la señal completa

In [None]:
#Le damos fomrato para poder graficar
signal = np.ravel(data.to_numpy())

p = 0.00002 # Sampling period
time = np.arange(len(signal))*p   #Tiempo de la señal

plt.plot(time,signal)
plt.suptitle('Electrocardiograma del Luis', fontsize = 20)
plt.xlabel ("Time", fontsize = 13)
plt.ylabel ("Amplitude", fontsize = 13)
#plt.xlim(7.5,15)

## Calculamos algunas variables estadisticas

In [None]:
data.describe() #Descripción básica del dataframe

In [None]:
promedio = data.mean()#[0]
mediana = data.median ()#[0]
moda = data[0].mode()#[0]

print(promedio)
print (mediana)
print(moda)


In [None]:
desviacion_estandar = data.std()[0]
varianza = data.var()[0]

print (desviacion_estandar)
print(varianza)

In [None]:
suma = data.sum ()[0]

print (suma)

In [None]:
minimo = data.min ()[0]
maximo = data.max ()[0]

print(minimo)
print(maximo)

In [None]:
asimetria = data.skew()[0]
curtosis = data.kurt()[0]

print (asimetria)
print (curtosis)

In [None]:
cuartil_1 = data.quantile(0.25)[0]
cuartil_2 = data.quantile(0.5)[0]
cuartil_3 = data.quantile(0.75)[0]

print (cuartil_1)
print (cuartil_2)
print (cuartil_3)


### Podemos guardar todas las variables estadísticas para usarlas en otros procesos

In [None]:
data_instance = {'Promedio': [],
                 'Mediana': [],
                 'Moda': [],
                 'Desviación estandar': [],
                 'Varianza': [],
                 'Suma': [],
                 'Mínimo': [],
                 'Máximo': [],
                 'Asimetria': [],
                 'Curtosis': [],
                 'Cuartil 1': [],
                 'Cuartil 2': [],
                 'Cuartil 3': []}

In [None]:
data_instance ['Promedio'].append(promedio)
data_instance ['Mediana'].append(mediana)
data_instance ['Moda'].append(moda)
data_instance ['Desviación estandar'].append(desviacion_estandar)
data_instance ['Varianza'].append(varianza)
data_instance ['Suma'].append(suma)
data_instance ['Mínimo'].append(minimo)
data_instance ['Máximo'].append(maximo)
data_instance ['Asimetria'].append(asimetria)
data_instance ['Curtosis'].append(curtosis)
data_instance ['Cuartil 1'].append(cuartil_1)
data_instance ['Cuartil 2'].append(cuartil_2)
data_instance ['Cuartil 3'].append(cuartil_3)

In [None]:
data_stats = pd.DataFrame(data=data_instance)
data_stats.head()
#data_stats.to_csv ('Stats.csv')