## 3. Análisis de Datos

[Playlist de Ciencia de Datos en castellano](https://www.youtube.com/playlist?list=PLjyvn6Y1kpbEmRY4-ELeRA80ZywV7Xd67)
[![Ciencia de Datos en Python](https://img1.wsimg.com/isteam/ip/aab852a2-7b1f-49c0-92af-9206f2ec6a75/4-0001.png/:/rs=w:1160,h:653)](https://www.youtube.com/watch?v=YlkNDdsxhgc&list=PLjyvn6Y1kpbEmRY4-ELeRA80ZywV7Xd67&index=4)

Una vez que los datos se leen en Python, un primer paso es analizarlos con estadísticos de resumen (summary statistics). Esto es particularmente cierto si el conjunto de datos es grande. Los estadísticos de resumen incluyen el conteo, la media, la desviación estándar, el máximo, el mínimo y la información de cuartiles para las columnas de datos.

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Generar Datos

Ejecuta la siguiente celda para:

- Generar `n` valores espaciados linealmente entre `0` y `n-1` con `np.linspace(start,end,count)`
- Selecciona muestras aleatorias de una distribución uniforme entre 0 y 1 con `np.random.rand(count)`
- Selecciona muestras aleatorias de una distribución normal (gaussiana) con `np.random.normal(mean,std,count)`
- Combinar `time`, `x`, e `y` con una columna vertical `np.vstack` y transponer `.T` para datos orientados a columnas.
- Guardar un archivo de texto CSV `03-data.csv` con encabezado `time,x,y`.

In [None]:
import numpy as np
np.random.seed(0)
n = 1000
time = np.linspace(0,n-1,n)
x = np.random.rand(n)
y = np.random.normal(1,1,n)
data = np.vstack((time,x,y)).T
np.savetxt('03-data.csv',data,header='time,x,y',delimiter=',',comments='')

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Distribuciones de Datos

El histograma es una vista previa de cómo crear gráficos para que los datos se puedan ser evaluados visualmente. [04. Visualización de datos](https://github.com/APMonitor/ciencia_de_datos/blob/main/04.%20Visualizar_data.ipynb) muestra cómo crear gráficos para el análisis de datos.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
plt.hist(x,10,label='x')
plt.hist(y,60,label='y',alpha=0.7)
plt.ylabel('Count'); plt.legend()
plt.show()

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Análisis de Datos con `numpy`

La función `np.loadtxt` lee el archivo de datos CSV `03-data.csv`. Numpy alcula con `size` las dimensiones, con `mean` el promedio, con `std` la desviación estándar, y con `median` la mediana a manera de estadísticos de resumen. Si no especificas el eje (`axis`) entonces `numpy` da una estadística en ambas filas (`axis=0`) y columnas (`axis=1`).

In [None]:
import numpy as np
data = np.loadtxt('03-data.csv',delimiter=',',skiprows=1)

print('Dimensión (filas,columnas):')
print(np.size(data,0),np.size(data,1))

print('Promedio:')
print(np.mean(data,axis=0))

print('Desviación Estándar:')
print(np.std(data,0))

print('Mediana:')
print(np.median(data,0))

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Analizar datos

1. Calcule la media, la desviación estándar y la mediana de `x*y`
2. Calcule el sesgo o `skew` de `x*y` con `scipy.stats` [función de sesgo](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.skew.html).

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Análisis de Datos con `pandas`

Pandas simplifica el análisis de datos con la función `.describe()` que es un método de`DataFrame` que se crea con `pd.read_csv()`. Ten en cuenta que el archivo de datos puede ser un nombre de archivo local o una dirección web como 

```python
url='https://apmonitor.com/pdc/uploads/Main/tclab_data2.txt'
data = pd.read_csv(url)
data.describe()
```

In [None]:
import pandas as pd
data = pd.read_csv('03-data.csv')
data.describe()

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Análisis de Datos con `pandas-profiling`

Pandas Profiling es una herramienta de análisis de datos para un resumen más profundo de los datos que la función `descibe()`. [Instalar la librería](https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/installation.html) con:

```python
pip install --user pandas-profiling[notebook]
jupyter nbextension enable --py widgetsnbextension
```

Debes reiniciar el kernel antes de continuar. La instalación solo necesita ejecutarse una vez.

In [None]:
try:
    import pandas as pd
    from pandas_profiling import ProfileReport
    import os
except:
    !pip install --user pandas-profiling
    !jupyter nbextension enable --py widgetsnbextension
    print('Reinicia el kernel antes de continuar')
    
# import data
url='https://apmonitor.com/pdc/uploads/Main/tclab_data2.txt'
data = pd.read_csv(url)

Después de instalar `pandas-profiling` y habilitar la extensión del widget, ahora puedes importar y analizar datos. Algunas funciones toman mucho tiempo con sets de datos grandes. Dos métodos para trabajar con sets de datos grandes se indican a continuación:

1. Submuestrear los conjuntos de datos con `data = data[::10]` para tomar cada 10ma fila.
2. Usar la opción `minimal` para evitar el análisis correlación y otros análisis que son lentos con sets de datos grandes.

In [None]:
profile = ProfileReport(data, explorative=True, minimal=False)

El informe de perfil se puede guardar como una página web interactiva. La página web se guarda en el directorio de trabajo actual que se muestra con `os.getcwd()`.

In [None]:
profile.to_file('report.html')
print('File report.html saved to '+os.getcwd())

El informe de perfil también se puede ver en el Jupyter Notebook.

In [None]:
profile.to_widgets()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con el TCLab

![connections](https://apmonitor.com/che263/uploads/Begin_Python/connections.png)

### Generar el Set de Datos 1

Genera un archivo a partir de los datos del TCLab en segundos (`t`), niveles de calentador (`Q1` y `Q2`), y temperaturas (`lab.T1` y `lab.T2`). Registra los datos cada segundo durante 120 segundos y cambia los niveles del calentador cada 30 segundos a un número aleatorio entre 0 y 80 con `np.random.randint()`. No es necesario cambiar el programa, solo ejecútalo durante 2 minutos para almacenar los datos. Si no cuentas con un dispositivo TCLab, lee el Archivo de Datos 1 de [este link online](https://apmonitor.com/do/uploads/Main/tclab_dyn_data2.txt).

In [None]:
import tclab, time, csv
import pandas as pd
import numpy as np
try:
    # conectar al TCLab si está disponible
    n = 120 
    with open('03-tclab1.csv',mode='w',newline='') as f:
        cw = csv.writer(f)
        cw.writerow(['Time','Q1','Q2','T1','T2'])
        with tclab.TCLab() as lab:
            print('t Q1 Q2 T1    T2')
            for t in range(n):
                if t%30==0:
                    Q1 = np.random.randint(0,81)
                    Q2 = np.random.randint(0,81)
                    lab.Q1(Q1); lab.Q2(Q2)
                cw.writerow([t,Q1,Q2,lab.T1,lab.T2])
                if t%5==0:
                    print(t,Q1,Q2,lab.T1,lab.T2)
                time.sleep(2)
    file = '03-tclab1.csv'
    data1=pd.read_csv(file)
except:
    print('No se encontró ningún dispositivo TCLab, leyendo el archivo en línea')
    url = 'http://apmonitor.com/do/uploads/Main/tclab_dyn_data2.txt'
    data1=pd.read_csv(url)

### Leer el Set de Datos 2

Utiliza `requests` para descargar un archivo de datos del TCLab de muestra para el análisis. Se guarda como `03-tclab2.csv`.

In [None]:
import requests
import os
url = 'http://apmonitor.com/pdc/uploads/Main/tclab_data2.txt'
r = requests.get(url)
with open('03-tclab2.csv', 'wb') as f:
    f.write(r.content)
    
print('File 03-tclab2.csv recuperado al directorio de trabajo actual: ')
print(os.getcwd())

### Análisis de Datos

Lee los archivos `03-tclab1.csv` y `03-tclab2.csv` y muestra los estadísticos de resumen para cada uno con `data.describe()`. Utiliza los estadísticos de resumen para comparar el número de muestras y las diferencias en el valor de desviación estándar y promedio para `T1` y `T2`.

Utiliza la librería `pandas-profiling` para generar un informe de análisis de datos. Observa la distribución y correlación de las variables `Q1` y `T1`.