<a href="https://colab.research.google.com/github/aszapla/Curso-DL/blob/master/1_3_Tablas_de_datos_con_Pandas_y_gr%C3%A1ficos_b%C3%A1sicos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/pandas-logo.png" height="100"></center>

# 1.3 Tablas de datos con Pandas y gráficos básicos

Profesor: Juan Ramón Rico (<juanramonrico@ua.es>)

## Resumen

----
**Pandas**: Pandas es un paquete de alto rendimiento para estructuras de datos tipo tabla, análisis y visualización de datos. Está construido sobre `NumPy` y `MatPlotLib`.
- Documentación <https://pandas.pydata.org/pandas-docs/stable/>
- Tutorial de inicio rápido <https://pandas.pydata.org/pandas-docs/stable/10min.html>    

**MatPlotLib**: Es un paquete flexible de visualización de gráficos. Es potente pero algo difícil para usuarios nóveles.
- Documentación <https://matplotlib.org/contents.html>
- Tutorial de inicio rápido <https://matplotlib.org/users/pyplot_tutorial.html>

---

# Tablas de datos (data frame)


También existe un tipo similar a una tabla de datos (data frame). Es el equivalente a una tabla bidimensional con nombres en las filas y las columnas. 
Además, puede contener diferentes tipos de datos con cada columna que el tipo matriz no permite.

Lo más habitual para trabajar con data frame es importar tablas desde ficheros (texto, hojas de cálculo).

Creando y almacenando data frame

Para utilizar este tipo de datos usaremos un paquete llamado `Pandas`

`pip install pandas`

## Creando tablas

In [0]:
import numpy as np
import pandas as pd

Nombre = np.array(['Juan', 'Pedro', 'Ana', 'Isabel'])
Grupo  = ['Mañana','Tarde','Mañana','Tarde']
Nota = [8, 5, 9, 5.5]

cuatrimestre = pd.DataFrame({'Nombre':Nombre, 'Nota':Nota, 'Grupo':Grupo}, columns=['Nombre', 'Nota', 'Grupo'])
cuatrimestre

También podemos cargar los datos desde un fichero. El mismo `data frame` anterior se podría conserguir con:

In [0]:
# Mostrar el archivo CSV

!curl 'https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/pandas_example.csv'

In [0]:
import pandas as pd

cuatrimestre = pd.read_csv('https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/pandas_example.csv')
cuatrimestre

Analizando los datos

In [0]:
cuatrimestre.describe(include='all')

## Seleccionando elementos

| cuatrimestre 
|:----
| `cuatrimestre[:2]`
| `cuatrimestre[2:]`
| `cuatrimestre[:2]['Nota']`
| `cuatrimestre[2:]['Nota']`
| `cuatrimestre[cuatrimestre.Grupo=='Mañana']`
| `cuatrimestre[(cuatrimestre.Grupo=='Mañana') & (cuatrimestre.Nota>8)]`
| `cuatrimestre[(cuatrimestre.Grupo=='Mañana') & (cuatrimestre.Nota>8)]["Nombre"]`
| `cuatrimestre[(cuatrimestre.Grupo=='Mañana') & (cuatrimestre.Nota>8)][["Nombre","Nota"]]`

In [0]:
cuatrimestre[cuatrimestre.Grupo=='Mañana']

## Preparando un fichero de datos

Los datos habitualmente se cargan de un fichero CSV. En esta sección mostraremos como se cargan y se verifican los tipos de datos.

### Copiar los ficheros de prueba en el servidor

In [0]:
# Hay que copiar los archivos de ejemplo
!wget https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/basic_data.zip
!unzip basic_data

### Cargar y verificar los tipos de datos

In [0]:
import pandas as pd

# Clasificación binaria con el fichero 'diabete_01.csv'
data = pd.read_csv('./basic_data/diabetes_01.csv')

print('\nPrimeras filas')
display(data.head())

print('\nTipos de datos en las columnas')
display(data.dtypes)

print('\nComprobar si existen valores desconocidos en los datos')
display(data.isnull().any())

Una precisión de `int32` y `float32` es suficiente para representar la información, además, las actuales GPU trabajan con precisiones de 32 bits y NO de 64.

In [0]:
# Convirtiendo los tipos de 64 a 32 bits
pares = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  pareja = pares.get(str(data[i].dtype))
  if pareja != None:
    data[i]= data[i].astype(pareja)
    
data.dtypes

In [0]:
# En realidad la columna 'class' corresponde a si el diagnóstico a si de diabetes (1) o no (0)
# Se puede dejar como número entero, o bien, transformarlo en un categoría que en realidad lo es
data['class'] = data['class'].astype('category')
data['class'].dtype

In [0]:
# Selección de atributos y variable objetivo
x = data.iloc[:,:-1]
y = data.iloc[:,-1]

display(x.head())
display(y.head())

### Ejercicio: leer datos de iris.csv

In [0]:
# Ejercicio adaptar los valores del fichero 'iris.csv'

data = pd.read_csv('./basic_data/iris.csv')

display(data.head())
display(data.dtypes)

In [0]:
# Convertir características numéricas a 'float32' y 'class' a 'category'


In [0]:
# Asignar los valores de las características a la variable 'x'

# Asignar los valores de la variable objetivo o de clase a la variable 'y'


# Gráficos básicos

El paquete básico para gráficos de `Python` es `MatPlotlib` y se instalaría con

`pip install matplotlib`

si no lo tenemos ya instalado. También es posible mostrar gráficas con `Pandas`, así que mostraremos los mismos ejemplos con ambos paquetes.

## Función mostrar puntos 2D

In [0]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#
# matplotlib
#
matrix = np.random.rand(10,2)
x = matrix[:,0]
y = matrix[:,1]
plt.title('matplotlib')
plt.scatter(x, y)
plt.show()

# Pandas
pd.DataFrame({'x':x, 'y':y}).plot.scatter('x','y', title='Pandas')

## Vector 1D numérico

Vamos a generar un vector con 100 números creados al azar siguiendo 
una distribución $\mathcal{N}(0,1)$

In [0]:
np.random.seed(1000)

vn100 = np.random.normal(size=100)

### Secuencia de valores

In [0]:
# matplotlib
plt.title('matplotlib')
plt.plot(vn100)

# Pandas
pd.DataFrame({'x':vn100}).plot.line(title='Pandas')

### Histograma

In [0]:
# Matplotlib
plt.title('matplotlib')
plt.hist(vn100,20)

# Pandas
pd.DataFrame({'x':vn100}).plot.hist(bins=20, title='Pandas')

### Gráfico de cajas (boxplot)

In [0]:
#Matplotlib
plt.title('matplotlib')
plt.boxplot(vn100)

# Pandas
pd.DataFrame({'x':vn100}).plot.box(title='Pandas')

#### Calculado los casos atípicos (outliers)

In [0]:
Q1 = np.percentile(vn100, 25)
Q3 = np.percentile(vn100, 75)
IQR = (Q3 - Q1)
outlier_low = Q1 - 1.5 * IQR
outlier_high= Q3 + 1.5 * IQR
print('Q1: {:.2f}; Q3: {:.2f}; IQR: {:.2f}'.format(Q1, Q3, IQR))
print('outlier_low: {:.2f} outlier_high: {:.2f}'.format(outlier_low, outlier_high))
print('vn100 outliers: {}'.format(vn100[(vn100<outlier_low) | (vn100>outlier_high)]))

### Resumen de datos

In [0]:
pd.DataFrame(vn100).describe()

---

# Resumen

* **Pandas** como paquete básico de manipulación de datos de diferentes tipos y con estructura de **tabla** también sirve para **representar gráficamente** su contenido, o analizarlo **estadísticamente** de una forma sencilla.

* **Matplotlib** es el paquete de representaciones gráficas más importante en Python. Tiene una orientación descriptiva donde se necesita indicar, el cómo, y necesita definir cada parte del gráfico con código. Existe otra orientación de alto nivel llamada 
**declarativa** como la del paquete **Plotnine** que permite definir, el qué, y no necesita especificar cada parte del gráfico.