# Manejo de Datos

[`pandas`](https://pandas.pydata.org) es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

In [None]:
# Cargamos librerias

import numpy as np
import pandas as pd

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html): para datos de una dimensión. Sería similar a una lista de elementos.
* [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html): para datos de dos dimensiones. En este caso, sería equivalente a una tabla de una base de datos o una hoja de cálculo. Esta estructura es la más utilizada en `pandas`.


Internamente, las columnas de un `DataFrame` están formadas por objetos `Series`. 




## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros de texto como CSV, Microsoft Excel, HTML, bases de datos y HDF5:

* `pandas.read_csv`
* `pandas.read_excel`
* `pandas.read_html`
* `pandas.read_sql`
* `pandas.read_hdf5`

En este tutorial utilizaremos la lectura de ficheros de texto: [`pd.read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a cargar el conjunto de datos de las flores Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos), que es muy utilizado en las introducciones a Data Science. 

Este conjunto de datos contiene información sobre las dimensiones de tipos de flores Iris y está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Versicolor, Setosa y Virginica.

¿Qué es un sépalo?
![Pétalo vs sépalo](./imges/04_01_pet_sep.png)

Iris Versicolor
![Verisocolor](./imges/04_02_iris_versicolor.png)

Iris Setosa 
![Setosa](./imges/04_03_iris_setosa.png)

Iris Virginica
![Viriginica](./imges/04_04_iris_virginica.png)

In [None]:
# Cargamos los datos del fichero CSV y creamos un DataFrame
df = pd.read_csv('./data/04_01_iris.csv')

# Imprimimos los datos cargados: las primeras 15 filas
df.head(15)

## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [None]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

In [None]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

In [None]:
# Podemos saber las dimensiones de nuestro DataFrame de la siguiente forma
df.shape

In [None]:
# Si lo necesitamos, podemos transformar los datos a un ndarray fácilmente
df.values

## Etiquetas de filas y columnas

`pandas` permite etiquetar fácilmente las columnas y filas de los `DataFrame` con los nombres que deseemos. En el caso de Series, tendremos únicamente etiquetas para las filas.

Por ejemplo, veamos las etiquetas que tenemos en nuestro `DataFrame`:

In [None]:
df.head()

In [None]:
# Muestra las etiquetas o nombres de las filas
df.index

Destacar que en todos los casos obtenemos objetos de la clase Index. Esta clase contiene en realidad un ndarray, que podemos obtener utlizando también values:

In [None]:
# Obtenemos el ndarray correspondiente al nombre de las filas
df.index.values

Si lo deseamos, podemos cambiar los nombres de las filas y columnas de forma muy sencilla. Veamos cómo podemos hacerlo:

In [None]:
# Cambiamos el nombre de las filas asignando el nuevo nombre directamente a index:
df.index = np.arange(500, 650) # Crea un ndarray desde el número 500 hasta el 649, 150 elementos en total
df.head()

In [None]:
# Y para cambiar el nombre de las columnas lo hacemos de una forma muy similar
df.columns = ['A', 'B', 'C', 'D', 'E']
df.head()

In [None]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

### Indexación mediante `Series` de `boolean`

1
En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.
2
​
3
Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.



In [None]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond.sample(20, random_state=5) # Imprimimos una selección aleatoria de la lista de valores para ver qué contiene

In [None]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

In [None]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

In [None]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)].head() # 

## Creación, modificación y borrado de filas y columnas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y modificar o borrar su contenido .

In [None]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

In [None]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

In [None]:
# Para borrar una columna podemos utilizar el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

In [None]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

In [None]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

In [None]:
# Para modificar una celda, podemos utilizar iloc
df.iloc[0, 0] = 9999.0 # Modifica la celda que se encuentra en la primera fila y primera columna
df.head()

In [None]:
# Y también loc
# Modifica la segunda celda de la columna 'sepal minus petal length (cm)'
df.loc[6, 'sepal minus petal length (cm)'] = 9999.0 
df.head()

In [None]:
# Finalmente, para cambiar el contenido en más de una celda podemos utilizar la función replace
# Esta función ofrece muchísimas opciones, aquí mostramos la más sencilla:
df = df.replace(9999.0, 1111.0) # Busca todos los valores 9999.0 y cámbialos por 1111.0
df.head()

En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [None]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]


In [None]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

In [None]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

## Agrupaciones 

Mediante `pandas` resulta muy sencillo crear agrupaciones de datos y realizar operaciones sobre ellos. Básicamente, las agrupaciones consisten en dos pasos:

1. Dividir la tabla de datos en diversos grupos, con el método [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).
1. Aplicar una función a los grupos generados, que devolverá un nuevo objeto `Series` o `DataFrame` con el resultado de la función aplicada después de agregar los datos. Habitualmente, utilizaremos el método [`agg`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html).


In [None]:
# Primer paso: agrupamos por tipo de especie
grupos = df.groupby('species')

In [None]:
# Segundo paso: aplicamos una función, por ejemplo, la media
grupos.agg('mean') # equivale también a escribir .mean()

In [None]:
# Cualquier función que realice un cálculo sobre los grupos nos servirá, por ejemplo, una función de NumPy
df.groupby('species').agg(np.sum) # equivale a escribir .sum()

In [None]:
# Una función muy utilizada es contar el número de elementos por grupo:
df.groupby('species').agg('count') # equivale a escribir .count()

In [None]:
# Y aplicar una lista de funciones
df.groupby('species').agg(['min', 'max', 'median', 'mean', 'std'])

# Labores de preprocesamiento

Uno de los pasos importantes a la hora de hacer un modelo de apreendisaje automático, es el tratamiento de los datos. Para generar los modelo matemáticos, los datos que alimentan el model, tanto en la fase de entrenamiento, de evalución y predicción deben tener un formato que las maquibnas puedan procesar asi como separar los datos en un set de entramiento y un set de evaluación.

Para ello, nos podemos valer de la libreria  sklearn Scikit-learn (http://scikit-learn.org/stable/documentation.html). Esta librería es la principal librería que existe para trabajar con Machine Learning, incluye la implementación de un gran número de algoritmos de aprendizaje. La podemos utilizar para clasificaciones, extraccion de características, regresiones, agrupaciones, reducción de dimensiones, selección de modelos, o preprocesamiento. Posee una API que es consistente en todos los modelos y se integra muy bien con el resto de los paquetes científicos que ofrece Python. Esta librería también nos facilita las tareas de evaluación, diagnostico y validaciones cruzadas ya que nos proporciona varios métodos de fábrica para poder realizar estas tareas en forma muy simple.

Supongamos que queremos generar un modelo que con los datos de iris data set que sea capaz de clasificar cada una de las especies. 


Para ello hemso de hacer un procesado de los datos a fin de que puedan ser usados por un modelo para tal fin.


Los modelos matemáticos (en su mayoría)  no acepta cadenas como parámetros de las funciones, todo deben de ser números. Para ello, nos podemos valer del objeto sklearn.preprocessing.LabelEncoder, que nos transforma automáticamente las cadenas a números. La forma en que se utiliza es la siguiente:


In [None]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(df['species'])
df['species_cod'] = le.transform(df['species'])

df.head()

In [None]:
le.inverse_transform(df.species_cod)

In [None]:
df.species_cod.values

1
Como podéis observar, primero se crea el LabelEncoder y luego se "entrena" mediante el método fit. Para un LabelEncoder, "entrenar" el modelo es decidir el mapeo que vimos anteriormente, en este caso:
2
​
3
   * Iris-setosa -> 0
4
   * Iris-versicolor -> 1
5
   * Iris-virginica -> 2
6
​
7
Una vez entrenado, utilizando el método transform del LabelEncoder, podremos transformar cualquier ndarray que queramos (hubiéramos tenido un error si alguna de las etiquetas de test no estuviera en train). Esta estructura (método fit más método transform o predict) se repite en muchos de los objetos de scikit-learn.
8
​
9
Hay muchas más tareas de preprocesamiento que se pueden hacer en scikit-learn. **Consulta el paquete sklearn.preprocessing**.
10
​

### Separamos los datos

Separamos los datos

In [None]:
iris_data = df.drop(['species','species_cod'],axis=1)
iris_data.head()

In [None]:
iris_target = df.species_cod
iris_target.head()

## Separamos los Datos.... Entrenamiento y test

In [None]:
# Separamos los Datos.... Entrenamiento y test
#?  train_test_split()

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target,
                                                    test_size=0.33,
                                                    random_state=191,
                                                    shuffle =True)

print('Set de datos para Entrenamiento =',len(X_train))
print('Set de datos para Test',len(X_test))
print('Total',len(X_test)+len(X_train))
print('Data Shape=',X_test.shape)
print('Target Shape =',y_test.shape)

X_train.head()

In [None]:
X_test.head()

## Ahora Ustedes..... !!!!

**EJERCICIO 1**. 

Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio * **'./data/04_01_iris.csv'**. 

Después, muestra el contenido únicamente de las primeras 15 filas de las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`.


**EJERCICIO 2**. 

Muestra el contenido de la celda de la quinta fila y la cuarta columna del dataframe `df` numéricamente. Recuerda que empezamos a contar desde cero:

** EJERCICIO 3**.

De nuestro DataFrame de flores Iris que tenemos en la variable df, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm.

**EJERCICIO 4**.

Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

**EJERCICIO 5**.

Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma línea si quieres.


**EJERCICIO 6**. 

Utilizando el mismo dataset que tenemos cargado en la variable `df`, calcula el sumatorio de todos los valores al cuadrado de todas las columnas (ancho y largo de los sépalos y ancho y largo de los pétalos) para cada especie.

**Pista**: deberás declarar una nueva función.

In [None]:
# Solucion Ej 1

df = pd.read_csv('./data/04_01_iris.csv')
cols = ['sepal length (cm)', 'sepal width (cm)', 'species']
df[cols].head(15)

In [None]:
# Solución Ej 2

df.iloc[4, 3]

In [None]:
# Solución Ej 3
cond1 = df['species'] == 'setosa'
cond2 = df['sepal length (cm)'] > 5.5
cond3 = df['petal length (cm)'] < 1.3

df[cond1 & (cond2 | cond3)]

In [None]:
# Solución Ej 4
cond1 = df['species'] == 'versicolor'
cond2 = df['sepal length (cm)'] >= 5
cond3 = df['petal length (cm)'] >= 1.3
cond4 = df['petal length (cm)'] <= 3.5

df[cond1 & cond2 & cond3 & cond4]

In [None]:
# Solución Ej 5

cond = df['species'] == 'virginica'

df_virginica = df[cond]

print(df_virginica['sepal width (cm)'].mean(), df_virginica['sepal width (cm)'].std())

In [None]:
# Solución Ej 6

def func(x):
    return np.sum(x**2)

df.groupby('species').agg(func)