# Manejo de Datos

[`pandas`](https://pandas.pydata.org) es una librería que nos permite consultar y modificar datos estructurados y etiquetados, que funciona como una capa de abstracción sobre `NumPy`.

In [1]:
# Cargamos librerias

import numpy as np
import pandas as pd

## Estructuras de datos

En `pandas` podemos encontrar dos estructuras de datos:

* [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html): para datos de una dimensión. Sería similar a una lista de elementos.
* [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html): para datos de dos dimensiones. En este caso, sería equivalente a una tabla de una base de datos o una hoja de cálculo. Esta estructura es la más utilizada en `pandas`.


Internamente, las columnas de un `DataFrame` están formadas por objetos `Series`. 




## Carga de datos

Mediante `pandas` podemos cargar datos desde ficheros de texto como CSV, Microsoft Excel, HTML, bases de datos y HDF5:

* `pandas.read_csv`
* `pandas.read_excel`
* `pandas.read_html`
* `pandas.read_sql`
* `pandas.read_hdf5`

En este tutorial utilizaremos la lectura de ficheros de texto: [`pd.read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a cargar el conjunto de datos de las flores Iris (https://es.wikipedia.org/wiki/Iris_flor_conjunto_de_datos), que es muy utilizado en las introducciones a Data Science. 

Este conjunto de datos contiene información sobre las dimensiones de tipos de flores Iris y está compuesto por las siguientes columnas:

* **sepal length (cm)**: largo de sépalo en centímetros.
* **sepal width (cm)**: ancho de sépalo en centímetros.
* **petal length (cm)**: largo de pétalo en centímetros.
* **petal width (cm)**: ancho de pétalo en centímetros.
* **species**: tipo de flor Iris. En el conjunto de datos tenemos tres tipos: Versicolor, Setosa y Virginica.

¿Qué es un sépalo?
![Pétalo vs sépalo](./imges/04_01_pet_sep.png)

Iris Versicolor
![Verisocolor](./imges/04_02_iris_versicolor.png)

Iris Setosa 
![Setosa](./imges/04_03_iris_setosa.png)

Iris Virginica
![Viriginica](./imges/04_04_iris_virginica.png)

In [2]:
# Cargamos los datos del fichero CSV y creamos un DataFrame
df = pd.read_csv('./data/04_01_iris.csv')

# Imprimimos los datos cargados: las primeras 15 filas
df.head(15)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


## Exploración básica de los datos

En este apartado utilizaremos algunos métodos que nos permiten hacernos una idea de la información que contiene nuestro conjunto de datos.

In [3]:
# Consultamos el total de elementos no vacíos, la media, desviación estándar, el valor mínimo, 
# los percentiles 25, 50 (mediana), 75 y el valor máximo
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [4]:
# Consultamos el tipo de estructura que pandas está utilizando, 
# el total de registros, el tipo de datos de cada columna y la memoria utilizada
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
species              150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


In [5]:
# Podemos saber las dimensiones de nuestro DataFrame de la siguiente forma
df.shape

(150, 5)

In [6]:
# Si lo necesitamos, podemos transformar los datos a un ndarray fácilmente
df.values

array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.

## Etiquetas de filas y columnas

`pandas` permite etiquetar fácilmente las columnas y filas de los `DataFrame` con los nombres que deseemos. En el caso de Series, tendremos únicamente etiquetas para las filas.

Por ejemplo, veamos las etiquetas que tenemos en nuestro `DataFrame`:

In [7]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [8]:
# Muestra las etiquetas o nombres de las filas
df.index

RangeIndex(start=0, stop=150, step=1)

Destacar que en todos los casos obtenemos objetos de la clase Index. Esta clase contiene en realidad un ndarray, que podemos obtener utlizando también values:

In [9]:
# Obtenemos el ndarray correspondiente al nombre de las filas
df.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149])

Si lo deseamos, podemos cambiar los nombres de las filas y columnas de forma muy sencilla. Veamos cómo podemos hacerlo:

In [10]:
# Cambiamos el nombre de las filas asignando el nuevo nombre directamente a index:
df.index = np.arange(500, 650) # Crea un ndarray desde el número 500 hasta el 649, 150 elementos en total
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
500,5.1,3.5,1.4,0.2,setosa
501,4.9,3.0,1.4,0.2,setosa
502,4.7,3.2,1.3,0.2,setosa
503,4.6,3.1,1.5,0.2,setosa
504,5.0,3.6,1.4,0.2,setosa


In [11]:
# Y para cambiar el nombre de las columnas lo hacemos de una forma muy similar
df.columns = ['A', 'B', 'C', 'D', 'E']
df.head()

Unnamed: 0,A,B,C,D,E
500,5.1,3.5,1.4,0.2,setosa
501,4.9,3.0,1.4,0.2,setosa
502,4.7,3.2,1.3,0.2,setosa
503,4.6,3.1,1.5,0.2,setosa
504,5.0,3.6,1.4,0.2,setosa


In [12]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

### Indexación mediante `Series` de `boolean`

1
En `pandas` también es posible indexar datos mediante un objeto `Series` de tipo `boolean`, es decir, una lista de valores verdadero o falso. Esta lista actúa como un filtro sobre todas las filas del `DataFrame` y se nos devuelve únicamente las filas con valor verdadero.
2
​
3
Este objeto puede crearse muy fácilmente a partir de operadores de comparación o mediante métodos de `pandas` que los devuelven directamente. Vamos a ver algunos ejemplos para comprender cómo funciona.



In [13]:
# Si queremos consultar todas las filas que son de las especie virginica podemos hacerlo del siguiente modo:

cond = df['species'] == 'virginica' # Escribimos la condición y la guardamos en una variable

cond.sample(20, random_state=5) # Imprimimos una selección aleatoria de la lista de valores para ver qué contiene

82     False
134     True
114     True
42     False
109     True
57     False
1      False
70     False
25     False
84     False
66     False
133     True
102     True
107     True
26     False
23     False
123     True
130     True
21     False
12     False
Name: species, dtype: bool

In [14]:
# Y ahora para filtrar, simplemente debemos utilizar la lista de valores verdadero y falso 
# directamente en el DataFrame de la siguiente forma:
df[cond].head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica


In [15]:
# Podemos filtrar por más de una condición, como por ejemplo:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5

df[cond1 & cond2] # Filtra por ambas condiciones a la vez

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
113,5.7,2.5,5.0,2.0,virginica
119,6.0,2.2,5.0,1.5,virginica
146,6.3,2.5,5.0,1.9,virginica


In [16]:
# Otro ejemplo de filtro por más de una condición:

cond1 = df['species'] == 'virginica'
cond2 = df['sepal width (cm)'] <= 2.5
cond3 = df['petal width (cm)'] >= 2.2

df[cond1 & (cond2 | cond3)].head() # 

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
100,6.3,3.3,6.0,2.5,virginica
104,6.5,3.0,5.8,2.2,virginica
106,4.9,2.5,4.5,1.7,virginica
108,6.7,2.5,5.8,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica


## Creación, modificación y borrado de filas y columnas

En este apartado veremos cómo podemos añadir nuevos datos al `DataFrame` que hemos cargado y modificar o borrar su contenido .

In [17]:
# Es posible crear nuevas columnas fácilmente a partir de las existentes, por ejemplo, mediante
# operaciones aritméticas
df['sepal minus petal length (cm)'] = df['sepal length (cm)'] - df['petal length (cm)']
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,5.1,3.5,1.4,0.2,setosa,3.7
1,4.9,3.0,1.4,0.2,setosa,3.5
2,4.7,3.2,1.3,0.2,setosa,3.4
3,4.6,3.1,1.5,0.2,setosa,3.1
4,5.0,3.6,1.4,0.2,setosa,3.6


In [18]:
# También podemos añadir nuevas filas del siguiente modo
fila = {
        'sepal length (cm)': 5, 
        'sepal width (cm)': 3,
        'petal length (cm)': 2, 
        'petal width (cm)': 1,
        'sepal minus petal length (cm)': 3,
       } # No rellenamos todas las celdas para poder filtrar por celdas vacías más adelante

df = df.append(fila, ignore_index=True) # Ignoramos el índice porque no estamos indicando ningún nombre para la fila
df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
146,6.3,2.5,5.0,1.9,virginica,1.3
147,6.5,3.0,5.2,2.0,virginica,1.3
148,6.2,3.4,5.4,2.3,virginica,0.8
149,5.9,3.0,5.1,1.8,virginica,0.8
150,5.0,3.0,2.0,1.0,,3.0


In [19]:
# Para borrar una columna podemos utilizar el método drop según se muestra a continuación
df = df.drop('sepal length (cm)', axis=1) # axis indica simplemente que borre una columna, si vale 0 es una fila
df.head()

Unnamed: 0,sepal width (cm),petal length (cm),petal width (cm),species,sepal minus petal length (cm)
0,3.5,1.4,0.2,setosa,3.7
1,3.0,1.4,0.2,setosa,3.5
2,3.2,1.3,0.2,setosa,3.4
3,3.1,1.5,0.2,setosa,3.1
4,3.6,1.4,0.2,setosa,3.6


In [20]:
# Para borrar varias columnas podemos hacerlo mediante una lista de nombres de columnas
cols = ['sepal width (cm)', 'petal length (cm)']
df = df.drop(cols, axis=1) 
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
0,0.2,setosa,3.7
1,0.2,setosa,3.5
2,0.2,setosa,3.4
3,0.2,setosa,3.1
4,0.2,setosa,3.6


In [21]:
# Del mismo modo, podemos borrar filas mediante el nombre de una fila o una lista de nombres de filas
filas = [0, 1, 2, 3, 4]
df = df.drop(filas, axis=0) # axis=0 para que borre filas
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,0.4,setosa,3.7
6,0.3,setosa,3.2
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [22]:
# Para modificar una celda, podemos utilizar iloc
df.iloc[0, 0] = 9999.0 # Modifica la celda que se encuentra en la primera fila y primera columna
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,9999.0,setosa,3.7
6,0.3,setosa,3.2
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [23]:
# Y también loc
# Modifica la segunda celda de la columna 'sepal minus petal length (cm)'
df.loc[6, 'sepal minus petal length (cm)'] = 9999.0 
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,9999.0,setosa,3.7
6,0.3,setosa,9999.0
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


In [24]:
# Finalmente, para cambiar el contenido en más de una celda podemos utilizar la función replace
# Esta función ofrece muchísimas opciones, aquí mostramos la más sencilla:
df = df.replace(9999.0, 1111.0) # Busca todos los valores 9999.0 y cámbialos por 1111.0
df.head()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
5,1111.0,setosa,3.7
6,0.3,setosa,1111.0
7,0.2,setosa,3.5
8,0.2,setosa,3.0
9,0.1,setosa,3.4


En el análisis de datos es muy habitual tener columnas o filas con datos nulos o vacíos, porque su valor desconoce o no es posible calcularlo.

`pandas` permite tratar estas situaciones mediante estos métodos:

* `isnull()`, `notnull()`: para detectar datos nulos.
* `dropna`: para borrar los datos nulos.

In [25]:
# En el DataFrame anterior hemos añadido un valor vacío en la columna species, ¿cómo podemos encontrar la fila?
cond = df['species'].isnull()

df[cond]


Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
150,1.0,,3.0


In [26]:
# En el caso de que filas que datos nulos no tengan sentido, podemos borrarlas fácilmente mediante dropna
df = df.dropna()
df.tail()

Unnamed: 0,petal width (cm),species,sepal minus petal length (cm)
145,2.3,virginica,1.5
146,1.9,virginica,1.3
147,2.0,virginica,1.3
148,2.3,virginica,0.8
149,1.8,virginica,0.8


In [27]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

## Agrupaciones 

Mediante `pandas` resulta muy sencillo crear agrupaciones de datos y realizar operaciones sobre ellos. Básicamente, las agrupaciones consisten en dos pasos:

1. Dividir la tabla de datos en diversos grupos, con el método [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).
1. Aplicar una función a los grupos generados, que devolverá un nuevo objeto `Series` o `DataFrame` con el resultado de la función aplicada después de agregar los datos. Habitualmente, utilizaremos el método [`agg`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html).


In [28]:
# Primer paso: agrupamos por tipo de especie
grupos = df.groupby('species')

In [29]:
# Segundo paso: aplicamos una función, por ejemplo, la media
grupos.agg('mean') # equivale también a escribir .mean()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.418,1.464,0.244
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [30]:
# Cualquier función que realice un cálculo sobre los grupos nos servirá, por ejemplo, una función de NumPy
df.groupby('species').agg(np.sum) # equivale a escribir .sum()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,250.3,170.9,73.2,12.2
versicolor,296.8,138.5,213.0,66.3
virginica,329.4,148.7,277.6,101.3


In [31]:
# Una función muy utilizada es contar el número de elementos por grupo:
df.groupby('species').agg('count') # equivale a escribir .count()

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


In [32]:
# Y aplicar una lista de funciones
df.groupby('species').agg(['min', 'max', 'median', 'mean', 'std'])

Unnamed: 0_level_0,sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),sepal width (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal length (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm)
Unnamed: 0_level_1,min,max,median,mean,std,min,max,median,mean,std,min,max,median,mean,std,min,max,median,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
setosa,4.3,5.8,5.0,5.006,0.35249,2.3,4.4,3.4,3.418,0.381024,1.0,1.9,1.5,1.464,0.173511,0.1,0.6,0.2,0.244,0.10721
versicolor,4.9,7.0,5.9,5.936,0.516171,2.0,3.4,2.8,2.77,0.313798,3.0,5.1,4.35,4.26,0.469911,1.0,1.8,1.3,1.326,0.197753
virginica,4.9,7.9,6.5,6.588,0.63588,2.2,3.8,3.0,2.974,0.322497,4.5,6.9,5.55,5.552,0.551895,1.4,2.5,2.0,2.026,0.27465


# Labores de preprocesamiento

Uno de los pasos importantes a la hora de hacer un modelo de apreendisaje automático, es el tratamiento de los datos. Para generar los modelo matemáticos, los datos que alimentan el model, tanto en la fase de entrenamiento, de evalución y predicción deben tener un formato que las maquibnas puedan procesar asi como separar los datos en un set de entramiento y un set de evaluación.

Para ello, nos podemos valer de la libreria  sklearn Scikit-learn (http://scikit-learn.org/stable/documentation.html). Esta librería es la principal librería que existe para trabajar con Machine Learning, incluye la implementación de un gran número de algoritmos de aprendizaje. La podemos utilizar para clasificaciones, extraccion de características, regresiones, agrupaciones, reducción de dimensiones, selección de modelos, o preprocesamiento. Posee una API que es consistente en todos los modelos y se integra muy bien con el resto de los paquetes científicos que ofrece Python. Esta librería también nos facilita las tareas de evaluación, diagnostico y validaciones cruzadas ya que nos proporciona varios métodos de fábrica para poder realizar estas tareas en forma muy simple.

Supongamos que queremos generar un modelo que con los datos de iris data set que sea capaz de clasificar cada una de las especies. 


Para ello hemso de hacer un procesado de los datos a fin de que puedan ser usados por un modelo para tal fin.


Los modelos matemáticos (en su mayoría)  no acepta cadenas como parámetros de las funciones, todo deben de ser números. Para ello, nos podemos valer del objeto sklearn.preprocessing.LabelEncoder, que nos transforma automáticamente las cadenas a números. La forma en que se utiliza es la siguiente:


In [33]:
# Cargamos de nuevo el DataFrame original para seguir con el notebook
df = pd.read_csv('./data/04_01_iris.csv')

In [34]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(df['species'])
df['species_cod'] = le.transform(df['species'])

df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_cod
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0


In [35]:
le.inverse_transform(df.species_cod)

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [36]:
df.species_cod.values

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

1
Como podéis observar, primero se crea el LabelEncoder y luego se "entrena" mediante el método fit. Para un LabelEncoder, "entrenar" el modelo es decidir el mapeo que vimos anteriormente, en este caso:
2
​
3
   * Iris-setosa -> 0
4
   * Iris-versicolor -> 1
5
   * Iris-virginica -> 2
6
​
7
Una vez entrenado, utilizando el método transform del LabelEncoder, podremos transformar cualquier ndarray que queramos (hubiéramos tenido un error si alguna de las etiquetas de test no estuviera en train). Esta estructura (método fit más método transform o predict) se repite en muchos de los objetos de scikit-learn.
8
​
9
Hay muchas más tareas de preprocesamiento que se pueden hacer en scikit-learn. **Consulta el paquete sklearn.preprocessing**.
10
​

### Separamos los datos

Separamos los datos

In [37]:
iris_data = df.drop(['species','species_cod'],axis=1)
iris_data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [38]:
iris_target = df.species_cod
iris_target.head()

0    0
1    0
2    0
3    0
4    0
Name: species_cod, dtype: int64

## Separamos los Datos.... Entrenamiento y test

In [39]:
# Separamos los Datos.... Entrenamiento y test
#?  train_test_split()

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target,
                                                    test_size=0.33,
                                                    random_state=191,
                                                    shuffle =True)

print('Set de datos para Entrenamiento =',len(X_train))
print('Set de datos para Test',len(X_test))
print('Total',len(X_test)+len(X_train))
print('Data Shape=',X_test.shape)
print('Target Shape =',y_test.shape)

X_train.head()

Set de datos para Entrenamiento = 100
Set de datos para Test 50
Total 150
Data Shape= (50, 4)
Target Shape = (50,)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
132,6.4,2.8,5.6,2.2
42,4.4,3.2,1.3,0.2
105,7.6,3.0,6.6,2.1
36,5.5,3.5,1.3,0.2
90,5.5,2.6,4.4,1.2


In [40]:
X_test.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
80,5.5,2.4,3.8,1.1
99,5.7,2.8,4.1,1.3
66,5.6,3.0,4.5,1.5
23,5.1,3.3,1.7,0.5
45,4.8,3.0,1.4,0.3


## Ahora Ustedes..... !!!!

**EJERCICIO 1**. 

Primero de todo, carga en la variable `df` el fichero con los datos de las flores Iris en formato CSV que se encuentra en el directorio * **'./data/04_01_iris.csv'**. 

Después, muestra el contenido únicamente de las primeras 15 filas de las columnas `sepal length (cm)`, `sepal width (cm)` y `species` del dataframe `df`.


**EJERCICIO 2**. 

Muestra el contenido de la celda de la quinta fila y la cuarta columna del dataframe `df` numéricamente. Recuerda que empezamos a contar desde cero:

** EJERCICIO 3**.

De nuestro DataFrame de flores Iris que tenemos en la variable df, selecciona todas aquellas filas que sean setosa y el largo de su sépalo sea mayor que 5,5 cm o bien el largo de su pétalo sea inferior a 1,3 cm.

**EJERCICIO 4**.

Ahora, filtra todas aquellas filas de tipo versicolor, en las que el largo del sépalo sea mayor o igual a 5 cm y el largo del pétalo esté entre 3 y 3,5 cm inclusive.

**EJERCICIO 5**.

Después, muestra la media y desviación estándar del ancho del sépalo de las flores Virginica.

**Pista**: las funciones mean() y std() devuelven la media y desviación estándar. Puedes utilizar `print(a, b)` para imprimir los dos valores en la misma línea si quieres.


**EJERCICIO 6**. 

Utilizando el mismo dataset que tenemos cargado en la variable `df`, calcula el sumatorio de todos los valores al cuadrado de todas las columnas (ancho y largo de los sépalos y ancho y largo de los pétalos) para cada especie.

**Pista**: deberás declarar una nueva función.

In [41]:
# Solucion Ej 1

df = pd.read_csv('./data/04_01_iris.csv')
cols = ['sepal length (cm)', 'sepal width (cm)', 'species']
df[cols].head(15)

Unnamed: 0,sepal length (cm),sepal width (cm),species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
5,5.4,3.9,setosa
6,4.6,3.4,setosa
7,5.0,3.4,setosa
8,4.4,2.9,setosa
9,4.9,3.1,setosa


In [42]:
# Solución Ej 2

df.iloc[4, 3]

0.2

In [43]:
# Solución Ej 3
cond1 = df['species'] == 'setosa'
cond2 = df['sepal length (cm)'] > 5.5
cond3 = df['petal length (cm)'] < 1.3

df[cond1 & (cond2 | cond3)]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
18,5.7,3.8,1.7,0.3,setosa
22,4.6,3.6,1.0,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa


In [44]:
# Solución Ej 4
cond1 = df['species'] == 'versicolor'
cond2 = df['sepal length (cm)'] >= 5
cond3 = df['petal length (cm)'] >= 1.3
cond4 = df['petal length (cm)'] <= 3.5

df[cond1 & cond2 & cond3 & cond4]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
60,5.0,2.0,3.5,1.0,versicolor
79,5.7,2.6,3.5,1.0,versicolor
93,5.0,2.3,3.3,1.0,versicolor
98,5.1,2.5,3.0,1.1,versicolor


In [45]:
# Solución Ej 5

cond = df['species'] == 'virginica'

df_virginica = df[cond]

print(df_virginica['sepal width (cm)'].mean(), df_virginica['sepal width (cm)'].std())

2.974 0.32249663817263746


In [46]:
# Solución Ej 6

def func(x):
    return np.sum(x**2)

df.groupby('species').agg(func)

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1259.09,591.25,108.64,3.54
versicolor,1774.86,388.47,918.2,89.83
virginica,2189.9,447.33,1556.16,208.93
