# Tablas

Muy frecuentemente, los datos se disponen en tablas: las hojas de cálculo, las bases de datos, los ficheros `csv`, etc. contienen, esencialmente, tablas. Además, casi todos los métodos estadísticos (p.e., la regresión lineal) operan sobre información organizada en tablas. Como consecuencia, gran parte del día a día del trabajo con Python consiste en manipular tablas de datos para darles el formato necesario para acabar analizándolos estadística o gráficamente.

Las hojas de cálculo son herramientas que prácticamente todos hemos usado para manipular tablas de datos. El objetivo de esta primera parte del libro es aprender a realizar operaciones habituales y bien conocidas por los usuarios de Excel sobre tablas de datos en Python.

## Inspección de una tabla

Nuestra primera tarea consistirá en inspeccionar los contenidos de una tabla. Esta es, de hecho, la primera tarea que uno realiza en la práctica cuando recibe un conjunto nuevo de datos: averiguar cuántas filas y columnas tiene, de qué tipo (numérico o no) son sus columnas, etc.

Para practicar y como ejemplo, usaremos una tabla, `iris`, que contiene un conjunto de datos con una larga historia (fue publicado originalmente en 1935) y que se ha venido utilizando desde entonces para ilustrar el uso de ciertos modelos estadísticos. Tiene 150 filas que corresponden a otras tantas iris ([una especie de flor] (http://es.wikipedia.org/wiki/Iris_%28planta%29)) y sus columnas contienen cuatro características métricas de cada ejemplar: la longitud y la anchura de sus pétalos y sépalos; y la subespecie: setosa, versicolor o virgínica, a la que pertenece.

Para cargarla en Python podemos hacer

In [None]:
import pandas as pd
iris = pd.read_csv("data/iris.csv")

La primera línea de código anterior importa el paquete `pandas` de Python. Un paquete de Python es una colección de funciones. Al importar un paquete es conveniente (aunque no necesario) asignarle un _alias_ (`pd` en este caso); así, en la segunda línea podemos utilizar la función `read_csv` de `pandas` usando el prefijo `pd`. Alternativamente, podríamos haber hecho

```
import pandas
iris = pandas.read_csv("data/iris.csv")
```

con idéntico resultado.

La segunda línea lee los datos, que están contenidos en el fichero `data/iris.csv` y los almacena en una tabla. A partir de ese momento `iris` será un objeto que residirá en la memoria de Python y sobre el que operaremos a continuación. 

Antes de la aparición de `pandas` no existían propiamente tablas en Python. El uso masivo de Python en ciencia de datos se debe, precisamente, a que gracias a `pandas` es posible manejar tablas en este lenguaje. 

**Nota:** En `pandas` a las tablas se las denomina `DataFrames`.

Para inspeccionar una tabla utilizaremos una serie de funciones básicas que se usan muy frecuentemente en `pandas`.

Escribrir en un bloque el nombre de una tabla,

In [None]:
iris

es prácticamente lo mismo que ejecutar

In [None]:
print(iris)

y muestra la tabla en la consola (pero advierte la diferencia entre ambas salidas). Esto no es particularmente útil si la tabla tiene muchas filas, aunque `pandas` solo muestra una selección de ellas para evitar inundar la pantalla.

Este comportamiento no es exclusivo de las tablas. Aplica también a otros tipos de datos que veremos más adelante: _ejecutar_ el nombre de un objeto _imprime_ (muestra) directamente en la consola una representación textual del mismo.

Antes de aventurarse a explorar los contenenidos de una tabla es conveniente averiguar su tamaño:

In [None]:
iris.shape     # proporciona el número de filas y columnas

También es conveniente averiguar qué tipo de datos contiene. Haciendo

In [None]:
iris.dtypes

Python nos informa de que las cuatro primeras filas son numéricas (`float64`) y la última, de tipo `object`, una manera poco clara de indicar que se trata de una variable de texto. 

Podemos obtener estadísticos básicos sobre las columnas numéricas haciendo

In [None]:
iris.describe()

Es impráctico mostrar tablas enteras en la consola, sobre todo cuando son grandes. Para mostrar solo parte de ellas,

In [None]:
iris.head()    # primeras seis filas

In [None]:
iris.tail()    # últimas seis filas

El nombre de las columnas de una tabla se puede inspeccionar también haciendo

In [None]:
list(iris)

que devuelve una lista de nombres de columnas, aunque también podría obtenerse haciendo

In [None]:
iris.columns.values.tolist()

## Una digresión sobre pandas y la orientación a objetos

Python es un lenguaje _orientado a objetos_ y en `pandas`, las tablas son objetos de la clase `DataFrame`. Un objeto es una estructura que combina dos tipos de elementos: datos (o atributos) y métodos (o funciones).

Nuestro objeto `iris` (de la clase `DataFrame`) contiene datos: aparte de los datos en sí de la tabla, otros asociados a él como la dimensión de la tabla o el tipo de datos de cada columna. Cuando escribimos
```
iris.shape
```
estamos accediendo directamente al atributo `shape` de `iris`. Lo mismo ocurre cuando escribimos `iris.columns` o `iris.dtypes`.

Los objetos también _contienen_ funciones que operan sobre el objeto. Así, al escribir
```
iris.head()
```
estamos llamando a la función `head` propia de los `DataFrames` que hace lo que se ha indicado más arriba: crear y mostrar un nuevo `DataFrame` con las primeras filas de `iris`.

Siempre que se utilicen atributos o métodos de una clase determinada, se utiliza la notación _via sufijos_, es decir, el nombre del objeto, un punto y el nombre del atributo o método. Además, estas operaciones son encadenables, como cuando hemos escrito
```
iris.columns.values.tolist()
```
que equivale a llamar al método `tolist` del atributo `values` del atributo `columns` de nuestro objeto `iris`. 

Sin embargo, al hacer `list(iris)`, estamos utilizando una función que no es un método de la clase `DataFrame`.

Un error típico de los principiantes en Python en general y en `pandas` en particular tiene que ver con la confusión entre atributos y métodos. En algunos casos, como cuando se aplica el método `head`, es claro. Pero no lo es tanto el por qué los autores de `pandas` quisieron que para averiguar la dimensión de una tabla haya que escribir `df.shape` y no `df.shape()`.

## Una digresión sobre la ayuda en Python y Jupyter



Obviamente, la mejor fuente de ayuda sobre las funciones disponibles en Python (y `pandas` en particular) está en internet y una búsqueda suele despejar las dudas de uso. Sin embargo, las funciones de Python (y de `pandas` en particular) tienen asociada una documentación mínima que puede consultarse localmente desde Jupyter haciendo, por ejemplo,
```
len?
```
que es una manera abreviada de escribir
```
help(len)
```
y genera la misma salida. De todos modos, el problema de conseguir ayuda sobre una función es mucho menos grave que encontrar la función que puede servir para un uso determinado. Existen listas, como [esta](https://pandas.pydata.org/pandas-docs/stable/api.html#dataframe), que documentan todas las funciones que es posible utilizar sobre tablas y que pueden ayudarte a identificar alguna potencialmente útil. 

Pero también es muy útil el autocompletado. Por ejemplo, si escribes
```
iris.r
```
y pulsas el tabulador, Jupyter te mostrará todas las opciones disponibles, es decir, todos los atributos y funciones disponibles para `iris` que comienzan por `r` (p.e., `radd`).

De todos modos, el consejo para principiantes es, ante una duda, buscar primero ejemplos resueltos de casos parecidos en tutoriales (donde se muestra, p.e., el código con el que hacer un gráfico similar al que quieres construir) donde existasn ejemplos que puedas modificar fácilmente para resolver tu problema. Por otro lado, las páginas de documentación formal de funciones son útiles para entender el funcionamiento de parámetros de uso más infrecuente.

#### Ejercicio
Consulta la ayuda de `head()` para ver cómo mostrar un número de filas distinto al que selecciona por defecto.

## Selección de filas y columnas

Igual que ocurre con una hoja de cálculo, frecuentemente queremos trabajar con un subconjunto de la tabla, i.e., con una selección de filas y/o columnas. Por ejemplo, examinar las primeras filas, observar solo un subconjunto de las columnas o, tal vez, echar un ojo a las filas que cumplen una determinada condición.

Exiten dos maneras (casi) equivalentes de extraer una columna de una tabla:

In [None]:
iris.species

In [None]:
iris['species']

El corchete es más flexible: permite extraer más de una columna. Para ello es necesario pasarle una lista de columnas, como en

In [None]:
iris[['species', 'petal_length']].head()

El corchete también permite seleccionar rangos de filas:

In [None]:
iris[0:3]        # tres primeras filas

Dos notas al respecto. La primera es que, en Python, _se empieza a contar en 0_. La primera fila es la número 0, no la número 1. La segunda nota es que el rango `0:5` excluye la última fila.

#### Nota

Observa cómo el corchete con etiquetas selecciona columnas pero con rangos selecciona filas. Esta aparente inconsistencia parece deberse a que la notación más simple, la del corchete, se reserva para las operaciones que se consideran más frecuentes: las columnas tienden a seleccionarse por nombre y las filas, por rangos.

#### Ejercicio

Prueba a seleccionar otros rangos de filas, como `:5`, `100:` o `:-100` y trata de entender qué está ocurriendo.

Un uso muy importante del corchete es el de seleccionar filas de acuerdo con condiciones lógicas. Por ejemplo,

In [None]:
iris[iris.petal_length > 6]

donde hemos usado el corchete para seleccionar filas y, dentro de él, la notación tabla-punto-columna para extraer (y poder operar sobre) la columna `petal_length`.

In [None]:
iris[10:]

Para todo lo demás están los atributos `loc` e `iloc`. Por ejemplo,

In [None]:
iris.iloc[1:5, 3:5]

accede a las filas segunda, tercera, cuarta y quinta (la primera, la 0, está excluida) de las columnas cuarta y quinta de `iris`. Por otro lado,

In [None]:
iris.iloc[[1, 2, 6], :]

devuelve las filas segunda, tercera y séptima para _todas_ las columnas de la tabla. En general, `iloc` accede por índice, es decir, posicionalmente: necesita las posiciones de las filas y columnas a las que acceder. 

Eso lo diferencia de `loc`, que accede por etiqueta (o índice):

In [None]:
iris.loc[:, ['petal_length', 'petal_width', 'species']]

#### Ejercicio

El resultado de la operación anterior se puede obtener también de otra manera algo más simple discutida más arriba. Identifícala.


#### Nota

Un `DataFrame` de `pandas` contiene no solo los datos de la tabla sino también dos índices: el de filas y el de columnas. Acceder por etiqueta (o índice) significa acceder a través del nombre de columna, como en el ejemplo anterior. Pero también existen índices (y, por lo tanto, etiquetas) de filas. En nuestros datos, el índice de las columnas son números correlativos (que es como los asigna `pandas` por defecto al leer datos), pero podrían ser de otra naturaleza y entonces podrían tener sentido expresiones como
```
iris.loc[['caso_10', 'caso_11'], ['petal_length', 'petal_width', 'species']]
```
Incluso sería posible crear _rangos de etiquetas_, de la forma
```
iris.loc['caso_10':'caso_55', ['petal_length', 'petal_width', 'species']]
```

#### Ejercicio
Selecciona las filas de `iris` cuya longitud del pétalo sea mayor que 4.


#### Ejercicio
Selecciona las filas de `iris` donde la longitud del pétalo sea mayor que seis y la anchura del pétalo menor que tres. Nota: el operador `AND` en Python es `&` y, posiblemente, tendrás que usar paréntesis adecuadamente.

## Creación y eliminación de tablas y columnas

Es posible crear otras tablas a partir de una dada:

In [None]:
mi_iris = iris     # mi_iris es una copia de iris
mi_iris.head()

#### Nota
Los nombres de objetos siguen las reglas habituales en otros lenguajes de programación: son secuencias de letras y números (aunque no pueden comenzar por un número) y se admite el separador `_`. Se pueden usar mayúsculas, pero en `pandas` casi todo el mundo usa minúsculas. En Python, de hecho, el consenso es no usar mayúsculas salvo para los nombres de clases, algo de lo que no nos ocupamos aquí.

En realidad, `mi_iris` no es una copia de `iris`, sino una referencia. Es decir, tanto `iris` como `mi_iris` son meros nombres que apuntan a los mismos datos subyacentes. Por eso, si modificas uno de ellos, se modifica también el otro:

In [None]:
iris2 = iris.copy()      # ahora iris2 es una copia propiamente dicha de iris
iris3 = iris2            # iris3 es una referencia a los datos de iris2
iris3.head()

En el código anterior hemos creado una copia de `iris`, `iris2` y luego otra referencia, `iris3` a los datos de `iris2`. Si modificamos `iris2` (quitándole una columna),

In [None]:
iris2.drop('species', axis = 1, inplace = True)

entonces también se modifica `iris3`:

In [None]:
iris3.head()

Sin embargo, `iris` permanece inalterado:

In [None]:
iris.head()

Hemos usado la función `drop` para eliminar una columna de `iris2`. La hemos usado con tres argumentos. El primero es una etiqueta, el nombre de la columna a eliminar. Aunque también podría haber sido una lista de etiquetas. El segundo, el eje, que admite los valores 0 o 1. Si el eje es 0, `drop` elimina filas (es decir, busca las etiquetas a eliminar entre las etiquetas de las filas) y, si el eje es 1, elimina columnas. El argumento `inplace` indica que queremos modificar los datos de `iris2` en lugar de crear una copia de dicha tabla únicamente con los datos que queremos preservar.

#### Nota

`axis` e `inplace` son argumentos propios de muchos métodos de `pandas` y siempre se refieren a lo mismo: el primero, a si las operaciones han de realizarse por filas o por columnas; el segundo, a si la operación devuelve una copia de la tabla o si, simplemente, se modifican sus datos _subyacentes_. 

#### Nota

La opción `inplace` es especialmente relevante al trabajar con datos muy grandes. Realizar una copia de los datos significa duplicar el uso de memoria. Y, en ocasiones, eso es imposible: piénsese en tablas que pudieran estar ocupando el 70% de la RAM disponible. 

También pueden añadirse nuevas columnas a una tabla. Por ejemplo,

In [None]:
iris2['petal_area'] = iris2.petal_length * iris2.petal_width
iris2.head()

#### Ejercicio

Comprueba que también se ha creado la variable `petal_area` en `iris3`.

#### Ejercicio

Crea la tabla `iris4` como una copia de `iris2` de la que has borrado la nueva variable.

#### Ejercicio

Al crear la columna `petal_area` se han usado dos notaciones distintas para referirse a columnas de `iris2`: con corchetes y usando la notación tabla-punto-columna. Trata de modificar el código anterior para ver si ambas notaciones son intercambiables (a ambos lados del `=`).

#### Ejercicio

Comprueba lo que ocurre al reasignar una columna (es decir, al _crear_ una columna cuyo nombre ya se está usando en la tabla).

## Ordenación

La reordenación de las filas de una tabla es fundamental para analizar su contenido y, frecuentemente, para detectar problemas en los datos. Por ejemplo, al ordenar los sujetos por edad y echar un vistazo a las primeras filas podemos identificar aquellos que, por error, tienen asociadas edades negativas.

Para ordenar tablas, `pandas` dispone de la función `sort_values`:

In [None]:
iris.sort_values('petal_length').head()

La función `sort_values` también admite los argumentos `axis` e `inplace`, discutidos antes. Es posible, además, ordenar por más de una columna (lexicográficamente) e indicar si la ordenación ha de realizarse ascendente o descendentemente.

#### Ejercicio

Consulta la ayuda de la función `sort_values` para averiguar cómo ordenar `iris` por `species` y, para cada especie, por `petal_length`. Trata luego de ordenar las especies ascendentemente y la longitud del pétalo descendentemente.

# Lectura de datos externos

Hemos comenzado el capítulo leyendo la tabla `iris` del fichero `data/iris.csv` usando la función `read_csv` mediante
```
iris = pd.read_csv("data/iris.csv")
```

Esta función, además, del nombre del fichero del que leer los datos, admite también otros parámetros útiles cuando este no es un `.csv` estándar (por ejemplo, usa `;` como separador). La mayor parte de los `.csv` se leen correctamente con los valores por defecto de la función, pero en ocasiones es preciso especificar alguno de los restantes parámetros. Además, para saber cuáles son los correctos, es posible (y recomendable) que tengas que abrir el fichero previamente con un editor de texto que merezca tal nombre (si usas Windows, Notepad no es uno de ellos).

#### Ejercicio

Trata de leer el fichero `"data/carburantes_20050222.csv` usando `read_csv`. Necesitarás, como poco, especificar el parámetro `sep`, i.e., el caracter que separa los campos (y que no es la coma como en un `.csv` estándar). Verifica que los datos están correctamente cargados.

In [None]:
kk = pd.read_csv("data/carburantes_20050222.csv", sep = "\t")
kk.head()

Además de `read_csv`, `pandas` proporciona, al menos, 17 funciones adicionales más para leer ficheros de distitos tipos, desde `read_excel` a `read_fwf` (ficheros de ancho fijo). Cada una de ellas precisa sus propios argumentos específicos. 

## Gráficos básicos

Esta sección es una introducción a los gráficos básicos en `pandas` orientada a la inspección visual y rápida de conjuntos de datos, que es fundamental en todo proceso de análisis y, particularmente, en sus fases iniciales.

No nos preocuparemos demasiado de los aspectos estéticos de estos gráficos. En primer lugar, porque más adelante trataremos otros tipo de gráficos más sofisticados y atractivos estéticamente. Pero también porque los detalles sobre cómo modificar el aspecto de los gráficos es tan prolijo y lleno de detalles que es mejor omitirlo en una primera aproximación. Además, internet contiene seguramente la respuesta a cualquier pregunta que se te ocurra sobre cómo modificar los valores por defecto: ejes, orientación de etiquetas, etc. Es un campo amplio y lleno de detalles pero que es más bien material de consulta puntual en un momento de necesidad que de exposición exhaustiva en un texto introductorio.

En particular, en esta sección trataremos la manera de representar:

* Una variable continua
* Una variable categórica
* La relación entre dos variables continuas
* La relación entre una variable continua y otra categórica

`pandas` proporciona una función específica para este tipo de gráficos, `plot()`, que es la que exploraremos en esta sección. Los gráficos que proporciona esta función no son los más indicados para crear gráficos sofisticados y mostraremos otras opciones más adelante, pero permiten una inspección rápida de los datos suficiente para su primera exploración.


### Representación gráfica de variables continuas: histogramas

Nuestros datos pueden contener una columna como, por ejemplo, `edad`. En apartados anteriores hemos aprendido:

* cómo inspeccionar los valores extremos de esa variable (p.e., ordenando la tabla por edad y mostrando las primeras y las últimas filas con las funciones `head()` y `tail()`) por si, por ejemplo, existen edades negativas;
* cómo obtener algunos estadísticos básicos de esa columna (usando `describe()` sobre la tabla).

#### EjercicioXXX
Inspecciona la columna `Temp` (temperatura) del conjunto de datos `airquality` de acuerdo con las sugerencias del párrafo anterior.

Sin embargo, es mucho más informativa una representación visual de los datos. La manera más rápida (y recomendada) de hacerse una idea de la distribución de los datos de una columna numérica es usando histogramas. En Python, para representar el histograma de la columna `sepal_width` de `iris` se puede hacer:

In [None]:
x = iris.plot(kind = "hist", y = 'sepal_length')

O bien,

In [None]:
x = iris.plot(kind = "hist", y = ['sepal_length', 'petal_length'], subplots = True)

Esa es la orden básica. Pero los gráficos pueden ser modificados para incluir títulos, etiquetas, colores, etc. como veremos en capítulos posteriores.

#### Ejercicio

Consulta la ayuda de la función `plot()` para ver cómo se puede modificar la granularidad del histograma (i.e., el número de _bins_).


#### Nota

Existen dos maneras equivalentes de crear histogramas en `pandas`: usando `plot`, que es la función genérica, y especificando el tipo de gráfico con `kind = 'hist'` o, alternativamente, usando la función `plot.hist()`. Los parámetros propios de `plot()` tienen que ver con etiquetas, colores, etc., es decir, los parámetros comunes a todos los tipos de gráficos. Los de `plot.hist()` tienen que ver con los específicos de los histogramas, como el número de _bins_. Pero es posible pasarle a `plot()` parámetros específicos de los histogramas y a `plot.hist()` los de los gráficos genéricos.

### Representación gráfica de variables categóricas: barras

En las tablas suelen coexistir variables continuas y categóricas. Por ejemplo, es interesante conocer la distribución (o frecuencia) de cada una de las categorías. Para eso se suelen usar los diagramas de barras; en particular, la función `plot.bar()` de `pandas`.

Por ejemplo, la expresión siguiente muestra cómo en `iris` existe el mismo número de observaciones de cada especie:

In [None]:
x = pd.value_counts(iris.species).plot(kind = 'bar')

Obviamente, previamente hemos tenido que usar una función, `value_counts`, que cuenta el número de ocurrencias por categoría.

#### Ejercicio

Lee la ayuda de la función `plot` de `pandas` para modificar los atributos del gráfico anterior (título, colores, etc.).

#### NotaXXX
Los gráficos de barras son las representaciones más habituales para mostrar la distribución de vectores (entre ellos, las frecuencias de etiquetas). Sin embargo, existen alternativas modernas y superiores a ellos en algunos aspectos. Por ejemplo, los gráficos de puntos, implementados en Python en la función ???TBA???.

### Representación de la relación entre dos variables continuas: gráficos de dispersión

Los aspectos más interesantes de los datos se revelan no examinando las variables independientemente sino en relación con otras. Los gráficos de dispersión muestran la relación entre dos variables numéricas. En el ejemplo siguiente compararemos dos de las variables de `iris` en función de la especie:

In [None]:
#x = iris.plot(kind = 'scatter', x = 'petal_length', y = 'sepal_width', c = 'species')
# XXXX  ¡no funciona! ¡socorro!

### Representación de la relación entre una variable continua y otra categórica: diagramas de caja (boxplots)

Los diagramas de cajas (_boxplot_) estudian la distribución de una variable continua en función de una variable categórica. Están emparentados con los histogramas porque resumen la distribución de una variable continua. Para ello utilizan una representación todavía mas esquemática que la de un histograma: una caja y unos segmentos que acotan las regiones donde la variable continua concentra el grueso de las observaciones.

Por ejemplo, podemos estudiar la distribución de la anchura del sépalo en `iris` en función de la especie usando diagramas de cajas así:

In [None]:
#x = iris.plot(kind = 'box', y = 'sepal_width', by = 'species')

#iris[0:5]

x = iris.boxplot(column = 'sepal_width', by = 'species')

El gráfico anterior ilustra la potencia de los diagramas de caja. Para las setosas, existe una observación atípica, mucho menor que el resto, pero cuya atipicidad queda oculta por otras observaciones _normales_ correspondientes a virgínicas o versicolores. Esa observación atípica no llamaría la atención si se representan gráficamente todos los valores, independientemente de su tipo, pero se manifiesta claramente al segmentar la representación por especie.

#### Ejercicio
Identifica la observación atípica. ¿Es atípica también con respecto a otras variables?


## Resumen y referencias

Las tablas son las estructuras más habituales de la ciencia de datos. En algunos lenguajes de programación, como R o SAS, las tablas son objetos nativos y de ahí sus muchas aplicaciones (históricas en el caso de SAS) en estadística o ciencia de datos.

Python no disponía de tablas hasta la aparición del paquete `pandas`. Sin embargo, gracias a él, su uso se ha extendido en el mundo de la ciencia de datos. En esta sección nos hemos familiarizado con los rudimentos del manejo de tablas en Pytjon: inspección de sus contenidos, ordenación, creación y borrado de columnas adicionales, etc. Esencialmente, aquellas que la mayoría hemos hecho ya previamente con herramientas tales como Excel.

Las tablas son fundamentales en para la ciencia de datos y seguiremos utilizándolas en todas las secciones posteriores. Es muy importante adquirir una mínima soltura en su manejo. Gran parte de las secciones que siguen, de hecho, tratarán esencialmente sobre técnicas para procesar datos en tablas con extendiendo las planteadas en esta sección.


### Referencias

* Más sobre [visualización de datos en `pandas`](https://pandas.pydata.org/pandas-docs/stable/visualization.html). Es un tutorial muy recomendable que extiende lo discutido en esta sección.
* [Tutorial sobre selección de filas y columnas en tablas](https://pandas.pydata.org/pandas-docs/stable/indexing.html)


## Ejercicios adicionales


```{block, type='ej'}
Estudia el conjunto de datos `airquality` (información meteorológica de ciertos meses de cierto año en Nueva York, que también viene _de serie_ en R) aplicando las funciones anteriores. En particular, responde las preguntas

* ¿cuál es la temperatura media de esos días?
* ¿cuál es la temperatura media en mayo?
* ¿cuál fue el día más ventoso?
```

```{block, type='ej'}
Crea una tabla adicional seleccionando todas las columnas menos mes y día; luego haz un `plot` de ella y trata de encontrar relaciones (cualitativas) entre la temperatura y el viento, o el ozono,...
```

```{block, type='ej'}
Usando el conjunto de datos `mtcars` (consulta `?mtcars`), averigua:

* cuál es el modelo que menos consume
* cuál es el consumo medio de los modelos de 4 cilindros
```

```{block, type='ej'}
Crea un histograma de la temperatura en Nueva York (usando `airquality`) y después usa  `abline` para dibujar una línea vertical roja en la media de la distribución. Puedes obtener la media con `summary` o bien aplicando la función `mean` a la columna de interés.
```

```{block, type='ej'}
Carga el fichero `pisasci2006.csv` que contiene los promedios de los resultados en ciencia notas por país en las pruebas PISA de 2006. Con él:

* identifica y muestra la línea correspondiente a España
* haz una gráfica en que se muestre la nota en función de los ingresos
* identifica el _outlier_ en la gráfica anterior: ¿a qué país corresponde?
* construye un histograma con la nota y añade una recta vertical roja en la correspondiente a España
```