# Pandas: explicaciones y ejercicios

Pandas es la librería de Python que te permite cargar datos, modelarlos, analizarlos, manipularlos y prepararlos.

Es una librería de código abierto que se encarga de la manipulación de datos de alto nivel y está construida sobre otra librería llamada NumPy. Tiene varias estructuras de datos para manipular y tratar la información. Una de las principales estructuras guarda la información tabulada en un objeto llamado ***DataFrame***.

Antes de trabajar con pandas, hay que importarlo dentro del entorno de ejecución. Bastaría con la siguiente instrucción:

```python
import pandas
```

### Alias

Para usar las funciones de **Pandas**, hay que escribir el nombre de la librería, y luego el punto y el nombre de la función. Esto es algo engorroso, así que se usa un *alias* para el nombre de la librería. Con esto conseguimos reducir la cantidad de escritura: No es lo mismo <code>pandas.merge()</code> que escribir <code>pd.merge()</code>.

Bueno, en realidad no hay mucha diferencia. Pero cuando usamos varias librerías -y algunas tienen el nombre más largo-, todo el mundo usa los *alias*, y todos casi con las mismas abreviaturas. Esto nos obliga a hacer lo mismo nosotros, para que, cuando encontremos en Internet algún ejemplo, reconozcamos lo que están haciendo.

La instrucción completa *con alias* es:

``` python
import pandas as pd
```

#### Ejercicio 1:
importar la librería *pandas*, copiando la instrucción anterior en la celda siguiente:

## Dataframes

La librería **Pandas** maneja un tipo de variable especial, el ***DataFrame***. Se trata de una tabla de datos. Es una especie de hoja de cálculo, que contiene números o letras en cada columna. Hay otros tipos de datos, pero éste es el más común.

Para crear una variable de tipo DataFrame se utiliza la función **DataFrame()** de Pandas. Hay que tener en cuenta:

1. La función tendremos que asignarla a un nombre de variable. Igual que hacemos <code>A = 8</code>, ahora usaremos un nombre para nuestro DataFrame: <code>datos = DataFrame()</code>
2. Esto no funciona totalmente, porque, como hemos visto en el notebook de funciones, al usar cada función hay que poner también el nombre de librería a la que pertenece: <code>datos = pd.DataFrame()</code>
1. Por último, dentro de la función podemos poner parámetros. DataFrame admite que pongamos dentro de los paréntesis una lista de diccionarios o un diccionario de listas.

### Diccionarios y listas.

Ya conocemos las listas: son variables que tienen varios datos, y se crean utilizando los corchetes: <code>colores = ['azul', 'blanco', 'verde', 'rojo']</code>

Los diccionarios son parecidos, pero los datos se agrupan por parejas, y se usan las llaves para crearlos: `persona = {'nombre': 'José', 'apellido': 'Sánchez'}`

Lo importante ahora es que cada dato de las listas podría ser un diccionario, o al revés:
```python
# Usando una lista de diccionarios:
coche1 = {'marca': 'Ford', 'año': 1992, 'color': 'Rojo'}
coche2 = {'marca': 'Audi', 'año': 2001, 'color': 'Plata'}
coche3 = {'marca': 'Opel', 'año': 2012, 'color': 'Blanco'}
coches_lista = [coche1, coche2, coche3]

# Usando un diccionario de listas:
marcas = ['Ford', 'Audi', 'Opel']
años = [1992, 2001, 2012]
colores = ['Rojo', 'Plata', 'Blanco']
coches_diccionario = {'marca': marcas, 'año': años, 'color': colores}
```
Ahora basta con inicializar nuestro DataFrame poniendo el nombre de la lista de coches o bien el nombre del diccionario de coches dentro de los paréntesis de la función:

```python
datos = pd.DataFrame(coches_lista)
```

#### Ejercicio 2: crear un DataFrame

Usando lo explicado anteriormente, vas a crear un *dataframe* que tenga por nombre **ropa**, a partir de un diccionario de listas:

1. Crear una lista llamada propietarios, con los nombres de dos personas
1. Crear una lista de prendas, con los nombres de dos tipos de ropa
1. Crear una lista de colores, con dos colores.
1. Crear un diccionario con las tres listas anteriores
1. Crear el *dataframe*.

In [None]:
# Escribe aquí tu código

Imprime ahora el *dataframe*

## Examinar los datos: Métodos

Los **métodos** son funciones que vienen incorporadas en algunas variables. Por ejemplo, **append**, que hemos usado en el *Notebook* de **Refuerzo1**, es un método que tienen las listas (y diccionarios) para agregar un nuevo elemento.

Para ver todos los métodos que tiene una variable se utiliza la función **dir()**:
```python
A = 7
dir(A)
B = "hola"
dir(B)
```

Sencillamente escribiendo el nombre del *dataframe*, pandas nos devuelve todo el total de datos. Pueden ser miles o millones de filas, según los datos que tengamos. En nuestro caso, *datos* contiene solamente tres filas.
Jupyter y Python permiten usar la función `print(datos)`, lo cual imprime una versión recortada de los datos: las cinco primeras filas y las cinco últimas. El resultado impreso está justo debajo de la celda de input. También podemos escribir solamente el nombre de *dataframe*, y entonces Jupyter y Python no imprimen esos datos bajo la celda input, pero a cambio, nos dan un mensaje de aviso de lo que está ocurriendo a través de la *consola* de salida, en una celda *out*. Casualmente, este aviso es igual -en este caso- que si hubiéramos imprimido los datos con *print()*.

Los métodos más básicos y útiles de los dataframes son: **describe**, **info**, **append**, **drop**, **mean**, **head**, **size**, o **shape**, todos ellos entre una lista de más de 200.

**head()** nos muestra las primeras filas de nuestro archivo de datos. En los paréntesis colocamos el número de filas que queremos ver. Existe una función similar para el final de la lista, llamada **tail()**. Si no ponemos ningún número, intentará devolver las cinco primeras filas. Ejemplo: `datos.head(2)`

**describe()** nos muestra un resumen con cálculos de medias, mínimos, y máximos y otros valores estadísticos, que se obtienen de los datos numéricos.

**info()** proporciona un resumen del *dataframe*, incluyendo el tipo de índice, las columnas, los valores útiles, y la memoria que ocupa.

**mean()** calcula la media de una columna de números.

**append()** y **drop()** añaden una fila y eliminan una fila o columna. *append()* debe dejar de utilizarse en el futuro, ya que se sustituye con el método *concat()*

**size** No es un *método* sino una *propiedad*, y por lo tanto, no lleva paréntesis. Devuelve el número de filas multiplicado por el número de columnas. Esta propiedad la contienen también las columnas y las filas.

**shape** devuelve el número de filas y el número de columnas.

#### Ejercicio 3: inspeccionar datos.

Escribe el código para ver las primeras filas (*head()*) del *dataframe* **ropa**, para ver su tamaño (*size*), y el resumen de datos (*describe()*)

In [None]:
# Escribe tu código aquí



## Importar datos

Normalmente no crearemos los *dataframes* manualmente.

Usaremos datos escritos en un archivo de texto, con formato csv (*"comma separated values"*). Muchos programas permiten crear o leer archivos csv. Por ejemplo, hoja de cálculo. En la estación meteorológica que se ha expuesto este año durante la Semana de la Ciencia, el microcontrolador Raspberry que recibía los datos, también los grababa en un archivo csv.

Una versión reducida de este archivo se incluye aquí en este repositorio. Se llama **datos.csv**

La función que se usa para asignar los datos del archivo a un dataframe es: `pd.read_csv('ruta/archivo.csv')`

**Sin embargo, para ver los datos del dataframe no se usa una función de Pandas, sino un *método* del dataframe.**


#### Ejercicio 3, cargar archivo csv, inspeccionar datos.

Escribe el código para cargar el archivo **datos.csv** y a continuación inspecciónalo con *describe()*, *shape*, *info()* y *head()*. El archivo está en la misma carpeta que el *notebook*, siempre que no hayas movido uno de los dos de sitio, así que no necesitarás poner la ruta.

In [None]:
# Escribe tu código aquí

