In [None]:
%matplotlib inline

# Pandas


**Pandas** es la librería por excelencia para el análisis de datos. Su nombre proviene de “panel data” (término econométrico). Inspirada en las funcionalidades de R, pero con el potencial de Python.

**Pandas** incluye todas las funcionalidades para el análisis de datos: carga, filtrado, tratamiento, sintetización, agrupamiento, almacenamiento y visualización. Además se integra con el resto de librerías de calculo númerico como Numpy, Matplotlib, scikit-learn, …  y de despliegue: HPC, Cloud, etc.



En resumen, **es como una hoja de calculo -por ejemplo excel- pero con más potencial!!!**

[Main Features](https://github.com/pandas-dev/pandas#main-features)


## Contenido

- **M2_0 Introducción a la estructura DataFrame: características, carga y acceso.**
- M2_1 Creación y Almacenamiento.
- M2_2 Visualización con pandas.
- M2_3 Otras operaciones con DataFrames: agrupaciones de datos.
- M2_4 Gestionando datos perdidos.


## Introducción a Pandas

La estructura por excelencia es el DataFrame. 

Un **dataframe** es un objeto de dos dimensiones que contiene información. También puede verse como una **hoja de cálculo**, como una tabla de un modelo entidad-relación, o como una colección de una base de datos no relacional.

[Documentación](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Importación de la libreria
```Python
import pandas as pd
import pandas
from pandas import *
```

Por convención se hace de la siguiente manera, todas las funciones de la libreria se tienen que llamar con el prefijo pd.*:

In [None]:
import pandas as pd

# Primeros pasos con Pandas
Vamos a aprender Pandas a través de una serie de proyectos y ejemplos.

En este primera fase vamos a cargar datos de un fichero CSV, son ficheros donde los atributos/valores de una observación están separados por una coma y las observaciones se separan mediante un salto de línea.

### Ejemplo de un fichero CSV
Nombre,Apellidos,Altura,Sexo,Nacimiento,Cof,Categoria<br/>
Will,Smith,1.43,"M",10/10/1920,0.19,laboral<br/>
Jon,Snow,1.98,"M",10/1/1970,0.98,laboral<br/>
Laia,Ramirez,1.87,"F",09/10/1987,0.76,cap6<br/>
Luzy,Raim,1.67,"F",23/07/1979,0.56,cap6<br/>
Fein,Mang,1.78,"M",12/03/1937,0.27,cap6<br/>
Victor,Colom,1.78,"M",22/09/1957,0.97,cap8<br/>


**Datos:**
http://www.exploredata.net/Downloads/WHO-Data-Set


Empezamos viendo como se carga un dataframe a partir de un fichero en formato CSV.

In [None]:
df = pd.read_csv("data/WHO.csv")

A continuación se muestra la estructura interna del DataFrame. Se puede ver que és muy parecido a una tabla bidimensional, además permite toda la funcionalidad de las hojas de cáclulo, y muchísimas más. Durante el transcurso del curso veremos las más importantes.

In [None]:
df

### Atributos de un DataFrame

Un dataframe dispone de diferentes atributos con los que se puede consultar su información o metainformación. 

Los siguientes ejemplos muestran cómo se pueden consultar sus dimensiones o un listado del nombre de sus columnas.

In [None]:
df.shape # Ver las dimensiones **

In [None]:
df.columns #**

Podemos aplicar sobre el listado de columnas todas las operaciones sobre listas que hemos visto en la introducción del curso. 
A continuación tenemos dos ejemplos de indexación

In [None]:
df.columns[0]

In [None]:
df.columns[:2]

**¿Cómo consultariais el nombre de la columna 10? ¿y los de las columnas de la 200 a la 225?**

In [None]:
df.columns[200:226]

df.columns[len(df.columns)-3:len(df.columns)]

## Funciones descriptivas de un dataframe


In [None]:
df.describe()



In [None]:
df.info()

In [None]:
df.head(5)

In [None]:
df.tail()

In [None]:
df.tail(2)


## Selección de información: por columnas o por filas

**Un dataframe no es una lista**, no podemos acceder via [].

La siguiente sentencia dará un error de ejecución:

In [None]:
df[0] 

Si inspeccionamos y comparamos los tipos del dataframe y de las columnas...

In [None]:
type(df)

In [None]:
type(df.columns)

**¿Cómo seleccionamos los datos de una columna?**

Podemos utilizar el nombre de una columna para obtener los datos de dicha columna. Al estilo de un diccionario python.

Existen dos maneras:

In [None]:
paises = df["Country"] #**
print(paises[0:10])

In [None]:
df.Country

descripcion = df.describe()
descripcion.columns
resumen = descripcion["Total_CO2_emissions"]
print(resumen[0])

**¿Qué es una columna?**

In [None]:
type(df.Country)

Las series són la otra estructura básica de Pandas. Las filas y las columnas se estructuran en Series, se pueden ver cómo un tipo de lista.

**¿Qué podemos hacer con los datos de una columna?**

Con una sola línea de código podemos generar la siguiente información:

In [None]:
print("Valor medio de %s = %f " %(df.columns[3], df[df.columns[3]].mean()))
print("Valor medio de " +  df.columns[3] + " = " + str(df[df.columns[3]].mean())) #(df.columns[3], df[df.columns[3]].mean()))

In [None]:
print(df.columns[3]) # nombre columna

In [None]:
print(df[df.columns[3]]) # Serie de los datos de la columna

###### ¿Cómo consultarias la serie de la columna "Total_reserves"?

In [None]:
reservas = df.Total_reserves

#### Sintetización de información
Sobre las series se puede sintetizar información


In [None]:
fertilidad = df[df.columns[3]]
print("Minimo %f " %fertilidad.min())
print("Max %f " %fertilidad.max())
print("Mean %f " %fertilidad.mean())
print("Descripción de la serie:\n%s " %fertilidad.describe())

## Tabla con las funciones descriptivas
<img src="https://i.imgur.com/OYnOFwL.png">

**Una primera aproximación a la visualización**

Veremos como visualizar series y dataframes en próximas secciones.

In [None]:
fertilidad.hist();


**La selección puede ser muy eficaz para encontrar elementos que cumplan ciertos criterios.**

Dentro de cada 'selección' se pueden aplicar condiciones. Veamos un ejemplo...

#### ¿Qué pais tiene la mayor emisión de CO2 ?

In [None]:
co2 = df["Total_CO2_emissions"]


In [None]:
row = df[co2 == co2.max()]  # Esto es una condición dentro de la selección
type(row)

Indexación con una lista de valores booleanos:

In [None]:
co2==co2.max()

La variable row contiene la fila con el valor máximo en la columna "Total_CO2_emissions".

In [None]:
print(row["Total_CO2_emissions"])

In [None]:
print(row["Country"]) 

In [None]:
#Los valores del objeto son una lista
row["Country"]

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: " + row["Country"].values[0])

In [None]:
row

**Accediendo, mediante filas**



In [None]:
# No es una lista!!
df[0]

**OK, pero ¿cómo podemos acceder mediante un INDEX a una FILA?**

Consultamos una fila concreta cómo se muestra a continuación. En este caso la cuarta.

Atributo **loc** de los dataframes.

In [None]:
print(df.loc[0])

Las filas són Series, cómo las columnas.

In [None]:
df.loc[4].values

#### Utilizando el atributo "loc" del dataframe podemos seleccionar y filtrar las filas utilizando los slicing tipicos de Python.

Slicing:
```{python}
sublista = lista[start:stop:step]
```

Dónde:
* **start** Posición de la lista original dónde empieza la sublista. Si no se indica és 0.
* **stop**  Posición de la lista original hasta donde seleccionar. Se selecciona hasta la posición stop - 1.
* **step**  Incremento entre cada índice de la selección, por defecto 1.

Si entendemos el concepto para un array... 

In [None]:
array =[1,2,3,4,5,6,7,9,0]
print(array[0:2]) #**
print(array[3:]) #**
print(array[:3]) #**

... podemos hacer las mismas operaciones con las filas de un DataFrame.

In [None]:
df.loc[4:10:2] 

In [None]:
df.loc[200:]  #**

## Slicing sobre matrices

Ampliaremos el concepto de slicing sobre vectores y lo aplicaremos a matrices.

In [None]:
array =[[1,2],[2,3],[4,5],[6,7],[9,0]]
print(type(array)) #**

In [None]:
import numpy as np
nparray = np.array(array) #**
print(type(nparray)) #**
print(nparray.shape) #**

In [None]:
nparray

Cuándo aplicamos slicing soble una matriz **seleccionamos las filas**:

In [None]:
print(nparray[:2])

Para seleccionar un elemento debemos indicar la posición en la segunda dimensión (columna) separada por una coma (",").

En el siguiente ejemplo seleccionamos el elemento de la primera fila en la segunda columna:

In [None]:
print(nparray[0,1])

El slicing aún és más potente de lo que parece. ¡Podemos utilizarlo en todas las dimensiones!

Para seleccionar todos los elementos de la segunda columna podemos hacer cómo sigue:

In [None]:
print(nparray[:,1])

In [None]:
# Aplicamos slicing a las filas i seleccionamos la primera columna
print(nparray[0:3,1])

### ¿Podemos aplicar todo esto en Pandas?

Si seguimos con la misma lógica, usando el atributo "loc" de los DataFrames.

In [None]:
df.loc[0:1]

Las columnas se deben seleccionar con una **lista** que debe contenter el nombre de las columnas deseeadas.

In [None]:
df.loc[0:1,["Continent"]]

In [None]:
df.loc[0:3,["Continent","Total_CO2_emissions"]]

Alternativamente, con el atributo *iloc* podemos seleccionar las columnas con su índice numérico: su posicion en la lista de columnas.

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:4, 3:7] # ídem a una matriz

In [None]:
df.iloc[0][0] #**

In [None]:
df.iloc[0][0:4] 

In [None]:
df.iloc[0][0:4].values

In [None]:
df.iloc[0][0:4].values[0] #**

# Ejercicios

**1) ¿Cuál és la media de la población urbana ("Urban_population") de todos los países? ¿Su desviación típica (std)?**

**2) Consulta la fila del país: “Spain”**

**3a) ¿Qué país tiene una mayor población urbana?**

**3b) ¿Qué paises tienen una población urbana menor a 50000 ?**

**4) ¿El continente donde está situado Spain es el mismo que el de UnitedStates?**

Utiliza una condición para obtener un resultado Booleano (*True* o *False*)

**5) ¿Cuáles son los cinco paises más contaminantes ("Total_CO2_emissions")?**

Esta es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html

**6) Observando algunas muestras del fichero puedes establecer la relación entre el identificador del continente y su nombre?**

Es decir, sabemos que Spain está en el continente Europeo y el código del continente es el 2. 

Existen los códigos de continentes: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hay dos códigos asociados a Asia.

Haz las consultas pertinentes al dataframe para construir un diccionario con la siguiente estructura:

In [None]:
codigoContinentes = {1:"Asia",2:"Europa"} #Al menos hay 7!
print(codigoContinentes[2])

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""

**7) Una vez identificado el nombre de los continentes, ¿puedes cambiar la columna de identificadores de continentes por sus respectivos nombres?**

Esta es es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html

**8) Puedes crear un nuevo dataframe con aquellos paises que sean de Europa?**


In [None]:
df2 = df #Con una simple asignación ya creas una dataframe 
type(df2)

**9) ¿Cuáles son los paises más contaminantes de Europa?**

Propuesta A: usa el dataframe inicial

Propuesta B: usa el dataframe de la actividad 8

### Conclusión
**Que hemos visto en este *notebook*:**

 * Carga de ficheros CSV
 * Selección de filas y columnas de un dataframe
 * Aplicación de criterios en la selección
