# Pandas

**Pandas** es la librería por excelencia para el análisis de datos del lenguaje `Python`. Su nombre proviene de “panel data” (término econométrico). Inspirada en las funcionalidades de `R`, pero con el potencial de este lenguaje de propósito general.

**Pandas** incluye todas las funcionalidades necesarias para el proceso de análisis de datos: carga, filtrado, tratamiento, síntesis, agrupamiento, almacenamiento y visualización. Además, se integra con el resto de librerías de cálculo numérico como `Numpy`, `Matplotlib`, `scikit-learn`, …  y de despliegue: `HPC`, `Cloud`, etc.

En resumen, **es como una hoja de cálculo -por ejemplo excel- pero con más mucho más potencial!!!**

[Características principales](https://github.com/pandas-dev/pandas#main-features)


## Introducción a Pandas

Todo el trabajo que realizaremos es sobre la estructura de datos básica: el `dataFrame`.

Un `dataFrame` es un objeto de dos dimensiones que contiene información. También puede verse como una **hoja de cálculo**, como una tabla de un modelo entidad-relación, o como una colección de una base de datos no relacional.

[Documentación](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Importación de la libreria
```Python
import pandas as pd
import pandas
from pandas import *
```

Por convención se hace de la siguiente manera, todas las funciones de la libreria se tienen que llamar con el prefijo pd.*:

In [None]:
import pandas as pd

# Primeros pasos con Pandas
Vamos a aprender Pandas a través de una serie de proyectos y ejemplos. En esta primera fase, vamos a cargar datos de un fichero _CSV_, recordad que son ficheros donde los atributos/valores de una observación están separados por una coma y las observaciones se separan mediante un salto de línea.

Podemos descargar los datos con los que trabajaremos del siguiente enlace [WHO dataset](http://www.exploredata.net/Downloads/WHO-Data-Set)



Empezamos viendo como se carga un dataframe a partir de un fichero en formato CSV.

In [None]:
df = pd.read_csv("data/WHO.csv")

A continuación se muestra la estructura interna del DataFrame. Se puede ver que és muy parecido a una tabla bidimensional:

In [None]:
df

### Atributos de un DataFrame

Un dataframe dispone de diferentes atributos con los que podemos obtener su información o metainformación. Los siguientes ejemplos muestran cómo se pueden consultar sus dimensiones o un listado del nombre de sus columnas:

In [None]:
df.shape # Ver las dimensiones **

In [None]:
df.columns #**

Podemos aplicar sobre el listado de columnas todas las operaciones sobre listas que hemos visto en la introducción del curso. A continuación tenemos dos ejemplos de indexación:

In [None]:
df.columns[0]

In [None]:
df.columns[:2]

**¿Cómo consultariais el nombre de la columna 10? ¿y los de las columnas de la 200 a la 225?**

In [None]:
df.columns[200:226]

df.columns[len(df.columns)-3:len(df.columns)]

## Funciones descriptivas de un dataframe

`Pandas` ofrece una colección de funciones que permiten realizar una inspección general de la tabla de datos:

- **describe**: muestra estadísticas descriptivas básicas para todas las columnas numéricas.
- **info**: muestra todas las columnas y sus tipos de datos.
- **head** i **tail**: muestra las $n$ primeras/últimas filas. El valor de $n$ es un parámetro de este método.


In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.head(5)

In [None]:
df.tail()

In [None]:
df.tail(2)


## Selección de información: columnas o filas

Como ya imaginamos, **un dataframe no es una lista**, no podemos acceder de manera directa a su información mediante el uso del operador `[]`.

La siguiente sentencia dará un error de ejecución:

In [None]:
df[0] 

Si inspeccionamos y comparamos los tipos del dataframe y de las columnas...

In [None]:
type(df)

In [None]:
type(df.columns)

### Columnas

Podemos utilizar el nombre de una columna para obtener los datos de dicha columna, tal como lo hacíamos con un diccionario `python`. Veremos dos maneras diferentes de hacerlo:

In [None]:
paises = df["Country"]
print(paises[0:10])

In [None]:
df.Country

descripcion = df.describe()
descripcion.columns
resumen = descripcion["Total_CO2_emissions"]
print(resumen[0])

**¿Qué tipo de datos es una columna?**

In [None]:
type(df.Country)

Las `Series` són la otra estructura básica de Pandas. Las filas y las columnas se estructuran en `Series`, se pueden ver cómo un tipo de lista que solamente puede contener un único tipo de datos, acepta operaciones vectoriales y se puede indexar de manera similar a un diccionario.

### Filas

Así como seleccionamos columnas, podemos seleccionar información con para obtener filas. Para realizar la consulta de una fila concreta usaremos el atributo `loc` de los dataframes.

In [None]:
print(df.loc[0])

Si lo que necesitamos es obtener son los valores, necesitaremos el atributo `values`:

In [None]:
df.loc[0].values

#### Selección de filas con slicing

Utilizando el atributo `loc` del dataframe podemos seleccionar y filtrar las filas utilizando los _slicing_ típicos de `Python`.

Recordemos el _slicing_:
```{python}
sublista = lista[start:stop:step]
```

Dónde:
* **start**: Posición de la lista original dónde empieza la sublista. Si no se indica és 0.
* **stop**:  Posición de la lista original hasta donde seleccionar. Se selecciona hasta la posición stop - 1.
* **step**:  Incremento entre cada índice de la selección, por defecto 1.

Si entendemos el concepto para un array...

In [None]:
array =[1,2,3,4,5,6,7,9,0]
print(array[0:2]) #**
print(array[3:]) #**
print(array[:3]) #**

... podemos hacer las mismas operaciones con las filas de un _dataFrame_.

In [None]:
df.loc[4:10:2]

In [None]:
df.loc[200:]  #**

### Selección de filas y columnas

Si seguimos con la misma lógica, usando el atributo `loc` de los _dataFrames_.

In [None]:
df.loc[0:1]

Las columnas se deben seleccionar con una **lista** que debe contener el nombre de las columnas deseadas.

In [None]:
df.loc[0:1,["Continent"]]

In [None]:
df.loc[0:3,["Continent","Total_CO2_emissions"]]

Alternativamente, con el atributo _iloc_ podemos seleccionar las columnas con su índice numérico: su posicion en la lista de columnas.

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:4, 3:7] # ídem a una matriz

In [None]:
df.iloc[0][0]

In [None]:
df.iloc[0][0:4]

In [None]:
df.iloc[0][0:4].values

In [None]:
df.iloc[0][0:4].values[0]

### Selección lógica

Además de la selección con base a índices, lo interesante es realizar selecciones mediante condiciones lógicas que permiten filtrar las filas del dataset. Si queremos obtener el país con el valor de emisiones de CO2 más alto:


In [None]:
co2 = df["Total_CO2_emissions"]
row = df[co2 == co2.max()]  # Esto es una condición dentro de la selección
type(row)

La variable `row` contiene la fila con el valor máximo en la columna  `Total_CO2_emissions`. Ahora podemos seleccionar diferentes columnas/valores de esta fila:

In [None]:
print(row["Total_CO2_emissions"])
print(row["Country"])

In [None]:
#Los valores del objeto son una lista
row["Country"]

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: " + row["Country"].values[0])

### Síntesis de información

Con una sola línea de código podemos generar la siguiente información:

In [None]:
print("Valor medio de %s = %f " %(df.columns[3], df[df.columns[3]].mean()))
print("Valor medio de " +  df.columns[3] + " = " + str(df[df.columns[3]].mean())) #(df.columns[3], df[df.columns[3]].mean()))

In [None]:
print(df.columns[3]) # nombre columna

In [None]:
print(df[df.columns[3]]) # Serie de los datos de la columna

###### ¿Cómo consultarias la serie de la columna "Total_reserves"?

In [None]:
reservas = df.Total_reserves


Sobre las series se puede sintetizar información


In [None]:
fertilidad = df[df.columns[3]]
print("Minimo %f " %fertilidad.min())
print("Max %f " %fertilidad.max())
print("Mean %f " %fertilidad.mean())
print("Descripción de la serie:\n%s " %fertilidad.describe())

## Tabla con las funciones descriptivas
<img src="https://i.imgur.com/OYnOFwL.png">

# Ejercicios

**1) ¿Cuál és la media de la población urbana ("Urban_population") de todos los países? ¿Su desviación típica (std)?**

**2) Consulta la fila del país: “Spain”**

**3a) ¿Qué país tiene una mayor población urbana?**

**3b) ¿Qué paises tienen una población urbana menor a 50000 ?**

**4) ¿El continente donde está situado Spain es el mismo que el de UnitedStates?**

Utiliza una condición para obtener un resultado Booleano (*True* o *False*)

**5) ¿Cuáles son los cinco paises más contaminantes ("Total_CO2_emissions")?**

Esta es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html

**6) Observando algunas muestras del fichero puedes establecer la relación entre el identificador del continente y su nombre?**

Es decir, sabemos que Spain está en el continente Europeo y el código del continente es el 2. 

Existen los códigos de continentes: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hay dos códigos asociados a Asia.

Haz las consultas pertinentes al dataframe para construir un diccionario con la siguiente estructura:

In [None]:
codigoContinentes = {1:"Asia",2:"Europa"} #Al menos hay 7!
print(codigoContinentes[2])

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""

**7) Una vez identificado el nombre de los continentes, ¿puedes cambiar la columna de identificadores de continentes por sus respectivos nombres?**

Esta es es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html

**8) Puedes crear un nuevo dataframe con aquellos paises que sean de Europa?**


In [None]:
df2 = df #Con una simple asignación ya creas una dataframe 
type(df2)

**9) ¿Cuáles son los paises más contaminantes de Europa?**

Propuesta A: usa el dataframe inicial

Propuesta B: usa el dataframe de la actividad 8

### Modificación del _dataframe_

Además de realizar selecciones, en algunos momentos necesitaremos incorporar nueva información a nuestras tablas de datos.

Vamos a crear un pequeño conjunto para practicar:


In [None]:
df2 = pd.DataFrame([('Foreign Cinema', 'Restaurant', 289.0),
                   ('Liho Liho', 'Restaurant', 224.0),
                   ('500 Club', 'bar', 80.5),
                   ('The Square', 'bar', 25.30)],
           columns=('name', 'type', 'AvgBill')
                 )
df2

#### Añadir columnas

Tenemos diversas maneras de añadir columnas a un _dataFrame_:

- Mediante el nombre de la columna que queremos añadir, tal como añadimos una nueva clave a un diccionario.
- `insert`: es un método que necesita 3 parámetros. La posición en la que queremos añadir la columna (`loc`), su nombre (´column´) y la lista de valores (`value`).
- `assign`: muy similar a la anterior, pero permite añadir múltiples columnas.
- `concat`: no se suele usar para concatenar columnas, en el caso que queramos usarlo para este caso, deberemos poner el parámetro `axis=1`.

Veamos algunos ejemplos:

In [None]:
df2['Day'] = "Monday" # Como un diccionario
df2

In [None]:
df2['Day'] = ['Monday', 'Tuesday', 'Wednesday', 'Thursday']
df2

In [None]:
#Vamos a usar el método insert
df2.insert(loc=1, column="Stars", value=[2,2,3,4])
df2

In [None]:
df3 = df2.assign(AvgHalfBill=df2.AvgBill / 2, Michelin_Star=3)
df3


#### Añadir filas

Para añadir filas a un _dataframe_ tenemos dos métodos que realizan la tarea y devuelven un nuevo _dataFrame_:

- append: añade una fila a un _dataFrame_. La fila puede ser un diccionario, una `Serie` o otro `Dataframe`. El parámetro `ignore_index = True` significa que se ignorará el índice de la serie o el _dataFrame_ de origen. En su lugar, se utilizará el índice disponible en el _dataFrame_ de destino. El valor `False` significa lo contrario.
- concat: concatena dos o más _dataFrames_ separados por comas.

#### Eliminar filas y columnas

Tenemos el método `drop` que nos proporciona un nuevo _dataFrame_ sin la(s) fila(s) o la(s) columna(s) que seleccionemos. 
Si queremos eliminar columnas podemos hacerlo especificando la lista de columnas en el parámetro `columns` de la siguiente manera:

In [None]:
df_no_michelin = df3.drop(columns=["Michelin_Star"]) # Eliminamos la última columna que hemos creado
df_no_michelin

Para poder eliminar filas, usamos la misma función, esta vez sin el parámetro que hemos usado anteriormente, simplemente indicamos los índices a eliminar:

In [None]:
df_less_rows = df_no_michelin.drop([1,3])
df_less_rows

In [52]:
df_less_rows = df_no_michelin.drop([1,3])
df_less_rows

Unnamed: 0,name,Stars,type,AvgBill,Day,AvgHalfBill
0,Foreign Cinema,2,Restaurant,289.0,Monday,144.5
2,500 Club,3,bar,80.5,Wednesday,40.25
