<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/banner_cd.png">

<center><h2 style="font-size:2em;color:#840700">  Pandas - Operaciones y agregaciones  </h4></center>

<br>
<table>
<col width="550">
<col width="450">
<tr>
<td><img src="figuras/pandas3.png" align="left" style="width:500px"/></td>
<td>

* **Wes McKinney**, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en *AQR Capital* [https://www.aqr.com/] por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativos en datos financieros. 
* Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto.
* **Pandas** es un acrónimo de **PANel DAta analysiS**
   
    
<br>
</td>
</tr>
</table>

# Librerías

Cargando las bibliotecas que necesitamos 


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Operaciones de datos en Pandas 

Parte de las características esenciales de **NumPy** es la capacidad de realizar operaciones rápidas de elementos, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc.).
Pandas hereda gran parte de esta funcionalidad de **NumPy** y las _**ufuncs**_ que fueron presentadas en lecciones pasadas son clave para esto.

Sin embargo, **Pandas** incluye un par de características  extras que serán  útiles: para operaciones de negación y trigonométricas, estas _**ufuncs**_  preservarán las etiquetas de índice y columna en la salida, y para operaciones como la suma y la multiplicación, **Pandas** automáticamente *alineará índices*.
Esto significa que mantener el contexto de los datos y combinar datos de diferentes fuentes, ambas tareas potencialmente propensas a errores con arreglos de **NumPy** sin procesar, se vuelven esencialmente infalibles con **Pandas**.


In [None]:
poblacion = pd.Series({'Belgica':11.3, 'Francia':64.3, 'Alemania':81.3,
                       'Holanda':16.9, 'Inglaterra':64.9,'Argentina':12.1,'Mexico':103.2})

In [None]:
data = {'pais': ['Belgica', 'Francia', 'Alemania', 'Holanda', 'Inglaterra','Argentina','Mexico'],
        'poblacion': [11.3, 64.3, 81.3, 16.9, 64.9, 12.1,103.2],
        'area': [30510, 671308, 357050, 41526, 244820,300163,1960573],
        'capital': ['Bruselas', 'Paris', 'Berlin', 'Amsterdam', 'Londres','Buenos Aires','Ciudad de Mexico']}
paises = pd.DataFrame(data)


In [None]:
#mostrar el dataframe
paises.head()

## Los "nuevos" conceptos


In [None]:
#Encontrar la densidad poblacional en el DataFrame paises
paises["densidad"] = paises["poblacion"]/paises["area"]
paises

In [None]:
#Obtener el logaritmo del valor de la población en el DataFrame countries
np.log(paises["poblacion"])

In [None]:
#Agregar los valores de la evaluación del logaritmo como una nueva columna "log_poblacion"
paises["log_poblacion"] = np.log(paises["poblacion"])
paises

In [None]:
#Mostrar las columnas del  DataFrame paises
paises.columns

In [None]:
#Mostrar cuales de ellos tienen una población mayor a los 40 (millones)
paises[paises["poblacion"] > 40]

In [None]:
#Mostrar el dataframe solo con las columnas 'pais'  y 'capital'
paises[["pais", "capital"]]

Cuando requiere de una operación especial en los elementos puede hacerlo con ``apply(OPERACIÓN)``, en donde será necesario definir la  operación a través de la función deseada

In [None]:
# Agregar una columna que indique si el país es pequeño o grande en población (>50). 
# Defina una función llamada etiqueta_poblacion que regrese la etiqueta

def etiqueta_poblacion(a):
    if a > 50:
        return "grande"
    else:
        return "pequeño"

In [None]:
paises["poblacion"].apply(etiqueta_poblacion)

In [None]:
paises["etiqueta_poblacional"] = paises["poblacion"].apply(etiqueta_poblacion)

In [None]:
#Agregar la columna etiqueta_poblacional con el resultado de aplicar la funcion etiqueta_poblacion
paises

## Agregaciones (reducciones)

Pandas proporciona un amplio conjunto de funciones de _**resumen**_ que operan en diferentes tipos de objetos de pandas (DataFrames y Series) y producen un valor único. Cuando se aplica a un *DataFrame*, el resultado se retorna como una Serie de Pandas (un valor para cada columna).

In [None]:
#Utilizando la Serie de poblacion, podemos encontrar su promedio usando mean():
poblacion.mean()

In [None]:
#Aplicar la mediana al DataFrame paises
paises.median(numeric_only = True)

In [None]:
#Podemos encontrar el pais con con area mas pequeña usando min():
paises["area"].min()

La siguiente tabla resume algunas otras agregaciones integradas de Pandas:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

Todos estos son funcionan en *DataFrames* y *Series*.


Hay una función de muy útil, ``describe()`` , que calcula varios parámetros estadísticos  para cada columna y devuelve el resultado.

In [None]:
paises.describe()

# Ejercicios con los datos del Titanic

Descripción de las columnas :

    Survival - Supervivencia (0 = No; 1 = Si).
    Pclass - Clase (1 = 1st; 2 = 2nd; 3 = 3rd)
    Name - Nombre
    Sex - Sexo
    Age - Edad
    Sibsp - Número de hermanos / cónyuges a bordo
    Parch - Número de padres / niños a bordo
    Ticket - Número de ticket
    Fare - Tarifa
    Cabin - Número de cabina
    Embarked - Puerto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)



In [None]:
#Utilizar el archivo datos/titanic.csv
df = pd.read_csv("datos/titanic.csv")
df

In [None]:
#muestre las primeras líneas del DataFrame
df.head()

In [None]:
#muestre las ultimas líneas  del DataFrame 
df.tail()

In [None]:
#Obtenga el número de filas y columnas
df.shape

In [None]:
#Muestre los histogramas de las variables numericas 
df.hist()

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li> Seleccione todas las filas para pasajeros masculinos y calcule la edad media de esos pasajeros. Hacer lo mismo con las pasajeras.</li>
</ul>
</div>

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Cuántos pasajeros mayores de 70 estaban en el Titanic?</li>
</ul>
</div>

<div class="alert alert-info">

<b>EJERCICIO</b>:

 <ul>
  <li>¿Seleccionar los pasajeros que tienen entre 30 y 40 años?</li>
</ul>
</div>