# El paquete Pandas

## Selección de datos

Vamos a recuperar elementos de los objetos _**DataFrame**_ de la misma manera en que se hacen con las listas o arrays, por medio de slicing.

In [None]:
# Carga paquetes pandas, numpy
import pandas as pd
import numpy as np

Creamos una objeto **DataFrame**

In [None]:
# crea un objeto DataFrame con fechas en renglones
# y ciudades en columnas en cada celda se tendrán
# las temperaturas

# definir un rango de fechas, p.e. los dos primeros meses del 2014
days = pd.date_range('2018-01-01', '2018-02-28', freq = 'D')

In [None]:
a = str(days[0])
a

In [None]:
a == '2018-01-01 00:00:00'

In [None]:
'2018-01-01 00:00:00' == days[0]

In [None]:
days[0]

In [None]:
# tupla con los dimensiones
# renglones=59 columnas=5)
dim = (59,5)

In [None]:
# crea un objeto DataFrame
# fechas, ciudades y temperaturas
# genera datos aleatorios para temperaturas
df = pd.DataFrame(np.random.randint(-20, 40, dim),
                  index=days,
                  columns=['Madrid', 'Boston', 'Tokyo', 'Shanghai', 'Kolkata'])

In [None]:
# contenido del dataFrame
df.head()

In [None]:
df.head(10)

In [None]:
# muestra el final del DataFrame
df.tail()

Aplicamos varias formas de extraer elementos de usando los métodos `iloc()` y `loc()` del objeto DataFrame

In [None]:
# slicing de columnas y renglones
# usando rangos de índices
df.iloc[3:6, 0:3]

El método `iloc()` del objeto DataFrame permite el _slicing_ por **índice** (indexado posicional)

In [None]:
# slicing de renglones y columnas
# usando listas de índices
df.iloc[[3, 20, 49], [1, 2]]


In [None]:
# slicing de renglones y columnas
# usando lista de indices y rango completo
df.iloc[[3, 9, 11, 22], :]

In [None]:
df.iloc[:, 0:3]

In [None]:
# slicing de columnas y renglones
# usando rangos de etiquetas
df.loc['2018-01-01':'2018-01-05', 'Madrid':'Tokyo']

El método `loc()` del objeto DataFrame permite el slicing por etiqueta (indexado por etiqueta)

In [None]:
df.loc['2018-01-10', ['Madrid','Tokyo']]

In [None]:
# slicing de renglones y columnas
# usando listas de etiquetas
df.loc['2018-01-01': '2018-01-03', ['Madrid','Tokyo']]

### Ejercicio

Se tiene un conjunto de datos generados por el Banco Mundial relativo a los índices de mortalidad por país en diferentes años. La información será extraída y almacenada en un DataFrame de Pandas, se seleccionará los datos que permitan visibilizar el índice de mortalidad en los años 1960, 1964 y 1969 para los paises Bangladesh, India, Rwanda y Uganda.

In [None]:
mortality_df  = pd.read_csv('mortality.csv')

In [None]:
mortality_df.head()

In [None]:
mortality_df = mortality_df.set_index('Country Name')

In [None]:
mortality_df.head()

In [None]:
mortality_transpose_df = mortality_df.T

El método `T` transpone el DataFrame: cambia los renglones por columnas y las columnas por renglones.

In [None]:
mortality_transpose_df.head()

In [None]:
comparison = mortality_transpose_df[['Bangladesh', 'India', 'Rwanda', 'Uganda']]

In [None]:
comparison.head(10)

In [None]:
comparison.loc[['1960', '1964', '1969'],['Bangladesh', 'India', 'Rwanda', 'Uganda']]

In [None]:
# magic command para gráficar en el notebook
%pylab inline

In [None]:
comparison.plot()

El objeto DataFrame tiene implementado el método `plot()` que permite graficar los datos del DataFrame.

## Filtros

Otra de las facilidades que ofrece Pandas es la selección de datos contenidos en un DataFrame por medio de _queries_ y filtros.

In [None]:
# definir opciones por defecto para los DataFrames
pd.set_option('display.max_rows', 10)

In [None]:
# leer datos
auto = pd.read_csv('auto.csv')

In [None]:
# leer primeras lineas de datos
auto.head()

### Aplicación de filtros

In [None]:
# buscar en la columna "foreign" value == 1
auto.foreign == 1

In [None]:
# establecer la variable "mask" para realizar búsquedas
mask = auto.foreign ==1

In [None]:
# aplicar el filtro a los datos
auto[mask]

In [None]:
# crear un nuevo DataFrame como subconjunto del original
foreign = auto[mask]
foreign

In [None]:
# aplicar un filtro inverso
# usando numpy.invert() se invierte el filtro
domestic = auto[np.invert(mask)]
domestic

In [None]:
mask2 = (auto.mpg > 20) & (auto.price < 5000)
new_selection = auto[mask2]
new_selection

### Ejercicio

Crear un filtro para conocer un tipo especifico de crimen (_"Murder and nonnegligent Manslaughter"_) en el estado de California

In [None]:
# leer datos
crime = pd.read_csv('crime.csv')

In [None]:
crime.head()

In [None]:
# crear una mascara sobre las columnas state y crime
mask3 = (crime.State == 'California') & (crime. Crime == 'Murder and nonnegligent Manslaughter')

In [None]:
# aplicar mascara al filtro
cal_murder = crime[mask3]

In [None]:
cal_murder.head()

In [None]:
# graficar los datos
cal_murder.plot(x = 'Year', y='Count')