# Pandas-101

### Importar, explorar y modificar sus datos


La biblioteca de pandas es muy popular entre los científicos de datos, quants, adictos a Excel y desarrolladores de Python porque le permite realizar la ingestión, exportación, transformación y visualización de datos con facilidad. Pero si solo está familiarizado con Python, los pandas pueden presentar algunos desafíos. Dado que los pandas están inspirados en Numpy, sus convenciones de sintaxis pueden ser confusas para los desarrolladores de Python.

Preparado por: Andrés Leiva Araos -@ALeivaAraos

Este notebook está basado en el trabajo de Matt Harrison [*Learning the Pandas Library*](https://www.amazon.com/Learning-Pandas-Library-Munging-Analysis/dp/153359824X/ref=sr_1_3?ie=UTF8&qid=1505448275&sr=8-3&keywords=python+pandas).

# Configuración

In [None]:
import pandas as pd
import matplotlib
import numpy as np

pd.__version__, matplotlib.__version__, np.__version__

In [None]:
# test for unicode
'\N{dragon}'

In [None]:
import sys
sys.getdefaultencoding() 

In [None]:
sys.version

# Introducción a Pandas

## Instalación

En **Configuración** no deberías tener problemas con Pandas ya que viene por defecto en la instalación de Anaconda. Si por algún motivo te da problemas, debes instalarlo.

Ejecuta <br>
``pip install pandas`` 
<br> o <br>
``conda install pandas``

In [None]:
# pandas tiene dos estructuras de datos principales: Series y DataFrame
# Una Series es como una columna de una hoja de cálculo

s = pd.Series([40, 44, 26, 17])

In [None]:
s

In [None]:
# La Serie tiene un índice
s.index

In [None]:
# Un DataFrame es como una hoja de cálculo complets; con muchas columnas

df = pd.DataFrame({'nombre': ['Andres', 'Juan', 'Ana', 'Cristina'], 'edad': s})

In [None]:
df

In [None]:
# Los Dataframe también tienen índice ...
df.index

In [None]:
# ... y valores
df.values

In [None]:
# Podemos hacer "tab completion" para encontrar los métodos de los objetos existentes
# Intenta buscar el método "axes"
df.

# Datasets
Para esta clase veremos algunos datos de series de tiempo. Los datos corresponden al clima de Central Park y de El Niño.

## Clima del Central Park en NY


https://pastebin.com/vaB6QQGp

## El Nino

https://archive.ics.uci.edu/ml/datasets/El+Nino

In [None]:
# con %matplotlib inline podemos visualizar los gráficos hechos con Matplotlib en el propio notebook
%matplotlib inline

import pandas as pd
import numpy as np 

# Datos del Central Park en NY
Hay varias funciones ``pd.read_`` para ingestar data

In [None]:
%ls data/
# verificar si existe el archivo central-park-raw.csv

Buscando ayuda en línea

In [None]:
# ejecuta esto
pd.read_csv?
# para salir de la ayuda presiona <esc>

In [None]:
# por el cursor despues de la v y presiona <shift+tab> varias veces
pd.read_csv
# para salir de la ayuda presiona <esc>

In [None]:
# carguemos la data y asignamos la columna 0 como fecha 
nyc = pd.read_csv('data/central-park-raw.csv', parse_dates=[0])

nyc

In [None]:
# Veamos las primeras líneas del Dataframe
nyc.head()

In [None]:
# Número de registros
nyc.__len__()

## Data de El Niño

Carguemos la data de El Niño desde el sitio web de UCI Machine Learning Repository:

El [website](https://archive.ics.uci.edu/ml/datasets/El+Nino) dice:

    The data is stored in an ASCII files with one observation per line. Spaces separate fields and periods (.) denote missing values.

Tips:

* Carge la data ``data/tao-all2.dat.gz`` en un Dataframe utilizando ``pd.read_csv``.
* Use la variable ``names`` para darle nombre a las columnas. Los nombres de las columna están en el sitio web.
* Reemplace campos vacíos (``.``) con ``NaN``. 
* Ponga las columnas de año, mes y día en una única columna utilizando el parámetro ``parse_dates`` (ver info en  ``pd.read_csv?`` ).

Datos gentileza de:<br>
Dua, D. and Karra Taniskidou, E. (2017).<br>
[UCI Machine Learning Repository](http://archive.ics.uci.edu/ml). Irvine, CA<br>
University of California, School of Information and Computer Science.



In [None]:
# Los nombres de las columna se obtienen de tao-all2.col desde website
# las tres comillas se utilizan para incluir un string en más de una fila

names = '''obs
year
month
day
date
latitude
longitude
zon.winds
mer.winds
humidity
air temp.
s.s.temp.'''.split('\n')

In [None]:
# split nos devuelve una lista con los nombres de las columnas
names

In [None]:
nino = pd.read_csv('data/tao-all2.dat.gz', sep=' ', names=names, na_values='.', 
                   parse_dates=[[1,2,3]])

In [None]:
nino

In [None]:
# Esto nos desordena un poco el notebook. Que tal si limitamos la cantidad de líneas desplegadas?
pd.options.display.max_rows = 10

In [None]:
nino

# Inspeccionemos la data

In [None]:
# Las columnas son índices 
nyc.columns

In [None]:
# Miremos los tipos de datos a ver si están correctos; ello no siempre ocurre.
nyc.dtypes

In [None]:
# Cuánto espacio ocupa?
nyc.info()

In [None]:
# Veamos la primeras 8 líneas
nyc.head(8)

In [None]:
# Transponer la data nos da otra vista interesante. Dos métodos para lo mismo
#nyc.transpose()
nyc.T

In [None]:
# Número de registrios
nyc.__len__()

In [None]:
# Filas x columnas
nyc.shape

In [None]:
# Podemos usar el método .set_index para cambiar la columna índice
# visualizamos 3 registros

nyc.set_index('EST')[:3]

In [None]:
# deshacer .set_index con .reset_index
nyc.set_index('EST').reset_index()[:3]

## Inspeccionemos la data 

Inspecciona la data de El Nino.
 
* Columnas del Dataframe?
* Tipos de las columnas del Dataframe?
* Imprima las primeras 8 líneas?
* Transponga la data?
* Formato (shape) del Dataframe?

In [None]:
# Tu código aquí ...


In [None]:
# Tu código aquí ...


In [None]:
# Tu código aquí ...


In [None]:
# Tu código aquí ...


In [None]:
# Tu código aquí ...


# Retoquemos (tweak) la data

  * En Data Science, el 80% del tiempo se consume preparando (curando) la data.

In [None]:
# Inspeccconamos las columnas. Pandas intentará inferir los tipos desde los archivos CSV, 
# pero no siempre hace lo correcto.
# A veces los datos tienen más de un tipo por columna.
nyc.dtypes

In [None]:
# Removemos espacios al inicio y final de las columnas
nyc.columns = [x.strip() for x in nyc.columns]

In [None]:
nyc[:3]

In [None]:
# Ponemos underscores para facilitar el acceso de Python a los nombres de las columnas
nyc.columns = [x.replace(' ', '_') for x in nyc.columns]

In [None]:
nyc[:3]

In [None]:
# Para columnas no-numéricas, .value_counts nos da el conteo de la data.
# value_counts opera como un histograma. Devuelve una Serie
# Lo lógico debería ser que las precipitaciones son numéricas ...

nyc.PrecipitationIn.value_counts()

In [None]:
# Hay una 'T' por ahí. 
# Probablemente reprecenta 'Trace amount of rain' (rastro de lluvia); esto es una 
# pequeña cantidad de lluvia que no se mide dado que la unidad de medida es en pulgadas
# Reemplacémosla por 0.001
nyc.PrecipitationIn.replace("T", '0.001')

In [None]:
nyc.PrecipitationIn.value_counts()

In [None]:
# Tenemos tipos de datos mezclados
nyc.PrecipitationIn.dtypes

In [None]:
# Convirtámosla a dato numérico
nyc.PrecipitationIn = pd.to_numeric(nyc.PrecipitationIn.replace("T", '0.001'))

In [None]:
nyc.PrecipitationIn.value_counts()

In [None]:
nyc.PrecipitationIn.dtypes

In [None]:
nyc.Events.value_counts()

In [None]:
# Si queremos contar un tipo específico de valor
nyc.Events[nyc.Events == 'Rain'].count()

In [None]:
# Podemos ejecutar operaciones sobre string a nivel de columnas.
# Intentemos poner todo en mayusculas con el método upper()
nyc.Events.str.upper()

In [None]:
type(nyc.Events[1])

In [None]:
# Parece que tenemos dados mixtos en la columna; str y float 
type(nyc.Events[0])

In [None]:
set(nyc.Events.apply(type))

In [None]:
# Reemplazamos NaN con ''
nyc['Events'] = nyc.Events.fillna('')

In [None]:
# Ahora todos los datos son str
set(nyc.Events.apply(type))

<font color='red'>Atención</font>

Hay que tener cuidado con la forma en que hacemos selección de datos desde un Dataframe.<br>
Hay dos formas:
* Attribute assignment
* Index assignment

In [None]:
# Attribute assignment
nyc.Events[:2]

In [None]:
# Index assignment
nyc['Events'][:2]

In [None]:
# Convirtamos pulgadas a centímetros
# Si multiplicamos una columna (es decir una Serie), estaremos haciendo un *broadcasting*
# de la operación a cada celda de la columna
nyc.PrecipitationIn * 2.54

In [None]:
# Pero esto no siempre es posible
# el *broadcast* es una atributo de pandas
[1,2,3] * 2
#[1,2,3] * 2.4


In [None]:
# Podemos definir una función para hacer lo mismo, pero será más lento el proceso al no estar vectorizado
#   map - works with a dictionary (mapping value to new value),  series (like dict), function
#   apply - only works with function as a parameter. Allows extra parameters
#   aggregate (agg) - works with function or list of functions. If reducing function, returns a scalar.
#   transform - wraps agg and won't do a reduction
def to_cm(val):
    return val * 2.54

nyc.PrecipitationIn.transform(to_cm)

In [None]:
%%timeit
nyc.PrecipitationIn.map(to_cm)

In [None]:
%%timeit
nyc.PrecipitationIn.transform(to_cm)

In [None]:
%%timeit
nyc.PrecipitationIn * 2.54

In [None]:
%%timeit
nyc.PrecipitationIn.aggregate(to_cm)

In [None]:
%%timeit
nyc.PrecipitationIn.apply(to_cm)

In [None]:
# Podemos añadir y eliminar columnas (axis=1 significa a lo largo del eje columna)
nyc['State'] = 'NYC'
#nyc = nyc.drop(['State'], axis=1)
nyc.T

## Asignación con Dataset de El Niño

* Reemplaza los puntos y espacios en los nombres de las columnas con guiones bajos
* Las temperaturas se almacenan como Celsius. Crea una nueva columna, air_temp_F, usando Fahrenheit (Tf = Tc * 9/5 + 32)
* La velocidad del viento está en metros por segundo. Crea nuevas columnas, agregando _kph (1 mps = 3.6 Kph)
* Convierta la columna de fecha a un tipo de fecha
* Elimina la columna obs

In [None]:
# Tu código aquí...


In [None]:
# Tu código aquí...


In [None]:
# Tu código aquí...


In [None]:
# Tu código aquí...


In [None]:
# Tu código aquí...


In [None]:
# Tu código aquí...


In [None]:
# Veamos cómo quedó
