<img src="https://www.usergioarboleda.edu.co/wp-content/uploads/ultimatum/imagens/logo-mobile-UniversidadSergioArboleda.png" alt="USA" width=700>

<img align="center" width="300" height="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png">

[Pandas](https://pandas.pydata.org/) es una extensión de NumPy para manipulación y análisis de datos. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

Pandas es muy adecuado para muchos tipos diferentes de datos:

- Datos tabulares con columnas, tablas de SQL o una hojas de cálculo de Excel
- Datos de series de tiempo ordenados y no ordenados.
- Datos de matriz con etiquetas de fila y columna

Pandas ofrece las siguientes estructuras de datos:

* __Series__: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
 
* __DataFrame__: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL.
 
* __Panel, Panel4D y PanelND__: Estas estructuras de datos permiten trabajar con más de dos dimensiones. 

Pandas se suele usar en:

- Manejo de __datos faltantes__.
- Cambios de tamaño: las columnas se pueden __insertar y eliminar__ de DataFrame y objetos de dimensiones superiores.
- __Feature Engineering__
- Cargue de __archivos planos__, archivos de Excel, bases de datos y formato __HDFS__.
- __Series de tiempo__: generación de intervalos de fechas y conversión de frecuencia, cambio de fecha operadores de rezago, etc.

![wget](https://drive.google.com/uc?export=view&id=1mbFgZLmt0qD80FleVEj4cpxh5oO3ocvQ)

In [None]:
import numpy as np
import pandas as pd

### Series

La estructura de datos de Series en Pandas es una matriz etiquetada unidimensional.

- Los datos de la matriz pueden ser de cualquier tipo (números enteros, cadenas, números de punto flotante, objetos Python, etc.).

- Los datos dentro de la matriz son homogéneos.

- Los datos pueden ser listas, arrays, o un diccionario.

In [None]:
s1 = pd.Series(np.random.randint(1, high=5, size=100, dtype='l'))
s2 = pd.Series(np.random.randint(1, high=4, size=100, dtype='l'))
s3 = pd.Series(np.random.randint(10000, high=30001, size=100, dtype='l'))

d = pd.concat([s1, s2, s3], axis=1)
d.rename(columns = {0: 'bedrs', 1: 'bathrs', 2: 'price_sqr_meter'}, inplace=True)

d.head()

In [None]:
print(d.shape)
print(d.dtypes)

Es posible especificar los identificadores de columna:

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'], 
    index=[1, 2, 9, 11, 10])

Como se puede observar con los jugadores Cuadrado y Rodriguez, los índices no tienen que estar necesariamente ordenados. La serie se puede imprimir escribiendo su identificador.

In [None]:
seleccionColombia

Una serie se puede generar sin conocer los índices y Pandas los generará automáticamente con valores desde cero hasta el tamaño de la lista menos uno. En el caso de la misma serie:

In [None]:
seleccionColombia = pd.Series(
    ['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'])
seleccionColombia

### Series desde Diccionarios

Las series tambien pueden ser definidas desde diccionarios:

In [None]:
dict_selcol = {1:'Ospina', 2: 'Zapata', 9: 'Falcao', 11: 'Cuadrado', 10: 'Rodriguez'}
print(dict_selcol)

In [None]:

ser_selcol = pd.Series(dict_selcol)
ser_selcol.tail()

### DataFrames

Un DataFrame es una estructura de datos que almacena la información como una tabla ordenada por filas y columnas. Cada fila representa un objeto y cada columna la información correspondiente a una característica de los objetos.

Un DataFrame también posee índices por cada fila, que pueden ser dados o generados automáticamente. Cada columna del DataFrame es una serie, donde el valor del índice corresponde con los valores de índice que tiene el DataFrame.

Por medio de un diccionario vamos a crear un dataframe, donde las llaves son los nombres de las columnas y los valores son la lista de valores que tienen las características.

Por ejemplo, para hacer un DataFrame con el equipo de fútbol anterior, pero agregando estatura y peso, podemos hacerlo de la siguiente manera:

In [None]:
dict_caracteristicas = {'apellido':['Ospina', 'Zapata', 'Falcao', 'Cuadrado', 'Rodriguez'],
                       'altura':[183.0,187.0,177.0,179.0,180.0],
                       'peso':[80.0,82.0,72.0,72.0,75.0]}

seleccionColombia = pd.DataFrame(dict_caracteristicas,index=[1, 2, 9, 11, 10])

Al imprimir el DataFrame, podemos observar que su estructura es similar a la de un documento en Excel, donde el índice (que no tiene nombre de columna) es el número del jugador.

In [None]:
seleccionColombia

Tomando el ejemplo anterior de los datos simulados

In [None]:
data = pd.DataFrame(d)
data

### Lectura de Archivos Externos

Mediante la funcion [read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) es posible cargar archivos planos separados por comas. Análogamente __read_table__ carga archivos separados por tabulaciones

##### Data Frame 1 

Lectura de ordenes en un restaurante, el archivo de datos esta cargado en el [link](http://bit.ly/chiporders)

In [None]:
orders = pd.read_table('http://bit.ly/chiporders')
orders.head()

##### Data Frame 2

Lectura un archivo local de avistamiento de OVNIS

In [None]:
ufo = pd.read_table('data/ufo.csv', sep=",")
ufo.head()

In [None]:
ufo.dtypes

In [None]:
ufo.shape

In [None]:
ufo['City'].head() # Seleccion de una columna con notacion de nombre

In [None]:
ufo.City.head() # Seleccion de una columna con notacion de objeto

La notacion de brackets [] siempre funciona mientras que la notación del punto tiene limitaciones:

- La notación de puntos no funciona si hay espacios en el nombre de la serie
- La notación de puntos no funciona si la Serie tiene el mismo nombre que un método o atributo de DataFrame (como 'head' o 'shape')
- No se puede utilizar la notación de puntos para definir el nombre de una nueva serie

##### Data Frame 3

In [None]:
movies = pd.read_csv('data/imdb.csv')
movies.head()

#### Descriptivos iniciales

In [None]:
movies.describe()

In [None]:
movies.shape

Nota: Los __métodos__ terminan con paréntesis, mientras que los __atributos__ no

In [None]:
movies.dtypes

In [None]:
# describir el método para resumir sólo las columnas 'object'
movies.describe(include=['object'])

Ahora vamos a obtener el numero de peliculas por clasificación de contenido ( R, PG-13, PG.. etc):

In [None]:
movie_ratings = movies['content_rating'].value_counts()

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (15, 5)

movie_ratings.plot(kind='bar')

#### Accediendo a los datos 

### Columnas

Tenemos dos formas de acceder a las columnas: **por nombre** o **por atributo** (si no contienen espacios ni caracteres especiales).

In [None]:
# Accediendo como clave
movies['star_rating'].head()

In [None]:
# Accediendo como atributo
movies.star_rating.head()

In [None]:
# Accediendo a varias columnas a la vez
movies[['star_rating', 'genre']].head()

Es posible hacer funcionescon dichos objetos por ejemplo:

In [None]:
# Aplicando una función a una columna entera (ej. primedio)
np.mean(movies.star_rating)

In [None]:
# Calculando la media con pandas
movies.star_rating.mean()

### Filas 

In [None]:
movies.head()

Para acceder a las filas tenemos dos métodos: `.loc` (basado en etiquetas de fila), `.iloc` (basado en posiciones enteras de fila)

In [None]:
# Accediendo a una fila por índice
movies.iloc[1]

In [None]:
movies.loc[2:6]

#### Renombrar Columnas

Reemplazar todos los nombres de columnas sobrescribiendo el atributo 'columns'

In [None]:
ufo_cols = ['city', 'colors_reported', 'shape_reported', 'state', 'time']
ufo.columns = ufo_cols
ufo.head()

Renombrar dos de las columnas mediante el método 'rename'

In [None]:
ufo.rename(columns={'colors_reported':'Colors_Reported_test', 'shape_reported':'Shape_Reported_test'}, inplace=True)
ufo.head()

#### Elminar Columnas

La columna __Colors_Reported_test__ solo tiene datos ausentes por lo que se debe eliminar. Para remover una columna se usa el método __drop__ :

In [None]:
ufo.drop('Colors_Reported_test', axis=1, inplace=True) # (axis=1 se refiere a columnas)
ufo.head()

In [None]:
# Eliminar varias columnas a la vez
ufo.drop(['city', 'time'], axis=1, inplace=True)
ufo.head()

#### Eliminar Filas

In [None]:
# Eliminar varias filas a la vez (axis=0 se refiere a filas)
ufo.drop([0, 1], axis=0, inplace=True)
ufo.head()

#### Ordenar Dataframes

Si se quiere ordenar se usa el metodo sort_values()

In [None]:
movies.head(3)

In [None]:
movies.title.sort_values(ascending=False).head() # orden descendente

Ordenar todo el DataFrame por la serie 'title'. Nótese que mantiene el idice de la fila

In [None]:
movies.sort_values('title').head()

#### Filtrar Dataframes

Se quiere filtrar las filas de DataFrame para mostrar sólo películas con una "duración" de al menos 200 minutos.

In [None]:
is_long = movies.duration >= 200
is_long.head()

In [None]:
movies[is_long].head()

In [None]:
movies[movies.duration >= 200].head()

Ahora se quiere filtrar el DataFrame original para mostrar películas con un 'genre' de 'Crime' o 'Drama' o 'Action' 

In [None]:
# Utiliza el operador '|' para especificar que una fila puede coincidir con cualquiera de los tres criterios
movies[(movies.genre == 'Crime') | (movies.genre == 'Drama') | (movies.genre == 'Action')].head()

# O de forma equivalente, use el método 'isin'
movies[movies.genre.isin(['Crime', 'Drama', 'Action'])].head()

#### Agrupaciones en Dataframes

El método groupby permite agrupar filas de datos basándose en el valor de una columna, y llamar a funciones de agregación sobre los datos: suma, conteo, promedio, ...

![](https://drive.google.com/uc?export=view&id=1dxdpTG6ZJovzaxzerMFLPIv8daDlfFvV)

In [None]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')
drinks.head()

In [None]:
drinks.shape

In [None]:
drinks.dtypes

In [None]:
# Calcula el promedio de cervezas servidas solo en paises del continente africano
drinks[drinks.continent=='Africa'].beer_servings.mean()

In [None]:
# Calcula el promedio de cervezas servidas por cada continente
drinks.groupby('continent').beer_servings.mean()

In [None]:
# Promedio general de todas las variables por continente
drinks.groupby('continent').mean()

In [None]:
# Diagrama de barras de lado a lado del DataFrame de arriba

drinks.groupby('continent').beer_servings.mean().plot(kind='bar')

#### Manejando Valores ausentes o Missing Values

¿Qué significa "NaN"? 

- "NaN" no es una cadena, sino que es un valor especial: __numpy.nan__. 
- Representa "Not a number" e indica un valor faltante. 
- __read_csv__ detecta los valores perdidos (de forma predeterminada) al leer el archivo y los reemplaza con este valor especial.

In [None]:
# Leyendo el dataset de reportes de avistamientos en un dataframe
ufo = pd.read_csv('data/ufo.csv')
ufo.tail()

In [None]:
# Si color reported es null retornara True
ufo['Colors Reported'].isnull().tail()

In [None]:
# Caso contrario retornara False con notnull()
ufo['Colors Reported'].notnull().tail()

In [None]:
# Nos devuelve el dataframe con las columnas vacias de City
ufo[ufo.City.isnull()].head()

In [None]:
# Devuelve el numero de filas y columnas
ufo.shape

In [None]:
# Si faltan 'algun (any)' valor en una fila entonces elimina esa fila esa fila
ufo.dropna(how='any').shape

In [None]:
# Si faltan todos(all) los valores en una fila, entonces elimina esa fila (no se eliminan en este caso)
ufo.dropna(how='all').shape

In [None]:
# Si falta algun valor en una fila (teniendo en cuenta sólo 'City' y 'Shape Reported'), entonces se elimina esa fila
ufo.dropna(subset=['City', 'Shape Reported'], how='any').shape

In [None]:
# Si "all" los valores estan faltantes en una filla (considerando solo 'City' y 'Shape Reported') entonces elimina esa fila
ufo.dropna(subset=['City', 'Shape Reported'], how='all').shape

In [None]:
# 'value_counts' no incluye missing values por defecto
ufo['Shape Reported'].value_counts().head()

In [None]:
# Incluye explícitamente los missing values
ufo['Shape Reported'].value_counts(dropna=False).head()

In [None]:
# Rellenar los valores faltantes con un valor especificado
ufo['Shape Reported'].fillna(value='VARIOUS', inplace=True)

In [None]:
# Confirmar que los valores faltantes fueron rellenados
ufo['Shape Reported'].value_counts().head()

### Series de Tiempo

In [None]:
# Leyendo el dataset de reportes de avistamientos en un dataframe
ufo = pd.read_csv('data/ufo.csv')
ufo.head()

In [None]:
ufo.dtypes

In [None]:
# Convierte 'Time' a un datetime format
ufo['Time'] = pd.to_datetime(ufo.Time)
ufo['Time'].head()

In [None]:
ufo.dtypes

In [None]:
# Extraer el año de una variable de fecha
ufo['Year'] = ufo.Time.dt.year
ufo['Year'].head()

In [None]:
# Grafica el número de informes de OVNI por año

ufo.Year.value_counts().sort_index().plot()

## Combinando DataFrames

Hay 3 maneras de combinar DataFrames:
Concatenar (concat)
Fusionar (merge)
Unir (join)

![wget](https://drive.google.com/uc?export=view&id=1wmJo-FJnofniKEkF-3RRR-Mk9IVuc-Nx)

_____
** DataFrames de ejemplo **

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [None]:
df3

### Concatenar (concat)

La concatenación básicamente pega DataFrames, uno después de otro. Hay que tener en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando. 

Puede usar **pd.concat** y pasar una lista de DataFrames para concatenarlos:

In [None]:
pd.concat([df1,df2,df3])

In [None]:
pd.concat([df1,df2,df3],axis=1)    # axis=1 concatena a lo largo de las columnas, llenando las celdas desconocidas con NaN 

___

### Fusionar (merge)

La función **merge** permite fusionar DataFrames utilizando una lógica similar a la combinación de Tablas SQL. Por ejemplo:


In [None]:
izq = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3','k4'],
                     'A': ['A0', 'A1', 'A2', 'A3','A4'],
                     'B': ['B0', 'B1', 'B2', 'B3','B4']})
   
der = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [None]:
izq

In [None]:
der

In [None]:
pd.merge(izq, der, on='key')    

In [None]:
izq

Otro ejemplo más completo:

In [None]:
izq = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})   
der = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq

In [None]:
der

In [None]:
pd.merge(izq, der, on=['key1', 'key2'])

#### Argumento 'how'

El método merge recibe el argumento 'how'. Éste especifica cómo determinar qué claves se incluirán en la tabla resultante. Si una combinación de dichas llaves no aparece en las tablas izquierda o derecha, los valores en la tabla fusionada serán NaN. 

Aquí hay un resumen de las opciones de 'how' y sus nombres equivalentes en SQL:

	PANDAS	SQL					DESCRIPCIÓN
	inner	INNER JOIN			Usa la intersection de las llaves de ambos dataframes * Por defecto
    left	LEFT OUTER JOIN		Sólo usa las llaves del dataframe izquierdo
	right	RIGHT OUTER JOIN	Sólo usa las llaves del dataframe derecho 
	outer	FULL OUTER JOIN		Usa la unión de las llaves de ambos dataframes

![wget](https://drive.google.com/uc?export=view&id=1wmJo-FJnofniKEkF-3RRR-Mk9IVuc-Nx)

In [None]:
pd.merge(izq, der, how='outer', on=['key1', 'key2'])

In [None]:
pd.merge(izq, der, how='left', on=['key1', 'key2'])

In [None]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

In [None]:
pd.merge(izq, der, how='inner', on=['key1', 'key2'])

### Unión (join)

El join es un método para combinar las columnas de dos DataFrames indexados de forma diferente en un solo DataFrame de resultados.

En vez de columnas como en el merge, en el join se utilizan los índices de los DataFrames para hacer la combinación.


In [None]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

der = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
izq

In [None]:
der

In [None]:
izq.join(der)

In [None]:
der.join(izq)

In [None]:
izq.join(der, how='outer')

In [None]:
izq.join(der, how='inner')

## Tablas Pivote

In [None]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['uno','uno','dos','dos','uno','uno'],
       'C':['categoria 1','categoria 1','categoria 1','categoria 2','categoria 1','categoria 2'],
       'D':[5,3,2,5,4,1]}

df = pd.DataFrame(data)

In [None]:
df

In [None]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

In [None]:
df.pivot_table(values='D',index=['B', 'A'],columns=['C'])

In [None]:
df.pivot_table?

Otro ejemplo:

In [None]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                         "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7]})
df

In [None]:
table = df.pivot_table(values='D', index=['A', 'B'],
                     columns=['C'], aggfunc=np.sum)
table

In [None]:
otro =df.stack()

In [None]:
otro

## Referencias

* A visual guide to pandas: https://www.youtube.com/watch?v=9d5-Ti6onew
* Pandas cheatsheet (oficial): https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf
* Pandas Datacamp cheatsheet: https://www.datacamp.com/community/blog/python-pandas-cheat-sheet#gs.eyIEEEg
* Consejos de rendimiento: http://slides.com/jeffreback/pfq-performance-pandas#/
