# Pandas

[Pandas](http://pandas.pydata.org/) es un paquete de Python que proporciona estructuras de datos similares a los dataframes de R. Pandas depende de Numpy, la librería que añade un potente tipo matricial a Python. Los principales tipos de datos que pueden representarse con pandas son:

- Datos tabulares con columnas de tipo heterogéneo con etiquetas en columnas y filas.
- Series temporales.

Pandas proporciona herramientas que permiten:

- Leer y escribir datos en diferentes formatos: CSV, Microsoft Excel, bases SQL y formato HDF5
- Seleccionar y filtrar de manera sencilla tablas de datos en función de posición, valor o etiquetas
- Fusionar y unir datos
- Transformar datos aplicando funciones tanto en global como por ventanas
- Manipulación de series temporales
- Hacer gráficas

En pandas existen tres tipos básicos de objetos todos ellos basados a su vez en Numpy:

1. Series (listas, 1D),
- DataFrame (tablas, 2D) y
- Panels (tablas 3D).

In [1]:
import pandas as pd

In [2]:
print(pd.__version__)

0.20.3


In [3]:
help(pd)

Help on package pandas:

NAME
    pandas

DESCRIPTION
    pandas - a powerful data analysis and manipulation library for Python
    
    **pandas** is a Python package providing fast, flexible, and expressive data
    structures designed to make working with "relational" or "labeled" data both
    easy and intuitive. It aims to be the fundamental high-level building block for
    doing practical, **real world** data analysis in Python. Additionally, it has
    the broader goal of becoming **the most powerful and flexible open source data
    analysis / manipulation tool available in any language**. It is already well on
    its way toward this goal.
    
    Main Features
    -------------
    Here are just a few of the things that pandas does well:
    
      - Easy handling of missing data in floating point as well as non-floating
        point data
      - Size mutability: columns can be inserted and deleted from DataFrame and
        higher dimensional objects
      - Automatic and

# 1. Series

Una serie (o *Series*) de Pandas es un arreglo unidimensional de datos indexados. Puede ser creado desde una lista o arreglo como sigue:

In [4]:
print([0.25,0.5,0.75,1])

[0.25, 0.5, 0.75, 1]


In [5]:
# Similar a un array de 1d, sólo que con índices
data = pd.Series([0.25,0.5,0.75,1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Como vemos en el resultado de la celda anterior, la Serie contiene una secuencia de valores y una secuencia de índices, a las cuales podemos acceder con los atributos `values` y `index`. Los valores son simplemente un arreglo de NumPy:

In [6]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

El índice es un objeto tipo arreglo.

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con un arreglo NumPy, los datos pueden ser accedidos por el índice asociado, haciendo uso de los corchetes:

In [8]:
data[3]

1.0

### Series como un arreglo de NumPy

De lo que hemos visto hasta ahora, puede parecer que el objeto `Series` es básicamente igual que un arreglo unidimensional NumPy. **La diferencia esencial es la presencia del índice**: mientras que el arreglo NumPy tiene un índice entero implícitamente definido, usado para acceder a los valores, la serie Pandas tiene un índice explícitamente definido con valores.

In [13]:
x = [0.25,0.5,0.75,1]
x

[0.25, 0.5, 0.75, 1]

In [14]:
data = pd.Series(x, index = ['machine','learning','2018-07-21','Primera Clase'])
data

machine          0.25
learning         0.50
2018-07-21       0.75
Primera Clase    1.00
dtype: float64

Y el acceso a los valores funciona como es esperado:

In [15]:
# leer un valor
data['machine']

0.25

In [16]:
# Asignar un nuevo valor
data['Fin de Clase'] = 18
data

machine           0.25
learning          0.50
2018-07-21        0.75
Primera Clase     1.00
Fin de Clase     18.00
dtype: float64

In [18]:
# Actualizar un nuevo valor
data['Fin de Clase'] = 2
data

machine          0.25
learning         0.50
2018-07-21       0.75
Primera Clase    1.00
Fin de Clase     2.00
dtype: float64

### Series como diccionario especializado

De esta manera, se puede pensar en una `Serie` Pandas un como un diccionario especializado. 

Un diccionario es una estructura que mapea llaves arbitrarias a un conjunto de valores arbitrarios, y una serie es una estructura que mapea llaves de un mismo tipo a un conjunto de valores de un mismo tipo. Este tipado (la exigencia de un tipo definido de dato) es importante: la información del tipo de datos de una serie Pandas la hace mucho más eficiente que los diccionarios Python para ciertas operaciones.

In [28]:
goles_favor_dict = {'Perú': 2, 
         'Brasil': 5, 
         'Colombia': 5, 
         'Argentina': 3, 
         'Uruguay': 5, 
         'Chile': 0}

goles_favor = pd.Series(goles_favor_dict)
goles_favor

Argentina    3
Brasil       5
Chile        0
Colombia     5
Perú         2
Uruguay      5
dtype: int64

In [30]:
goles_favor.sort_values(ascending=False)

Uruguay      5
Colombia     5
Brasil       5
Argentina    3
Perú         2
Chile        0
dtype: int64

Puedes notar que los índices han sido ordenados. Ese es el comportamiento por defecto de Pandas.

In [31]:
goles_favor["Perú"]

2

A diferencia de los diccionarios, las `Series` pueden soportar operaciones del tipo array tal como el **slicing**:

In [32]:
goles_favor["Brasil": "Colombia"]

Brasil      5
Chile       0
Colombia    5
dtype: int64

# 2. DataFrame

La siguiente estructura fundamental en Pandas es el **`DataFrame`**. Tal como el objeto `Series` discutido en la sección anterior, el `DataFrame` puede pensarse ya sea como una generalización de un arreglo NumPy, o como una especialización de un diccionario. Lo miraremos desde ambas perspectivas.

In [33]:
df = pd.DataFrame()
df

In [34]:
df = pd.DataFrame([ [1,2,3],[5,6,7] ], columns = ["col_1", "col_2","col_3"])
df

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,5,6,7


In [35]:
pd.DataFrame([ [1,2,3],[5,6,7] ])

Unnamed: 0,0,1,2
0,1,2,3
1,5,6,7


### DataFrame como un arreglo NumPy generalizado

Si una `Serie` es el análogo de un arreglo unidimensional con índices flexibles, un `DataFrame` es el análogo de un arreglo bidimensional con índices de fila y nombres de columna flexibles.

In [36]:
# Goles en contra
goles_contra_dict = {'Perú': 2, 
         'Brasil': 1, 
         'Colombia': 2, 
         'Argentina': 5, 
         'Uruguay': 0, 
         'Chile': 0}

goles_contra = pd.Series(goles_contra_dict)
goles_contra

Argentina    5
Brasil       1
Chile        0
Colombia     2
Perú         2
Uruguay      0
dtype: int64

Ahora con estas 2 series podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [37]:
dfGoles = pd.DataFrame({'goles_a_favor': goles_favor,
                       'goles_en_contra': goles_contra})
dfGoles

Unnamed: 0,goles_a_favor,goles_en_contra
Argentina,3,5
Brasil,5,1
Chile,0,0
Colombia,5,2
Perú,2,2
Uruguay,5,0


In [38]:
dfGoles['diferencia_goles'] = dfGoles['goles_a_favor'] - dfGoles['goles_en_contra']

In [39]:
dfGoles

Unnamed: 0,goles_a_favor,goles_en_contra,diferencia_goles
Argentina,3,5,-2
Brasil,5,1,4
Chile,0,0,0
Colombia,5,2,3
Perú,2,2,0
Uruguay,5,0,5


In [40]:
# Ver sólo la diferencia de goles
dfGoles["diferencia_goles"]

Argentina   -2
Brasil       4
Chile        0
Colombia     3
Perú         0
Uruguay      5
Name: diferencia_goles, dtype: int64

In [41]:
# Ver la diferencia de goles de Perú
dfGoles["diferencia_goles"]["Perú"]

0

In [42]:
# Índices
dfGoles.index

Index(['Argentina', 'Brasil', 'Chile', 'Colombia', 'Perú', 'Uruguay'], dtype='object')

In [43]:
# Columnas
dfGoles.columns

Index(['goles_a_favor', 'goles_en_contra', 'diferencia_goles'], dtype='object')

### DataFrame como diccionario especializado

De igual manera, podemos pensar en el `DataFrame` como la especialización de un diccionario. Tal como un diccionario asocia una llave a un valor, un `DataFrame` asocia un nombre de columna a una serie de datos. 

Por ejemplo, preguntar por el atributo **goles_a_favor** retorna el objeto `Serie` conteniendo las goles a favor que vimos antes:

In [44]:
dfGoles["goles_a_favor"]

Argentina    3
Brasil       5
Chile        0
Colombia     5
Perú         2
Uruguay      5
Name: goles_a_favor, dtype: int64

In [45]:
dfGoles["goles_en_contra"]

Argentina    5
Brasil       1
Chile        0
Colombia     2
Perú         2
Uruguay      0
Name: goles_en_contra, dtype: int64

### Construyendo objetos `DataFrame`
Un `DataFrame` Pandas puede ser construido de una variedad de formas. Veremos algunos ejemplos.

### Desde un único objeto `Series`
Un `DataFrame` es una colección de objetos `Series`, y un `DataFrame` de una sóla columna puede ser construido de una serie individual:

In [51]:
df = pd.DataFrame(data=goles_favor, columns=['goles_a_favor'], dtype=int)

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Argentina to Uruguay
Data columns (total 1 columns):
goles_a_favor    6 non-null int32
dtypes: int32(1)
memory usage: 232.0+ bytes


In [53]:
pd.DataFrame(data=goles_contra, columns=['goles_en_contra'], dtype=str)

Unnamed: 0,goles_en_contra
Argentina,5
Brasil,1
Chile,0
Colombia,2
Perú,2
Uruguay,0


### Desde un diccionario de objetos `Series`
Como vimos antes, un `DataFrame` puede ser construido a partir de un diccionario de objetos `Series` también:

In [54]:
pd.DataFrame(data={'goles_a_favor': goles_favor,
              'goles_en_contra': goles_contra}
            )

Unnamed: 0,goles_a_favor,goles_en_contra
Argentina,3,5
Brasil,5,1
Chile,0,0
Colombia,5,2
Perú,2,2
Uruguay,5,0


## 3. Leyendo un archivo CSV y haciendo operaciones comunes con Pandas

Definimos la ruta donde se encuentra el archivo .csv que queremos explorar.

In [55]:
clientes_path="data/clientes_sociodemografica.csv"
transacciones_path="data/transacciones.csv"

In [60]:
dfClientes=pd.read_csv(clientes_path, header=0, sep=',', encoding='latin1', dtype={"CODIGOCLIENTE":str})
dfTransacciones=pd.read_csv(transacciones_path, header=0, sep=',', encoding='latin1', dtype={"CODIGOCLIENTE":str})

Podemos ver una muestra de un DataFrame con el método `.head()`

In [61]:
dfClientes.head()

Unnamed: 0,MES,CODIGOCLIENTE,DISTRITO,EDAD,DEPARTAMENTO,FLG_CELULAR,FLG_EMAIL,FLG_PROCEDENCIA,FLG_TELEFONO,RNG_EDAD,RNG_INGRESO_BRUTO,PROVINCIA,PROFESION,SEXO,SITUACION_LABORAL
0,201702,28227742,MAGDALENA DEL MAR,32,LIMA,1,1,LIMA Y CALLAO,1,3. 28 - 45,4. 4000 - 9999,LIMA,INGENIERO,M,INDEPENDIENTE
1,201703,28048344,SANTIAGO,57,CUSCO,1,1,PROVINCIA,1,4. 46 - 65,4. 4000 - 9999,CUSCO,,F,DEPENDIENTE
2,201703,13431817,SAMEGUA,31,MOQUEGUA,1,0,PROVINCIA,0,3. 28 - 45,3. 1200 - 3999,MARISCAL NIETO,,F,INDEPENDIENTE
3,201702,28250322,SANTIAGO DE SURCO,47,LIMA,1,0,LIMA Y CALLAO,1,4. 46 - 65,3. 1200 - 3999,LIMA,,M,DEPENDIENTE
4,201703,25993588,ICA,28,ICA,1,0,PROVINCIA,0,3. 28 - 45,3. 1200 - 3999,ICA,,M,DEPENDIENTE


In [62]:
dfClientes.head().T

Unnamed: 0,0,1,2,3,4
MES,201702,201703,201703,201702,201703
CODIGOCLIENTE,00028227742,00028048344,00013431817,00028250322,00025993588
DISTRITO,MAGDALENA DEL MAR,SANTIAGO,SAMEGUA,SANTIAGO DE SURCO,ICA
EDAD,32,57,31,47,28
DEPARTAMENTO,LIMA,CUSCO,MOQUEGUA,LIMA,ICA
FLG_CELULAR,1,1,1,1,1
FLG_EMAIL,1,1,0,0,0
FLG_PROCEDENCIA,LIMA Y CALLAO,PROVINCIA,PROVINCIA,LIMA Y CALLAO,PROVINCIA
FLG_TELEFONO,1,1,0,1,0
RNG_EDAD,3. 28 - 45,4. 46 - 65,3. 28 - 45,4. 46 - 65,3. 28 - 45


In [63]:
dfClientes.tail().T

Unnamed: 0,522209,522210,522211,522212,522213
MES,201702,201703,201703,201703,201702
CODIGOCLIENTE,00028048547,00026521148,00028268195,00028249188,00027034454
DISTRITO,AYACUCHO,CERRO COLORADO,PUENTE PIEDRA,RIMAC,SAN BORJA
EDAD,42,31,36,57,32
DEPARTAMENTO,AYACUCHO,AREQUIPA,LIMA,LIMA,LIMA
FLG_CELULAR,1,1,1,1,1
FLG_EMAIL,0,1,0,1,1
FLG_PROCEDENCIA,PROVINCIA,PROVINCIA,LIMA Y CALLAO,LIMA Y CALLAO,LIMA Y CALLAO
FLG_TELEFONO,1,1,1,1,1
RNG_EDAD,3. 28 - 45,3. 28 - 45,3. 28 - 45,4. 46 - 65,3. 28 - 45


In [64]:
dfTransacciones.head()

Unnamed: 0,MES,CODIGOCLIENTE,MONTO_TRX,CANT_TRX
0,201701,27054023,0.0,0
1,201701,26460063,100.0,1
2,201701,25145314,0.0,0
3,201701,24682578,0.0,0
4,201701,17053741,2000.0,4


In [65]:
dfTransacciones.tail()

Unnamed: 0,MES,CODIGOCLIENTE,MONTO_TRX,CANT_TRX
522209,201703,26594725,0.0,0
522210,201701,28483564,150.0,1
522211,201703,25669428,0.0,0
522212,201702,29309812,200.0,1
522213,201703,11081424,0.0,13


Podemos ver las dimensiones de un DataFrame con la propiedad `.shape`

In [66]:
dfClientes.shape

(522214, 15)

In [67]:
dfClientes.shape[0]

522214

In [68]:
dfClientes.shape[1]

15

In [69]:
dfTransacciones.shape

(522214, 4)

Podemos ver información general sobre un DataFrame con el método `.info()`.

In [70]:
dfClientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 522214 entries, 0 to 522213
Data columns (total 15 columns):
MES                  522214 non-null int64
CODIGOCLIENTE        522214 non-null object
DISTRITO             522214 non-null object
EDAD                 522214 non-null int64
DEPARTAMENTO         522214 non-null object
FLG_CELULAR          522214 non-null int64
FLG_EMAIL            522214 non-null int64
FLG_PROCEDENCIA      522214 non-null object
FLG_TELEFONO         522214 non-null int64
RNG_EDAD             522214 non-null object
RNG_INGRESO_BRUTO    522214 non-null object
PROVINCIA            522214 non-null object
PROFESION            93146 non-null object
SEXO                 518435 non-null object
SITUACION_LABORAL    522214 non-null object
dtypes: int64(5), object(10)
memory usage: 59.8+ MB


In [71]:
dfTransacciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 522214 entries, 0 to 522213
Data columns (total 4 columns):
MES              522214 non-null int64
CODIGOCLIENTE    522214 non-null object
MONTO_TRX        522214 non-null float64
CANT_TRX         522214 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 15.9+ MB


Podemos ver estadísticas descriptivas de los datos de un DataFrame con el método `.describe()`

In [72]:
dfClientes.describe(percentiles=[.1, .25, .5, .75, .9, .95])

Unnamed: 0,MES,EDAD,FLG_CELULAR,FLG_EMAIL,FLG_TELEFONO
count,522214.0,522214.0,522214.0,522214.0,522214.0
mean,201702.065492,38.965367,0.900351,0.778552,0.737925
std,0.799342,11.519734,0.299531,0.415221,0.439763
min,201701.0,0.0,0.0,0.0,0.0
10%,201701.0,26.0,1.0,0.0,0.0
25%,201701.0,30.0,1.0,1.0,0.0
50%,201702.0,36.0,1.0,1.0,1.0
75%,201703.0,46.0,1.0,1.0,1.0
90%,201703.0,56.0,1.0,1.0,1.0
95%,201703.0,62.0,1.0,1.0,1.0


In [73]:
dfTransacciones.describe(percentiles=[.1, .25, .5, .75, .9, .95])

Unnamed: 0,MES,MONTO_TRX,CANT_TRX
count,522214.0,522214.0,522214.0
mean,201702.065492,157.146068,1.079224
std,0.799342,773.288865,4.434939
min,201701.0,0.0,0.0
10%,201701.0,0.0,0.0
25%,201701.0,0.0,0.0
50%,201702.0,0.0,0.0
75%,201703.0,50.0,1.0
90%,201703.0,450.0,3.0
95%,201703.0,860.0,5.0


Si quiero listar las columnas de un dataframe uso la propiedad `.columns`

In [74]:
print(list(dfClientes.columns))

['MES', 'CODIGOCLIENTE', 'DISTRITO', 'EDAD', 'DEPARTAMENTO', 'FLG_CELULAR', 'FLG_EMAIL', 'FLG_PROCEDENCIA', 'FLG_TELEFONO', 'RNG_EDAD', 'RNG_INGRESO_BRUTO', 'PROVINCIA', 'PROFESION', 'SEXO', 'SITUACION_LABORAL']


Para acceder a los datos podemos usar los `[]` y/o los métodos `iloc[]` y `loc[]`

In [75]:
dfClientes["EDAD"].head(3)

0    32
1    57
2    31
Name: EDAD, dtype: int64

In [None]:
dfClientes.loc[:, "FLG_CELULAR"].head(3)

In [None]:
dfClientes.iloc[:, 2].head(3)

¿Y si quiero hacer Filtros?¿Qué debería usar?

In [None]:
dfClientes["MES"] == 201701

In [None]:
# Solo Analizar el periodo 201701
dfClientes.loc[dfClientes["MES"] == 201701].head()

In [None]:
# Solo Analizar el periodo 201701 y a aquellos clientes que son menores de 30 años
dfClientes.loc[(dfClientes["MES"] == 201701) & (dfClientes["EDAD"] < 30)].head()

In [None]:
# Encontrar el 20vo registro de mi DataFrame
dfClientes.iloc[20, :]

In [None]:
# Encontrar los registros que se encuentran entre las posiciones [10mo - 20vo] de mi DataFrame
dfClientes.iloc[10:20, :]

In [None]:
# Encontrar los registros que se encuentran entre las posiciones [10mo - 20vo] de mi DataFrame
# pero sólo con las columnas de MES DISTRITO y EDAD
dfClientes.iloc[10: 20, [0, 2, 3]]

In [None]:
dfClientes.ix[10: 20, [0, 2, 3]]

In [None]:
dfClientes.head()

In [None]:
# Y si quiero actualizar el valor de una columna de los registros que cumplan una condición
dfClientes.loc[dfClientes["CODIGOCLIENTE"] == "00028227742", "EDAD"] = 26

In [None]:
# Y si quiero actualizar el valor de una columna en base a su índice en el DataFrame
dfClientes.iloc[1, 3] = 50

In [None]:
dfClientes.head()

Podemos hacer agrupaciones usando el método `.groupby()`

In [None]:
dfClientes.groupby("MES").count()

In [None]:
dfClientes.groupby("MES")["EDAD"].mean()

In [None]:
dfClientes.groupby("MES").agg({"CODIGOCLIENTE": ["count", "nunique"],
                               "EDAD": ["mean", "median"],
                               "DISTRITO": [pd.Series.mode, "nunique"],
                               "FLG_EMAIL": "mean",
                               "FLG_TELEFONO": "mean",
                               "RNG_EDAD": [pd.Series.mode],
                               "RNG_INGRESO_BRUTO": pd.Series.mode,
                               "SEXO": pd.Series.mode
                              })

Y ... ¿puedo agrupar por más de una columna?

In [None]:
dfClientes.groupby(["MES", "SEXO"]).agg({"CODIGOCLIENTE": ["count", "nunique"],
                               "EDAD": ["mean", "median"],
                               "DISTRITO": [pd.Series.mode, "nunique"],
                               "FLG_EMAIL": "mean",
                               "FLG_TELEFONO": "mean",
                               "RNG_EDAD": [pd.Series.mode],
                               "RNG_INGRESO_BRUTO": pd.Series.mode
                              })

Pero estoy notando de que las columnas por las que agrupo son índices del DataFrame resultado. ¿Podría usarlas como columnas?

In [None]:
dfClientes.groupby(["MES", "SEXO"], as_index=False).agg({"CODIGOCLIENTE": ["count", "nunique"],
                               "EDAD": ["mean", "median"],
                               "DISTRITO": [pd.Series.mode, "nunique"],
                               "FLG_EMAIL": "mean",
                               "FLG_TELEFONO": "mean",
                               "RNG_EDAD": [pd.Series.mode],
                               "RNG_INGRESO_BRUTO": pd.Series.mode
                              })

¿Y si quiero renombrar algunas columnas?

In [None]:
dfClientes

In [None]:
dfClientes.rename(columns = {'PROFESION':'CARGO'}, inplace = True)

Para realizar cruces entre DataFrames usar el método `merge()`.

In [None]:
df = dfClientes.merge(dfTransacciones, how="left", on=["MES", "CODIGOCLIENTE"])

In [None]:
df.tail().T

Pero veo que existe un método llamado `join()`. ¿Tienen la misma funcionalidad?

In [None]:
dfClientes.join(dfTransacciones, on=["MES", "CODIGOCLIENTE"])

Pues la respuesta es que **`No`**. El método `join()` se usa cuando se quiere cruzar dos DataFrames en base a sus índices o en base al(a los) índice(s) de un DataFrame con la(s) columna(s) de la otra.

In [None]:
dfClientes.join(dfTransacciones, lsuffix='_L', rsuffix='_R')

¿Te acuerdas de las tablas dinámicas de Excel? Pues, DataFrame tiene una funcionalidad parecida.

In [None]:
dfClientes.pivot_table(index="MES", columns="RNG_EDAD", values="EDAD", aggfunc="mean", margins=True, margins_name='Todo')

#### Programación Funcional con Pandas
Las funciones `lambda`, `map` y `filter` vistas en los notebooks anteriores, son utilizadas por los DataFrames.

In [None]:
# Defino una función lambda para poder sumar una unidad a un valor
sumar_1 = lambda x: x + 1

##### Lambda

Con el método `apply` puedo utilizar las funciones definidas a una columna o a un conjunto de ellas.

In [None]:
# Sumar una unidad a una columna
df["EDAD"].apply(sumar_1)

In [None]:
# Sumar una unidad a una columna sin usar el .apply()
df["EDAD"] + 1

¿Puedo hacer operaciones con más de una columna?

In [None]:
monto_promedio = lambda row: round(row["MONTO_TRX"] / row["CANT_TRX"], 2) if row["CANT_TRX"] > 0 else 0

In [None]:
df["MONTO_PROMEDIO"] = df.apply(monto_promedio, axis=1)

In [None]:
df

##### Map
Nos permite asociar un valor con otro.

In [None]:
ingreso_rng_dict = {v: k for k, v in enumerate(df["RNG_INGRESO_BRUTO"].unique().tolist())}
ingreso_rng_dict

In [None]:
df["RNG_INGRESO_BRUTO_COD"] = df["RNG_INGRESO_BRUTO"].map(ingreso_rng_dict)

##### Filter
Nos permite filtrar en base a los índices en cualquiera de los axis.

In [None]:
df.filter(items=["MES", "CODIGOCLIENTE"], axis=1)

In [None]:
# Filtrar solo las columnas que son FLG
df.filter(like="FLG_", axis=1)

# Caso de Aplicación
Practiquemos con nuestros datos de Facebook. En esta oportunidad, haremos uso de una de las herramientas de Facebook llamado **Facebook Graph** con el fin de extraer los datos generales por el uso en su Plataforma.

Previo a su uso, necesitamos tener instalado el sdk de Facebook para python.

In [None]:
!pip install facebook-sdk

### API Graph de Facebook

El Explorador de API Graph es una herramienta que te permite construir y realizar consultas a la API Graph y ver sus respuestas, para cualquier aplicación en la que tenga un rol de administrador, desarrollador o tester.

La herramienta es extremadamente útil durante el desarrollo de aplicaciones porque hereda todas las configuraciones de su aplicación, incluidos los permisos de inicio de sesión aprobados, las funciones y la configuración de los productos que haya agregado.

Puedes probarlo en el siguiente enlace: [API Graph de Facebook](https://developers.facebook.com/tools/explorer/?classic=0)

<img src="images/facebook-graph.png" width="700">

### Perfil Público
A continuación, se muestra un ejemplo del uso de Graph de Facebook para extraer nuestro Perfil Público.

In [1]:
import json
import facebook
import requests
import pandas as pd

In [2]:
fb_token = "EAACoxsqOdRQBAMWdlzVOTZCVZCbsYpKahZApDsS1veUJLPVEgZAo6vk70IkLrxKkzQTOSYkqwlTiwsd6twdbiTHjjQ9EWahenyGuPIIzajigz4ceSZCwdJZAZCZBGj9ZAk3BkAe8wSzw9viGqW8GG09ZANoAh7mX7rL7DCNHPHoSzXHDL5rnzoKEnZAGsiY7O07Kr8ZD"
graph = facebook.GraphAPI(access_token=fb_token)

In [3]:
graph.get_permissions("1735180309878057")

{'email',
 'manage_pages',
 'pages_messaging',
 'pages_messaging_phone_number',
 'pages_messaging_subscriptions',
 'pages_show_list',
 'public_profile',
 'user_birthday',
 'user_friends',
 'user_likes',
 'user_posts',
 'user_tagged_places'}

In [4]:
perfil = graph.get_object("me", fields='id,\
                                        email,\
                                        first_name,\
                                        last_name,\
                                        name,\
                                        birthday,\
                                        age_range,\
                                        gender,\
                                        location{general_info,location},\
                                        languages{name,description},\
                                        picture.width(500).height(500)')

In [5]:
print(json.dumps(perfil, indent=4))

{
    "id": "1735180309878057",
    "email": "michael7000_2@hotmail.com",
    "first_name": "Michael Bryan",
    "last_name": "Larico Barzola",
    "name": "Michael Bryan Larico Barzola",
    "birthday": "04/14/1994",
    "languages": [
        {
            "name": "Ingles",
            "id": "110867825605119"
        }
    ],
    "picture": {
        "data": {
            "height": 720,
            "is_silhouette": false,
            "url": "https://platform-lookaside.fbsbx.com/platform/profilepic/?asid=1735180309878057&height=500&width=500&ext=1535988174&hash=AeReIJgyfZo8rjaT",
            "width": 720
        }
    }
}


¿Cómo lo puedo tranformar a un DataFrame?

In [6]:
dfPerfil = pd.DataFrame.from_dict(perfil, orient="index").T

In [7]:
dfPerfil.head()

Unnamed: 0,id,email,first_name,last_name,name,birthday,languages,picture
0,1735180309878057,michael7000_2@hotmail.com,Michael Bryan,Larico Barzola,Michael Bryan Larico Barzola,04/14/1994,"[{'name': 'Ingles', 'id': '110867825605119'}]","{'data': {'height': 720, 'is_silhouette': Fals..."


### Likes

Ahora, haremos uso de Graph de Facebook para extraer nuestros Likes.

In [8]:
l = []
likes = graph.get_connections('me', 'likes', fields='id,name,created_time,link,description,category,fan_count')
while True:
    try:
        if 'data' in likes.keys():
            l += likes['data']
            likes = requests.get(likes['paging']['next']).json()
    except KeyError:
        break

In [9]:
print("Se han extraído {0} likes".format(len(l)))
print("Un ejemplo de un registro de Like: \n")
print(json.dumps(l[0], indent=4))

Se han extraído 605 likes
Un ejemplo de un registro de Like: 

{
    "id": "164338080265686",
    "name": "Cisco Latinoam\u00e9rica",
    "link": "https://www.facebook.com/CiscoLatinoamerica/",
    "description": "Gu\u00eda de P\u00e1gina de Facebook de Cisco. \n\n\u00a1Bienvenido a la p\u00e1gina oficial de Cisco Latinoam\u00e9rica en Facebook!\n\nEst\u00e1 p\u00e1gina tiene el objetivo de proveer informaci\u00f3n acerca de Cisco, sus productos y soluciones y las actividades de la empresa en Latinoam\u00e9rica; as\u00ed como interactuar con el p\u00fablico en un di\u00e1logo abierto sobre temas relacionados. En esta p\u00e1gina tambi\u00e9n ofrecemos ocasionalmente regal\u00edas, rifas, concursos e informaci\u00f3n sobre eventos. Le invitamos a unirse a la conversaci\u00f3n y dejar sus comentarios. \n\nComentarios o respuestas que sean ofensivas, abusivas, difamatorias o de car\u00e1cter publicitario, o que est\u00e9n fuera de contexto son sujeto de ser removidas. \n\nQueremos conocer

A partir de la lista generada de likes, crea un DataFrame llamado `dfLikes` y ordena las columnas de la siguiente manera: `id, name, created_time, link, description, category y fan_count`.

In [10]:
dfLikes = pd.DataFrame(l)[["id", "name", "created_time", "link", "description", "category", "fan_count"]]

In [11]:
dfLikes.head()

Unnamed: 0,id,name,created_time,link,description,category,fan_count
0,164338080265686,Cisco Latinoamérica,2016-02-20T01:26:52+0000,https://www.facebook.com/CiscoLatinoamerica/,Guía de Página de Facebook de Cisco. \n\n¡Bien...,Computer Company,1554211
1,107810395970444,Redbubble,2018-07-29T19:51:10+0000,https://www.facebook.com/Redbubble/,"From hobbyists to pros, we have artists share ...",Product/Service,800950
2,603226016373047,Slides,2018-07-29T19:34:37+0000,https://www.facebook.com/slidesapp/,,App Page,2740
3,101291573906616,Data Science Research Perú,2018-07-19T04:40:55+0000,https://www.facebook.com/DataScienceResearch/,,Media/News Company,446
4,1528711564024672,Silicon Valley Memes & Quotes,2018-07-16T05:20:48+0000,https://www.facebook.com/Silicon-Valley-Memes-...,,Community,2786


Demos un vistazo general al DataFrame para saber cuántos registros y columnas tiene, cuánto pesa, qué tipos de datos contiene y la cantidad de nulos por columna.

In [12]:
dfLikes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 605 entries, 0 to 604
Data columns (total 7 columns):
id              605 non-null object
name            605 non-null object
created_time    599 non-null object
link            605 non-null object
description     374 non-null object
category        605 non-null object
fan_count       605 non-null int64
dtypes: int64(1), object(6)
memory usage: 33.2+ KB


Si nos damos cuenta, la columna **created_time** es del tipo `Object`. Necesitamos crear una nueva columna que tenga el formato "YYYYMMDD".

In [None]:
# importar la librería datetime
from datetime import datetime

In [None]:
# Eliminar los registros que tengan nulos en la columna "created_time"
dfLikes.dropna(subset=["created_time"], inplace=True)

In [None]:
# Crear la nueva columna usando funciones de la librería datetime
dfLikes["date"] = dfLikes["created_time"].apply(lambda d: datetime.strptime(d, '%Y-%m-%dT%H:%M:%S+%f').strftime('%Y%m%d'))

Ordena el DataFrame `dfLikes` por el nuevo campo **date** de forma ascendente.

In [None]:
dfLikes.sort_values(by="date", ascending=True, inplace=True)

¿Cómo ha sido mi comportamiento diario dando likes? Es decir, ¿Cuántos likes he dado en cada día?

In [None]:
# Agrupar por día y contar la cantidad de páginas a las que les dí likes
dfLikes.groupby("date").agg({"id": "count"})

¿Cómo ha sido mi comportamiento mensual dando likes? Es decir, ¿Cuántos likes he dado en cada mes?

In [None]:
# Crear la nueva columna usando funciones de la librería datetime
dfLikes["periodo"] = dfLikes["created_time"].apply(lambda d: datetime.strptime(d, '%Y-%m-%dT%H:%M:%S+%f').strftime('%Y%m'))

In [None]:
# Agrupar por periodo y contar la cantidad de páginas a las que les dí likes
dfLikes.groupby("periodo").agg({"id": "count"})

In [None]:
# Crear la nueva columna usando funciones de la librería datetime
dfLikes["año"] = dfLikes["created_time"].apply(lambda d: datetime.strptime(d, '%Y-%m-%dT%H:%M:%S+%f').strftime('%Y'))

In [None]:
# Agrupar por Año y contar la cantidad de páginas a las que les dí likes
dfLikes.groupby("año").agg({"id": "count"})

In [None]:
# Agrupar por año y obtener el promedio de la cantidad de fans de las páginas a las que les dí likes
dfLikes.groupby("año").agg({"fan_count": "mean"}).astype(int)

Ordenemos los registros en base a la columna created_time

In [None]:
dfLikes.sort_values(by="date", ascending=True, inplace=True)

Agrupemos los likes por categoría, y ordenarlos de forma descendente en base a la cantidad de likes.

In [None]:
dfLikes.groupby("category", as_index=False).agg({"id": "count"})

Crear una Pivot Table, donde pueda observar la cantidad de páginas por año (columnas) y categoría (índices).

In [None]:
dfLikesPivot = dfLikes.pivot_table(index="category", columns=["año"], values="id", aggfunc="count", fill_value=0, margins=True)

En base a la tabla anterior, identificar cuántos likes he dado sólo a páginas de la categoría **Education**.

In [None]:
dfLikesPivot.reset_index(inplace=True)
dfLikesPivot.loc[dfLikesPivot["category"] == "Education"]

### Tagged Places

Ahora, haremos uso de Graph de Facebook para extraer nuestras Etiquetas.

In [None]:
l = []
etiquetas = graph.get_connections("me", "tagged_places", fields='id,created_time,place')
while True:
    try:
        if 'data' in etiquetas.keys():
            l += etiquetas['data']
            etiquetas = requests.get(etiquetas['paging']['next']).json()
    except:
        break

In [None]:
print("Se han extraído {0} etiquetas".format(len(l)))
print("Un ejemplo de un registro de Etiqueta: \n")
print(json.dumps(l[0], indent=4))

A partir de la lista generada de etiquetas, crea un DataFrame llamado `dfEtiquetas` y ordena las columnas de la siguiente manera: `id, created_time y place`.

In [None]:
dfEtiquetas = pd.DataFrame(l)[["id", "created_time", "place"]]

Demos un vistazo general al DataFrame para saber cuántos registros y columnas tiene, cuánto pesa, qué tipos de datos contiene y la cantidad de nulos por columna.

In [None]:
dfEtiquetas.info()

Si nos damos cuenta, la columna **created_time** es del tipo `Object`. Necesitamos crear una nueva columna que tenga el formato "YYYYMMDD".

In [None]:
# Eliminar los registros que tengan nulos en la columna "created_time"
dfEtiquetas.dropna(subset=["created_time"], inplace=True)

In [None]:
# Crear la nueva columna usando funciones de la librería datetime
dfEtiquetas["date"] = dfEtiquetas["created_time"].apply(lambda d: datetime.strptime(d, '%Y-%m-%dT%H:%M:%S+%f').strftime('%Y%m%d'))

In [None]:
# Crear 2 nuevas columnas llamadas longitude y latitude, basados en el campo place
dfEtiquetas["latitude"] = dfEtiquetas["place"].apply(lambda p: p["location"]["latitude"])
dfEtiquetas["longitude"] = dfEtiquetas["place"].apply(lambda p: p["location"]["longitude"])

In [None]:
dfEtiquetas

In [None]:
# ¿En cuántas ciudades he sido etiquetado?... Y ¿Cuántas veces he sido etiquetado en cada ciudad?
dfEtiquetas["city"] = dfEtiquetas["place"].apply(lambda p: p["location"]["city"] if "city" in p["location"].keys() else None)

In [None]:
dfEtiquetas.groupby("city", as_index=False).agg({"id": "count"}).sort_values(by="id", ascending=False)