# 3. Procesamiento de datos con Pandas

[Pandas](https://pandas.pydata.org/) es una biblioteca de Python creada por Wes McKinney en 2008 como un proyecto de código abierto, mantenido por una comunidad de más de 100 desarrolladores.

**Instalación:**

```console
$ python3 -m pip install --upgrade pip
$ python3 -m pip install pandas
```

## 3.1. La estructura de datos 'Series'

La serie es una de las estructuras de datos centrales de Pandas. Puede pensarse como una combinación entre una lista y un diccionario ya que los elementos son almacenados en un determinado orden y existen etiquetas para acceder a ellos.

Una manera simple de visualizarlo es como dos columnas de datos. La primera es el índice espacial (muy similar a las claves de los diccionarios); la segunda contiene los datos. Es importante distinguir que la columna de los datos tiene una etiqueta propia que puede ser accedida mediante el atributo `.name`.

![Series](img/series.png)

In [1]:
import pandas as pd

In [2]:
animales = ['Yaguareté', 'Tigre', 'Oso Panda']
pd.Series(animales)

0    Yaguareté
1        Tigre
2    Oso Panda
dtype: object

In [3]:
numeros = [1, 2, 3]
pd.Series(numeros)

0    1
1    2
2    3
dtype: int64

In [4]:
animales = ['Yaguareté', 'Tigre', None]
pd.Series(animales)

0    Yaguareté
1        Tigre
2         None
dtype: object

In [5]:
numeros = [1, 2, None]
pd.Series(numeros)

0    1.0
1    2.0
2    NaN
dtype: float64

In [6]:
import numpy as np
np.nan == None

False

In [7]:
np.nan == np.nan

False

In [8]:
np.isnan(np.nan)

True

In [9]:
deportes = {'Fútbol': 'Inglaterra',
            'Golf': 'Escocia',
            'Sumo': 'Japón',
            'Taekwondo': 'Corea del Sur'}
s = pd.Series(deportes)
s

Fútbol          Inglaterra
Golf               Escocia
Sumo                 Japón
Taekwondo    Corea del Sur
dtype: object

In [10]:
s.index

Index(['Fútbol', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [11]:
s = pd.Series(['Yaguareté', 'Tigre', 'Oso Panda'], index=['Argentina', 'India', 'China'])
s

Argentina    Yaguareté
India            Tigre
China        Oso Panda
dtype: object

In [12]:
deportes = {'Arquería': 'Bután',
            'Golf': 'Escocia',
            'Sumo': 'Japón',
            'Taekwondo': 'Corea del Sur'}
s = pd.Series(deportes, index=['Golf', 'Sumo', 'Hockey'])
s

Golf      Escocia
Sumo        Japón
Hockey        NaN
dtype: object

### 3.1.1. Consultas sobre una Serie

In [13]:
deportes = {'Arquería': 'Bután',
            'Golf': 'Escocia',
            'Sumo': 'Japón',
            'Taekwondo': 'Corea del sur'}
s = pd.Series(deportes)
s

Arquería             Bután
Golf               Escocia
Sumo                 Japón
Taekwondo    Corea del sur
dtype: object

Se puede acceder al atributo `iloc` para obtener el valor en una posición determinada:

In [14]:
s.iloc[3]

'Corea del sur'

El atributo `loc` es muy similar pero se utiliza el índice en lugar de la posición para acceder al valor:

In [15]:
s.loc['Golf']

'Escocia'

También es posible acceder a estos atributos de manera implícita utilizando los corchetes directamente. Python se dará cuenta cuál utilizar dependiendo del tipo de dato que se pase entre corchetes (`iloc` si se pasa un número entero y `loc` si es una cadena de caracteres). En el caso de que tanto los índices como los datos sean números enteros habrá que utilizar los atributos de manera explícita.

In [16]:
s[3]

'Corea del sur'

In [17]:
s['Golf']

'Escocia'

In [18]:
deportes = {99: 'Bután',
           100: 'Escocia',
           101: 'Japón',
           102: 'Corea del Sur'}
s = pd.Series(deportes)

In [None]:
s[0] # Esto no invoca a s.iloc[0] sino que genera un error

### 3.1.2. Operaciones sobre una Serie

Una tarea muy común es la de realizar una operación sobre cada uno de los elementos de una serie. El enfoque típico sería el de recorrer cada uno de los elementos y realizar la operación en cada paso. Esto funciona pero es bastante lento.

In [19]:
s = pd.Series([100.00, 120.00, 101.00, 3.00])
s

0    100.0
1    120.0
2    101.0
3      3.0
dtype: float64

In [20]:
total = 0
for item in s:
    total+=item
print(total)

324.0


Tanto Pandas como NumPy son capaces de utilizar un método de computación denominado vectorización que permite realizar varias tareas simultáneamente. El ejemplo anterior se puede realizar más eficientemente mediante el método `sum` de NumPy que recibe un objeto iterable por parámetro (en este caso una serie):

In [21]:
import numpy as np

total = np.sum(s)
print(total)

324.0


Mediante la función `timeit` podemos calcular los tiempos de cada enfoque para compararlos:

In [22]:
# Esto crea una serie grande de números aleatorios
s = pd.Series(np.random.randint(0,1000,10000))
s.head() # muestra los primeros cinco elementos

0    971
1    144
2    934
3    490
4    994
dtype: int32

In [23]:
len(s)

10000

In [24]:
%%timeit -n 1000
summary = 0
for item in s:
    summary+=item

709 µs ± 37.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [25]:
%%timeit -n 1000
summary = np.sum(s)

116 µs ± 15.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


#### 3.1.2.1. Broadcasting

In [26]:
s+=2 # suma 2 a cada elemento usando broadcasting
s.head() # muestra los primeros cinco elementos

0    973
1    146
2    936
3    492
4    996
dtype: int32

In [27]:
for label, value in s.iteritems():
    s.loc[label] = value+2
s.head()

0    975
1    148
2    938
3    494
4    998
dtype: int32

In [None]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,1000,10000))
for label, value in s.iteritems():
    s.loc[label]= value+2

In [None]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,1000,10000))
s+=2


#### 3.1.2.2. Adición de elementos con .loc

El atributo `.loc` no solo permite modificar los datos de la serie sino también agregar datos nuevos. Si el valor pasado como índice no existe, se crea un nuevo registro.

In [30]:
s = pd.Series([1, 2, 3])
s.loc['Animal'] = 'Osos'
s

0            1
1            2
2            3
Animal    Osos
dtype: object

In [31]:
deportes_originales = pd.Series({'Fútbol': 'Inglaterra',
                                 'Golf': 'Escocia',
                                 'Sumo': 'Japón',
                                 'Taekwondo': 'Corea del Sur'})

paises_que_aman_el_criquet = pd.Series(['Australia',
                                        'Barbados',
                                        'Pakistan',
                                        'Inglaterra'], 
                                   index=['Criquet',
                                          'Criquet',
                                          'Criquet',
                                          'Criquet'])

todos_los_paises = deportes_originales.append(paises_que_aman_el_criquet)

AttributeError: 'dict' object has no attribute 'append'

In [None]:
deportes_originales

In [None]:
paises_que_aman_el_criquet

In [None]:
todos_los_paises

In [None]:
todos_los_paises.loc['Criquet']

## 3.2. La estructura de datos DataFrame

Un DataFrame es, básicamente, una serie bidimensional, en donde se tiene un índice y múltiples columnas de contenido y con una etiqueta para cada una de ellas. De hecho, la distinción entre una columna y una fila es simplemente conceptual.

![DataFrame](img/data-frame.png)

In [None]:
import pandas as pd
compra_1 = pd.Series({'Nombre': 'Pedro',
                        'Item comprado': 'Comida para perros',
                        'Precio': 22.50})
compra_2 = pd.Series({'Nombre': 'Pablo',
                        'Item comprado': 'Collar para gato',
                        'Precio': 2.50})
compra_3 = pd.Series({'Nombre': 'Maria',
                        'Item comprado': 'Semillas para pájaros',
                        'Precio': 5.00})

df = pd.DataFrame([compra_1, compra_2, compra_3], index=['Tienda 1', 'Tienda 1', 'Tienda 2'])
df.head()

Al igual que en una serie, se puede utilizar el atributo `.loc` pasando el valor del índice, con la diferencia que en este caso devolverá una serie entera, que contendrá los valores de toda esa fila.

In [None]:
df.loc['Tienda 2']

In [None]:
type(df.loc['Tienda 2'])

Si existe más de un valor para el índice deseado, se devolverá un dataframe en lugar de una serie.

In [None]:
df.loc['Tienda 1']

Se pueden pasar más de un parámetro al atributo `.loc` en donde el primero representa el índice y el segundo el nombre de la columna deseada.

In [None]:
df.loc['Tienda 1', 'Precio']

Existen distintas formas de proceder si quisiéramos obtener un listado de todos los elementos de una determinada columna. Una manera poco eficiente sería realizar primero una transposición del dataframe para luego acceder a la columna deseada como un índice.

In [None]:
df.T

In [None]:
df.T.loc['Precio']

Pero como las columnas tienen etiquetas no es necesario y se puede acceder directamente a ellas por su nombre:

In [None]:
df['Precio']

Los operadores se pueden encadenar para acceder a posiciones específicas del dataframe pero es mejor evitarlo.

In [None]:
df.loc['Tienda 1']['Precio']

Otra manera más eficiente es de la siguiente manera:

In [None]:
df.loc[:,['Nombre', 'Precio']]

**Eliminar una fila:**

In [None]:
df.drop('Tienda 1')

El método `drop` en realidad no elimina la columna sino que la devuelve sin modificar el dataframe.

In [None]:
df

In [None]:
copy_df = df.copy()
copy_df = copy_df.drop('Tienda 1')
copy_df

In [None]:
del copy_df['Nombre']
copy_df

**Agregar una columna:**

In [None]:
df['Ubicación'] = None
df

**Modificar una columna:**

El siguiente ejemplo muestra cómo aplicar un descuento del 20% sobre cada uno de los precios del dataframe anterior:

In [None]:
df['Precio'] *= 0.8
df

### 3.2.1. Indexación y carga de un dataframe

In [None]:
precio = df['Precio']
precio

In [None]:
precio+=2
precio

In [None]:
df

En el siguiente ejemplo se utilizará un conjunto de datos sobre los juegos olímpicos. Si quisiéramos abrirlo rápidamente desde Jupyter sin tener que utilizar Python, se puede acceder directamente al comando `cat`:
```console
!cat datos/olympics.csv
```

Pero normalmente se puede abrir un archivo en formato CSV y transformarlo automáticamente en un dataframe:

In [None]:
df = pd.read_csv('datos/olympics.csv')
df.head()

El método `read_csv` considerará la primera fila del archivo como la primera del conjunto de datos y establecerá índices numéricos por defecto. Si quisiéramos que tome a la primera columna como índices y a la primera fila como nombres de las columnas se lo puede explicitar con parámetros adicionales:

In [None]:
df = pd.read_csv('datos/olympics.csv', index_col = 0, skiprows=1)
df.head()

In [None]:
df.columns

El siguiente ejemplo muestra cómo modificar los nombres de las columnas:

In [None]:
for col in df.columns:
    if col[:2]=='01':
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 

df.head()

### 3.2.2. Consultas sobre un dataframe

Una máscara booleana es un arreglo que puede ser unidimensional, como una serie, o bidimensional, como un dataframe, en donde cada uno de los valores del arreglo son o bien *True* o *False*. Este arreglo es superpuesto sobre la estructura de datos sobre la cual realizaremos una consulta, de manera tal que cualquier celda que coincida con el valor *True* de la máscara booleana será admitido en el resultado final.

![Boolean mask](img/boolean-mask.png)

In [None]:
df['Gold'] > 0

In [None]:
solo_oro = df.where(df['Gold'] > 0)
solo_oro.head()

In [None]:
solo_oro['Gold'].count()

In [None]:
df['Gold'].count()

El método `dropna` permite eliminar filas que no tengan valores.

In [None]:
solo_oro = solo_oro.dropna()
solo_oro.head()

In [None]:
solo_oro = df[df['Gold'] > 0]
solo_oro.head()

In [None]:
len(df[(df['Gold'] > 0) | (df['Gold.1'] > 0)])

In [None]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

### 3.2.3. Indexación de dataframes

In [None]:
df.head()

In [None]:
df['country'] = df.index
df = df.set_index('Gold')
df.head()

In [None]:
df = df.reset_index()
df.head()

El siguiente ejemplo toma los datos de un censo sobre la población de cada condado de los Estados Unidos de América.

In [None]:
df = pd.read_csv('datos/census.csv')
df.head()

In [None]:
df['SUMLEV'].unique() # similar a DISTINCT de SQL

In [None]:
df=df[df['SUMLEV'] == 50]
df.head()

In [None]:
columns_to_keep = ['STNAME',
                   'CTYNAME',
                   'BIRTHS2010',
                   'BIRTHS2011',
                   'BIRTHS2012',
                   'BIRTHS2013',
                   'BIRTHS2014',
                   'BIRTHS2015',
                   'POPESTIMATE2010',
                   'POPESTIMATE2011',
                   'POPESTIMATE2012',
                   'POPESTIMATE2013',
                   'POPESTIMATE2014',
                   'POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

In [None]:
df = df.set_index(['STNAME', 'CTYNAME'])
df.head()

In [None]:
df.loc['Michigan', 'Washtenaw County']

In [None]:
df.loc[ [('Michigan', 'Washtenaw County'),
         ('Michigan', 'Wayne County')] ]

En el siguiente ejemplo se modifica el dataframe de manera tal que tenga dos índices, 'Ubicación' y 'Nombre' y luego se agrega un nuevo registro con estos nuevos índices:

In [None]:
compra_1 = pd.Series({'Nombre': 'Pedro',
                        'Item comprado': 'Comida para perros',
                        'Precio': 22.50})
compra_2 = pd.Series({'Nombre': 'Pablo',
                        'Item comprado': 'Collar para gato',
                        'Precio': 2.50})
compra_3 = pd.Series({'Nombre': 'Maria',
                        'Item comprado': 'Semillas para pájaros',
                        'Precio': 5.00})

df = pd.DataFrame([compra_1, compra_2, compra_3], index=['Tienda 1', 'Tienda 1', 'Tienda 2'])

df = df.set_index([df.index, 'Nombre'])
df.index.names = ['Ubicación', 'Nombre']
df = df.append(pd.Series(data={'Precio': 3.00, 'Item comprado': 'Comida para gatos'}, \
                         name=('Tienda 2', 'Juana')))
df

### 3.2.4. Valores faltantes

In [None]:
df = pd.read_csv('datos/log.csv')
df.head()

In [None]:
df = df.set_index('time')
df = df.sort_index()
df

In [None]:
df = df.reset_index()
df = df.set_index(['time', 'user'])
df

El método `fillna` puede recibir muchos parámetros. El uso más común es pasándole solamente el valor que será utilizada para reemplazar a todos los valores NaN del dataframe.

El parámetro `method` puede recibir el valor `ffill` o `bfill`. El primero es para eemplazar un valor NaN de una celda en particular por el valor de la fila anterior. Para que esto tenga el efecto deseado es necesario que el dataframe esté previamente ordenado.

In [None]:
df = df.fillna(method='ffill')
df.head()