# Introducción a Pandas

Ahora, vamos a comenzar a utilizar la biblioteca `Pandas` para hacer análisis de datos. Como práctica, vamos a generar un archivo de daos, trabajar con él, salvarlo a un csv (_comma-separated values_) y cargarlo después. Primero vamos a entender las estructuras de datos principales de `Pandas`. Comenzamos por cargar las bibliotecas necesarias (como breviario cultural, se llaman bibliotecas y no librerías, pues estamos tomando las funciones _prestadas_, como una biblioteca en español. La confusión viene porque en inglés las palabras equivalentes son _library_ y _book store_).

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Las series de Pandas

La estructura elemental de panda son las _series_. Para declararlas, se puede usar la función con el constructor por defecto `Series`.

In [2]:
pd.Series()

Series([], dtype: float64)

Esta estructura de datos es muy parecida a un `np.array` o a una lista de datos en `Python` con la particularidad que existen índices y funciones específicas para manejar la serie. Podemos construir estas series desde una lista, desde un `np.array` o desde un diccionario:

In [3]:
#Con una lista, no hay error
lista = [1, 2, 3, 4, 5]
pd.Series(lista)
#Con un nparray, no hay error
nparray = np.array(lista)
pd.Series(nparray)
#Con un diccionario, españa te ataca, aprende algo dinero
dictionary = {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5}
mSerie = pd.Series(dictionary)
mSerie

a    1
b    2
c    3
d    4
e    5
dtype: int64

En el último caso, el diccionario siempre está compuesto por pares _llave, valor_. En este caso, la llave se va a convertir en un índice, con lo que podemos acceder a los elementos por la misma llave (como un diccionario).

In [4]:
mSerie["a"]

1

Bien podríamos especificar cualquier otro valor para los índices. Cuando usamos el constructor de una variable con de la clase `Series`, se toma el argumento como el parámetro `data`. Es decir, las siguientes dos instrucciones hacen lo mismo:

In [None]:
mSerie = pd.Series(data = lista)
mSerie = pd.Series(dictionary)

Bien, pues si queremos especificar índices sin usar un diccionario, se puede usar el parámetro `index`

In [None]:
mSerie = pd.Series(data = lista, index = ['24','67','68','75','100'])
mSerie

Entre los métodos más comunes para aplicar a una serie están `mean` (media), `quantiles` (para calcular cuantiles, el argumento `[0.25, 0.5, 0.75]` regresa los cuartiles), `std` (calcula la desviación estándar). Para métodos más sofisticados, existe la función `apply`, que permite aplicar una función a cada entrada de la serie (esto va a tener más utilidad después). Con el uso de lambdas, podemos, por ejemplo, meter ruido gaussiano a una serie (hay otras maneras más eficientes de hacer esto, pero es un ejemplo forzado)

In [None]:
time =np.linspace(0,2*np.pi, 500)
mGauss = pd.Series(np.sin(time))
mGauss = mGauss.apply(lambda x: float(x + np.random.normal(0,0.05,1)))
plt.plot(time,mGauss)

Podemos hacer un histograma con la opción 'plot', e incluso especificar el número de "columnas"

In [None]:
(mGauss - np.sin(time)).plot(kind = "hist", bins = 30)

# Segunda estructura: Data Frame

Un Data Frame es una colección de series. Ya está. Eso es todo. Por ejemplo, una creación de un data frame es la siguiente:

In [None]:
concentracion = pd.Series(np.abs(np.random.normal(0,1,5)))
temperatura = pd.Series(np.random.normal(273,4,5))
componentes = pd.DataFrame({'Concentración': concentracion, 'Temperatura':temperatura})
componentes

Podemos obtener las series de datos usando el nombre de sus campos, y de esa manera usar las operaciones que ya conocemos sobre una serie:

In [None]:
componentes["Concentración"]

Podemos añadir columnas al dataframe sólamente dándoles nombre:

In [None]:
componentes["Temp. Celsius"] = componentes["Temperatura"] - 273.15
componentes

In [None]:
Y de la misma manera, quitar la columna

In [None]:
componentes.drop(labels = "Temp. Celsius", axis = 1, inplace = True)
componentes

La función miembro drop es muy útil, pero para ello hay que conocer otras particularidades de Pandas. Una de las características más importantes de un Data frame es que puede manejar información faltante.

In [None]:
componentes.loc["5","Presión"] = np.abs(np.random.normal(0,1,1))
componentes

En este caso, el último renglón carece de información en las columnas de "Concentración" y "Presión". Para los primeros 5 renglones, el campo de presión es desconocido. Python nos permite deshacernos de renglones que contengan valores NaN, por ejemplo

In [None]:
componentes.dropna()

O bien, sólo en un subconjunto de las columnas

In [None]:
componentes.dropna(subset = ["Presión"])

Nótese que así como existe `dropna`, existe `fillna` con lo que podemos reemplazar NaN's facilmente:

In [None]:
componentes.fillna(-1)

Note que el método `mean` aplicado a un DataFrame genera el promedio por cada columna. Con ello, podemos usar `fillna` de una manera un tanto más sofisticada

In [None]:
componentes.fillna(componentes.mean())