# Introducción a Pandas
**Pandas** es el paquete de Python más utilizado para el análisis de datos. Se trata de una librería muy popular puesto que provee las herramientas y estructuras necesarias para manipular y analizar datos en bruto. Usando esta librería podemos realizar los cinco pasos típicos en el procesamiento y análisis, independientemente del origen de los datos: cargar, preparar, manipular, modelar y analizar.

<img src="python.jpg" alt="Drawing" style="width: 700px;"/>

La estructura básica de Pandas se denomina **DataFrame**, que es una colección ordenada de columnas con nombres y tipos, parecido a una tabla de bases de datos, donde una sola fila representa un único caso (observación) y las columnas representan atributos particulares.

### 1º) Importar librerías

In [None]:
# !pip install pandas     # Instalación del paquete en caso de ser necesario
# !conda install pandas

import pandas as pd

from matplotlib import pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

El nombre del paquete debe ser utilizado para poder usar algunas de las funciones del mismo, por lo que es muy común darle un pseudónimo o diminutivo a la hora de cargarlo. Para el caso de Pandas, `pd` es la abreviatura más extendida entre los usuarios de Python.

In [None]:
# Ejemplo rápido: creación de un DataFrame vacío
ejemplo = _

En caso de necesitar ayuda sobre alguna clase o función y sus atributos, podemos utilizar la función `help()`:

In [None]:
_(pd.DataFrame())

Si no es suficiente, siempre podremos consultar su guía: https://pandas.pydata.org/docs/getting_started/index.html

### 2º) Cargar datos
El paquete Pandas permite la carga de datos provenientes de multiples formatos (CSV, Excel, JSON, HTML...).

In [None]:
datos = pd._('calidad_aire1.csv')

Podemos ver el tipo de objeto creado mediante la función `type`

In [None]:
_(datos)

### 3º) Visualización rápida de los datos

In [None]:
# Primeras observaciones/filas del DataFrame
datos

In [None]:
# Últimas observaciones/filas del DataFrame
datos

In [None]:
# Número de observaciones y columnas
datos.shape

In [None]:
print('Número de observaciones:', datos.shape_)
print('Número de columnas/atributos:', datos.shape_)

In [None]:
# Acceso al nombre de las columnas
datos._

In [None]:
# Resumen de las columnas/atributos del DataFrame
datos

In [None]:
# Resumen estadístico de los atributos (numéricos)
datos

### 4º) Selección de datos
Pandas nos permite seleccionar datos a través de tres formas distintas:
- Selección directa
- Selección mediante `loc`
- Selección mediante `iloc`

#### 4.1) Selección directa
Es la manera más sencilla de acceder a las columnas deseadas, permitiendo también la obtención de observaciones. Como desventaja, no permite realizar la selección de observaciones y atributos de manera simultánea.

Selección de columnas:

In [None]:
# Una única columna
datos_

_**OJO!:** La selección de una única columna ya no muestra estructura de DataFrame. A partir de su realización estaríamos trabajando con **Series**, una versión unidimensional del DataFrame. Estas estructuras comparten la mayoría de sus atributos y métodos, aunque no todos (ejemplo: `.info()`)._

In [None]:
type(datos_)

In [None]:
# Múltiples columnas
datos_

Selección de observaciones:

In [None]:
# Una única observación
datos[0:1]

In [None]:
# Varias observaciones
datos[0:5]

#### 4.2) Selección mediante `loc`
Este método permite utilizar **etiquetas o nombres** para seleccionar datos. Es muy útil, ya que nos permite el acceso tanto a observaciones como a columnas, por lo que se antoja necesario a la hora de realizar algún tipo de **filtro** sobre los datos.

A diferencia del método anterior, para la selección de columnas es necesario especificar también las observaciones (índices) requeridas:

In [None]:
# Una única columna
datos_[:, 'Título']

In [None]:
# Múltiplas columnas
datos.loc[:, _]

Selección de observaciones:

In [None]:
# Una sola observación
datos.loc_

In [None]:
# Varias observaciones
datos.loc_

En caso de desear obtener información de algún atributo en específico para unas pocas observaciones, podemos filtrar el conjunto de datos sencillamente  especificando tanto observaciones como columnas:

In [None]:
datos_

#### 4.3) Selección mediante `iloc`
Este método funciona de igual manera que `loc`. Sin embargo, en lugar de etiquetas, se utiliza el **índice** de las mismas para realizar el filtro.

Selección de columnas:

In [None]:
# Una columna
datos.iloc[:, _]

In [None]:
# Varias columnas
datos.iloc[:, _]

Selección de observaciones:

In [None]:
# Una sola observación
datos.iloc_

In [None]:
datos.iloc_

De igual modo que con el método anterior, podemos obtener una selección tanto de observaciones como atributos, siempre y cuando se use el índice de los mismos en lugar de su etiqueta:

In [None]:
datos_

### 5º) Filtrar datos

#### 5.1) Filtrar observaciones
Los filtros para observaciones pueden especificarse y aplicarse tanto sobre variables numéricas como categóricas:

In [None]:
# Filtro aplicado sobre la variable 'Periodo' (variable numérica)
datos_filtrados1 = datos[_]

In [None]:
print('Número de observaciones en el conjunto filtrado:', datos_filtrados1.shape[0])

Además de poder aplicarse varios métodos de manera simultánea:

In [None]:
# Aplicando múltiples filtros
datos_filtrados2 = datos[(datos['Título']=='Estación Avenida Castilla') & (datos['Periodo'] >= 12)]

In [None]:
print('Número de observaciones en el conjunto filtrado:', datos_filtrados2.shape[0])

El paquete Pandas también facilita el filtrado de nuestro conjunto de datos, ya que además de permitir la especificación del propio filtro mediante valor o etiqueta, cuenta con varias funciones muy útiles que agilizan este proceso.

Por ejemplo, en caso de querer seleccionar únicamente aquellas observaciones de las que conocemos el valor de la variable CO, podríamos utilizar el método o función `.notnull()`:

In [None]:
# Filtro mediante el método '.notnull()'
datos_filtrados3 = datos[datos['CO']_]

In [None]:
print('Número de observaciones en el conjunto filtrado:', datos_filtrados3.shape[0])

Por último, destacar el hecho de que si se desea aplicar el filtro y seleccionar una serie de atributos de manera simultánea, debemos utilizar el método `.loc` anteriormente descrito:

In [None]:
datos.loc[_]

#### 4.2) Filtrar columnas
En caso de trabajar con un gran número de variables, resulta útil poder filtrarlas de manera rápida, puesto que en ocasiones nos interesará manejar y manipular solo algunas especificamente.

Podemos filtrar aquellos atributos según su tipo. Si quisiéramos, por ejemplo, quedarnos únicamente con aquellas variables cuyos valores corresponden a números decimales:

In [None]:
# Filtrado de columnas atendiendo a su tipo
columnas_filtradas1 = datos.select_dtypes(['float64'])

In [None]:
columnas_filtradas1.head()

Pandas también nos ayuda a filtrar las columnas en base a su nombre gracias al método `.filter()`. Éste permite obtener las variables cuyo nombre contiene la expresión especificada:

In [None]:
# Filtrado de columnas atendiendo a su nombre
columnas_filtradas2 = datos_

In [None]:
columnas_filtradas2.head()

### 6º) Operar sobre los datos
Los DataFrames tienen la ventaja de permitirnos realizar operaciones rápidas sobre los datos, ya sean operaciones de aritmética básica (suma, resta, multiplicación, etc) como algunas más sofisticadas.

In [None]:
# Cargamos un nuevo conjunto de datos e inspeccionamos brevemente
datos2 = _('calidad_aire2.csv')
datos2.info()

In [None]:
# Filtramos variables para trabajar únicamente con las 'xx'
xx_df = datos2_

Ejemplos de operaciones rápidas entre variables:

In [None]:
# Creación de una nueva variable que muestre la diferencia entre otras dos
xx_df['xx1_xx2_diff'] = _ - _

In [None]:
xx_df.head()

In [None]:
# Modificación de variable utilizando un entero
xx_df['xx1_xx2_diff'] = xx_df['xx1_xx2_diff'] * 2

In [None]:
xx_df.head()

En caso de que deseásemos guardar este conjunto en el que incorporamos una nueva variable o realizamos cualquier otro cambio de otro tipo, también lo podríamos hacer de una forma muy sencilla:

In [None]:
# Guardar datos en CSV
xx_df_('nuevo_xx.csv', index=False)

También existen métodos que nos permiten realizar este tipo de operaciones sobre todo el conjunto de datos:

In [None]:
# Sumamos el valor de una variable a todas las demás para todas las observaciones
xx_df.add(xx_df['xx1'], axis=0).head()

In [None]:
# Diferencia entre columnas de manera consecutiva (o por filas)
xx_df.diff(axis=1).head()

De igual modo, existen funciones que posibilitan realizar el cálculo de operaciones estadísticas sencillas sin tener que utilizar otros paquetes específicos para este tipo de tareas.

In [None]:
# Cálculo de la varianza
xx_df_

In [None]:
# Cálculo de la matriz de correlaciones
xx_df_

En ocasiones, puede resultar interesante calcular estadísticas sobre las variables numéricas en relación a algún tipo de agrupación:

In [None]:
datos._('Título').mean()

### 7º) Operar con diferentes DataFrames
Pandas nos proporciona herramientas con las que rápidamente podemos unir o juntar varios DataFrames, ya sea por columnas o por filas:

In [None]:
# Juntar DataFrames por columnas en base a columnas comunes
datos_total = pd._(datos, datos2, on=_)

In [None]:
datos_total.head()

In [None]:
# Juntar DataFrames por filas
datos_duplicados = pd._([datos_total, datos_total], ignore_index=True)

In [None]:
print('Número de observaciones en el conjunto original:', datos_total.shape[0])
print('Número de observaciones en el conjunto concatenado:', datos_duplicados.shape[0])

### 8º) Gráficos
Aunque normalmente en Python se trabaja con otros paquetes mucho más completos para realizar la visualización gráfica de los datos, Pandas también nos provee de algunos métodos con los que poder visualizarlos de una manera mucho más rápida.

_**NOTA:** Para que puedan ser visualizados, debemos al menos cargar la librería `pyplot` del paquete `matplotlib`._

In [None]:
# Gráfico de cajas
xx_df.boxplot(figsize=(10, 8))
plt.show()    # Al finalizar el gráfico, siempre debemos acompañarlo de esta llamada para que pueda ser visualizado correctamente

In [None]:
# Histogramas
xx_df.hist(figsize=(10, 8))
plt.show()

## BONUS - Introducción a Machine Learning: Regresión Lineal

In [None]:
# Selección de datos a modelar
datos_lr = datos[['SO2', 'NO', 'NO2', 'CO', 'PM10']]

In [None]:
print('Número de observaciones:', datos_lr.shape[0])

In [None]:
# Preparación de datos: tratamiento de datos ausentes - eliminación
datos_lr = datos_lr.dropna()

In [None]:
print("Número de observaciones tras eliminación de NaN's:", datos_lr.shape[0])

In [None]:
# Separación datos en conjunto de entrenamiento y test
X = datos_lr[['SO2', 'NO', 'NO2', 'PM10']]
y = datos_lr['CO']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

In [None]:
print('Tamaño conjunto de entrenamiento:', X_train.shape[0])
print('Tamaño conjunto de test:', X_test.shape[0])

In [None]:
# Ajuste y entrenamiento del modelo
lr_model = LinearRegression()

lr_model.fit(X_train, y_train)

In [None]:
# Coeficientes obtenidos por el modelo
print('Coeficientes del modelo:', list(zip(X.columns, lr_model.coef_.flatten(), )))
print('Intercept del modelo:', lr_model.intercept_)
print('Coeficiente de determinación R^2:', lr_model.score(X, y))

In [None]:
# Predicciones sobre el conjunto de test
predicciones = lr_model.predict(X_test)

In [None]:
# Evaluación de la capacidad predictiva mediante RMSE
rmse = mean_squared_error(y_test, predicciones, squared=False)
print("Error (RMSE) de test:", rmse)