# Introducción a la manipulación de datos con pandas

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://numfocus.org/wp-content/uploads/2016/07/pandas-logo-300.png" width="400px" height="400px" />

> Una de las mejores cosas de Python (especialmente si eres un analista de datos) es la gran cantidad de librerías de alto nivel que se encuentran disponibles.

> Algunas de estas librerías se encuentran en la librería estándar, es decir, se pueden encontrar donde sea que esté Python. Otras librerías se pueden añadir fácilmente.

> Hoy nos dedicaremos a estudiar la librería de Python para análisis de datos: **Pandas**. Como analistas de datos, esta librería será pan de cada día y les aseguro que cada día que la utilicen aprenderán cosas nuevas... entonces, más vale comenzar pronto.

Referencias:
- https://pandas.pydata.org/
- https://towardsdatascience.com/data-science-with-python-intro-to-loading-and-subsetting-data-with-pandas-9f26895ddd7f
___

# 0. Motivación

Como analistas de datos, normalmente trabajamos con grandes cantidades de datos. 

Los datos que debemos cargar pueden guardarse de muchas maneras distintas: archivos CSV, archivos de Excel, etcétera. Incluso, los datos pueden estar disponibles a través de servicios web. 

Para trabajar con datos, se hace necesario representarlos en una estructura tabular (cualquier cosa con forma de tabla con filas y columnas).

En algunos casos, los datos ya están en forma tabular y es más fácil cargarlos. En otros, debemos trabajar con datos no estructurados o que no están organizados de una manera determinada (texto plano, imágenes, audio, etcétera).

En esta clase nos vamos a concentrar en cargar datos desde archivos CSV (valores separados por coma).

## Pandas

Pandas es una librería de código abierto para el lenguaje de programación Python, desarrollada por Wes McKinney. Es una librería muy eficiente y proporciona estructuras de datos y herramientas de análisis muy fáciles de usar.

Como las librerías que hemos visto antes, Pandas viene instalado por defecto con Anaconda, así que lo único que tenemos que hacer para empezar a trabajar con ella es importarla. La comunidad utiliza normalmente la abreviación pd para referirse a pandas:

In [None]:
# Importar pandas


Los **pd.DataFrames** son los objetos por excelencia de pandas para manipular datos. Son eficientes y rápidos. Son la estructura de datos donde pandas carga los diferentes formatos de datos: cuando nuestros datos están limpios y estructurados, cada fila representa una observación, y cada columna una variable o característica. Tanto las filas como las columnas pueden tener etiquetas.

En esta clase vamos a trabajar con datos de características y precios de casas de la ciudad de Portland, OR (datos tomados del curso [Machine Learning](https://www.coursera.org/learn/machine-learning) de Andrew Ng). Los datos se encuentran en el archivo `house_pricing_short.csv`.

En esta y la siguiente clase, además de importar datos, aprenderemos a:
- seleccionar subconjuntos de datos;
- filtrar variables por categorías;
- relacionar tablas con datos complementarios;
- entre otros.

Comenzamos:

___
# 1. Importando datos

El archivo `house_pricing_short.csv` contiene información acerca de el número de cuartos, el tamaño y los precios de casas de la ciudad de Portland, OR.

El primer paso para comenzar a trabajar con datos es importarlos. Lo podemos hacer con la función `pd.read_csv()`:

In [None]:
# Ayuda en la función pd.read_csv()


Importemos los datos:

In [None]:
# Importar house_pricing.csv


In [None]:
# Observar los datos


In [None]:
# Tipo de lo que importamos


Hagamos que el índice represente el identificador de cada casa:

___
# 2. Indización y selección de datos

Hay muchas formas de las cuales podemos seleccionar datos de DataFrames. Veremos, de acuerdo al artículo al final de este documento, la forma basada en corchetes ([]) y en los métodos `loc()` y `iloc()`.

Con los corchetes, podemos seleccionar ciertas filas, o bien, ciertas columnas. 

Para una selección de filas, podemos usar el indizado como en las listas: [start_index:end_index:step], recordando que el `end_index` no es inclusivo.

Por ejemplo, seleccionar las casas en las primeras dos filas:

In [None]:
# data[0:2:1]
# data[0:2]


Ahora, seleccionar de la casa 7 en adelante:

Finalmente, seleccionar las casas en las filas impares:

Similarmente, para una selección de columnas, podemos usar una lista con los nombres de las columnas requeridas. 

In [None]:
# Seleccionar la columna n_bedrooms


Finalmente, seleccionamos dos columnas:

In [None]:
# Seleccionar las columnas n_bedrooms y size


Muy bien, ya vimos que los corchetes son útiles. También existen los poderosos métodos `loc` y `iloc`, que nos dan el poder de seleccionar ambos a la vez: columnas y filas.

¿En qué se diferencian?

- El método `loc` nos permite seleccionar filas y columnas de nuestros datos basados en etoquetas. Primero, se deben especificar las etiquetas de las filas, y luego las de las columnas.

- El método `lioc` nos permite hacer lo mismo pero basado en índices enteros de nuestro DataFrame (como si fueran matrices).

Como antes, si queremos seleccionar todas las filas, o columnas, simplemente escribimos `:` en el lugar adecuado.

Mejor con ejemplos:

Para un mejor entendimiento de esta parte, reetiquetaremos la numeración de clientes con una "numeración" alfabética. Es decir: 1-A, 2-B, ..., 10-J.

In [None]:
# Resetear índice en el lugar


In [None]:
# Reasignar índice alfabético


Ahora sí.

Seleccionemos la primer casa con ambos métodos:

In [None]:
# Primer casa con loc


In [None]:
# Primer casa con iloc


Ahora, seleccionemos las casas A y C con ambos métodos:

In [None]:
# Casas A y C con loc


In [None]:
# Casas A y C con iloc


Ahora, de las casas B y E, queremos sus tamaños y sus números de recámaras:

In [None]:
# loc


In [None]:
# iloc


Ahora, queremos solo los tamaños y los precios, pero de todas las casas:

In [None]:
# loc


In [None]:
# iloc


¿Qué tal? Ya tenemos varias formas de seleccionar e indexar ciertos datos.

Esto es, sin duda, muy útil. Por otra parte, muchas veces queremos obtener cierta información (clientes, en nuestro ejemplo) que cumplan algunos requisitos. Por ejemplo:
- que sean mayores de 18 años, o
- que su antiguedad en la plataforma sea menor a seis meses, o
- que residan en cierta zona,
- entre otros.

Para ello utilizamos los operadores de comparación (==, >, <, >=, <=, !=).

___
# 3. Filtrado de datos

Los operadores de comparación pueden ser utilizados con pandas. 

Esto resulta ser súper útil para filtrar datos con ciertas condiciones específicas (esto lo veremos enseguida). 

**Ejemplos**

¿Cuáles casas tienen más de 3 recámaras?

¿Cuáles casas valen menos de $\$300,000$?

___
# 4. Propiedades estadísticas de las variables

En este caso tenemos nada más 10 registros:

y es fácil explorar las variables simplemente viéndolas una por una, registro por registro:

Sin embargo, será común tener cantidades de registros en los órdenes de cientos de miles, millones y muchísimos más. En estos casos, deja de ser viable llevar a cabo un entendimiento de estas variables por medio de inspección visual directa. 

Es mucho más conveniente resumir las variables por medio de medidas estadísticas como la media, mediana, desviación estándar y cuartiles:

In [None]:
# Media


In [None]:
# Mediana


In [None]:
# Desviación estándar


In [None]:
# Resumen general


Incluso, `pandas` nos facilita la visualización de estas propiedades mediante histogramas:

# Hasta acá la sesión de hoy, la siguiente clase seguimos.

## [Tutorial de pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/06_calculate_statistics.html)

## [Artículo recomendado](https://medium.com/dunder-data/minimally-sufficient-pandas-a8e67f2a2428)