# Introducción Simple a *pandas* 

**Pandas** es una biblioteca de Python que proporciona herramientas de análisis de datos y estructuras de datos de alto rendimiento y fáciles de usar. Como la biblioteca principal y más completa para estos fines, ** pandas ** es fundamental para el análisis de datos de Python.

Esta introducción está escrita como una alternativa a las presentaciones existentes, como la [introducción de 10 minutos presentada en la documentación oficial] (http://pandas.pydata.org/pandas-docs/stable/10min.html), y está destinada a proporcionar una presentación básica y ágil de las principales herramientas proporcionadas por **pandas**, que cubren la manipulación de datos, la lectura y la visualización, pero también otros comentarios puntuales según sea necesario, como una breve explicación sobre los archivos **.csv**. La introducción supone solo un conocimiento básico de Python.

Comencemos con las importaciones, usaremos más allá de pandas, **numpy**, biblioteca para computación científica y **matplotlib**, biblioteca principal para visualización de datos, sin embargo, como veremos más adelante, pandas nos brinda facilidades con respecto a la visualización de datos, con métodos construidos en matplotlib, también importamos esta biblioteca para que, además de poder modificar estéticamente nuestros gráficos, haga que los gráficos sean más fáciles de mostrar. La línea en línea% matplotlib es parte de la magia de Jupyter y no debes ejecutarla si estás en otro IDE / Entorno.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

Existen dos tipos principales de estruturas de datos en pandas:
 1. **Series** 
 1. **DataFrame**

Una serie es como una matriz unidimensional, una lista de valores. Cada serie tiene un índice, `index`, que etiqueta cada elemento de la lista. A continuación creamos una serie de `notas`, el` índice` de esta Serie es la columna izquierda, que va de 0 a 4 en este caso, que pandas crea automáticamente, ya que no especificamos una lista de etiquetas.

In [None]:
notas = pd.Series([2,7,5,10,6])
notas

Ya podemos verificar aquí los atributos de nuestra Serie, comenzando con los valores y el índice, los dos atributos **fundamentales** en esta estructura:

In [None]:
notas.values

In [None]:
notas.index

Debido a que al crear la Serie no proporcionamos un índice específico, pandas utiliza enteros positivos crecientes como valor predeterminado. Puede ser conveniente asignar un índice no estándar, suponiendo que se trata de notas de clase, podríamos utilizar nombres como índice:

In [None]:
notas = pd.Series([2,7,5,10,6], index=["Wilfred", "Abbie", "Harry", "Julia", "Carrie"])
notas

Index nos ayuda a hacer referencia a un cierto valor, nos permite acceder a los valores por su etiqueta:

In [None]:
notas["Julia"]

Otra facilidad proporcionada por el Dataframe son sus métodos que proporcionan información estadística sobre los valores, como **promedio** `.mean ()` y **desviación estándar** `.std ()`. Recomiendo al lector que investigue y verifique algunos de los métodos y atributos de la estructura usando `TAB` para la finalización automática del shell de Python, o simplemente revise la muy completa [documentación oficial] (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series) de este objeto.

In [None]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())

Por lo general, para resumir brevemente las estadísticas de datos, use `.describe ()`

In [None]:
notas.describe()

La estructura es lo suficientemente flexible como para aplicar algunas expresiones matemáticas y las funciones matemáticas de numpy directamente:

In [None]:
notas**2

In [None]:
np.log(notas)

Un DataFrame es una estructura de datos bidimensional, como una hoja de cálculo. A continuación, crearemos un DataFrame que tenga valores de diferentes tipos, utilizando un diccionario como entrada de datos:

In [None]:
df = pd.DataFrame({'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
df

Los tipos de datos que componen las columnas se pueden verificar con el método `.dtypes`:

In [None]:
df.dtypes

Puede acceder a la lista de columnas de manera muy intuitiva:

In [None]:
df.columns

Los nombres de columna se pueden usar para acceder a sus valores:

In [None]:
df["Seminário"]

Para DataFrames, `.describe()` tambiém es una buena forma de verificar resumidamente la disposición estadística de los dados numéricos:

In [None]:
df.describe()

Otra tarea común aplicada a DataFrames es ordenarlos por una columna dada:

In [None]:
df.sort_values(by="Seminário")

Tenga en cuenta que el simple uso del método `sort_values` no modifica nuestro DataFrame original:

In [None]:
df

A menudo necesitamos seleccionar valores específicos de un DataFrame, ya sea una fila o celda específica, y esto se puede hacer de muchas maneras. La documentación oficial contiene [vasta información] (https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) para este tipo de tarea, aquí nos centraremos en las formas más comunes de seleccionar datos.

Para seleccionar por índice o etiqueta usamos el atributo `.loc`:

In [None]:
df.loc[3]

Para seleccionar de acuerdo con criterios condicionales, se usa lo que se llama de **Boolean Indexing**.

Supongamos que solo queremos seleccionar filas donde el valor de la columna *Seminario* esté por encima de 8.0, podemos lograr esto pasando la condición directamente como un índice:

In [None]:
df[df["Seminário"] > 8.0]

Este tipo de indexación tambiém posibilita verificar condiciones de múltiples columnas. Diferente de lo que estamos habituados en Python, aqui se usan operadores `bitwise`, o sea, `&`, `|`, `~` en vez de operadores logicos `and`, `or`, `not`, respectivamente. Suponga que además de `df["Seminário"] > 8.0` queremos que el valor de la columna `Prova` no sea menor que 3:

In [None]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

## Analizando datos externos

En la sección anterior vimos cómo manipular los datos que se crearon durante esta presentación, sucede que la mayoría de las veces queremos analizar datos que ya están listos y provienen de archivos.
Pandas nos proporciona una serie de características de lectura de datos, para una variedad de formatos de datos estructurales, intente `pd.read_ <TAB>` autocompletado, que incluye:

 1. `pd.read_csv`, para leer arquivos .csv, formato comun para almacenar datos de tablas
 1. `pd.read_xlsx`, para leer arquivos Excel .xlsx, es necesário instalar una biblioteca adicional para esta funcionalidad.
 1. `pd.read_html`, para leer tablas directamente de un website
 
Usaremos para analizar datos externos en esta introducción el `.read_csv`, porque aquí es donde están nuestros datos CSV, o valores separados por comas, es un formato de datos abiertos muy común, como sugiere el acrónimo, estos son valores separados por comas, aunque el carácter separador puede ser un punto y coma u otro.

Cuando el archivo `dados.csv` está en el mismo directorio del script, podemos pasar como argumento de `.read_csv` apenas su nombre. Otro argumento interesante de la función es el `sep`, que por padrón es una coma, pero puede ser definido como otro caracter caso los datos usen otro separador.

Los datos que usaremos como ejemplo son datos sobre precios de apartamentos en 7 barrios de la ciudad de Rio de Janeiro: Botafogo, Copacabana, Gávea, Grajaú, Ipanema, Leblon, Tijuca. Son datos adaptados de un archivo que puede ser encontrado [aqui](https://www.kaggle.com/rbarbera/rio-brasil-modelo-preditivo-precos-imoveis/data).

In [None]:
df = pd.read_csv("data/datos.csv", sep=',')
df

Como esperado, el DataFrame tiene muichas líneas de datos, para visualizar resumidamente las primeras líneas de un DataFrame existe el método `.head()`

In [None]:
df.head()

Por padrón `.head()` exhibe las 5 primeras líneas, pero eso puede ser alterado:

In [None]:
df.head(n=10)

Similarmente existe `.tail()`, que exhibe por padrón las últimas 5 líneas del DataFrame:

In [None]:
df.tail()

Además se puede verificar la información contenida en el archivo utilizando un método que enumera valores únicos en una columna:

In [None]:
df["barrio"].unique()

También parece interesante verificar la hegemonía de nuestra muestra en relación con los barrios. Para las tareas de contar valores, siempre podemos aprovechar otro método disponible, el `.value_counts()`, tambiém veremos un poco mas abajo como visualizar estos valores en forma de gráfico de barras.

In [None]:
df["barrio"].value_counts()

Los valores contados también se pueden normalizar para expresar porcentajes:

In [None]:
df["barrio"].value_counts(normalize=True)

Agrupar datos basados en ciertos criterios es otro proceso que pandas facilita con `.groupby()`.
Este método pode ser usado para resolver los mas **amplios** problemas, aqui un ejemplo de como usar el agrupamento simple, la división de un DataFrame en grupos.

Abajo agrupamos nuestro DataFrame por los valores de la columna `"bairro"`, y luego aplicamos `.mean()` para tener un objeto GroupBy con información de las médias agrupadas por los valores de la columna bairros. 

In [None]:
df.groupby("barrio").mean()

Para extraer datos de una columna de este objeto, simplemente acceda a ella de manera convencional, para obtener los valores del precio promedio del metro cuadrado en orden ascendente, por ejemplo:

In [None]:
df.groupby("barrio").mean()["pm2"].sort_values()

Podemos aplicar una función cualquiera a los datos, o a una parte de ellos, en este caso pandas ofrece el método `.apply`. Por ejemplo, para dejar los nombres de los barrios con apenas sus tres primeras letras:

In [None]:
def truncar(barrio):
    return barrio[:3]

df["barrio"].apply(truncar)

Otra forma es usar la función lambda:

In [None]:
df["barrio"].apply(lambda x: x[:3])

Una de las tareas en la cual pandas es reconocidamente poderosa es la habilidad de tratar datos incompletos.
Por muchos motivos puede haber datos incompletos en el dataset, `np.nan` es un valor especial definido en Numpy, sigla para Not a Number, pandas completa las células sin valores en un DataFrame usando `np.nan`.

Vamos crear un nuevo dataframe usando las 5 primeras líneas del archivo original, usando `.head()`. Abajo es usado `.replace` para substituir un valor específico por un `NaN`. 

In [None]:
df2 = df.head()
df2 = df2.replace({"pm2": {12031.25: np.nan}})
df2

Pandas simplifica la remoción de cualquier línea o coluna que posea un `np.nan`, por padrón `.dropna()` retorna las líneas que no contengan un NaN:

In [None]:
df2.dropna()

Completar todos los valores NaN por outro valor específico tambiém es bastante simple:

In [None]:
df2.fillna(99)

Acaba siendo muchas veces conveniente tener un método que indica cuales valores de un dataframe son NaN e cuales no son:

In [None]:
df2.isna()

# Visualización de dados com o pandas. 
Los métodos de visualización de pandas están construidos en matplotlib para una rápida exploración de datos. En esta introducción, veremos métodos de visualización incluidos en pandas, que, por otro lado, ofrecen una sintaxis bastante simple para realizar la tarea.

Comencemos verificando que tanto Series como DataFrame poseen un método `.plot()` que tambiém es un atributo y puede ser encadenado para generar visualización de diversos tipos, como histograma, área, pizza y dispersión, usando respectivamente  `.hist()`, `.area()`, `.pie()` y  `.scatter()`, además de vários [outros](https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-plotting).

Vamos verificar la distribución de los precios usando el encadenamiento `.plot.hist()`, el eje x, que es el precio, está en una escala de \*10^7, como mostrado en la imágem:

In [None]:
df["precio"].plot.hist()

Por padrón este método usa 10 bins, o sea, divide los datos en 10 partes, pero es claro que podemos especificar un valor para el trazado del gráfico. Abajo, además de especificar la cantidad de bins, tambiém especifique el color de los bordes como negro, ya que por padrón es transparente.

In [None]:
df["precio"].plot.hist(bins=30, edgecolor='black')

Podemos usar los valores de conteo de cada barrio como ejemplo de dato para un plot tanto de barras verticales como de barras horizontales, para verificar visualmente estos datos:

In [None]:
df["barrio"].value_counts().plot.bar()

In [None]:
df["barrio"].value_counts().plot.barh()

Los métodos son suficientemente flexíbles para aceptar argumentos como un título para la imagem:

In [None]:
df["barrio"].value_counts().plot.barh(title="Número de apartamentos")

Se puede usar un diagrama de dispersión usando un DataFrame especificando qué columnas usar como datos en los ejes x e y:

In [None]:
df.plot.scatter(x='precio', y='area')

Con fines estéticos, matplotlib proporciona varios estilos diferentes que se pueden usar, uno de los cuales es ggplot.

In [None]:
plt.style.use('ggplot')

Este estilo ahora se usará para todas las imágenes generadas después de esta línea.

In [None]:
df.plot.scatter(x='pm2', y='area')

La lista de estilos disponíbles puede ser vista a través de un método propio

In [None]:
plt.style.available

La columna de cuartos le indica cuántas habitaciones tiene un apartamento en particular, también puede ver el recuento y la distribución utilizando otros métodos de trazado que ofrece pandas:

In [None]:
df["cuartos"].value_counts().plot.pie()

Una cosa a tener en cuenta sobre el gráfico de dispersión es la contaminación causada por la gran cantidad de datos agrupados en una esquina del gráfico, y podemos reducir el tamaño de los puntos al pasar el argumento `s` al método `.scatter`, también podemos usar un método de pandas que crea un muestreo aleatorio de datos.

El método `.sample` puede recebir tanto un argumento `frac`, que determina una fracción de los itens que el método retornará (en el caso abajo, 10%), o `n`, que determina un valor absoluto de itens.

In [None]:
df.plot.scatter(x='precio', y='area', s=.5)

In [None]:
df.sample(frac=.1).plot.scatter(x='precio', y='area')

Finalmente, la tarea de salvar su DataFrame externamente para un formato específico es realizada con la misma simplicidad que la lectura de datos es realizada en pandas, se puede usar, por ejemplo, el método `to_csv`, y el archivo será creado con los datos del DataFrame:

In [None]:
df = pd.DataFrame({'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
df.to_csv("aulas.csv")

In [None]:
pd.read_csv("aulas.csv")