<a href="https://colab.research.google.com/github/mateosuster/pythonungs/blob/master/codigos/MPE_III_Intro_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Tabla de Contenidos

    I. ¿Qué es Pandas?
    II. Análisis de datos con Pandas
    III. Vectorización
    IV. Los objetos fundamentales de Pandas
        I. Series
        II. DataFrames
    V. Lectura de archivos

# ¿Qué es Pandas?

* [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) es una biblioteca de código abierto que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar para el lenguaje de programación Python. Es una de las librerías más usadas para este tipo de tareas.

* Nombre derivado de "**Pan**el **Da**ta **S**ystem" (término econométrico para datasets multidimensionales).

* Su funcionalidad permite hacer operaciones sobre datos que se encuentran en memoria de manera eficiente. Combina la alta performance de las operaciones sobre arrays de NumPy con la flexibilidad en la manipulación datasets (Excel, CSV, Google Spreadsheets, etc., etc.) o una base de datos relacional (SQL).


In [None]:
#Como buena práctica, iniciamos importando las librerías
import pandas as pd
import numpy as np

## Exploración

Vamos a analizar datos de una fuente real. Los ingresos de los funcionarios son información pública que se libera anualmente en el <a href='https://data.buenosaires.gob.ar/dataset/sueldo-funcionarios'>portal de datos abiertos</a> de GCBA.  

En general los 4 primeros pasos para analizar un data set son:
1. Leerlo
2. Consultar cuáles son las columnas
3. Extraer una muestra
4. Verificar cuántos registros tiene


### 1- Para leer el data set usamos la función de pandas `read_csv()`


Con esta función podemos leer archivos que estén en una url pública o en una ubicación del disco accesible desde la Jupyter Notebook. 

In [None]:
df = pd.read_csv('http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv')

### 2- Consultamos las columnas


In [None]:
df.columns

### 3- Extraemos una muestra

In [None]:
df.sample(5)

### 4- Consultamos la cantidad de filas y de columnas

In [None]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape

## Vectorización en Pandas
Pandas es útil para trabajar sobre datos tabulares, con dos condiciones importantes:

I. Los datos se encuentran enteramente en la memoria RAM. Con lo cual, el tamaño de los datos que podemos manipular está limitado por el hardware. Como regla de pulgar, es una buena práctica no ocupar más de 1/3 de la memoria RAM de nuestro dispositivo con el dataset. Así, si estamos trabajando localmente en una notebook con 8GB de memoria RAM no es recomendable procesar datasets de más de 2.33GB.

II. En pandas, las operaciones sobre filas y columnas son, en general, eficientes porque se hacen de forma "vectorizada". En realidad esta optimización, se hace desde numpy, una librería para realizar operaciones matemáticas que se utilizó a su vez para escribir pandas. 

Las operaciones vectorizadas son las que se realizan en bloque en vez de caso por caso. Las computadoras de hoy tienen la capacidad de recibir muchas instrucciones juntas y procesar varias de ellas a la vez. Por ejemplo, si nuestro hardware tiene la capacidad de procesar 4 operaciones juntas, el resultado de vectorizar una operación matemática es el siguiente:

<img src = 'https://datasets-humai.s3.amazonaws.com/images/vectorizacion.png' /> 


En el primer caso hay que hacer 5 operaciones y en el segundo caso sólo dos.

Es importante entender, entonces, que Pandas trabaja de esta manera y que por eso es una de las herramientas más elegidas para manipular datos en memoria.

## Los objetos fundamentales de Pandas

### Series

Las *Series* son un vector unidimensional, el objeto "más simple" que encontramos en Pandas. En el fondo, podemos pensar a las series como "columnas" de una tabla que están asociadas a un índice y a un nombre. Igual que una lista común de Python es una secuencia de elementos ordenados, pero a diferencia de la lista está asociada a más información.

In [None]:
# Las series se pueden crear a partir de una lista
serie = pd.Series(['a','b','c'])

In [None]:
# Propiedades importantes de las series
print('Tipo de objetos que tiene ', serie.dtype)
print('Nombre ', serie.name)
print('Index ',serie.index)
print('Valores ',serie.values)


### DataFrame 

El principal objeto en Pandas son los DataFrames, los cuales son una estructura de datos tabular (o simplemente "tablas"), compuestas por una colección de "columnas" o series que **comparten todas un mismo índice**. Cada columna puede poseer un tipo de determinado de dato distinto (number, string, boolean, etc.).  

Los DataFrames tienen un objeto Index que describe los nombres de columnas y otro objeto Index que describen los nombres de las filas.

En general los DataFrames se crean a partir de leer tablas de archivos (pueden ser en formato json, csv o incluso xlsx) pero a veces también se crean a partir de listas de diccionarios o de otras maneras. Veamos algunas de ellas.

<br>

* Diccionario con listas:
<br>

```
{Nombre columna: [Valores]}
```

In [None]:
name_age = {'Name' : ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Age' : [32, 55, 20, 43, 30]}
print("name_age es", type(name_age))
print(name_age)

In [None]:
data_frame = pd.DataFrame(name_age)
print("data_frame es", type(data_frame))
data_frame.head(4)

* Lista de Diccionarios: 
<br>

```
[{Columna1: valor, Columna2: valor}, 
{Columna1: valor, Columna2: valor}]
```

Cada elemento de la lista corresponde a una fila

In [None]:
name_age = [{'Name': 'Ali','Age':32},
            {'Name': 'Bill','Age':55},
            {'Name': 'David','Age':20},
            {'Name': 'Hany','Age':43},
            {'Name': 'Ibtisam','Age':30}]

print("name_age es", type(name_age))
print(name_age)

In [None]:
data_frame = pd.DataFrame(name_age)
print("data_frame es", type(data_frame))
data_frame

* Lista de listas: 

<br>
[  [valor<sub>11</sub>, valor<sub>12</sub>],
<br>
[valor<sub>21</sub>, valor<sub>22</sub>], 
<br>...<br>
[valor<sub>n1</sub>, valor<sub>n2</sub>] ] 
<br>
<br>
  Cada lista de la superlista corresponde a una fila u observación

In [None]:
name_age = [ ['Ali',32], ['Bill',55],
            ['David', 20], ['Hany',43],
            ['Ibtisam',30]  ]

print("name_age es", type(name_age))
print(name_age)

In [None]:
data_frame = pd.DataFrame(name_age, columns = ["Name", "Age"]) #con columns especificamos los nombres de columnas
print("data_frame es", type(data_frame))
data_frame

#### Selección de columnas

Hay dos alternativas para seleccionar columnas de un DataFrame

In [None]:
data_frame["Name"]

In [None]:
data_frame.Name

Esta última forma es menos utilizada, pero también es una sintaxis válida. Ambas sentencias producen el mismo resultado de tipo series

In [None]:
type(data_frame["Name"])

## Lectura de archivos

Otra manera de crear dataframes, es leyendo archivos con datos, en lugar de armarlos nosotros *a mano*. La librería pandas permite abrir y guardar los [dataframes en muchos formatos distintos](https://pandas.pydata.org/pandas-docs/stable/reference/io.html) 

### Carga de Archivos

Lo primero que debemos resolver es cómo subir archivos a Google Colab. Veamos un ejemplo con los datos de [cotizaciones del dólar](https://datos.gob.ar/ru/dataset/sspm-tipo-cambio--usd---futuro-dolar). Existen múltiples maneras:

* Si tenemos una url, podemos descargarla directamente a Colab de la siguiente manera:



In [None]:
# Descargamos un dataset público
!wget https://infra.datos.gob.ar/catalog/sspm/dataset/168/distribution/168.1/download/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv

* Otra opción es subir el archivo manualmente:

In [None]:
from google.colab import files

uploaded=files.upload()

* Por último, es posible acceder a Google Drive en colab:

In [None]:
from google.colab import drive

drive.mount('/content/gdrive')

Una vez que tenemos el archivo que queremos en colab, podemos abrirlo con la función **read_csv**

In [None]:
dolar_df = pd.read_csv("/content/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv")
dolar_df

Recuerden que también podemos leer el dataframe introduciendo el URL de descarga en la función `read_csv()`, tal como hicimos al principio. El siguiente bloque de código, que es un ejemplo de ello, tiene el mismo efecto que el anterior.



In [None]:
# dolar_df = pd.read_csv("https://infra.datos.gob.ar/catalog/sspm/dataset/168/distribution/168.1/download/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv")
# dolar_df

Exportación de archivos

In [None]:
dolar_df.to_csv("/content/elnombrequesemecanta.csv")

# A modo de cierre...
Repasemos algunas propiedades importantes de los dataframes.

In [None]:
print('Columnas ', dolar_df.columns, end = "\n\n")
print('Index ', dolar_df.index, end = "\n\n")
print('Dimensiones ',dolar_df.shape, end = "\n\n")

In [None]:
# Consultar las primeras filas
dolar_df.head()

Si queremos extraer una serie del DataFrame, podemos hacerlo de la misma forma en que extraemos un valor de un diccionario.



In [None]:
serie_fecha = dolar_df['indice_tiempo']

type(serie_fecha)

Podemos explorar los datos del dataset con los [graficos de Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html)

In [None]:
dolar_df.set_index(keys = "indice_tiempo", inplace=True) #definimos un indice de manera "inplace"
dolar_df.plot(rot = 45 )

In [None]:
dolar_df= dolar_df[[ "tipo_cambio_a3500",  "tipo_cambio_implicito_en_adrs"]]
dolar_df.plot(rot = 45 )