# Introducción a funciones en Python y al paquete Pandas

**Universidad Central**

*Carlos Zainea, Daniel Montenegro y Luis Campos*

Uno de los paquetes fundamentales y más usados para el análisis de datos es [pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html), una biblioteca de software que ofrece la posibilidad de estructurar y explorar colecciones de datos de forma rapida y sencilla caracterizado por la fluidez en diversas funciones.

Usaremos este paquete para extraer información importante de la base [Predios2016](https://www.dropbox.com/s/smuouwv4pzcvdk7/Predio2016.csv?dl=0) que contiene alrededor de 2.5 millones de registros con 22 características.


Iniciamos importando los paquetes:

In [None]:
import numpy as np
import pandas as pd
import scipy as sp 

## Funciones básicas de pandas

Lo primero que debemos tener en cuenta es que la libreria pandas admite dos tipos de arreglos de datos, las series que expresan un arreglo lineal de información y los marcos de datos (DataFrames), que  corresponden a colecciones de series. Veamos a continuación algunos ejemplos:

## Series

A continuación listamos los valores [1, 3, 5, nan, 6, 8] y lo asignamos a la variable s usando pandas:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print("Mi serie es:\n")
print(s)

## Dataframe

 Podemos crear un DataFrame a partir de diferentes tipos de datos. Para esto., debemos nombrar las variables y los individuos para representarlo más informativamente.
 
 **Ejemplo:**

In [None]:
# Individuos (Fechas)
# M = Month end Frequency 
dates = pd.date_range('20130101', periods=6,freq='M')

In [None]:
# Showing horizontally
print(dates)
print("\n Showing Vertically:\n")

# Showing Vertically
for date in dates:
    print(date)

Hagamos un proceso de **simulación**. 

Para esto, inventamos algunos datos al azar...

In [None]:
A=np.random.randn(6, 4)
print(A)

Ahora, nos inventamos los **nombres de las variables**...

In [None]:
variables=list("ABCD")

Finalmente, podemos concatenar toda esta **información** en un DataFrame:

In [None]:
df = pd.DataFrame(A, index=dates, columns=variables)

In [None]:
df

## Números de números

### Números triangulares

Incluso podemos crear más series de datos, aprovechemos los bucles para crear más, quizas la serie de los primeros 100 números triangulares.

> *Un número triangular corresponde a la cantidad de puntos que componen a un triángulo equilatero. Según el siguiente gráfico es facil ver que se obtiene a partir de la suma de los números naturales anteriores a un valor $n$ dado.
![Triangularnumbers](https://study.com/cimages/multimages/16/374px-first_six_triangular_numbers.svg.png)

Usando `for` es fácil encontrar estos números pues $T_n=1+2+3+\cdots+(n-1)+n$, luego el siguiente código permitira ubicar los números triangulares en una lista:


In [None]:
T=[] #Creamos una lista vacía
t=0 #Este valor guardará temporalmente el número triangular
for i in range(101): #Observe que range(100) es la lista de valores [0,1,...,99], el comando for toma elementos de una lista.
    t=t+i
    T.append(t)
print(T)

In [None]:
# Mostrar solo algunos datos de T
T[:15] 

In [None]:
Tver=[] #Creamos una lista vacía
t=0 #Este valor guardará temporalmente el número triangular
for n in range(101): 
    t=(n+1)*n/2
    Tver.append(t)
print(Tver)

In [None]:
F=[1] #Creamos una lista vacía
f=1 #Este valor guardará temporalmente el número triangular
for i in range(1,101): #Observe que range(100) es la lista de valores [0,1,...,99], el comando for toma elementos de una lista.
    f=f*i
    F.append(f)
print(F)

In [None]:
Fib=[1,1] #Creamos una lista vacía
for i in range(2,101):
    t=Fib[i-1]+Fib[i-2]
    Fib.append(t)
print(Fib)

In [None]:
BaseNumeros=pd.DataFrame({'Triangulares':T,
                         'Verificación':Tver,
                         'Fibonacci':Fib,
                         'molestar':22,
                         'Factorial':F})

In [None]:
BaseNumeros

## Pandas y la carga de datos
Después de cargar pandas configuramos la opción que nos permita ver todas las columnas de nuestra base de datos:

In [None]:
pd.set_option('display.max_columns', None)

La función [set_option de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html) nos permite personalizar la vista de los datos en la consola de salida. Podemos establecer a cantidad de columnas o filas que apareceran en el output de la celda que presente el DataFrame que guardamos. 

# Ejemplo Juguete

hagamos una primera base de datos usando pandas. Supongamos que podemos medir la velocidad de ciertos animales que vemos pasar en el aire. vemos dos águilas y dos loros a diferentes velocidad que registramos en un papel.

| Animal | Max Speed |
| -------| --------- |
| Falcon |   380     |
| Falcon |   370     |
| Parrot | 24  |
| Parrot | 26  |

Si queremos colocar dichos datos en un **DataFrame** de pandas, el procedimiento es el siguiente:

In [None]:
import pandas as pd

df = pd.DataFrame({'Animal': ['Falcon', 'Parrot','Falcon', 'Parrot'],
                'Max Speed': [380., 24., 370., 26.]})

df
#print(df) # Look for the differences in the outputs

Ahora podemos **jugar con los datos**, es decir, podemos organizarlos y hacer cálculos con ellos que sean de nuestro interes:

**Ejemplo:**

In [None]:
df.groupby(['Animal'])

Como podemos ver (o más bien, no podemos), **groupby** no genera un DataFame como tal, sino un objeto **DataFrameGroupBy**, que contiene información sobre los grupos, pero nada más.

Esto quiere decir, que si queremos información detallada, debemos aplicar alguna operación a dicha agrupación:

In [None]:
df_proc=df.groupby(['Animal']).mean()
df_proc

# Bases de Datos serias:

La siguiente celda de código carga los datos del archivo `Predios2016.csv` usando la función [`pd.read_csv`]() observe que en la declaración de carga de datos indico la separación en csv

In [None]:
df = pd.read_csv('Predio2016.csv',sep=',',low_memory=False)

Antes de cualquier cosa, verifiquemos el **tamaño de los datos**:

In [None]:
print("En total, hay "+"{:,}".format(len(df))+" registros")
print("La dimensión de la base de datos es: ", df.shape)

¿Cómo se hace esto? <a href = "https://mkaz.blog/code/python-string-format-cookbook/ "> Mira aquí</a>.

Vaya que es **"grande"** ésta base.

Analicemos algunas propiedades básicas:

## Propiedades principales de la BSD:

### Cabezales

In [None]:
# Cabezal de la base de datos... No aporta mucha información
df.head(10)

### Colas

In [None]:
df.tail()

Podemos por ejemplo, sacar una **muestra aleatoria** de dicha base para darnos una idea de lo que contiene:

### Muestreo

In [None]:
df.sample(10)

### Nombres de las variables

In [None]:
df.columns

### Tipos de Datos

In [None]:
df.dtypes

### Información General

In [None]:
# Basic Statistics
df.describe()

### Filtros por Variables

In [None]:
df[["CHIP","NOMBRE_BARRIO"]]

## Conteo de barrios

In [None]:
df.groupby('NOMBRE_BARRIO').head()

In [None]:
df.groupby('NOMBRE_BARRIO')["CHIP"].head()

In [None]:
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].count()

In [None]:
print(bar)

In [None]:
def f(x):
     return pd.Series(dict(Cantidad = x['CHIP'].count() 
                        ))

In [None]:
cb=df.groupby('NOMBRE_BARRIO').apply(f)

In [None]:
cb

In [None]:
cb.to_csv('prediosporbarrio.csv')

## Barrios Grandes

In [None]:
BarriosGrandes = cb[cb['Cantidad']>10000]

De esto, podemos obtener los 10 muy grandes en tamaño:

In [None]:
BarriosGrandes.head()

In [None]:
len(BarriosGrandes)

In [None]:
pd.DataFrame.sort_index(BarriosGrandes).head()