# Introducción a funciones en Python y al paquete Pandas

**Universidad Central**

*Carlos Zainea, Daniel Montenegro y Luis Campos*

Uno de los paquetes fundamentales y más usados para el análisis de datos es [pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html), una biblioteca de software que ofrece la posibilidad de estructurar y explorar colecciones de datos de forma rapida y sencilla caracterizado por la fluidez en diversas funciones.

Usaremos este paquete para extraer información importante de la base [Predios2016](https://www.dropbox.com/s/smuouwv4pzcvdk7/Predio2016.csv?dl=0) que contiene alrededor de 2.5 millones de registros con 22 características.


Iniciamos importando los paquetes:

In [None]:
import numpy as np
import pandas as pd
import scipy as sp 

## Funciones básicas de pandas

Lo primero que debemos tener en cuenta es que la libreria pandas admite dos tipos de arreglos de datos, las series que expresan un arreglo lineal de información y los marcos de datos (DataFrames), que  corresponden a colecciones de series. Veamos a continuación algunos ejemplos:

## Series

A continuación listamos los valores [1, 3, 5, nan, 6, 8] y lo asignamos a la variable s usando pandas:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Incluso podemos crear más series de datos, aprovechemos los bucles para crear más, quizas la serie de los primeros 100 números triangulares.

> *Un número triangular corresponde a la cantidad de puntos que componen a un triángulo equilatero. Según el siguiente gráfico es facil ver que se obtiene a partir de la suma de los números naturales anteriores a un valor $n$ dado.
![Triangularnumbers](https://study.com/cimages/multimages/16/374px-first_six_triangular_numbers.svg.png)

Usando `for` es fácil encontrar estos números pues $T_n=1+2+3+\cdots+(n-1)+n$, luego el siguiente código permitira ubicar los números triangulares en una lista:


In [None]:
T=[] #Creamos una lista vacía
t=0 #Este valor guardará temporalmente el número triangular
for i in range(100): #Observe que range(100) es la lista de valores [0,1,...,99], el comando for toma elementos de una lista.
    t=t+i
    T.append(t)
print(T)

In [None]:
T #Observe el valor de T

Ahora hagamos una Serie de pandas que muestre los números triangulares:

In [None]:
Numeros_triangulares=pd.Series(T,name="Números Triangulares")

In [None]:
Numeros_triangulares

## Pandas y la carga de datos
Después de cargar pandas configuramos la opción que nos permita ver todas las columnas de nuestra base de datos:

In [None]:
pd.set_option('display.max_columns', None)

La función [set_option de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html) nos permite personalizar la vista de los datos en la consola de salida. Podemos establecer a cantidad de columnas o filas que apareceran en el output de la celda que presente el DataFrame que guardamos. 

La siguiente celda de código carga los datos del archivo `Predios2016.csv` usando la función [`pd.read_csv`]() observe que en la declaración de carga de datos indico la separación en csv

In [None]:
df = pd.read_csv('Predio2016.csv',sep=',',low_memory=False)
len(df)

## Conteo de barrios

In [None]:
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].count()

In [None]:
bar

In [None]:
def f(x):
     return pd.Series(dict(Cantidad= x['CHIP'].count() 
                        ))

In [None]:
cb=df.groupby('NOMBRE_BARRIO').apply(f)

In [None]:
cb

In [None]:
cb.to_csv('prediosporbarrio.csv')

In [None]:
len(pd.unique(cb.BARRIO))

## Barrios Grandes

In [None]:
BarriosGrandes = cb[cb['Cantidad']>10000]

In [None]:
BarriosGrandes

In [None]:
len(BarriosGrandes)

In [None]:
DataFrame.sort_index(BarriosGrandes)