# Introducción a funciones en Python y al paquete Pandas


*Carlos Zainea, Daniel Montenegro y Luis Campos*

Uno de los paquetes fundamentales y más usados para el análisis de datos es [pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html), una biblioteca de software que ofrece la posibilidad de estructurar y explorar colecciones de datos de forma rapida y sencilla caracterizado por la fluidez en diversas funciones.

Usaremos este paquete para extraer información importante de la base [Predios Bogotá](https://datosabiertos.bogota.gov.co/dataset/predios-bogota) que contiene alrededor de 5.5 millones de registros con 22 características.


Iniciamos importando los paquetes:

In [1]:
import numpy as np
import pandas as pd

## Funciones básicas de pandas

Lo primero que debemos tener en cuenta es que la libreria pandas admite dos tipos de arreglos de datos, las series que expresan un arreglo lineal de información y los marcos de datos (DataFrames), que  corresponden a colecciones de series. Veamos a continuación algunos ejemplos:

## Series

A continuación listamos los valores [1, 3, 5, nan, 6, 8] y lo asignamos a la variable s usando pandas:

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print("Mi serie es:\n")
print(s)
type(s)

Mi serie es:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


pandas.core.series.Series

## Dataframe

 Podemos crear un DataFrame a partir de diferentes tipos de datos. Para esto., debemos nombrar las variables y los individuos para representarlo más informativamente.
 
 **Ejemplo:**

In [3]:
# Individuos (Fechas)
# M = Month end Frequency 
dates = pd.date_range('20130101', periods=6,freq='M')

In [4]:
# Showing horizontally
print(dates)
print("\n Showing Vertically:\n")

# Showing Vertically
for date in dates:
    print(date)

DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
               '2013-05-31', '2013-06-30'],
              dtype='datetime64[ns]', freq='M')

 Showing Vertically:

2013-01-31 00:00:00
2013-02-28 00:00:00
2013-03-31 00:00:00
2013-04-30 00:00:00
2013-05-31 00:00:00
2013-06-30 00:00:00


Hagamos un proceso de **simulación**. 

Para esto, inventamos algunos datos al azar...

In [5]:
A=np.random.randn(6,4)
print(A)

[[-1.77537614 -0.63218881  0.1085777  -0.30463557]
 [ 1.70283615 -0.84213153  0.07512821  2.05455142]
 [ 0.5770894   1.26373082  1.28895269 -0.41708178]
 [-1.24620525 -1.54527793 -1.0794236   0.06459746]
 [-0.82980599  0.50295498 -0.95816548  0.83612532]
 [-0.10631549  0.13938595  0.83325148 -0.02155537]]


Ahora, nos inventamos los **nombres de las variables**...

In [2]:
variables=list("ABCD")
variables

['A', 'B', 'C', 'D']

In [3]:
l=['A','B','C','D']
l

['A', 'B', 'C', 'D']

Finalmente, podemos concatenar toda esta **información** en un DataFrame:

In [7]:
df = pd.DataFrame(A, index=dates, columns=variables)

In [8]:
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.775376,-0.632189,0.108578,-0.304636
2013-02-28,1.702836,-0.842132,0.075128,2.054551
2013-03-31,0.577089,1.263731,1.288953,-0.417082
2013-04-30,-1.246205,-1.545278,-1.079424,0.064597
2013-05-31,-0.829806,0.502955,-0.958165,0.836125
2013-06-30,-0.106315,0.139386,0.833251,-0.021555


## Pandas y la carga de datos
Después de cargar pandas configuramos la opción que nos permita ver todas las columnas de nuestra base de datos:

In [9]:
pd.set_option('display.max_columns', None)

La función [set_option de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html) nos permite personalizar la vista de los datos en la consola de salida. Podemos establecer a cantidad de columnas o filas que apareceran en el output de la celda que presente el DataFrame que guardamos. 

# Ejemplo Juguete

hagamos una primera base de datos usando pandas. Supongamos que podemos medir la velocidad de ciertos animales que vemos pasar en el aire. vemos dos águilas y dos loros a diferentes velocidad que registramos en un papel.

| Animal | Max Speed |
| -------| --------- |
| Falcon |   380     |
| Parrot | 24        |
| Falcon |   370     |
| Parrot | 26        |

Si queremos colocar dichos datos en un **DataFrame** de pandas, el procedimiento es el siguiente:

In [10]:
df = pd.DataFrame({'Animal': ['Falcon', 'Parrot','Falcon', 'Parrot'],
                'Max Speed': [380., 24., 370., 26.]})

df
#print(df) # Look for the differences in the outputs

Unnamed: 0,Animal,Max Speed
0,Falcon,380.0
1,Parrot,24.0
2,Falcon,370.0
3,Parrot,26.0


# Eliminar Registros 

In [11]:
df_mod=df.drop([0])
df_mod

Unnamed: 0,Animal,Max Speed
1,Parrot,24.0
2,Falcon,370.0
3,Parrot,26.0


Ahora podemos **jugar con los datos**, es decir, podemos organizarlos y hacer cálculos con ellos que sean de nuestro interes:

**Ejemplo:**

In [12]:
df.groupby(['Animal'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f52bb6a2ad0>

Como podemos ver (o más bien, no podemos), **groupby** no genera un DataFame como tal, sino un objeto **DataFrameGroupBy**, que contiene información sobre los grupos, pero nada más.

Esto quiere decir, que si queremos información detallada, debemos aplicar alguna operación a dicha agrupación:

In [13]:
df_proc=df.groupby(['Animal']).mean()
df_proc

Unnamed: 0_level_0,Max Speed
Animal,Unnamed: 1_level_1
Falcon,375.0
Parrot,25.0


# Bases de Datos Serias:

La siguiente celda de código carga los datos del archivo `Predios2018.csv` usando la función [`pd.read_csv`]() observe que en la declaración de carga de datos indico la separación en csv

In [14]:
df=pd.read_csv('~/Data/Predios_2018.csv',delimiter=',',low_memory=False)

Antes de cualquier cosa, verifiquemos el **tamaño de los datos**:

In [15]:
print("En total, hay "+"{:,}".format(len(df))+" registros")
print("La dimensión de la base de datos es: ", df.shape)

En total, hay 5,513,625 registros
La dimensión de la base de datos es:  (5513625, 22)


¿Cómo mostrar éste tipo de formato de número? [Mira aquí](https://mkaz.blog/code/python-string-format-cookbook).

Vaya que es **"grande"** ésta base.

Analicemos algunas propiedades básicas:

## Propiedades principales de la BD:

### Cabezales

In [16]:
# Cabezal de la base de datos... No aporta mucha información
df.head()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101.0,LAS BRISAS,1.0,1.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 92 SUR,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
1,1101.0,LAS BRISAS,1.0,2.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 90 SUR,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
2,1101.0,LAS BRISAS,1.0,3.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 86 SUR,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
3,1101.0,LAS BRISAS,1.0,4.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 82 SUR,D,1998.0,106.4,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
4,1101.0,LAS BRISAS,1.0,5.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 70 SUR,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6712215000000.0


### Colas

In [17]:
df.tail()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
5513620,209106.0,LA UNION URBANO,5.0,24.0,0.0,0.0,6.0,1.0,02/10/2016 12:00:00 AM,2018.0,N,KR 4 3 06 LAUNION,D,2001.0,55.1,209106052400000000,AAA0251CPHK,RESIDENCIAL,2017.0,,,2901142000000.0
5513621,209106.0,LA UNION URBANO,6.0,1.0,0.0,0.0,6.0,1.0,12/31/2000 12:00:00 AM,2018.0,N,CL 4 2 06 LAUNION,D,2001.0,70.0,209106060100000000,AAA0157PTCN,RESIDENCIAL,2017.0,,,2901142000000.0
5513622,209106.0,LA UNION URBANO,6.0,2.0,0.0,0.0,6.0,1.0,05/24/2012 12:00:00 AM,2018.0,N,KR 3 3 82 LAUNION,D,2001.0,175.25,209106060200000000,AAA0229CJLW,RESIDENCIAL,2017.0,S,KR 3 3 86 LAUNION,2901142000000.0
5513623,209106.0,LA UNION URBANO,6.0,3.0,0.0,0.0,6.0,89.0,12/31/2000 12:00:00 AM,2018.0,N,CL 4 3 06 LAUNION,D,2001.0,0.0,209106060300000000,AAA0157PTEP,PREDIO RURAL PARCEL. NO EDIFI.,2017.0,,,2901142000000.0
5513624,209106.0,LA UNION URBANO,99.0,1.0,0.0,0.0,2.0,65.0,12/18/2015 12:00:00 AM,2018.0,N,KR 3 2 01 LAUNION,D,2001.0,0.0,209106990100000000,AAA0250LPFZ,VIAS,2017.0,,,2901142000000.0


Podemos por ejemplo, sacar una **muestra aleatoria** de dicha base para darnos una idea de lo que contiene:

### Muestreo

In [18]:
df.sample(10)

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
1048175,5304.0,LA CASTELLANA,44.0,4.0,2.0,91020.0,6.0,1.0,10/05/1994 12:00:00 AM,2017.0,P,CL 96 45A 40 ET 2 AG 2 GJ 11,D,1994.0,10.4,96 A13 1 640,AAA0057MFXS,RESIDENCIAL,2017.0,,,6222115000000.0
5228607,9128.0,EL PLAN,14.0,3.0,2.0,91021.0,6.0,1.0,08/08/2013 12:00:00 AM,2018.0,P,KR 73B 147 95 ET 2 GJ 381,D,1992.0,23.01,009128140300291021,AAA0236MWFZ,RESIDENCIAL,2018.0,,,6611125000000.0
2091084,8510.0,ACACIAS USAQUEN,20.0,2.0,1.0,1027.0,6.0,1.0,05/31/1991 12:00:00 AM,2017.0,P,CL 146 11 41 IN 3,D,1992.0,141.1,UQ 145 19 6,AAA0110SHZE,RESIDENCIAL,2017.0,,,6212315000000.0
4102397,6212.0,SALAZAR GOMEZ,16.0,35.0,1.0,3001.0,6.0,1.0,05/04/1995 12:00:00 AM,2018.0,P,KR 65B 10A 69 AP 301,D,1995.0,77.0,10 65B 20 3,AAA0074KOUH,RESIDENCIAL,2018.0,,,6232315000000.0
2086641,8510.0,ACACIAS USAQUEN,14.0,30.0,1.0,2005.0,6.0,1.0,07/11/2013 12:00:00 AM,2017.0,P,CL 146 12A 53 AP 205,D,1992.0,47.07,008510143000102005,AAA0235WNEP,RESIDENCIAL,2017.0,,,6212315000000.0
2959221,2401.0,TUNAL ORIENTAL,27.0,4.0,2.0,5003.0,6.0,1.0,12/31/1997 12:00:00 AM,2018.0,P,KR 24C 54 40 SUR IN 2 AP 503,D,1992.0,59.4,002401270400205003,AAA0015EKUZ,RESIDENCIAL,2018.0,,,6212115000000.0
1269822,5657.0,SABANA DEL DORADO,34.0,25.0,0.0,0.0,6.0,1.0,12/31/1997 12:00:00 AM,2017.0,N,KR 120B 63A 92,D,1998.0,210.7,57 120A 7,AAA0072BDHK,RESIDENCIAL,2017.0,S,KR 120B 63A 90,6040215000000.0
903383,4601.0,CALANDAIMA,44.0,10.0,0.0,0.0,6.0,1.0,12/31/2002 12:00:00 AM,2017.0,N,CL 34B SUR 90A 22,D,1998.0,76.8,105218441000000000,AAA0165CJKC,RESIDENCIAL,2017.0,,,6032115000000.0
4848799,8510.0,ACACIAS USAQUEN,12.0,8.0,1.0,1004.0,6.0,1.0,02/21/1989 12:00:00 AM,2018.0,P,CL 144 13 58 IN 4,D,1992.0,79.1,144 25 6 4,AAA0110KKNN,RESIDENCIAL,2018.0,,,6212315000000.0
4685918,8405.0,GINEBRA,2.0,2.0,4.0,91023.0,6.0,1.0,12/01/2011 12:00:00 AM,2018.0,P,AK 7 130 50 TO 4 GS16 D,D,1993.0,25.0,008405020200491023,AAA0225DHBS,RESIDENCIAL,2018.0,,,6612415000000.0


### Nombres de las variables

In [19]:
df.columns

Index(['CODIGO_BARRIO', 'NOMBRE_BARRIO', 'CODIGO_MANZANA', 'CODIGO_PREDIO',
       'CODIGO_CONSTRUCCION', 'CODIGO_RESTO', 'TIPO_PROPIEDAD',
       'CODIGO_DESTINO', 'FECHA_INCORPORACION', 'AVALUO_ANO', 'CLASE_PREDIO',
       'DIRECCION_REAL', 'MARCA_DIRECCION', 'VIGENCIA_FORMACION',
       'AREA_CONSTRUIDA', 'CEDULA_CATASTRAL', 'CHIP', 'DESCRIPCION_DESTINO',
       'VIGENCIA_ACTUALIZACION', 'TIPO_DIRECCION(S/I)', 'DIRECCION(S/I)',
       'ZONA_HOMOGENEA_FISICA'],
      dtype='object')

### Tipos de Datos

In [20]:
df.dtypes

CODIGO_BARRIO             float64
NOMBRE_BARRIO              object
CODIGO_MANZANA            float64
CODIGO_PREDIO             float64
CODIGO_CONSTRUCCION       float64
CODIGO_RESTO              float64
TIPO_PROPIEDAD            float64
CODIGO_DESTINO            float64
FECHA_INCORPORACION        object
AVALUO_ANO                float64
CLASE_PREDIO               object
DIRECCION_REAL             object
MARCA_DIRECCION            object
VIGENCIA_FORMACION        float64
AREA_CONSTRUIDA            object
CEDULA_CATASTRAL           object
CHIP                       object
DESCRIPCION_DESTINO        object
VIGENCIA_ACTUALIZACION    float64
TIPO_DIRECCION(S/I)        object
DIRECCION(S/I)             object
ZONA_HOMOGENEA_FISICA     float64
dtype: object

### Información General

In [21]:
# Basic Statistics
df.describe()

Unnamed: 0,CODIGO_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,AVALUO_ANO,VIGENCIA_FORMACION,VIGENCIA_ACTUALIZACION,ZONA_HOMOGENEA_FISICA
count,5513624.0,5513624.0,5513624.0,5513624.0,5513624.0,5513624.0,5513624.0,5513624.0,5363810.0,5513434.0,5491772.0
mean,8080.937,31.55936,15.2121,3.703899,14221.49,5.915451,6.405872,2017.504,1995.649,2017.495,6237121000000.0
std,19091.06,25.52161,16.59554,17.1189,31001.98,0.5806246,13.71721,0.4999845,5.917214,0.5236379,395565900000.0
min,1101.0,0.0,0.0,0.0,0.0,1.0,1.0,2017.0,0.0,2001.0,103023100000.0
25%,4503.0,10.0,3.0,0.0,0.0,6.0,1.0,2017.0,1993.0,2017.0,6222115000000.0
50%,6217.0,25.0,10.0,1.0,1015.0,6.0,1.0,2018.0,1995.0,2018.0,6222215000000.0
75%,8504.0,47.0,21.0,1.0,5001.0,6.0,1.0,2018.0,1998.0,2018.0,6235225000000.0
max,209106.0,99.0,99.0,999.0,99177.0,8.0,89.0,2018.0,2015.0,2018.0,6825235000000.0


### Filtros por Variables

In [22]:
df[["CHIP","NOMBRE_BARRIO"]]

Unnamed: 0,CHIP,NOMBRE_BARRIO
0,AAA0000AOSK,LAS BRISAS
1,AAA0000AOTO,LAS BRISAS
2,AAA0000AOUZ,LAS BRISAS
3,AAA0000AOWF,LAS BRISAS
4,AAA0000AOXR,LAS BRISAS
...,...,...
5513620,AAA0251CPHK,LA UNION URBANO
5513621,AAA0157PTCN,LA UNION URBANO
5513622,AAA0229CJLW,LA UNION URBANO
5513623,AAA0157PTEP,LA UNION URBANO


## Conteo de barrios

In [23]:
df.groupby('NOMBRE_BARRIO').head()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101.0,LAS BRISAS,1.0,1.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 92 SUR,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6.712215e+12
1,1101.0,LAS BRISAS,1.0,2.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 90 SUR,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6.712215e+12
2,1101.0,LAS BRISAS,1.0,3.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 86 SUR,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6.712215e+12
3,1101.0,LAS BRISAS,1.0,4.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 82 SUR,D,1998.0,106.4,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6.712215e+12
4,1101.0,LAS BRISAS,1.0,5.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 70 SUR,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6.712215e+12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5512824,208127.0,PARAMO RURAL V,1.0,1.0,0.0,9.0,6.0,1.0,06/07/1995 12:00:00 AM,2018.0,N,KR 16 ESTE 102B 05,D,1993.0,81.2,108004006300000000,AAA0142LHDE,RESIDENCIAL,2018.0,,,2.800636e+12
5512825,208127.0,PARAMO RURAL V,1.0,1.0,1.0,0.0,6.0,1.0,12/31/2000 12:00:00 AM,2018.0,N,KR 16 ESTE 102B 05 MJ 1,D,1993.0,70,108104006300100000,AAA0156SPYN,RESIDENCIAL,2018.0,,,2.800636e+12
5512826,208127.0,PARAMO RURAL V,1.0,1.0,2.0,0.0,6.0,1.0,12/01/2004 12:00:00 AM,2018.0,N,KR 16 ESTE 102B 05 MJ 2,D,1993.0,146.7,008422010100200000,AAA0180TPRJ,RESIDENCIAL,2018.0,,,2.800636e+12
5512827,208127.0,PARAMO RURAL V,1.0,1.0,3.0,0.0,6.0,1.0,12/01/2004 12:00:00 AM,2018.0,N,KR 16 ESTE 102B 05 MJ 3,D,1993.0,120.1,008422010100300000,AAA0180TPSY,RESIDENCIAL,2018.0,,,2.800636e+12


In [24]:
df.groupby('NOMBRE_BARRIO')["CHIP"].head()
#df[df["NOMBRE_BARRIO"].str.contains('MONTES')]
#df.loc[df['NOMBRE_BARRIO']=='NOMBRE_BARRIO']

0          AAA0000AOSK
1          AAA0000AOTO
2          AAA0000AOUZ
3          AAA0000AOWF
4          AAA0000AOXR
              ...     
5512824    AAA0142LHDE
5512825    AAA0156SPYN
5512826    AAA0180TPRJ
5512827    AAA0180TPSY
5512828    AAA0142LFLF
Name: CHIP, Length: 5479, dtype: object

In [25]:
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].count()
bar

NOMBRE_BARRIO
ABRAHAM LINCOLN          2385
ACACIAS USAQUEN         27720
ACEVEDO TEJADA           2532
AEROPUERTO EL DORADO      594
AGUAS CLARAS             1473
                        ...  
VITELMA                  3947
VOTO NACIONAL            6299
YOMASA                   2363
YOMASA NORTE               16
ZONA FRANCA              4525
Name: CHIP, Length: 1120, dtype: int64

In [26]:
# Extract Info to DataFrames
bar=pd.DataFrame(bar)
bar.columns=['CANTIDAD']

#Reset index if necesary
#bar.reset_index(level=0, inplace=True)
#Delete Trashy Values
#bar=bar.drop(['NOMBRE_BARRIO'])

bar.to_csv('prediosporbarrio.csv')
bar

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
ABRAHAM LINCOLN,2385
ACACIAS USAQUEN,27720
ACEVEDO TEJADA,2532
AEROPUERTO EL DORADO,594
AGUAS CLARAS,1473
...,...
VITELMA,3947
VOTO NACIONAL,6299
YOMASA,2363
YOMASA NORTE,16


## Barrios Grandes

In [27]:
BarriosGrandes = bar[bar['CANTIDAD']>10000]
BarriosGrandes

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
ACACIAS USAQUEN,27720
ALTOS DE CHOZICA,10270
ANTIGUO COUNTRY,13263
ATENAS,11020
BATAN,24764
...,...
VERACRUZ,18842
VICTORIA NORTE,17952
VILLA ALSACIA,18470
VILLA ELISA,13544


De esto, podemos obtener los 10 muy grandes en tamaño:

In [28]:
BarriosGrandes.sort_values(by=['CANTIDAD'],ascending=False)

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
TINTALA,54563
SANTA BARBARA CENTRAL,40902
LOS CEDROS,38764
SANTA BARBARA OCCIDENTAL,38561
CAOBOS SALAZAR,38540
...,...
ALTOS DE CHOZICA,10270
EL CARMEN FONTIBON,10207
LA PEPITA,10202
ESTRELLA DEL NORTE,10066


In [29]:
print("Barrios Grandes: ", len(BarriosGrandes))
BarriosGrandes.to_csv('barrios_grandes.csv')

Barrios Grandes:  148


**Gané...¿No?** 

¡Claro... QUE NO!

# Errores Típicos

In [30]:
df.groupby('NOMBRE_BARRIO')["CHIP"].describe()

Unnamed: 0_level_0,count,unique,top,freq
NOMBRE_BARRIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ABRAHAM LINCOLN,2385,885,AAA0021TTOM,14
ACACIAS USAQUEN,27720,14038,AAA0110RKOM,16
ACEVEDO TEJADA,2532,1150,AAA0055DORJ,20
AEROPUERTO EL DORADO,594,222,AAA0065UHEA,100
AGUAS CLARAS,1473,1180,AAA0142UFUZ,3
...,...,...,...,...
VITELMA,3947,1839,AAA0000HTPP,10
VOTO NACIONAL,6299,2486,AAA0160CFRU,36
YOMASA,2363,1070,AAA0145AEWF,8
YOMASA NORTE,16,8,AAA0180MYJZ,2


**Mal conteo de barrios...Sorry Bro!**

In [31]:
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].nunique()

# Extract Info to DataFrames
bar=pd.DataFrame(bar)
bar.columns=['CANTIDAD']

#Delete Trashy Values
#bar=bar.drop(['NOMBRE_BARRIO'])

bar.to_csv('prediosporbarrio.csv')
bar

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
ABRAHAM LINCOLN,885
ACACIAS USAQUEN,14038
ACEVEDO TEJADA,1150
AEROPUERTO EL DORADO,222
AGUAS CLARAS,1180
...,...
VITELMA,1839
VOTO NACIONAL,2486
YOMASA,1070
YOMASA NORTE,8


In [32]:
BarriosGrandes = bar[bar['CANTIDAD']>10000]
BarriosGrandes = BarriosGrandes.sort_values(by=['CANTIDAD'],ascending=False)
BarriosGrandes

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
TINTALA,27462
SANTA BARBARA CENTRAL,20466
LOS CEDROS,19930
SANTA BARBARA OCCIDENTAL,19277
CAOBOS SALAZAR,19258
LAS MARGARITAS,18275
MAZUREN,18058
EL PLAN,17472
CHICO NORTE,16922
BRITALIA,16535


In [33]:
print("Barrios Grandes: ", len(BarriosGrandes))
BarriosGrandes.to_csv('barrios_grandes.csv')

Barrios Grandes:  44


# Analizando Duplicados 

In [34]:
df.loc[df['CHIP']=='AAA0021TTOM']

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
341445,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,S,KR 9A 51 04 SUR,6232215000000.0
341446,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 15,6232215000000.0
341447,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 27,6232215000000.0
341448,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 25,6232215000000.0
341449,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 23,6232215000000.0
341450,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 21,6232215000000.0
341451,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2017.0,N,KR 9A 51 10 SUR,D,1998.0,150.6,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2017.0,I,CL 51 SUR 9 19,6232215000000.0
3082292,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2018.0,N,KR 9A 51 10 SUR,D,1998.0,151.1,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2018.0,I,CL 51 SUR 9 15,6232215000000.0
3082293,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2018.0,N,KR 9A 51 10 SUR,D,1998.0,151.1,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2018.0,I,CL 51 SUR 9 19,6232215000000.0
3082294,2507.0,ABRAHAM LINCOLN,43.0,10.0,0.0,0.0,6.0,21.0,12/31/1997 12:00:00 AM,2018.0,N,KR 9A 51 10 SUR,D,1998.0,151.1,US 52S 9 14,AAA0021TTOM,COMERCIO EN CORREDOR COM,2018.0,I,CL 51 SUR 9 21,6232215000000.0


#  Generador de Reportes

Para Resumir... Se hizo lo siguiente:


1. **Leer Base de Datos**

```df = pd.read_csv('Predios_2018.csv',sep=',',low_memory=False)```

2. **Agrupar, Filtrar y contar INTELIGENTEMENTE**

```bar=df.groupby('NOMBRE_BARRIO')["CHIP"].nunique()```

3. **Crear DataFrame con Resultados**

```bar=pd.DataFrame(bar)```

4. **Cambie Nombre si es Necesario**

```bar.columns=['CANTIDAD']```

5. **Filtro Final de lo pedido por su jefecito**

```BarriosGrandes = bar[bar['CANTIDAD']>10000]```

6. **Guarde Resultado Final**

```BarriosGrandes.to_csv("barrios_grandes.csv")```


# Módulo Reporte 

In [35]:
import pandas as pd

def Machaquebase(df,nombre_guardo,agrupa,filtra,grandeza):
    
    bar=df.groupby(agrupa)[filtra].nunique()
    bar=pd.DataFrame(bar)
    bar.columns=['CANTIDAD']
    BarriosGrandes = bar[bar['CANTIDAD']>grandeza]
    BarriosGrandes.to_csv(nombre_guardo)
    return BarriosGrandes

# Ejemplo de Aplicación 

In [36]:
#ruta_base='Predios_2018.csv'
#df = pd.read_csv(ruta_base,sep=',',low_memory=False)
grandeza=[100,1000,5000,10000]
agrupa='NOMBRE_BARRIO'
filtra="CHIP"

for reporte in grandeza:
    Felicidad= Machaquebase(df,'Mi_reporte_Barrios_'+str(reporte)+'.csv',agrupa,filtra,reporte)