# Introducción a funciones en Python y al paquete Pandas

**Universidad Central**

*Carlos Zainea, Daniel Montenegro y Luis Campos*

Uno de los paquetes fundamentales y más usados para el análisis de datos es [pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html), una biblioteca de software que ofrece la posibilidad de estructurar y explorar colecciones de datos de forma rapida y sencilla caracterizado por la fluidez en diversas funciones.

Usaremos este paquete para extraer información importante de la base [Predios2016](https://www.dropbox.com/s/smuouwv4pzcvdk7/Predio2016.csv?dl=0) que contiene alrededor de 2.5 millones de registros con 22 características.


Iniciamos importando los paquetes:

In [1]:
import numpy as np
import pandas as pd
import scipy as sp 

## Funciones básicas de pandas

Lo primero que debemos tener en cuenta es que la libreria pandas admite dos tipos de arreglos de datos, las series que expresan un arreglo lineal de información y los marcos de datos (DataFrames), que  corresponden a colecciones de series. Veamos a continuación algunos ejemplos:

## Series

A continuación listamos los valores [1, 3, 5, nan, 6, 8] y lo asignamos a la variable s usando pandas:

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

## Dataframe
 Crear un DataFrame

In [17]:
dates = pd.date_range('20130101', periods=6,freq='M')

In [18]:
print(dates)

DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
               '2013-05-31', '2013-06-30'],
              dtype='datetime64[ns]', freq='M')


In [20]:
A=np.random.randn(6, 4)
A

array([[ 1.11784986, -0.7662605 ,  0.91507764, -1.15587724],
       [-0.04522627, -1.10783205, -2.28276104,  0.67028767],
       [ 1.80519524,  0.15381193, -1.04262502,  1.18893816],
       [ 1.08930986,  1.69775936, -0.34444775,  0.11307072],
       [ 0.51326317, -1.5199626 ,  0.77013791, -0.01090084],
       [ 0.05411314,  0.71183464, -1.03780723, -0.39988875]])

In [21]:
list("ABCD")

['A', 'B', 'C', 'D']

In [22]:
df = pd.DataFrame(A, index=dates, columns=list('ABCD'))

In [23]:
df

Unnamed: 0,A,B,C,D
2013-01-31,1.11785,-0.766261,0.915078,-1.155877
2013-02-28,-0.045226,-1.107832,-2.282761,0.670288
2013-03-31,1.805195,0.153812,-1.042625,1.188938
2013-04-30,1.08931,1.697759,-0.344448,0.113071
2013-05-31,0.513263,-1.519963,0.770138,-0.010901
2013-06-30,0.054113,0.711835,-1.037807,-0.399889


## Números de números

### Números triangulares

Incluso podemos crear más series de datos, aprovechemos los bucles para crear más, quizas la serie de los primeros 100 números triangulares.

> *Un número triangular corresponde a la cantidad de puntos que componen a un triángulo equilatero. Según el siguiente gráfico es facil ver que se obtiene a partir de la suma de los números naturales anteriores a un valor $n$ dado.
![Triangularnumbers](https://study.com/cimages/multimages/16/374px-first_six_triangular_numbers.svg.png)

Usando `for` es fácil encontrar estos números pues $T_n=1+2+3+\cdots+(n-1)+n$, luego el siguiente código permitira ubicar los números triangulares en una lista:


In [26]:
T=[] #Creamos una lista vacía
t=0 #Este valor guardará temporalmente el número triangular
for i in range(101): #Observe que range(100) es la lista de valores [0,1,...,99], el comando for toma elementos de una lista.
    t=t+i
    T.append(t)
print(T)

[0, 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, 66, 78, 91, 105, 120, 136, 153, 171, 190, 210, 231, 253, 276, 300, 325, 351, 378, 406, 435, 465, 496, 528, 561, 595, 630, 666, 703, 741, 780, 820, 861, 903, 946, 990, 1035, 1081, 1128, 1176, 1225, 1275, 1326, 1378, 1431, 1485, 1540, 1596, 1653, 1711, 1770, 1830, 1891, 1953, 2016, 2080, 2145, 2211, 2278, 2346, 2415, 2485, 2556, 2628, 2701, 2775, 2850, 2926, 3003, 3081, 3160, 3240, 3321, 3403, 3486, 3570, 3655, 3741, 3828, 3916, 4005, 4095, 4186, 4278, 4371, 4465, 4560, 4656, 4753, 4851, 4950, 5050]


In [None]:
T #Observe el valor de T

In [29]:
Tver=[] #Creamos una lista vacía
t=0 #Este valor guardará temporalmente el número triangular
for n in range(101): 
    t=(n+1)*n/2
    Tver.append(t)
print(Tver)

[0.0, 1.0, 3.0, 6.0, 10.0, 15.0, 21.0, 28.0, 36.0, 45.0, 55.0, 66.0, 78.0, 91.0, 105.0, 120.0, 136.0, 153.0, 171.0, 190.0, 210.0, 231.0, 253.0, 276.0, 300.0, 325.0, 351.0, 378.0, 406.0, 435.0, 465.0, 496.0, 528.0, 561.0, 595.0, 630.0, 666.0, 703.0, 741.0, 780.0, 820.0, 861.0, 903.0, 946.0, 990.0, 1035.0, 1081.0, 1128.0, 1176.0, 1225.0, 1275.0, 1326.0, 1378.0, 1431.0, 1485.0, 1540.0, 1596.0, 1653.0, 1711.0, 1770.0, 1830.0, 1891.0, 1953.0, 2016.0, 2080.0, 2145.0, 2211.0, 2278.0, 2346.0, 2415.0, 2485.0, 2556.0, 2628.0, 2701.0, 2775.0, 2850.0, 2926.0, 3003.0, 3081.0, 3160.0, 3240.0, 3321.0, 3403.0, 3486.0, 3570.0, 3655.0, 3741.0, 3828.0, 3916.0, 4005.0, 4095.0, 4186.0, 4278.0, 4371.0, 4465.0, 4560.0, 4656.0, 4753.0, 4851.0, 4950.0, 5050.0]


In [35]:
F=[1] #Creamos una lista vacía
f=1 #Este valor guardará temporalmente el número triangular
for i in range(1,101): #Observe que range(100) es la lista de valores [0,1,...,99], el comando for toma elementos de una lista.
    f=f*i
    F.append(f)
print(F)

[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800, 39916800, 479001600, 6227020800, 87178291200, 1307674368000, 20922789888000, 355687428096000, 6402373705728000, 121645100408832000, 2432902008176640000, 51090942171709440000, 1124000727777607680000, 25852016738884976640000, 620448401733239439360000, 15511210043330985984000000, 403291461126605635584000000, 10888869450418352160768000000, 304888344611713860501504000000, 8841761993739701954543616000000, 265252859812191058636308480000000, 8222838654177922817725562880000000, 263130836933693530167218012160000000, 8683317618811886495518194401280000000, 295232799039604140847618609643520000000, 10333147966386144929666651337523200000000, 371993326789901217467999448150835200000000, 13763753091226345046315979581580902400000000, 523022617466601111760007224100074291200000000, 20397882081197443358640281739902897356800000000, 815915283247897734345611269596115894272000000000, 33452526613163807108170062053440751665152000000000, 14050061177528798985

In [37]:
Fib=[1,1] #Creamos una lista vacía
for i in range(2,101):
    t=Fib[i-1]+Fib[i-2]
    Fib.append(t)
print(Fib)

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946, 17711, 28657, 46368, 75025, 121393, 196418, 317811, 514229, 832040, 1346269, 2178309, 3524578, 5702887, 9227465, 14930352, 24157817, 39088169, 63245986, 102334155, 165580141, 267914296, 433494437, 701408733, 1134903170, 1836311903, 2971215073, 4807526976, 7778742049, 12586269025, 20365011074, 32951280099, 53316291173, 86267571272, 139583862445, 225851433717, 365435296162, 591286729879, 956722026041, 1548008755920, 2504730781961, 4052739537881, 6557470319842, 10610209857723, 17167680177565, 27777890035288, 44945570212853, 72723460248141, 117669030460994, 190392490709135, 308061521170129, 498454011879264, 806515533049393, 1304969544928657, 2111485077978050, 3416454622906707, 5527939700884757, 8944394323791464, 14472334024676221, 23416728348467685, 37889062373143906, 61305790721611591, 99194853094755497, 160500643816367088, 259695496911122585, 420196140727489673, 679891637638612258, 110008777836

In [40]:
BaseNumeros=pd.DataFrame({'Triangulares':T,
                         'Verificación':Tver,
                         'Fibonacci':Fib,
                         'molestar':22,
                         'Factorial':F})

In [41]:
BaseNumeros

Unnamed: 0,Triangulares,Verificación,Fibonacci,molestar,Factorial
0,0,0.0,1,22,1
1,1,1.0,1,22,1
2,3,3.0,2,22,2
3,6,6.0,3,22,6
4,10,10.0,5,22,24
5,15,15.0,8,22,120
6,21,21.0,13,22,720
7,28,28.0,21,22,5040
8,36,36.0,34,22,40320
9,45,45.0,55,22,362880


## Pandas y la carga de datos
Después de cargar pandas configuramos la opción que nos permita ver todas las columnas de nuestra base de datos:

In [None]:
pd.set_option('display.max_columns', None)

La función [set_option de pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html) nos permite personalizar la vista de los datos en la consola de salida. Podemos establecer a cantidad de columnas o filas que apareceran en el output de la celda que presente el DataFrame que guardamos. 

La siguiente celda de código carga los datos del archivo `Predios2016.csv` usando la función [`pd.read_csv`]() observe que en la declaración de carga de datos indico la separación en csv

In [43]:
df = pd.read_csv('Predio2016.csv',sep=',',low_memory=False)
len(df)

2735042

In [44]:
df

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,...,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101,LAS BRISAS,1,1,0,0,6,23,31-12-1997,2017,...,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6712215152132
1,1101,LAS BRISAS,1,2,0,0,6,23,31-12-1997,2017,...,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6712215152132
2,1101,LAS BRISAS,1,3,0,0,6,23,31-12-1997,2017,...,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6712215152132
3,1101,LAS BRISAS,1,4,0,0,6,23,31-12-1997,2017,...,D,1998.0,106.40,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6712215152132
4,1101,LAS BRISAS,1,5,0,0,6,23,31-12-1997,2017,...,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6712215152132
5,1101,LAS BRISAS,1,6,0,0,6,61,31-12-1997,2017,...,D,1998.0,0.00,2S 6 24,AAA0000AOYX,URBANIZADO NO EDIFICADO,2017.0,,,6712215152132
6,1101,LAS BRISAS,1,7,0,0,6,61,31-12-1997,2017,...,D,1998.0,0.00,2S 6 25,AAA0000AOZM,URBANIZADO NO EDIFICADO,2017.0,,,6712215152132
7,1101,LAS BRISAS,1,8,0,0,6,23,31-12-1997,2017,...,D,1998.0,145.82,2S 6 28,AAA0000APAW,COMERCIO PUNTUAL,2017.0,,,6712215152132
8,1101,LAS BRISAS,1,9,0,0,6,23,31-12-1997,2017,...,D,1998.0,33.48,2S 6 29,AAA0000APBS,COMERCIO PUNTUAL,2017.0,,,6712215152132
9,1101,LAS BRISAS,1,10,0,0,6,23,31-12-1997,2017,...,D,1998.0,87.22,2S 6 30,AAA0000APCN,COMERCIO PUNTUAL,2017.0,,,6712215152132


In [45]:
df.columns

Index(['CODIGO_BARRIO', 'NOMBRE_BARRIO', 'CODIGO_MANZANA', 'CODIGO_PREDIO',
       'CODIGO_CONSTRUCCION', 'CODIGO_RESTO', 'TIPO_PROPIEDAD',
       'CODIGO_DESTINO', 'FECHA_INCORPORACION', 'AVALUO_ANO', 'CLASE_PREDIO',
       'DIRECCION_REAL', 'MARCA_DIRECCION', 'VIGENCIA_FORMACION',
       'AREA_CONSTRUIDA', 'CEDULA_CATASTRAL', 'CHIP', 'DESCRIPCION_DESTINO',
       'VIGENCIA_ACTUALIZACION', 'TIPO_DIRECCION(S/I)', 'DIRECCION(S/I)',
       'ZONA_HOMOGENEA_FISICA'],
      dtype='object')

In [46]:
df.dtypes

CODIGO_BARRIO               int64
NOMBRE_BARRIO              object
CODIGO_MANZANA              int64
CODIGO_PREDIO               int64
CODIGO_CONSTRUCCION         int64
CODIGO_RESTO                int64
TIPO_PROPIEDAD              int64
CODIGO_DESTINO              int64
FECHA_INCORPORACION        object
AVALUO_ANO                  int64
CLASE_PREDIO               object
DIRECCION_REAL             object
MARCA_DIRECCION            object
VIGENCIA_FORMACION        float64
AREA_CONSTRUIDA           float64
CEDULA_CATASTRAL           object
CHIP                       object
DESCRIPCION_DESTINO        object
VIGENCIA_ACTUALIZACION    float64
TIPO_DIRECCION(S/I)        object
DIRECCION(S/I)             object
ZONA_HOMOGENEA_FISICA      object
dtype: object

In [47]:
df.head()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,...,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101,LAS BRISAS,1,1,0,0,6,23,31-12-1997,2017,...,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6712215152132
1,1101,LAS BRISAS,1,2,0,0,6,23,31-12-1997,2017,...,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6712215152132
2,1101,LAS BRISAS,1,3,0,0,6,23,31-12-1997,2017,...,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6712215152132
3,1101,LAS BRISAS,1,4,0,0,6,23,31-12-1997,2017,...,D,1998.0,106.4,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6712215152132
4,1101,LAS BRISAS,1,5,0,0,6,23,31-12-1997,2017,...,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6712215152132


In [48]:
df.tail()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,...,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
2735037,209106,LA UNION URBANO,5,24,0,0,6,1,10-02-2016,2017,...,D,2001.0,55.1,209106052400000000,AAA0251CPHK,RESIDENCIAL,2017.0,,,2901142316212
2735038,209106,LA UNION URBANO,6,1,0,0,6,1,31-12-2000,2017,...,D,2001.0,70.0,209106060100000000,AAA0157PTCN,RESIDENCIAL,2017.0,,,2901142316212
2735039,209106,LA UNION URBANO,6,2,0,0,6,1,24-05-2012,2017,...,D,2001.0,175.25,209106060200000000,AAA0229CJLW,RESIDENCIAL,2017.0,,,2901142316212
2735040,209106,LA UNION URBANO,6,3,0,0,6,89,31-12-2000,2017,...,D,2001.0,0.0,209106060300000000,AAA0157PTEP,PREDIO RURAL PARCEL. NO EDIFI.,2017.0,,,2901142316212
2735041,209106,LA UNION URBANO,99,1,0,0,2,65,18-12-2015,2017,...,D,2001.0,0.0,209106990100000000,AAA0250LPFZ,VIAS,2017.0,,,2901142316212


In [49]:
df.describe()

Unnamed: 0,CODIGO_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,AVALUO_ANO,VIGENCIA_FORMACION,AREA_CONSTRUIDA,VIGENCIA_ACTUALIZACION
count,2735042.0,2735042.0,2735042.0,2735042.0,2735042.0,2735042.0,2735042.0,2735042.0,2659386.0,2735042.0,2734924.0
mean,7964.169,31.5818,15.13558,3.693269,14134.67,5.918014,6.455277,2017.0,1995.645,215.879,2016.982
std,18469.06,25.52576,16.54511,17.12132,30936.99,0.5707785,13.78529,0.0,6.183303,14552.99,0.1746324
min,1101.0,0.0,0.0,0.0,0.0,1.0,1.0,2017.0,0.0,0.0,2001.0
25%,4503.0,10.0,3.0,0.0,0.0,6.0,1.0,2017.0,1993.0,30.0,2017.0
50%,6217.0,25.0,10.0,1.0,1014.0,6.0,1.0,2017.0,1995.0,63.8,2017.0
75%,8503.0,47.0,21.0,1.0,5001.0,6.0,1.0,2017.0,1998.0,151.83,2017.0
max,209106.0,99.0,99.0,999.0,99177.0,8.0,89.0,2017.0,2015.0,3383281.0,2017.0


In [51]:
df[["CHIP","NOMBRE_BARRIO"]]

Unnamed: 0,CHIP,NOMBRE_BARRIO
0,AAA0000AOSK,LAS BRISAS
1,AAA0000AOTO,LAS BRISAS
2,AAA0000AOUZ,LAS BRISAS
3,AAA0000AOWF,LAS BRISAS
4,AAA0000AOXR,LAS BRISAS
5,AAA0000AOYX,LAS BRISAS
6,AAA0000AOZM,LAS BRISAS
7,AAA0000APAW,LAS BRISAS
8,AAA0000APBS,LAS BRISAS
9,AAA0000APCN,LAS BRISAS


## Conteo de barrios

In [53]:
df.groupby('NOMBRE_BARRIO').head()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,...,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101,LAS BRISAS,1,1,0,0,6,23,31-12-1997,2017,...,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6712215152132
1,1101,LAS BRISAS,1,2,0,0,6,23,31-12-1997,2017,...,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6712215152132
2,1101,LAS BRISAS,1,3,0,0,6,23,31-12-1997,2017,...,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6712215152132
3,1101,LAS BRISAS,1,4,0,0,6,23,31-12-1997,2017,...,D,1998.0,106.40,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6712215152132
4,1101,LAS BRISAS,1,5,0,0,6,23,31-12-1997,2017,...,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6712215152132
1884,1102,BUENOS AIRES,1,2,0,0,6,1,27-11-1997,2017,...,D,1997.0,134.30,1S 4 27,AAA0000DRDM,RESIDENCIAL,2017.0,,,6235225152113
1885,1102,BUENOS AIRES,1,3,0,0,6,61,31-12-1996,2017,...,D,1997.0,0.00,1S 4 28,AAA0000DRFT,URBANIZADO NO EDIFICADO,2017.0,,,6235225152113
1886,1102,BUENOS AIRES,1,4,0,0,6,1,31-12-1996,2017,...,D,1997.0,154.40,1S 4 45,AAA0000DRJH,RESIDENCIAL,2017.0,,,6235225152113
1887,1102,BUENOS AIRES,1,5,0,0,6,1,31-12-1996,2017,...,D,1997.0,54.00,1S 4 29,AAA0000DRKL,RESIDENCIAL,2017.0,,,6235225152113
1888,1102,BUENOS AIRES,1,6,0,0,6,1,31-12-1996,2017,...,D,1997.0,59.20,1S 4 30,AAA0000DRLW,RESIDENCIAL,2017.0,S,CL 1 SUR 2C 10,6235225152113


In [55]:
df.groupby('NOMBRE_BARRIO')["CHIP"].head()

0          AAA0000AOSK
1          AAA0000AOTO
2          AAA0000AOUZ
3          AAA0000AOWF
4          AAA0000AOXR
1884       AAA0000DRDM
1885       AAA0000DRFT
1886       AAA0000DRJH
1887       AAA0000DRKL
1888       AAA0000DRLW
4600       AAA0000HSWW
4601       AAA0000HSWW
4602       AAA0000HSWW
4603       AAA0000HSXS
4604       AAA0000HSYN
6573       AAA0000LXZM
6574       AAA0000LYAW
6575       AAA0247UUFZ
6576       AAA0000LYCN
6577       AAA0000LYCN
6727       AAA0000NJMS
6737       AAA0000NETD
6738       AAA0000NETD
6739       AAA0000NETD
6740       AAA0000NEWW
7629       AAA0000PFRU
7692       AAA0000OXFZ
7693       AAA0000OXFZ
7694       AAA0000OXHK
7695       AAA0000OXJZ
              ...     
2733643    AAA0157NBPA
2733644    AAA0157NBRJ
2733645    AAA0157NBSY
2733646    AAA0157NBTD
2733647    AAA0157NBUH
2734301    AAA0158PKYN
2734302    AAA0158PKZE
2734303    AAA0158PLAF
2734304    AAA0158PLCX
2734305    AAA0158PLDM
2734384    AAA0157MYYN
2734385    AAA0157MZMS
2734386    

In [56]:
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].count()

In [57]:
bar

NOMBRE_BARRIO
ABRAHAM LINCOLN                             1170
ACACIAS USAQUEN                            13634
ACEVEDO TEJADA                              1256
AEROPUERTO EL DORADO                         296
AGUAS CLARAS                                1220
ALAMOS                                       751
ALASKA                                       350
ALASKA - VILLA DEL CAMPO                       3
ALCALA                                      1931
ALCAZARES                                   1220
ALCAZARES NORTE                              500
ALEMANIA I SECTOR,EL ESPINO, ANTONIO JO        5
ALFONSO LOPEZ                               3546
ALFONSO LOPEZ (SECTOR CHARALA)                 1
ALMIRANTE COLON                             1914
ALQUERIA                                    2418
ALQUERIA LA FRAGUA                          1691
ALQUERIA LA FRAGUA II                       1512
ALQUERIA LA FRAGUA NORTE                    1525
ALTAMIRA                                    2431
ALTOS 

In [58]:
def f(x):
     return pd.Series(dict(Cantidad= x['CHIP'].count() 
                        ))

In [63]:
cb=df.groupby('NOMBRE_BARRIO').apply(f)

In [64]:
cb

Unnamed: 0_level_0,Cantidad
NOMBRE_BARRIO,Unnamed: 1_level_1
ABRAHAM LINCOLN,1170
ACACIAS USAQUEN,13634
ACEVEDO TEJADA,1256
AEROPUERTO EL DORADO,296
AGUAS CLARAS,1220
ALAMOS,751
ALASKA,350
ALASKA - VILLA DEL CAMPO,3
ALCALA,1931
ALCAZARES,1220


In [65]:
cb.to_csv('prediosporbarrio.csv')

## Barrios Grandes

In [67]:
BarriosGrandes = cb[cb['Cantidad']>10000]

In [68]:
BarriosGrandes

Unnamed: 0_level_0,Cantidad
NOMBRE_BARRIO,Unnamed: 1_level_1
ACACIAS USAQUEN,13634
BATAN,12382
BRITALIA,16445
CANTAGALLO,13764
CAOBOS SALAZAR,19202
CEDRITOS,15184
CHICO NORTE,16920
CHICO NORTE II SECTOR,11693
CHICO NORTE III SECTOR,10952
CIUDAD HAYUELOS,15013


In [69]:
len(BarriosGrandes)

43

In [71]:
pd.DataFrame.sort_index(BarriosGrandes)

Unnamed: 0_level_0,Cantidad
NOMBRE_BARRIO,Unnamed: 1_level_1
ACACIAS USAQUEN,13634
BATAN,12382
BRITALIA,16445
CANTAGALLO,13764
CAOBOS SALAZAR,19202
CEDRITOS,15184
CHICO NORTE,16920
CHICO NORTE II SECTOR,11693
CHICO NORTE III SECTOR,10952
CIUDAD HAYUELOS,15013
