<figure>
<img src="../Imagenes/logo-final-ap.png"  width="80" height="80" align="left"/> 
</figure>

# <span style="color:blue"><left>Aprendizaje Profundo</left></span>

# <span style="color:red"><center>Introducción a Pandas</center></span>

##   <span style="color:blue">Autores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
1. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

1. Oleg Jarma, ojarmam@unal.edu.co 
1. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Funciones básicas de Pandas](#Funciones-básicas-de-Pandas)
* [Creando un dataframe desde un diccionario](#Creando-un-dataframe-desde-un-diccionario)
* [Trabajando con bases de datos grandes](#Trabajando-con-bases-de-datos-grandes)

## <span style="color:blue">Introducción</span> 

Uno de los paquetes fundamentales y más usados para el análisis de datos es [Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html), una biblioteca de software que ofrece la posibilidad de estructurar y explorar colecciones de datos de forma rapida y sencilla caracterizado por la fluidez en diversas funciones.

Usaremos este paquete para extraer información importante de la base [Predios Bogotá](https://datosabiertos.bogota.gov.co/dataset/predios-bogota) que contiene alrededor de 5.5 millones de registros con 22 características.


Iniciamos importando los paquetes:

In [3]:
import numpy as np
import pandas as pd

## <span style="color:blue">Funciones básicas de Pandas</span> 

Lo primero que debemos tener en cuenta es que la libreria pandas admite dos tipos de arreglos de datos:

* `las series` que permiten organizar un arreglo lineal de información y 
*  `los marcos de datos` (DataFrames), que  corresponden a tablas de datos. 

Veamos a continuación algunos ejemplos preliminares.

### Series

Creamos una lista con los valores [1, 3, 5, nan, 6, 8] y lo asignamos a un objeto de tipo `pandas.core.series.Series`. Se incluye un dato faltante (NaN).

In [7]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print("La serie es:\n")
print(s)
type(s)

La serie es:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


pandas.core.series.Series

### Dataframe

 Podemos crear un DataFrame a partir de diferentes tipos de datos. Para esto, debemos nombrar las variables y los individuos para representarlo más informativamente.
 

#### Ejemplo

Creamos un conjunto de datos que consiste en 6 fechas separadas mensualmente.

In [8]:
# Individuos (Fechas)
# M = Month  
dates = pd.date_range('20130101', periods=6, freq='M')

In [10]:
# Muestra los datos horizonalmente
print(dates)
print("\nMostrando verticalmente:\n")

# Showing Vertically
for date in dates:
    print(date)

DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
               '2013-05-31', '2013-06-30'],
              dtype='datetime64[ns]', freq='M')

Mostrando verticalmente:

2013-01-31 00:00:00
2013-02-28 00:00:00
2013-03-31 00:00:00
2013-04-30 00:00:00
2013-05-31 00:00:00
2013-06-30 00:00:00


Creamos a continuación un conjunto de datos que asociaremos a las fechas enteriores. En concreto crearemos 4 variables. Para hacerlo, generamos los datos al azar, desde una distribución normal.

In [11]:
A = np.random.randn(6,4)
print(A)

[[-0.13968141  1.94851237  1.38056994 -0.63237864]
 [ 0.645441   -1.62200455 -0.65073815  0.2326931 ]
 [-2.45804869 -1.11002138 -0.16084873  1.31703008]
 [-1.18582957  0.98143734  0.70188959  0.20140664]
 [-1.49124369 -0.45932769 -0.55766546 -0.55691044]
 [ 0.50737899 -0.06585919  0.88506034 -0.12294646]]


Ahora, colocamos nombres de las variables

In [14]:
variables=list("ABCD")
variables

['A', 'B', 'C', 'D']

In [13]:
# O también
l = ['A','B','C','D']
l

['A', 'B', 'C', 'D']

Finalmente, podemos concatenar toda esta **información** en un DataFrame:

In [15]:
df = pd.DataFrame(A, index=dates, columns=variables)

In [16]:
df

Unnamed: 0,A,B,C,D
2013-01-31,-0.139681,1.948512,1.38057,-0.632379
2013-02-28,0.645441,-1.622005,-0.650738,0.232693
2013-03-31,-2.458049,-1.110021,-0.160849,1.31703
2013-04-30,-1.18583,0.981437,0.70189,0.201407
2013-05-31,-1.491244,-0.459328,-0.557665,-0.55691
2013-06-30,0.507379,-0.065859,0.88506,-0.122946


#### Cambiando loas opciones para visualziar los datos

Después de cargar pandas configuramos la opción que nos permita ver todas las columnas de nuestra base de datos:

In [17]:
pd.set_option('display.max_columns', None)

La función [set_option de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html) nos permite personalizar la vista de los datos en la consola de salida. Podemos establecer la cantidad de columnas o filas que apareceran en el output de la celda que presente el DataFrame que guardamos. 

## <span style="color:blue">Creando un dataframe desde un diccionario</span>  

Supongamos que podemos registrar la velocidad de ciertos animales que vemos pasar en el aire. Vemos dos águilas y dos loros a diferentes velocidad que registramos en un papel.

| Animal | Max Speed |
| -------| --------- |
| Aguila |   380     |
| Loro   | 24        |
| Falcon |   370     |
|Loro    | 26        |

Podemos crear un diccionario con estos datos y luego generar el dataframe como sigue.

In [20]:
diccionario = {'Animal': ['Aguila', 'Loro','Aguila', 'Loro'],
               'Velocidad': [380., 24., 370., 26. ]}

df = pd.DataFrame(diccionario)

df

Unnamed: 0,Animal,Velocidad
0,Aguila,380.0
1,Loro,24.0
2,Aguila,370.0
3,Loro,26.0


### Eliminar Registros 

In [21]:
df_mod = df.drop([0])
df_mod

Unnamed: 0,Animal,Velocidad
1,Loro,24.0
2,Aguila,370.0
3,Loro,26.0


## <span style="color:blue">Trabajando con bases de datos grandes</span>  

La siguiente celda de código carga los datos del archivo `Predios2018.csv` usando la función [`pd.read_csv`]() observe que en la declaración de carga de datos indico la separación en csv

In [23]:
print('Leyendo los datos desde la fuente...')
df = pd.read_csv('../Datos/Predios2018.csv',delimiter=',',low_memory=False)
print('HECHO..')

Leyendo los datos desde la fuente...
HECHO..


Antes de cualquier cosa, verifiquemos el tamaño del dataframe (sanity-check)

In [24]:
print("En total, hay "+"{:,}".format(len(df))+" registros")
print("El tamaño de la base de datos es: ", df.shape)

En total, hay 5,513,625 registros
El tamaño de la base de datos es:  (5513625, 22)


¿Cómo mostrar éste tipo de formato de número? [Mira aquí](https://mkaz.blog/code/python-string-format-cookbook).

Vaya que es **"grande"** ésta base.

Analicemos algunas propiedades básicas:

### Revisando los datos

### Cabecera

In [25]:
# Cabecera de la base de datos... 
df.head()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
0,1101.0,LAS BRISAS,1.0,1.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 92 SUR,D,1998.0,42.03,25 6 18,AAA0000AOSK,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
1,1101.0,LAS BRISAS,1.0,2.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 90 SUR,D,1998.0,52.45,25 6 19,AAA0000AOTO,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
2,1101.0,LAS BRISAS,1.0,3.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 86 SUR,D,1998.0,10.02,2S 6 20,AAA0000AOUZ,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
3,1101.0,LAS BRISAS,1.0,4.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 82 SUR,D,1998.0,106.4,2S 6 22,AAA0000AOWF,COMERCIO PUNTUAL,2017.0,,,6712215000000.0
4,1101.0,LAS BRISAS,1.0,5.0,0.0,0.0,6.0,23.0,12/31/1997 12:00:00 AM,2017.0,N,KR 7 1 70 SUR,D,1998.0,57.78,2S 6 23,AAA0000AOXR,COMERCIO PUNTUAL,2017.0,,,6712215000000.0


### Cola

In [17]:
df.tail()

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
5513620,209106.0,LA UNION URBANO,5.0,24.0,0.0,0.0,6.0,1.0,02/10/2016 12:00:00 AM,2018.0,N,KR 4 3 06 LAUNION,D,2001.0,55.1,209106052400000000,AAA0251CPHK,RESIDENCIAL,2017.0,,,2901142000000.0
5513621,209106.0,LA UNION URBANO,6.0,1.0,0.0,0.0,6.0,1.0,12/31/2000 12:00:00 AM,2018.0,N,CL 4 2 06 LAUNION,D,2001.0,70.0,209106060100000000,AAA0157PTCN,RESIDENCIAL,2017.0,,,2901142000000.0
5513622,209106.0,LA UNION URBANO,6.0,2.0,0.0,0.0,6.0,1.0,05/24/2012 12:00:00 AM,2018.0,N,KR 3 3 82 LAUNION,D,2001.0,175.25,209106060200000000,AAA0229CJLW,RESIDENCIAL,2017.0,S,KR 3 3 86 LAUNION,2901142000000.0
5513623,209106.0,LA UNION URBANO,6.0,3.0,0.0,0.0,6.0,89.0,12/31/2000 12:00:00 AM,2018.0,N,CL 4 3 06 LAUNION,D,2001.0,0.0,209106060300000000,AAA0157PTEP,PREDIO RURAL PARCEL. NO EDIFI.,2017.0,,,2901142000000.0
5513624,209106.0,LA UNION URBANO,99.0,1.0,0.0,0.0,2.0,65.0,12/18/2015 12:00:00 AM,2018.0,N,KR 3 2 01 LAUNION,D,2001.0,0.0,209106990100000000,AAA0250LPFZ,VIAS,2017.0,,,2901142000000.0


Podemos por ejemplo, sacar una **muestra aleatoria** de dicha base para darnos una idea de lo que contiene:

### Muestreo

In [18]:
df.sample(10)

Unnamed: 0,CODIGO_BARRIO,NOMBRE_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
1048175,5304.0,LA CASTELLANA,44.0,4.0,2.0,91020.0,6.0,1.0,10/05/1994 12:00:00 AM,2017.0,P,CL 96 45A 40 ET 2 AG 2 GJ 11,D,1994.0,10.4,96 A13 1 640,AAA0057MFXS,RESIDENCIAL,2017.0,,,6222115000000.0
5228607,9128.0,EL PLAN,14.0,3.0,2.0,91021.0,6.0,1.0,08/08/2013 12:00:00 AM,2018.0,P,KR 73B 147 95 ET 2 GJ 381,D,1992.0,23.01,009128140300291021,AAA0236MWFZ,RESIDENCIAL,2018.0,,,6611125000000.0
2091084,8510.0,ACACIAS USAQUEN,20.0,2.0,1.0,1027.0,6.0,1.0,05/31/1991 12:00:00 AM,2017.0,P,CL 146 11 41 IN 3,D,1992.0,141.1,UQ 145 19 6,AAA0110SHZE,RESIDENCIAL,2017.0,,,6212315000000.0
4102397,6212.0,SALAZAR GOMEZ,16.0,35.0,1.0,3001.0,6.0,1.0,05/04/1995 12:00:00 AM,2018.0,P,KR 65B 10A 69 AP 301,D,1995.0,77.0,10 65B 20 3,AAA0074KOUH,RESIDENCIAL,2018.0,,,6232315000000.0
2086641,8510.0,ACACIAS USAQUEN,14.0,30.0,1.0,2005.0,6.0,1.0,07/11/2013 12:00:00 AM,2017.0,P,CL 146 12A 53 AP 205,D,1992.0,47.07,008510143000102005,AAA0235WNEP,RESIDENCIAL,2017.0,,,6212315000000.0
2959221,2401.0,TUNAL ORIENTAL,27.0,4.0,2.0,5003.0,6.0,1.0,12/31/1997 12:00:00 AM,2018.0,P,KR 24C 54 40 SUR IN 2 AP 503,D,1992.0,59.4,002401270400205003,AAA0015EKUZ,RESIDENCIAL,2018.0,,,6212115000000.0
1269822,5657.0,SABANA DEL DORADO,34.0,25.0,0.0,0.0,6.0,1.0,12/31/1997 12:00:00 AM,2017.0,N,KR 120B 63A 92,D,1998.0,210.7,57 120A 7,AAA0072BDHK,RESIDENCIAL,2017.0,S,KR 120B 63A 90,6040215000000.0
903383,4601.0,CALANDAIMA,44.0,10.0,0.0,0.0,6.0,1.0,12/31/2002 12:00:00 AM,2017.0,N,CL 34B SUR 90A 22,D,1998.0,76.8,105218441000000000,AAA0165CJKC,RESIDENCIAL,2017.0,,,6032115000000.0
4848799,8510.0,ACACIAS USAQUEN,12.0,8.0,1.0,1004.0,6.0,1.0,02/21/1989 12:00:00 AM,2018.0,P,CL 144 13 58 IN 4,D,1992.0,79.1,144 25 6 4,AAA0110KKNN,RESIDENCIAL,2018.0,,,6212315000000.0
4685918,8405.0,GINEBRA,2.0,2.0,4.0,91023.0,6.0,1.0,12/01/2011 12:00:00 AM,2018.0,P,AK 7 130 50 TO 4 GS16 D,D,1993.0,25.0,008405020200491023,AAA0225DHBS,RESIDENCIAL,2018.0,,,6612415000000.0


### Nombres de las variables

In [19]:
df.columns

Index(['CODIGO_BARRIO', 'NOMBRE_BARRIO', 'CODIGO_MANZANA', 'CODIGO_PREDIO',
       'CODIGO_CONSTRUCCION', 'CODIGO_RESTO', 'TIPO_PROPIEDAD',
       'CODIGO_DESTINO', 'FECHA_INCORPORACION', 'AVALUO_ANO', 'CLASE_PREDIO',
       'DIRECCION_REAL', 'MARCA_DIRECCION', 'VIGENCIA_FORMACION',
       'AREA_CONSTRUIDA', 'CEDULA_CATASTRAL', 'CHIP', 'DESCRIPCION_DESTINO',
       'VIGENCIA_ACTUALIZACION', 'TIPO_DIRECCION(S/I)', 'DIRECCION(S/I)',
       'ZONA_HOMOGENEA_FISICA'],
      dtype='object')

### Tipos de Datos

In [20]:
df.dtypes

CODIGO_BARRIO             float64
NOMBRE_BARRIO              object
CODIGO_MANZANA            float64
CODIGO_PREDIO             float64
CODIGO_CONSTRUCCION       float64
CODIGO_RESTO              float64
TIPO_PROPIEDAD            float64
CODIGO_DESTINO            float64
FECHA_INCORPORACION        object
AVALUO_ANO                float64
CLASE_PREDIO               object
DIRECCION_REAL             object
MARCA_DIRECCION            object
VIGENCIA_FORMACION        float64
AREA_CONSTRUIDA            object
CEDULA_CATASTRAL           object
CHIP                       object
DESCRIPCION_DESTINO        object
VIGENCIA_ACTUALIZACION    float64
TIPO_DIRECCION(S/I)        object
DIRECCION(S/I)             object
ZONA_HOMOGENEA_FISICA     float64
dtype: object

### Información General

In [26]:
# Basic Statistics
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
CODIGO_BARRIO,5513624.0,8080.937,19091.06,1101.0,4503.0,6217.0,8504.0,209106.0
CODIGO_MANZANA,5513624.0,31.55936,25.52161,0.0,10.0,25.0,47.0,99.0
CODIGO_PREDIO,5513624.0,15.2121,16.59554,0.0,3.0,10.0,21.0,99.0
CODIGO_CONSTRUCCION,5513624.0,3.703899,17.1189,0.0,0.0,1.0,1.0,999.0
CODIGO_RESTO,5513624.0,14221.49,31001.98,0.0,0.0,1015.0,5001.0,99177.0
TIPO_PROPIEDAD,5513624.0,5.915451,0.5806246,1.0,6.0,6.0,6.0,8.0
CODIGO_DESTINO,5513624.0,6.405872,13.71721,1.0,1.0,1.0,1.0,89.0
AVALUO_ANO,5513624.0,2017.504,0.4999845,2017.0,2017.0,2018.0,2018.0,2018.0
VIGENCIA_FORMACION,5363810.0,1995.649,5.917214,0.0,1993.0,1995.0,1998.0,2015.0
VIGENCIA_ACTUALIZACION,5513434.0,2017.495,0.5236379,2001.0,2017.0,2018.0,2018.0,2018.0


### Extracción de variables

In [22]:
df[["CHIP","NOMBRE_BARRIO"]] # df[lista_de_variables]

Unnamed: 0,CHIP,NOMBRE_BARRIO
0,AAA0000AOSK,LAS BRISAS
1,AAA0000AOTO,LAS BRISAS
2,AAA0000AOUZ,LAS BRISAS
3,AAA0000AOWF,LAS BRISAS
4,AAA0000AOXR,LAS BRISAS
...,...,...
5513620,AAA0251CPHK,LA UNION URBANO
5513621,AAA0157PTCN,LA UNION URBANO
5513622,AAA0229CJLW,LA UNION URBANO
5513623,AAA0157PTEP,LA UNION URBANO


### Conteos 

Vemos como hacer conteos por una variable. Usaremos la columna 'NOMBRE_BARRIO' como variable de agrupación.

In [28]:
df.groupby('NOMBRE_BARRIO').count()

Unnamed: 0_level_0,CODIGO_BARRIO,CODIGO_MANZANA,CODIGO_PREDIO,CODIGO_CONSTRUCCION,CODIGO_RESTO,TIPO_PROPIEDAD,CODIGO_DESTINO,FECHA_INCORPORACION,AVALUO_ANO,CLASE_PREDIO,DIRECCION_REAL,MARCA_DIRECCION,VIGENCIA_FORMACION,AREA_CONSTRUIDA,CEDULA_CATASTRAL,CHIP,DESCRIPCION_DESTINO,VIGENCIA_ACTUALIZACION,TIPO_DIRECCION(S/I),DIRECCION(S/I),ZONA_HOMOGENEA_FISICA
NOMBRE_BARRIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ABRAHAM LINCOLN,2385,2385,2385,2385,2385,2385,2385,2385,2385,2385,2385,2385,2381,2385,2385,2385,2385,2385,1752,1752,2385
ACACIAS USAQUEN,27720,27720,27720,27720,27720,27720,27720,27720,27720,27720,27720,27720,25972,27720,27720,27720,27720,27720,329,329,27720
ACEVEDO TEJADA,2532,2532,2532,2532,2532,2532,2532,2532,2532,2532,2532,2532,2526,2532,2532,2532,2532,2532,660,660,2532
AEROPUERTO EL DORADO,594,594,594,594,594,594,594,594,594,594,594,594,594,594,594,594,594,594,208,208,571
AGUAS CLARAS,1473,1473,1473,1473,1473,1473,1473,1473,1473,1473,1473,1473,1464,1473,1473,1473,1473,1473,330,330,1458
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
VITELMA,3947,3947,3947,3947,3947,3947,3947,3947,3947,3947,3947,3947,3941,3947,3947,3947,3947,3947,977,977,3945
VOTO NACIONAL,6299,6299,6299,6299,6299,6299,6299,6299,6299,6299,6299,6299,6297,6299,6299,6299,6299,6299,2373,2373,6299
YOMASA,2363,2363,2363,2363,2363,2363,2363,2363,2363,2363,2363,2363,2318,2361,2363,2363,2363,2363,875,875,2345
YOMASA NORTE,16,16,16,16,16,16,16,16,16,16,16,16,14,16,16,16,16,16,4,4,16


In [29]:
df.groupby('NOMBRE_BARRIO')["CHIP"].count().head()


NOMBRE_BARRIO
ABRAHAM LINCOLN          2385
ACACIAS USAQUEN         27720
ACEVEDO TEJADA           2532
AEROPUERTO EL DORADO      594
AGUAS CLARAS             1473
Name: CHIP, dtype: int64

### Creando nuevos dataframes desde uno ya existente

In [31]:
# Crea el cálculo de conteo
bar=df.groupby('NOMBRE_BARRIO')["CHIP"].count()
# convierte a  datagrame
bar = pd.DataFrame(bar)
# sube un nombre a la columna de conteo
bar.columns=['CANTIDAD']
bar

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
ABRAHAM LINCOLN,2385
ACACIAS USAQUEN,27720
ACEVEDO TEJADA,2532
AEROPUERTO EL DORADO,594
AGUAS CLARAS,1473
...,...
VITELMA,3947
VOTO NACIONAL,6299
YOMASA,2363
YOMASA NORTE,16


### Enviando dataframes a archivos csv

In [32]:
bar.to_csv('../Datos/conteo_predios_por_barrio2018.csv')

### Seleccionado registros

En este ejemplo vemos como seleccionar registros que cumple con una condición. Seleccionamos barrios con más de 10000 predios.

In [33]:
BarriosGrandes = bar[bar['CANTIDAD']>10000]
BarriosGrandes

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
ACACIAS USAQUEN,27720
ALTOS DE CHOZICA,10270
ANTIGUO COUNTRY,13263
ATENAS,11020
BATAN,24764
...,...
VERACRUZ,18842
VICTORIA NORTE,17952
VILLA ALSACIA,18470
VILLA ELISA,13544


### Ordenando registros

Vemos como ordenar registros siguiendo un criterio de ordenación. Vamoas obtener las lista ordenada descendente de los 10 barrios con más predios.

In [34]:
BarriosGrandes.sort_values(by=['CANTIDAD'],ascending=False).head(10)

Unnamed: 0_level_0,CANTIDAD
NOMBRE_BARRIO,Unnamed: 1_level_1
TINTALA,54563
SANTA BARBARA CENTRAL,40902
LOS CEDROS,38764
SANTA BARBARA OCCIDENTAL,38561
CAOBOS SALAZAR,38540
LAS MARGARITAS,36969
MAZUREN,35574
EL PLAN,34005
CHICO NORTE,33980
BRITALIA,33359


In [35]:
print("Número de barrios grandes: ", len(BarriosGrandes))
#BarriosGrandes.to_csv('barrios_grandes.csv')

Número de barrios grandes:  148


###  Buscando diplicados 

In [46]:
cuenta_chip = pd.DataFrame(df[['CHIP']])
cuenta_chip = pd.DataFrame(cuenta_chip.groupby('CHIP')['CHIP'].count())
cuenta_chip.columns = ['Frecuencia']
cuencta_ship

In [53]:
# solo repetidos
cuenta_chip[cuenta_chip['Frecuencia']>1]

Unnamed: 0_level_0,Frecuencia
CHIP,Unnamed: 1_level_1
AAA0000AAHY,2
AAA0000AALW,2
AAA0000AAZM,2
AAA0000ABBS,2
AAA0000ABJZ,2
...,...
AAA0261CYWW,2
AAA0261DJNX,2
AAA0261DJOM,2
AAA0261ELOE,2
