In [None]:
import pandas as pd
import numpy as np

In [None]:
# Download the dataset
url='https://datosabiertos.desarrollosocial.gob.ar/dataset/0d022767-9390-486a-bff4-ba53b85d730e/resource/9a951270-60dd-4f21-aa19-4ef1205620bd/download/20220131_info_publica.csv'


path = './'
dataset_file = 'relevamiento-villas-y-asentamientos-AR.csv'

!wget -O path+dataset_file --no-check-certificate $url


In [None]:
# Load the dataset.csv as DataFrame
# Convert string -> category

url = path + dataset_file


df = pd.read_csv(url, index_col='id_renabap',
                 dtype={"id_renabap": 'int64',
                        "nombre_barrio": 'category',
                        "provincia": 'category',
                        "departamento": 'category',
                        "localidad": 'category',
                        "cantidad_viviendas_aproximadas": 'int64',
                        "cantidad_familias_aproximadas": 'int64',
                        "decada_de_creacion": 'category',
                        "anio_de_creacion": 'Int64',
                        "energia_electrica": 'category',
                        "efluentes_cloacales": 'category',
                        "agua_corriente": 'category',
                        "cocina": 'category',
                        "calefaccion": 'category',
                        "titulo_propiedad": 'category',
                        "clasificacion_barrio": 'category',
                        "superficie_m2": 'int64'})

In [None]:
len(df)

In [None]:
df.head()

El año de creacion está registrado solamente a partir de la década del 2010.

# Generación de tablas

## Tabla de cada servicio
### Electricidad

| id_electricidad | tipo de acceso |
| --------------------:  | ---------------- |
|             1          |  23434           |


### Efluentes cloacales

| id_efluentes_cloacales | tipo de acceso |
| ---------------------: | ---------------- |
|             1          |  23434           |


### Agua corriente

### Cocina


### Calefacción

In [None]:
# Acceso a servicios publicos
servicios = ['energia_electrica', 'calefaccion', 'agua_corriente',
             'efluentes_cloacales', 'cocina']

for nombre_servicio in servicios:
    # Energia electrica
    s = df[[nombre_servicio]].reset_index()
    s.drop(['id_renabap'], axis=1, inplace=True)
    s.drop_duplicates(inplace=True, ignore_index=True)
    # electricidad.drop(['index'], axis=1, inplace=True)
    s.reset_index(drop=True)

    s.index = s.index + 1
    s.index.name = 'id_' + nombre_servicio + '_acceso'
     
    s.reset_index(inplace=True)

    outfile = nombre_servicio + '.csv'
    s.to_csv(outfile, index=False)




## Tabla de provincias

In [None]:
provincia = pd.Series(df['provincia'].unique())
provincia.index = provincia.index + 1

provincia.index.name = 'id_provincia'
provincia = provincia.to_frame(name='provincia').reset_index()

provincia.to_csv('provincia.csv', index=False)

## Tabla de departamentos

In [None]:
# Tabla de departamentos
# id_departamento   id_provincia   nombre_departamento

# Extract departamento and provincia from dataframe, drop id_denabap
departamento = df[['departamento', 'provincia']].reset_index()
departamento.drop(['id_renabap'], axis=1, inplace=True)

departamento.reset_index(inplace=True)
departamento.drop(['index'], axis=1, inplace=True)

# Add id_provincia
df2 = pd.merge(departamento, provincia, on='provincia', how='outer')

# Drop duplicate rows
df3 = df2[['departamento', 'provincia', 'id_provincia']].drop_duplicates().reset_index(drop=True)

# Set index name
df3.index = df3.index + 1
df3.index.name = 'id_departamento'
df3.reset_index(inplace=True)

# Drop provincias column
departamento_table = pd.DataFrame(df3[['id_departamento', 'id_provincia', 'departamento']])

# Save table to 'departamento.csv'
departamento_table.to_csv('./departamento.csv', index=False)


## Tabla de localidades

In [None]:
# Tabla de localidades
# id_localidad   id_departamento   nombre_localidad

# Extract departamento and provincia from dataframe, drop id_denabap
localidad = df[['localidad', 'departamento']].reset_index()
localidad.drop(['id_renabap'], axis=1, inplace=True)

localidad.reset_index(inplace=True)
localidad.drop(['index'], axis=1, inplace=True)

# Add id_provincia
df2 = pd.merge(localidad, departamento_table, on='departamento', how='outer')

# Drop duplicate rows
df3 = df2[['localidad', 'departamento', 'id_departamento']].drop_duplicates().reset_index()

# Set index name
df3.index = df3.index + 1
df3.index.name = 'id_localidad'
df3.reset_index(inplace=True)

# Drop provincias column
localidad_table = pd.DataFrame(df3[['id_localidad', 'id_departamento', 'localidad']])

# Save table to 'departamento.csv'
localidad_table.to_csv('./localidad.csv', index=False)


localidad_table

## Tabla de decadas



In [None]:
# Tabla de decadas
decada = df['decada_de_creacion'].reset_index()
decada.drop(['id_renabap'], axis=1, inplace=True)
decada.drop_duplicates(inplace=True)
decada.reset_index(inplace=True)
decada = decada.sort_values(by=['decada_de_creacion'])

decada.drop(['index'], axis=1, inplace=True)
decada.reset_index(inplace=True)
decada.index = decada.index +  1
decada.index.name = 'id_decada_creacion'
decada.reset_index(inplace=True)

decada = decada[['id_decada_creacion', 'decada_de_creacion']]

outfile = './decada_de_creacion.csv'

decada.to_csv(outfile, index=False)



In [None]:
decada

## Tabla de titulo_propiedad


In [None]:
# Tabla de decadas
titulo_propiedad = df[['titulo_propiedad']].reset_index()
titulo_propiedad.drop(['id_renabap'], axis=1, inplace=True)
titulo_propiedad.drop_duplicates(inplace=True)
titulo_propiedad.reset_index(inplace=True)

titulo_propiedad.drop(['index'], axis=1, inplace=True)
titulo_propiedad.reset_index(inplace=True)
titulo_propiedad.index = titulo_propiedad.index +  1
titulo_propiedad.index.name = 'id_titulo_propiedad'
titulo_propiedad = titulo_propiedad.reset_index()

titulo_propiedad = titulo_propiedad[['id_titulo_propiedad', 'titulo_propiedad']]

outfile = './titulo_propiedad.csv'

titulo_propiedad.to_csv(outfile, index=False)


In [None]:
titulo_propiedad

## Tabla clasificacion_barrio

In [None]:
# Tabla de decadas
clasificacion_barrio = df[['clasificacion_barrio']].reset_index()
clasificacion_barrio.drop(['id_renabap'], axis=1, inplace=True)
clasificacion_barrio.drop_duplicates(inplace=True)
clasificacion_barrio.reset_index(inplace=True)

clasificacion_barrio.drop(['index'], axis=1, inplace=True)
clasificacion_barrio.reset_index(inplace=True)
clasificacion_barrio.index = clasificacion_barrio.index +  1
clasificacion_barrio.index.name = 'id_clasificacion_barrio'
clasificacion_barrio = clasificacion_barrio.reset_index()

clasificacion_barrio = clasificacion_barrio[['id_clasificacion_barrio', 'clasificacion_barrio']]

outfile = './clasificacion_barrios.csv'

clasificacion_barrio.to_csv(outfile, index=False)


## Tabla de barrios

In [None]:
barrios_populares = df.copy()
barrios_populares.reset_index(inplace=True)

#tables = ['localidad', 'decada_de_creacion',
#          'energia_electrica', 'efluentes_cloacales', 'agua_corriente',
#          'cocina', 'calefaccion',
#          'titulo_propiedad', 'clasificacion_barrio']
          
localidad = pd.read_csv('localidad.csv')
departamento = pd.read_csv('departamento.csv')
decada_de_creacion = pd.read_csv('decada_de_creacion.csv')
energia_electrica = pd.read_csv('energia_electrica.csv')
calefaccion = pd.read_csv('calefaccion.csv')
efluentes_cloacales = pd.read_csv('efluentes_cloacales.csv')
cocina = pd.read_csv('cocina.csv')
agua_corriente = pd.read_csv('agua_corriente.csv')
clasificacion_barrio = pd.read_csv('clasificacion_barrios.csv')
titulo_propiedad = pd.read_csv('titulo_propiedad.csv')


# Add id_provincia
df2 = pd.merge(barrios_populares, localidad, on='localidad', how='outer')

df2.drop_duplicates(inplace=True)
df2.reset_index(inplace=True)
df2.drop('localidad', axis=1, inplace=True)
df2.drop('index', axis=1, inplace=True)
df2.reset_index(inplace=True)
# df2 = pd.merge(df2, departamento, on='departamento', how='left')
# df2.drop_duplicates(inplace=True)
# df2.reset_index(inplace=True)


df3 = pd.merge(df2, energia_electrica, on='energia_electrica', how='outer')
df3.drop_duplicates(inplace=True)


df4 = pd.merge(df3, calefaccion, on='calefaccion', how='outer')
df4.drop_duplicates(inplace=True)

df5 = pd.merge(df4, efluentes_cloacales, on='efluentes_cloacales', how='outer')
df5.drop_duplicates(inplace=True)

df6 = pd.merge(df5, cocina, on='cocina', how='outer')
df6.drop_duplicates(inplace=True)

df7 = pd.merge(df6, agua_corriente, on='agua_corriente', how='outer')
df7.drop_duplicates(inplace=True)

df8 = pd.merge(df7, clasificacion_barrio, on='clasificacion_barrio', how='outer')
df8.drop_duplicates(inplace=True)

df9 = pd.merge(df8, titulo_propiedad, on='titulo_propiedad', how='outer')
df9.drop_duplicates(inplace=True)

df10 = pd.merge(df9, decada_de_creacion, on='decada_de_creacion', how='outer')
df10.drop_duplicates(inplace=True)


cols_barrio = ['id_renabap', 'id_localidad', 'id_decada_creacion', 
               'id_energia_electrica_acceso', 'id_efluentes_cloacales_acceso',
               'id_agua_corriente_acceso', 'id_cocina_acceso', 'id_calefaccion_acceso',
               'id_clasificacion_barrio', 'id_titulo_propiedad',
               'nombre_barrio', 'cantidad_viviendas_aproximadas']

df10[cols_barrio].columns



In [None]:
# Join barrios-populares data frame with services dataframes, titulo_propiedad and clasificacion

localidad = pd.read_csv('localidad.csv')
departamento = pd.read_csv('departamento.csv')
decada_de_creacion = pd.read_csv('decada_de_creacion.csv')
energia_electrica = pd.read_csv('energia_electrica.csv')
calefaccion = pd.read_csv('calefaccion.csv')
efluentes_cloacales = pd.read_csv('efluentes_cloacales.csv')
cocina = pd.read_csv('cocina.csv')
agua_corriente = pd.read_csv('agua_corriente.csv')
clasificacion_barrio = pd.read_csv('clasificacion_barrios.csv')
titulo_propiedad = pd.read_csv('titulo_propiedad.csv')

# In each join we delete the name column and retain the id

# Energia electrica
df2 = pd.merge(df, energia_electrica, on='energia_electrica', how='outer')
df2.drop_duplicates(inplace=True)
df2.drop(['energia_electrica'], axis=1, inplace=True)

# Calefaccion
df3 = pd.merge(df2, calefaccion, on='calefaccion', how='outer')
df3.drop_duplicates(inplace=True)
df3.drop(['calefaccion'], axis=1, inplace=True)

# Efluentes cloacales
df4 = pd.merge(df3, efluentes_cloacales, on='efluentes_cloacales', how='outer')
df4.drop_duplicates(inplace=True)
df4.drop(['efluentes_cloacales'], axis=1, inplace=True)

# Cocina
df5 = pd.merge(df4, cocina, on='cocina', how='outer')
df5.drop_duplicates(inplace=True)
df5.drop(['cocina'], axis=1, inplace=True)

# Agua corriente
df6 = pd.merge(df5, agua_corriente, on='agua_corriente', how='outer')
df6.drop_duplicates(inplace=True)
df6.drop(['agua_corriente'], axis=1, inplace=True)

# Clasificacion barrio
df7 = pd.merge(df6, clasificacion_barrio, on='clasificacion_barrio', how='outer')
df7.drop_duplicates(inplace=True)
df7.drop(['clasificacion_barrio'], axis=1, inplace=True)

# Titulo propiedad
df8 = pd.merge(df7, titulo_propiedad, on='titulo_propiedad', how='outer')
df8.drop_duplicates(inplace=True)
df8.drop(['titulo_propiedad'], axis=1, inplace=True)

# Decada de creacion
df9 = pd.merge(df8, decada_de_creacion, on='decada_de_creacion', how='outer')
df9.drop_duplicates(inplace=True)
df9.drop(['decada_de_creacion'], axis=1, inplace=True)




In [None]:
len(df9)

In [None]:
localidad_departamento

In [None]:
localidad_departamento = pd.merge(departamento, localidad, on='id_departamento', how='outer')
localidad_departamento.drop_duplicates(inplace=True)
localidad_departamento_provincia = pd.merge(provincia, localidad_departamento, on='id_provincia', how='outer')
new_df = pd.merge(df9, localidad_departamento_provincia, how='outer', 
                  left_on=['localidad', 'departamento', 'provincia'], 
                  right_on=['localidad', 'departamento', 'provincia'])

In [None]:
localidad_departamento_provincia.groupby(['provincia'])['departamento'].count()

provincia_departamento_size = localidad_departamento_provincia.groupby(['provincia'])['departamento'].size().reset_index()


In [None]:
provincia_departamento_size['departamento'].sum()

In [None]:
new_df.drop(['provincia', 'departamento', 'localidad'], axis=1, inplace=True)



In [None]:
localidad_departamento_provincia_size = localidad_departamento_provincia.groupby(['provincia'])['departamento'].size().reset_index()

In [None]:
localidad_departamento_provincia_size['localidad']

In [None]:
new_df = pd.merge(df9, localidad_departamento, left_on=['departamento', 'localidad'], right_on=['departamento', 'localidad'])




In [None]:
len(new_df)

In [None]:
df10.drop_duplicates(inplace=True)
df10.columns
df10.drop(['id_localidad_y'], axis=1, inplace=True)

In [None]:
len(new_df['nombre_barrio'].unique())

In [None]:
df11.drop(['id_localidad'], axis=1, inplace=True)
df11.rename(columns={'id_localidad_y': 'id_localidad'}, inplace=True)



In [None]:
df10.columns

In [None]:
df10.columns

In [None]:
df_test = pd.merge(df9, localidad_departamento, on=['localidad', 'departamento'])
df_test.drop_duplicates(inplace=True)

In [None]:
df_test.columns

In [None]:
localidad_departamento