<a href="https://colab.research.google.com/github/sanjosegustavo/Analisis_Laboratorio1/blob/main/Analisis_laboratorio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Datos - Laboratorio 1


## *Conjunto de datos (Dataset)*:

###
* *Origen*: datos obtenidos desde el sitio Datos Abiertos de Buenos Aires. https://buenosaires.gob.ar/innovacionytransformaciondigital/datos-abiertos-de-buenos-aires

*   *Descripción*: Relevamiento de usos de suelo de la Ciudad Autónoma de Buenos Aires desde el año 2022 hasta el año 2024.
Se trata de un relevamiento observacional en el que se infieren los usos y las actividades de cada parcela de la
Ciudad a partir de los rasgos que el relevador identifica in situ durante el momento de la observación. Para ello, se
observan características tipológicas del edificio, su estado de conservación y la actividad que se está desarrollando
en el instante del relevamiento.
Los usos de cada edificio se registran con la calle y la altura observada en el relevamiento.

*   *Diccionario de atributos*:

    * SMP:Sección-manzana-parcela, es decir, la nomenclatura catastral.
    * BARRIO: Barrio donde se ubica el uso relevado.
    * TIPO1: Uso general de la parcela.
    * TIPO2: Uso específico de la parcela.
    * ESTADO: Describe la condición de funcionamiento del uso del suelo al momento del relevamiento. Puede clasificarse en:
      * Activo: cuando el uso relevado se encuentra en funcionamient efectivo, como un comercio abierto, una vivienda habitada o una industria en operación.
      * Inactivo: cuando el uso existe físicamente pero no está en funcionamiento al momento del relevamiento,como un local cerrado o una vivienda abandonada.
      * En el caso de usos como Lote, Espacios verdes, Obra en construcción, Vía pública y Barrio popular no seconsigna el estado, ya que no aplica la clasificación entre activo e inactivo.
    * PISOS: Cantidad de pisos del uso.
    * GP_Q: Cantidad de garages privados con los que cuenta el uso.
    * OBS: Comentario adicional que complementa la información registrada, permitiendo incluir aclaraciones o detalles relevantes no contemplados en otros campos del formulario. Este campo no es obligatorio.
    * CALLE: Nombre de la calle sobre la cual se encuentra el uso del suelo.
    * PUERTA: Número asignado a la entrada principal del inmueble. En caso de que el uso no cuente con numeración oficial, se registra el valor 0.
    * UNIFICADO: Indica si el uso relevado abarca una o más parcelas que, en la práctica, funcionan como un único terreno. En estos casos se asigna la palabra SI en este campo.
    * SMP_IDEM: Señala a qué parcela se encuentra unificado el terreno.
    * AÑO: Corresponde al año en que se realizó el relevamiento en ese barrio.

## 0 - Instalación de dependencias

In [None]:
from google.colab import drive
import pandas as pd
import chardet

## 1 - ETL (Extracción, Transformación y Carga)

### 1.1 - Extracción (Extract)

In [None]:
# Acceso al origen de datos (archivo .csv)

drive.mount('/content/drive', force_remount=True)

ruta_archivo = '/content/drive/MyDrive/analisis_lab1/relevamiento-usos-del-suelo-2022-2024.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())

try:
  df = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=',', decimal='.')
  print('Extracción de datos exitosa')
except FileNotFoundError:
  print(f'El archivo no se encuentra en la ruta: {ruta_archivo}')

Mounted at /content/drive
Extracción de datos exitosa


  df = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=',', decimal='.')


### 1.2 - Transformación (Transform)

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 417764 entries, 0 to 417763
Data columns (total 14 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   OBJECTID   417764 non-null  int64 
 1   SMP        417764 non-null  object
 2   BARRIO     417764 non-null  object
 3   TIPO1      417764 non-null  object
 4   TIPO2      402127 non-null  object
 5   ESTADO     407526 non-null  object
 6   PISOS      417764 non-null  object
 7   GP_Q       417764 non-null  object
 8   OBS        1931 non-null    object
 9   CALLE      417764 non-null  object
 10  PUERTA     417764 non-null  int64 
 11  UNIFICADO  5051 non-null    object
 12  SMP_IDEM   5053 non-null    object
 13  AÑO        417764 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 44.6+ MB


In [None]:
# Renombrar columnas con notación estandar

df.rename(columns={
    'OBJECTID': 'id',
    'SMP' : 'smp',
    'BARRIO' : 'barrio',
    'TIPO1' : 'uso_general',
    'TIPO2' : 'uso_especifico',
    'ESTADO' : 'estado',
    'PISOS' : 'pisos',
    'GP_Q' : 'gp_q',
    'OBS' : 'obs',
    'CALLE' : 'calle',
    'PUERTA': 'puerta',
    'UNIFICADO' : 'unificado',
    'SMP_IDEM' : 'smp_idem',
    'AÑO' : 'anio'
}, inplace=True)
print ('Las columnas han sido renombradas.')

Las columnas han sido renombradas.


In [None]:
# Eliminar de df los campos smp, gp_p, obs, unificado, smp_idem, por no ser necesarios para el tipo de análisis actual.

df.drop(columns=['smp', 'gp_q', 'obs', 'unificado', 'smp_idem'], inplace=True)


In [None]:
df.head()


Unnamed: 0,id,barrio,uso_general,uso_especifico,estado,pisos,calle,puerta,anio
0,1,BELGRANO,GARAGE COMERCIAL,,ACTIVO,1,CIUDAD DE LA PAZ,2078,2023
1,2,BELGRANO,UNICOMERCIAL,OPTICA,ACTIVO,1,AV. LUIS MARIA CAMPOS,1519,2023
2,3,BELGRANO,RESIDENCIAL,MULTIFAMILIAR,ACTIVO,16,AV. LUIS MARIA CAMPOS,1521,2023
3,4,BELGRANO,RESIDENCIAL,MULTIFAMILIAR,ACTIVO,19,LA PAMPA,1850,2023
4,5,BELGRANO,RESIDENCIAL,MULTIFAMILIAR,ACTIVO,9,LA PAMPA,1548,2023


In [None]:
# Transformar el contenido de las columna 'barrio', 'uso_general', 'uso_especifico', 'estado', 'calle.
# al formato donde cada palabra comenzará con mayúscula y el resto en minúscula.
df['barrio'] = df['barrio'].str.title()
df['uso_general'] = df['uso_general'].str.title()
df['uso_especifico'] = df['uso_especifico'].str.title()
df['estado'] = df['estado'].str.title()
df['calle'] = df['calle'].str.title()

In [None]:
df.head()

Unnamed: 0,id,barrio,uso_general,uso_especifico,estado,pisos,calle,puerta,anio
0,1,Belgrano,Garage Comercial,,Activo,1,Ciudad De La Paz,2078,2023
1,2,Belgrano,Unicomercial,Optica,Activo,1,Av. Luis Maria Campos,1519,2023
2,3,Belgrano,Residencial,Multifamiliar,Activo,16,Av. Luis Maria Campos,1521,2023
3,4,Belgrano,Residencial,Multifamiliar,Activo,19,La Pampa,1850,2023
4,5,Belgrano,Residencial,Multifamiliar,Activo,9,La Pampa,1548,2023


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 417764 entries, 0 to 417763
Data columns (total 9 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   id              417764 non-null  int64 
 1   barrio          417764 non-null  object
 2   uso_general     417764 non-null  object
 3   uso_especifico  402127 non-null  object
 4   estado          407526 non-null  object
 5   pisos           417764 non-null  object
 6   calle           417764 non-null  object
 7   puerta          417764 non-null  int64 
 8   anio            417764 non-null  int64 
dtypes: int64(3), object(6)
memory usage: 28.7+ MB


In [None]:
# Reemplazar en df los caractéres especiales ├Ë, ,├Ì, ├Ô, ├Ü por é, í, ó, ú en el campo 'uso_especifico'.

df['uso_especifico'] = df['uso_especifico'].str.replace('├Ë', 'é', regex=True)
df['uso_especifico'] = df['uso_especifico'].str.replace('├Ô', 'ó', regex=True)
df['uso_especifico'] = df['uso_especifico'].str.replace('├Ì', 'í', regex=True)
df['uso_especifico'] = df['uso_especifico'].str.replace('├Ü', 'ú', regex=True)

### 1.3 - Carga (Load)

In [None]:
# Establecer ruta de salida para guardar el nuevo .csv trasformado.

ruta_salida = '/content/drive/MyDrive/analisis_lab1/relevamiento-usos-del-suelo-2022-2024-OK.csv'

# Guardar el Data Frame df transformado en un nuevo archivo CSV en Drive.
df.to_csv(ruta_salida, index=False, sep=',')

print(f'Archivo CSV guardado en: {ruta_salida}')

Archivo CSV guardado en: /content/drive/MyDrive/analisis_lab1/relevamiento-usos-del-suelo-2022-2024-OK.csv


## 2 - EDA (Análisis Exloratorio de Datos)

In [None]:
# Acceso al archivo transformado, guardado en Google Drive.

drive.mount('/content/drive', force_remount=True)

ruta_archivo = '/content/drive/MyDrive/analisis_lab1/relevamiento-usos-del-suelo-2022-2024-OK.csv'
with open(ruta_archivo, 'rb') as f:
    result = chardet.detect(f.read())

try:
  df_ok = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=',', decimal=',')
  print('Archivo transformado para EDA caragdo con éxito.')
except FileNotFoundError:
  print(f'El archivo no se encuentra en la ruta: {ruta_archivo}')

Mounted at /content/drive
Archivo transformado para EDA caragdo con éxito.


  df_ok = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=',', decimal=',')


##### **Interpretación de resultados de un primer EDA al Dataframe df_ok:**
* 417764 registros de relvamientos de usos de suelo.
* 9 columnas.
* Las columnas [id, puerta, anio] son de tipo de dato numérico entero.
* Las columnas [barrio, uso_general, uso_especifico, estado, pisos, calle] son de tipo de dato texto.
* La columna [uso_especifico] contiene 15637 valores nulos.
* La columna [estado] contiene 10238 valores nulos.
____
* El barrio con mas relevamientos es *Palermo*.
* El uso general mas frecuente relevado es *Residencial*.
* El uso específico mas frecuente es *Multifamiliar*.
* Es mas frecuente el estado *Activo* de los usos de suelo relevados.
* Las construcciones mas frecuentes son de *1* piso de altura.
* Sobre la Avenida Rivadavia se relevaron la mayor cantidad de usos.
____
* Los barrios de CABA relevados son *48*.
* Existen *15* usos generales de suelo en la Ciudad de Buenos Aires.
____

* Los usos de suelo fueron relevados desde el año *2022* hasta el año *2024*.
* El *2023* es el año promedio de los relevamientos de usos de suelo.

In [None]:
df_ok.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 417764 entries, 0 to 417763
Data columns (total 9 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   id              417764 non-null  int64 
 1   barrio          417764 non-null  object
 2   uso_general     417764 non-null  object
 3   uso_especifico  402127 non-null  object
 4   estado          407526 non-null  object
 5   pisos           417764 non-null  object
 6   calle           417764 non-null  object
 7   puerta          417764 non-null  int64 
 8   anio            417764 non-null  int64 
dtypes: int64(3), object(6)
memory usage: 28.7+ MB


In [None]:
df_ok.describe(include=['object'])

Unnamed: 0,barrio,uso_general,uso_especifico,estado,pisos,calle
count,417764,417764,402127,407526,417764,417764
unique,48,15,471,2,52,2426
top,Palermo,Residencial,Multifamiliar,Activo,1,Av. Rivadavia
freq,21206,256237,146119,382347,155653,3423


In [None]:
df_ok['anio'].describe()

Unnamed: 0,anio
count,417764.0
mean,2023.190222
std,0.726891
min,2022.0
25%,2023.0
50%,2023.0
75%,2024.0
max,2024.0


In [None]:
# Lista de valores únicos de la columna uso_general.
usos_generales = df_ok['uso_general'].unique()
print(usos_generales)

['Garage Comercial' 'Unicomercial' 'Residencial' 'Equipamiento'
 'Obra En Construccion' 'Garage Privado' 'Oficinas' 'Estacion De Servicio'
 'Lote' 'Espacios Verdes' 'Multicomercial' 'Sin Uso Identificado'
 'Industrial' 'Via Publica' 'Barrio Popular']


## 3 - Preguntas de negocio ()

#### **¿Cuantas parcelas estan destinadas a la industria en CABA?**

In [None]:
# Seleccionar de df_ok los registros donde la columna uso_general sea igual a Industrial.
df_uso_industrial = df_ok[df_ok['uso_general'] == 'Industrial']

# Listar los valores únicos de la columna uso_específico del dataframe df_uso_industrial.
usos_especificos_industrial = df_uso_industrial['uso_especifico'].unique()
print(usos_especificos_industrial)

['Sin Identificar' 'Edificio Productivo' 'Unidad De Baja Escala'
 'Deposito' 'Galpon']


In [None]:
# Seleccionar de df_uso_industrial donde la columna uso_especifico sea igual a 'Edificio Productivo'
# y la columna estado sea igual a 'Activo'.
condicion_ed_productivo = (df_uso_industrial['uso_especifico'] == 'Edificio Productivo') & (df_uso_industrial['estado'] == 'Activo')
df_edificio_productivo = df_uso_industrial[condicion_ed_productivo]

print(f'En CABA {len(df_edificio_productivo)} parcelas están destinadas a procesos industriales de mediana a gran escala.')

En CABA 3724 parcelas están destinadas a procesos industriales de mediana a gran escala.


#### **¿Qué porcentaje del suelo de CABA se usa para actividades económicas?**

In [None]:
# Seleccionar de df_ok los registros donde la columna uso_general sea igual a Industrial, Unicomercial,
# Multicomercial, Garage Comercial, Oficinas o Estacion de Servicio, y la columna estado es igual a Activo.
df_uso_economico = df_ok[((df_ok['uso_general'] == 'Industrial') | (df_ok['uso_general'] == 'Unicomercial') | (df_ok['uso_general'] == 'Multicomercial') | (df_ok['uso_general'] == 'Oficinas') | (df_ok['uso_general'] == 'Garage Comercial') | (df_ok['uso_general'] == 'Estacion de Servicio')) & (df_ok['estado'] == 'Activo')]

porcentaje_usos_economicos = (len(df_uso_economico) / len(df_ok)) * 100

print(f'El {porcentaje_usos_economicos:.2f}% del suelo de CABA se usa para actividades económicas.')



El 27.39% del suelo de CABA se usa para actividades económicas.


#### **¿Qué porcentaje del suelo de cada barrio de CABA tiene usos económicos?**
*La ONU, a través de ONU-Habitat, promueve la mixtura de usos de suelo como una estrategia para ciudades sostenibles, definiéndola como la coexistencia de usos residenciales, comerciales y de servicios dentro de un mismo barrio. Se recomienda que al menos el 40% del área construida se destine a usos económicos.*

In [None]:
# Agrupacion por la columna barrio de la cantidad de usos relevados.
df_usos_por_barrio = df_ok.groupby(['barrio', 'uso_general'])['uso_general'].value_counts().reset_index(name='cantidad')

# Agrupacion por barrio de la suma de la columna cantidad del dataframe df_usos_por_barrio.
df_usos_por_barrio = df_usos_por_barrio.groupby(['barrio'])['cantidad'].sum().reset_index(name='total_usos')

# Agrupacion por la columna barrio de uso_general económico.
df_usos_economicos_por_barrio = df_uso_economico.groupby(['barrio', 'uso_general'])['uso_general'].value_counts().reset_index(name='subtotal')

# Agrupacion por barrio de la suma de la columna cantidad del dataframe df_usos_economicos_por_barrio.
df_usos_economicos_por_barrio = df_usos_economicos_por_barrio.groupby(['barrio'])['subtotal'].sum().reset_index(name='total_usos_economicos')

# Merge el dataframe df_usos_por_barrio y el dataframe df_usos_economicos_por_barrio.
df_merge = pd.merge(df_usos_por_barrio, df_usos_economicos_por_barrio, on='barrio')
df_merge.head()

df_merge['porcentaje_usos_economicos'] = (df_merge['total_usos_economicos'] / df_merge['total_usos']) * 100

df_merge.head(48)


Unnamed: 0,barrio,total_usos,total_usos_economicos,porcentaje_usos_economicos
0,Agronomia,3183,499,15.677034
1,Almagro,11877,3882,32.685021
2,Balvanera,14704,7818,53.169206
3,Barracas,9783,3083,31.513851
4,Belgrano,11802,3881,32.884257
5,Boedo,8213,2034,24.765615
6,Caballito,17529,4430,25.272406
7,Chacarita,4983,1581,31.727875
8,Coghlan,3341,497,14.875786
9,Colegiales,5668,1382,24.382498


In [None]:
# Cuantos barrios de CABA tienen al menos el 40% de sus usos de suelo dedicados al uso económico,
# ordenados de mayor a menor.

df_merge_40 = df_merge[df_merge['porcentaje_usos_economicos'] >= 40].sort_values(by='porcentaje_usos_economicos', ascending=False)
df_merge_40.head(10)

Unnamed: 0,barrio,total_usos,total_usos_economicos,porcentaje_usos_economicos
31,San Nicolas,6470,4229,65.363215
26,Puerto Madero,573,333,58.115183
28,Retiro,3251,1732,53.275915
2,Balvanera,14704,7818,53.169206
16,Monserrat,5450,2720,49.908257
27,Recoleta,10867,4647,42.762492
12,Floresta,8861,3595,40.571042


In [None]:
print(f'De los {len(df_merge)} barrios de CABA, {len(df_merge_40)} tienen al menos el 40% de su suelo destinado a usos económicos.')

De los 48 barrios de CABA, 7 tienen al menos el 40% de su suelo destinado a usos económicos.


#### **¿Cuales son los tres barrios de CABA con mas tipos de Equipamientos?**

In [None]:
# Seleccionar del dataframe df_ok, los registros donde el uso_general sea igual a 'Equipamiento'.
df_equipamiento = df_ok[(df_ok['uso_general'] == 'Equipamiento') & (df_ok['estado'] == 'Activo')]
df_equipamiento.head()


Unnamed: 0,id,barrio,uso_general,uso_especifico,estado,pisos,calle,puerta,anio
43,44,Belgrano,Equipamiento,Jardin De Infantes,Activo,6,Cuba,1761,2023
74,75,Belgrano,Equipamiento,Club,Activo,5,Virrey Del Pino,1480,2023
75,76,Belgrano,Equipamiento,Club,Activo,2,Jose Hernandez,1350,2023
93,94,Belgrano,Equipamiento,Enseñanza - Terciario,Activo,3,Zabala,2057,2023
94,95,Belgrano,Equipamiento,Iglesia,Activo,2,Zabala,2005,2023


In [None]:
# Listar valores unicos de la columna us_especifico de df_equipamiento.
print(f'{df_equipamiento['uso_especifico'].unique()} \n\nExisten {len(df_equipamiento['uso_especifico'].unique())} tipos de equipamientos en CABA.')

['Jardin De Infantes' 'Club' 'Enseñanza - Terciario' 'Iglesia' 'Hotel'
 'Embajada' 'Jardin De Infantes, Colegio Primario Y Secundario' 'Teatro'
 'Organismos Publicos Municipales (Gcba)' 'Colegio Primario'
 'Canchas De Futbol' 'Escuela De Musica' 'Clinicas'
 'Asociacion Social Y Cultural' 'Canchas De Tenis' 'Geriatrico'
 'Centro De Salud' 'Enseñanza De Idiomas' 'Bomberos' 'Sinagoga'
 'Distribucion Energia Electrica' 'Centro Cultural' 'Asociacion Civil'
 'Colegio Secundario' 'Organismos Publicos Nacionales' 'Museo' 'Cine'
 'Terminal De Micros' 'Sin Identificar' 'Estacion De Tren'
 'Jardin De Infantes Y Colegio Primario' 'Templo' 'Medicina Prepaga'
 'Centro De Reciclaje' 'Albergue Transitorio' 'Policia' 'Obra Social'
 'Centro De Rehabilitacion' 'Enseñanza - Universidad' 'Enseñanza'
 'Hotel Familiar' 'Biblioteca' 'Colegio Primario Y Secundario'
 'Vias Del Tren' 'Consulado' 'Consultorio Privado' 'Asociacion Mutual'
 'Escuela De Natacion' 'Campo De Deportes' 'Hospital' 'Hogar' 'Sindicato'
 '

In [None]:
# Obtener uso_especifico único, agrupado por barrio
df_equipamiento_por_barrio = df_equipamiento.groupby(['barrio'])['uso_especifico'].unique().reset_index(name='tipos_equipamiento')
df_equipamiento_por_barrio.head()

Unnamed: 0,barrio,tipos_equipamiento
0,Agronomia,"[Colegio Primario, Centro De Salud, Canchas De..."
1,Almagro,"[Colegio Primario, Hotel, Jardin De Infantes, ..."
2,Balvanera,"[Asociacion Civil, Distribucion Energia Electr..."
3,Barracas,"[Organismos Publicos Nacionales, Colegio Secun..."
4,Belgrano,"[Jardin De Infantes, Club, Enseñanza - Terciar..."


In [None]:
df_equipamiento_por_barrio['cantidad_tipos_equipamiento'] = df_equipamiento_por_barrio['tipos_equipamiento'].apply(lambda x: len(x))
df_top_equipamiento = df_equipamiento_por_barrio.sort_values(by='cantidad_tipos_equipamiento', ascending=False)
df_top_equipamiento.head(10)

Unnamed: 0,barrio,tipos_equipamiento,cantidad_tipos_equipamiento
11,Flores,"[Consultorio Privado, Centro De Rehabilitacion...",62
20,Palermo,"[Club, Jardin De Infantes, Organismos Publicos...",62
2,Balvanera,"[Asociacion Civil, Distribucion Energia Electr...",56
27,Recoleta,"[Centro De Salud, Embajada, Enseñanza - Univer...",55
6,Caballito,"[Biblioteca, Organismos Publicos Nacionales, E...",54
4,Belgrano,"[Jardin De Infantes, Club, Enseñanza - Terciar...",54
3,Barracas,"[Organismos Publicos Nacionales, Colegio Secun...",52
1,Almagro,"[Colegio Primario, Hotel, Jardin De Infantes, ...",52
22,Parque Chacabuco,"[Iglesia, Geriatrico, Centro De Reciclaje, Ter...",48
31,San Nicolas,"[Sindicato, Organismos Publicos Nacionales, Ig...",48


In [None]:
barrio1 = df_top_equipamiento.iloc[0]['barrio']
barrio2 = df_top_equipamiento.iloc[1]['barrio']
barrio3 = df_top_equipamiento.iloc[2]['barrio']

print(f'{barrio1}, {barrio2} y {barrio3} son los barrios de CABA con mayor heterogeneidad de equipamientos.')

Flores, Palermo y Balvanera son los barrios de CABA con mayor heterogeneidad de equipamientos.
