<a href="https://colab.research.google.com/github/ingcarlosleon/techsprint/blob/main/Caso_de_Uso.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Planteamiento del problema
¿Cómo podemos mejorar la identificación de brechas en infraestructuras y desarrollo en la planificación de inversiones públicas y privadas para apoyar la resiliencia climática, la igualdad de género, la buena gobernanza y el desarrollo sostenible?

https://idb-air-techsprint.vercel.app/problem-statements/planteamiento-del-problema-4

Propuesta de Cruzamiento de Información:

Análisis de Gasto Público vs. Necesidades de Infraestructura: Comparar el gasto público en infraestructura (de MOF Jamaica) con las necesidades de desarrollo identificadas a través de datos socioeconómicos y ambientales (Data.gov.jm y Datos.gob.ar).

Identificación de Brechas Geoespaciales: Utilizar los datos geoespaciales de IDERA y Data.gov.jm para mapear regiones con brechas significativas en infraestructura. Relacionar estas brechas con indicadores de resiliencia climática y equidad de género.

Comparación y Evaluación de Directrices de Inversión: Comparar las directrices de planificación de infraestructura de PRIF NIIP con las inversiones actuales en Jamaica y Argentina para identificar áreas donde las inversiones podrían mejorar la resiliencia climática y la igualdad de género.

Evaluación de Impacto en la Equidad: Cruzar el Índice de Inequidades en la Primera Infancia con los planes de inversión en infraestructura para asegurar que las inversiones apoyen la reducción de inequidades desde la infancia.

In [None]:
!pip install pandas requests frictionless

In [None]:
import pandas as pd
import requests
from io import StringIO

# URLs de los datasets desde el JSON
url_spatial_data_works = "https://air.portaljs.com/opendata/ARG/MAPAINVDB/OPENDATA/OBRAS/CSV/2024/06/19/dataset_mop.csv"
url_investment_projects = "https://air.portaljs.com/opendata/ARG/MAPAINVDB/OPENDATA/PROYECTOS/CSV/2024/06/19/dataset_proyectosmop.csv"
url_datos_espaciales = "https://air.portaljs.com/opendata/ARG/MAPAINVDB/OPENDATA/DATOS_ESPACIALES/CSV/2024/06/25/dataset_geojson.csv"

# Función para cargar los datasets desde la URL
def load_csv_from_url(url):
    response = requests.get(url)
    response.raise_for_status()  # Asegúrate de que la solicitud fue exitosa
    data = response.content.decode('utf-8')
    return pd.read_csv(StringIO(data))

# Cargar los datasets en DataFrames de pandas
df_spatial_data_works = load_csv_from_url(url_spatial_data_works)
df_investment_projects = load_csv_from_url(url_investment_projects)
df_datos_espaciales = load_csv_from_url(url_datos_espaciales)

# Mostrar las primeras filas de cada DataFrame
# print("Spatial Data Works")
# print(df_spatial_data_works.head())
# print("\nInvestment Projects")
# print(df_investment_projects.head())
# print("\nDatos Espaciales")
# print(df_datos_espaciales.head())


# Analisis Exploratorio de Datos
**Realizaremos análisis de las columnas existentes y validación de datos perdidos contestando las siguientes preguntas:**

¿Hay valores faltantes en el conjunto de datos?

¿Se pueden identificar patrones de ausencia?

¿Cuáles son las estadísticas resumidas del conjunto de datos?

¿Hay valores atípicos en el conjunto de datos?

¿Cuál es la cardinalidad de las variables categóricas?

¿Existen distribuciones sesgadas en el conjunto de datos?

¿Necesitamos aplicar alguna transformación no lineal?

¿Se identifican tendencias temporales? (En caso de que el conjunto incluya una dimensión de tiempo).

¿Hay correlación entre las variables dependientes e independientes?

¿Cómo se distribuyen los datos en función de diferentes categorías?

¿Existen patrones o agrupaciones (clusters) en los datos con características similares?

¿Hay desequilibrio en las clases de la variable objetivo?



###Datos espaciales - Obras de la República Argentina	spatial-data-works **Milton**

In [None]:

# Obtener información general sobre el DataFrame
df_spatial_data_works.info()

print("Spatial Data Works - Describe")
df_spatial_data_works.describe()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7317 entries, 0 to 7316
Data columns (total 31 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   idproyecto                      7317 non-null   int64  
 1   numeroobra                      7317 non-null   object 
 2   codigobapin                     7317 non-null   object 
 3   fechainicioanio                 7317 non-null   int64  
 4   fechafinanio                    7317 non-null   int64  
 5   nombreobra                      7317 non-null   object 
 6   descripicionfisica              7317 non-null   object 
 7   montototal                      7317 non-null   float64
 8   sectornombre                    7317 non-null   object 
 9   avancefinanciero                7317 non-null   float64
 10  avancefisico                    7317 non-null   float64
 11  entidadejecutoranombre          7317 non-null   object 
 12  duracionobrasdias               73

Unnamed: 0,idproyecto,fechainicioanio,fechafinanio,montototal,avancefinanciero,avancefisico,duracionobrasdias,codigo_bahra,organismo_financiador_prestamo
count,7317.0,7317.0,7317.0,7317.0,7317.0,7317.0,7317.0,3977.0,210.0
mean,723089000.0,2021.288916,2022.269373,591853000.0,71.909481,74.819638,351.468908,292718900000000.0,71170200.0
std,448891400.0,1.604703,1.181463,3175574000.0,33.753074,35.889589,491.368452,303733700000000.0,521017700.0
min,1610.0,2008.0,2020.0,1.0,0.0,0.0,1.0,2007.0,2280.0
25%,10014450.0,2021.0,2021.0,11548320.0,45.17,48.92,120.0,62940290000000.0,2940.0
50%,1003112000.0,2021.0,2022.0,36045130.0,90.0,100.0,181.0,141052700000000.0,8945.0
75%,1003120000.0,2022.0,2023.0,163777300.0,100.0,100.0,386.0,540490200000000.0,8945.0
max,1003131000.0,2024.0,2029.0,94081700000.0,100.0,100.0,5568.0,940140000000000.0,4312100000.0


###Proyectos de Inversión de la República Argentina - **Carlos**

In [None]:

# Obtener información general sobre el DataFrame
df_investment_projects.info()

print("XXX")
df_investment_projects.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 630 entries, 0 to 629
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   IdProyecto          630 non-null    int64  
 1   CodigoBapin         630 non-null    int64  
 2   NombreProyecto      630 non-null    object 
 3   Sector              630 non-null    object 
 4   Subsector           630 non-null    object 
 5   Tipo                630 non-null    object 
 6   CostoEstimado       630 non-null    float64
 7   FechaEstimacion     630 non-null    object 
 8   Responsable         630 non-null    object 
 9   Plan                630 non-null    object 
 10  Objetivo            133 non-null    object 
 11  Descripcion         630 non-null    object 
 12  NombreProvincia     630 non-null    object 
 13  NombreDepartamento  630 non-null    object 
 14  FechaCargueArchivo  630 non-null    object 
 15  FuenteDatos         630 non-null    object 
 16  url_perf

Unnamed: 0,IdProyecto,CodigoBapin,CostoEstimado
count,630.0,630.0,630.0
mean,1001582000.0,132873.0,1085870000.0
std,39566800.0,44608.35,8926337000.0
min,10039410.0,0.0,2775273.0
25%,1003151000.0,128407.0,38419790.0
50%,1003159000.0,136318.5,75000000.0
75%,1003170000.0,138967.0,416013200.0
max,1003176000.0,1132632.0,192582000000.0


In [None]:

# Obtener información general sobre el DataFrame
df_spatial_data_works.info()

# Resumen estadístico de las columnas numéricas
df_datos_espaciales.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7317 entries, 0 to 7316
Data columns (total 31 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   idproyecto                      7317 non-null   int64  
 1   numeroobra                      7317 non-null   object 
 2   codigobapin                     7317 non-null   object 
 3   fechainicioanio                 7317 non-null   int64  
 4   fechafinanio                    7317 non-null   int64  
 5   nombreobra                      7317 non-null   object 
 6   descripicionfisica              7317 non-null   object 
 7   montototal                      7317 non-null   float64
 8   sectornombre                    7317 non-null   object 
 9   avancefinanciero                7317 non-null   float64
 10  avancefisico                    7317 non-null   float64
 11  entidadejecutoranombre          7317 non-null   object 
 12  duracionobrasdias               73

Unnamed: 0,IdVisorMapas,IdProyecto,Descripcion,ConsecutivoCarga
count,6996.0,6996.0,0.0,6996.0
mean,421801.5,704244500.0,,1.0
std,2019.715574,456542400.0,,0.0
min,418304.0,16595.0,,1.0
25%,420052.75,10014380.0,,1.0
50%,421801.5,1003112000.0,,1.0
75%,423550.25,1003117000.0,,1.0
max,425299.0,1003129000.0,,1.0
