# **PROYECTO FINAL DE ANÁLISIS DE DATOS NIVEL EXPLORADOR**

Este proyecto final tiene como objetivo evaluar los conocimientos adquiridos en el Nivel 1 del curso de análisis de datos.

## ***Objetivo del Proyecto:***
Desarrollar un análisis exhaustivo de datos reales para abordar una
problemática identificada en el contexto de la transición energética o las TIC.  El proyecto busca demuestrar nuestra capacidad para explorar, limpiar, manipular, y visualizar datos, interpretando patrones y tendencias para llegar a conclusiones
significativas.



## **Descripción del Proyecto:**

### **1. Identificación de la Problemática:**
- Desarrollar un análisis de datos reales para abordar una problemática identificada en el contexto del acompañamiento integral para hogares víctimas de desplazamiento forzado por el conflicto armado en zonas rurales.

- Enfoque: Incluye el retorno o reubicación, apoyo a iniciativas productivas, fortalecimiento del liderazgo comunitario y mejora de las condiciones de habitabilidad, con el objetivo de mejorar las condiciones de vida de estos hogares.

2. Recolección de Datos:
- Obtener datos públicos y verídicos relacionados con el programa Familias en su Tierra que es un esquema especial de acompañamiento familiar implementado por el Gobierno Nacional, a través de Prosperidad Social.
- Los datos fueron extraídos de "Datos abiertos Colombia", enlace: https://www.datos.gov.co/Inclusi-n-Social-y-Reconciliaci-n/Beneficiarios-Familias-en-su-tierra/mebh-t5gy

3. Exploración y Limpieza de Datos:
- Cargar los datos en Python utilizando bibliotecas como Pandas y Numpy.
- Realizar una exploración inicial para entender la estructura y el contenido de los datos.
- Identificar y manejar valores faltantes, datos atípicos, y errores en los datos.
- Aplicar técnicas de limpieza para asegurar la calidad de los datos antes de proceder al análisis.

4. Análisis Descriptivo:
- Utilizar técnicas de análisis descriptivo para identificar patrones, tendencias, y distribuciones en los datos.
- Calcular medidas de tendencia central, varianza, percentiles, y otros estadísticos relevantes.
- Visualizar los datos mediante gráficos y diagramas usando Matplotlib.

5. Interpretación de Resultados:
- Interpretar los resultados obtenidos del análisis descriptivo.
- Identificar conclusiones clave que aborden la problemática seleccionada.
- Discutir las implicaciones de los hallazgos y cómo podrían influir en la toma de decisiones relacionadas con la problemática.

6. Documentación del Proyecto:
- Redactar un informe que detalle todo el proceso, desde la identificación de la problemática hasta la interpretación de los resultados.
- Incluir una introducción, descripción del problema, metodología, análisis de datos, resultados, conclusiones, y recomendaciones.

In [None]:
# --------------------------------------
# © Copyright 2025
# Franck Henao - Franckh111@hotmail.com
# Deisy Gonzalez - daisyanahoj11@gmail.com
# Luis Felipe Sanchez - Lfsg0695@gmail.com
# Brandon Rendon - brandon.rendonno11@gmail.com
# Natalia Edith Piedrahita P.  - nepmovistar@gmail.com
# Licencia: MIT
# --------------------------------------

# 1. Importación de las librerías
import pandas as pd
import zipfile
import io
import requests
import matplotlib.pyplot as plt

# 2. Leer el archivo CSV Beneficiarios_Familias_en_su_tierra_20251028.csv que se encuentra en la ruta
Github = 'https://github.com/FranckPy/ProyectoData/blob/main/Beneficiarios_Familias_en_su_tierra_20251104.csv.zip'

# 3. Descargar el archivo desde GitHub
response = request.get(Github)
with zipfile.Zipfile(io.BytesIO(response.content)) as z:

# 4. Extraer el archivo .CSV que se encuentra comprimido en el tipo .ZIP
with z.open(z.namelist()[0]) as f:
    df = pd.read_csv(f)

# 5. Revisar la dataframe con describe
print(df.describe)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365494 entries, 0 to 365493
Data columns (total 25 columns):
 #   Column                                  Non-Null Count   Dtype 
---  ------                                  --------------   ----- 
 0   CantidadDeBeneficiarios                 365494 non-null  int64 
 1   CantidadBeneficioConsolidado            365494 non-null  int64 
 2   CantidadUltimobeneficio                 365494 non-null  int64 
 3   CodigoDepartamentoAtencion              365494 non-null  int64 
 4   CodigoMunicipioAtencion                 365494 non-null  int64 
 5   CondicionSexual                         365494 non-null  object
 6   Discapacidad                            365494 non-null  object
 7   EstadoBeneficiario                      365494 non-null  object
 8   EstadoCivil                             365494 non-null  object
 9   Etnia                                   365494 non-null  object
 10  FechaInscripcionBeneficiario            365494 non-null 

In [None]:
df.EstadoBeneficiario.unique()

array(['NO ACTIVO', 'ATENDIDO', 'ACTIVO', 'RETIRADO',
       'VINCULADO-INSCRITO', 'FALLECIDO'], dtype=object)

In [None]:
df.EstadoCivil.unique()
#df.Genero.unique()

array(['H-HOMBRE', 'Heterosexual', 'ND', 'M-MUJER', 'Gay', 'H', 'M',
       'Bisexual', 'No responde', 'SIN ESPECIFICAR', 'M-Mujer',
       'Lesbiana', 'HOMBRE'], dtype=object)

In [None]:
# Contar cuántos valores hay de cada tipo:
df['CondicionSexual'].value_counts()

Unnamed: 0_level_0,count
CondicionSexual,Unnamed: 1_level_1
Heterosexual,270253
ND,53441
No responde,18398
H-HOMBRE,13658
M-MUJER,7907
Bisexual,1279
H,214
M,162
Lesbiana,99
Gay,57


In [None]:
df.EstadoCivil.unique()

array(['SO', 'Casado(a)', 'ND', 'CA', 'Unión libre', 'UL', 'VI',
       'Soltero(a)', 'DI', 'Viudo(a)', 'NO REPORTA', 'DIVORCIADO(A)',
       'Sin Informació', 'Separado(a) o', 'VIVE EN PAREJA'], dtype=object)