<a href="https://colab.research.google.com/github/educacion-digital-ar/inclusion-educativa-digital/blob/main/Documentacion/limpieza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TERCERA EVIDENCIA – Limpieza, Análisis y Visualización de Datos
### Integrantes del equipo:
-

## Datos en Burto.

In [44]:
import pandas as pd
from IPython.display import Markdown, display

sheet_id = '1Qa5X6_s5zTJIFG6y9yaMngnWy01OKwOY'
sheet_name = 'Hoja1'

url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

df = pd.read_csv(url)
display(Markdown("### Vista previa del DataFrame"))
display(df.head())

display(Markdown("### Información general"))
df.info()

display(Markdown("### Estadísticas de columnas numéricas"))
df.describe()



## 1. Contextualización de la limpieza de datos


# Limpieza de Datos

Tras un análisis exploratorio inicial del dataset, se identificaron varias inconsistencias y variables que requieren limpieza para garantizar la confiabilidad del análisis. A continuación, se detallan los principales problemas detectados y las acciones que se tomarán para resolverlos:

- **Columnas vacías:** Se identificaron 11 columnas completamente vacías. Estas serán eliminadas por no aportar información relevante al estudio.
  
- **Variable `duracionAnios`:** Presenta formatos inconsistentes. Será normalizada y convertida en una nueva variable llamada `duracionMeses`, con valores numéricos homogéneos expresados en meses.

- **Columnas irrelevantes:** Las variables `observaciones` y `porcentajeOfertaVirtual` no aportan valor significativo al análisis, por lo tanto, serán excluidas.

- **Filtrado por modalidad:** Solo se conservarán los registros cuya modalidad sea "Virtual" o "Combinada", ya que los demás no se alinean con el enfoque de esta investigación.

- **Variable `areaConocimiento`:** Se realizará una normalización agrupando las categorías similares bajo una misma etiqueta, con el objetivo de simplificar y mejorar la calidad del análisis posterior.

Cada uno de estos puntos será abordado con ejemplos específicos en las siguientes celdas, documentando tanto el problema como la solución aplicada mediante código en Pandas.




## 2. Limpieza de Datos con Pandas



### Datos Ausentes y Formato Incorrecto

#### a) Datos Ausentes


### Datos Erróneos y Duplicados
#### a) Datos Erróneos

# Documentación para la Normalización de la Columna `duracionAnios`

En esta sección se describen las reglas y procedimientos para convertir la columna `duracionAnios` en una unidad de medida uniforme: **meses**. Se manejan múltiples formatos y expresiones, incluyendo valores numéricos, fracciones textuales y unidades variadas.


## 1. Valores Numéricos (Años)

* **Ejemplos:** `1`, `2`, `4`, `5`, `6`, `1.5`, `2,5`, `4.5`, etc.  
* **Regla:** Convertir años a meses multiplicando por 12.  
* **Nota:** Reemplazar comas por puntos antes de la conversión para evitar errores.  

```python
meses = float(valor.replace(',', '.')) * 12
```

## 2. Valores en Cuatrimestres
* **Ejemplos:** 3 cuatrimestres, 5 cuatrimestres, 4 cuatrimestres
* **Regla:** Multiplicar el número de cuatrimestres por 4 meses.

```python
meses = cuatrimestres * 4
```

## 3. Valores en Trimestres
* **Ejemplo:** 5 trimestres
* **Regla:** Multiplicar el número de trimestres por 3 meses.

```python
meses = trimestres * 3
```

## 4. Valores en Semestres
* **Ejemplo:** 4 semestres

* **Regla:** Multiplicar el número de semestres por 6 meses.

```python
meses = semestres * 6
```

## 5. Valores en Meses
* **Ejemplos:** 9 meses, 8 MESES, 4 MESES, 4 meses
* **Regla:** Extraer el valor numérico y conservarlo tal cual, normalizando el formato a número.

## 6. Fracciones Textuales
**Ejemplos y reglas:**

* "2 y medio" → 2.5 * 12 = 30 meses
* "1 y medio" → 1.5 * 12 = 18 meses
* "2 y un cuatrimestre" → (2 * 12) + 4 = 28 meses
* "1 y un mes" → (1 * 12) + 1 = 13 meses

**Nota:** *Sumar las partes según su equivalencia en meses, combinando años y unidades parciales.*

## 7. Casos Especiales y Ambigüedades
* Valores como 3-may, 1-mar, etc., suelen ser errores de OCR o importación.

  **Acción recomendada:** Marcar como NaN o estimar un valor aproximado si el contexto lo permite (ejemplo: 3-may → 3.5 años).

* Valores no numéricos o irrelevantes como variable, -, 0,01 deben ser eliminados o marcados como NaN.

##8. Días y Semanas
Convertir días y semanas a meses utilizando aproximaciones.

**Ejemplos:**
* 1 día ≈ 0.033 meses (1/30)
* 2 días ≈ 0.066 meses
* 33 semanas ≈ 7.6 meses (33 * 7 / 30.44)

**Nota:** *La precisión puede ajustarse según el nivel requerido; se recomienda mantener decimales para mayor exactitud.*

## Resumen
El objetivo es obtener una columna `duracionMeses` homogénea, que facilite el análisis estadístico y comparativo. Los valores ambiguos deben tratarse con cuidado, priorizando la limpieza y consistencia de los datos.


## 3. Visualización de Datos con Matplotlib

 ### 📊 Gráfico 1 – Torta (variable categórica)

### 📊 Gráfico 2 – Barras


### 📊 Gráfico 3 – Histograma o Línea

### 📊 Gráfico 4 – Libre

## 4. Análisis Descriptivo de Variables

### ➤ Medidas estadísticas (media, mediana, moda, etc.)

### ➤ Simetría de las distribuciones