<a href="https://colab.research.google.com/github/educacion-digital-ar/inclusion-educativa-digital/blob/main/Documentacion/limpieza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TERCERA EVIDENCIA ‚Äì Limpieza, An√°lisis y Visualizaci√≥n de Datos
### Integrantes del equipo:
-

## Datos en Burto.

In [44]:
import pandas as pd
from IPython.display import Markdown, display

sheet_id = '1Qa5X6_s5zTJIFG6y9yaMngnWy01OKwOY'
sheet_name = 'Hoja1'

url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

df = pd.read_csv(url)
display(Markdown("### Vista previa del DataFrame"))
display(df.head())

display(Markdown("### Informaci√≥n general"))
df.info()

display(Markdown("### Estad√≠sticas de columnas num√©ricas"))
df.describe()



## 1. Contextualizaci√≥n de la limpieza de datos


# Limpieza de Datos

Tras un an√°lisis exploratorio inicial del dataset, se identificaron varias inconsistencias y variables que requieren limpieza para garantizar la confiabilidad del an√°lisis. A continuaci√≥n, se detallan los principales problemas detectados y las acciones que se tomar√°n para resolverlos:

- **Columnas vac√≠as:** Se identificaron 11 columnas completamente vac√≠as. Estas ser√°n eliminadas por no aportar informaci√≥n relevante al estudio.
  
- **Variable `duracionAnios`:** Presenta formatos inconsistentes. Ser√° normalizada y convertida en una nueva variable llamada `duracionMeses`, con valores num√©ricos homog√©neos expresados en meses.

- **Columnas irrelevantes:** Las variables `observaciones` y `porcentajeOfertaVirtual` no aportan valor significativo al an√°lisis, por lo tanto, ser√°n excluidas.

- **Filtrado por modalidad:** Solo se conservar√°n los registros cuya modalidad sea "Virtual" o "Combinada", ya que los dem√°s no se alinean con el enfoque de esta investigaci√≥n.

- **Variable `areaConocimiento`:** Se realizar√° una normalizaci√≥n agrupando las categor√≠as similares bajo una misma etiqueta, con el objetivo de simplificar y mejorar la calidad del an√°lisis posterior.

Cada uno de estos puntos ser√° abordado con ejemplos espec√≠ficos en las siguientes celdas, documentando tanto el problema como la soluci√≥n aplicada mediante c√≥digo en Pandas.




## 2. Limpieza de Datos con Pandas



### Datos Ausentes y Formato Incorrecto

#### a) Datos Ausentes


### Datos Err√≥neos y Duplicados
#### a) Datos Err√≥neos

# Documentaci√≥n para la Normalizaci√≥n de la Columna `duracionAnios`

En esta secci√≥n se describen las reglas y procedimientos para convertir la columna `duracionAnios` en una unidad de medida uniforme: **meses**. Se manejan m√∫ltiples formatos y expresiones, incluyendo valores num√©ricos, fracciones textuales y unidades variadas.


## 1. Valores Num√©ricos (A√±os)

* **Ejemplos:** `1`, `2`, `4`, `5`, `6`, `1.5`, `2,5`, `4.5`, etc.  
* **Regla:** Convertir a√±os a meses multiplicando por 12.  
* **Nota:** Reemplazar comas por puntos antes de la conversi√≥n para evitar errores.  

```python
meses = float(valor.replace(',', '.')) * 12
```

## 2. Valores en Cuatrimestres
* **Ejemplos:** 3 cuatrimestres, 5 cuatrimestres, 4 cuatrimestres
* **Regla:** Multiplicar el n√∫mero de cuatrimestres por 4 meses.

```python
meses = cuatrimestres * 4
```

## 3. Valores en Trimestres
* **Ejemplo:** 5 trimestres
* **Regla:** Multiplicar el n√∫mero de trimestres por 3 meses.

```python
meses = trimestres * 3
```

## 4. Valores en Semestres
* **Ejemplo:** 4 semestres

* **Regla:** Multiplicar el n√∫mero de semestres por 6 meses.

```python
meses = semestres * 6
```

## 5. Valores en Meses
* **Ejemplos:** 9 meses, 8 MESES, 4 MESES, 4 meses
* **Regla:** Extraer el valor num√©rico y conservarlo tal cual, normalizando el formato a n√∫mero.

## 6. Fracciones Textuales
**Ejemplos y reglas:**

* "2 y medio" ‚Üí 2.5 * 12 = 30 meses
* "1 y medio" ‚Üí 1.5 * 12 = 18 meses
* "2 y un cuatrimestre" ‚Üí (2 * 12) + 4 = 28 meses
* "1 y un mes" ‚Üí (1 * 12) + 1 = 13 meses

**Nota:** *Sumar las partes seg√∫n su equivalencia en meses, combinando a√±os y unidades parciales.*

## 7. Casos Especiales y Ambig√ºedades
* Valores como 3-may, 1-mar, etc., suelen ser errores de OCR o importaci√≥n.

  **Acci√≥n recomendada:** Marcar como NaN o estimar un valor aproximado si el contexto lo permite (ejemplo: 3-may ‚Üí 3.5 a√±os).

* Valores no num√©ricos o irrelevantes como variable, -, 0,01 deben ser eliminados o marcados como NaN.

##8. D√≠as y Semanas
Convertir d√≠as y semanas a meses utilizando aproximaciones.

**Ejemplos:**
* 1 d√≠a ‚âà 0.033 meses (1/30)
* 2 d√≠as ‚âà 0.066 meses
* 33 semanas ‚âà 7.6 meses (33 * 7 / 30.44)

**Nota:** *La precisi√≥n puede ajustarse seg√∫n el nivel requerido; se recomienda mantener decimales para mayor exactitud.*

## Resumen
El objetivo es obtener una columna `duracionMeses` homog√©nea, que facilite el an√°lisis estad√≠stico y comparativo. Los valores ambiguos deben tratarse con cuidado, priorizando la limpieza y consistencia de los datos.


## 3. Visualizaci√≥n de Datos con Matplotlib

 ### üìä Gr√°fico 1 ‚Äì Torta (variable categ√≥rica)

### üìä Gr√°fico 2 ‚Äì Barras


### üìä Gr√°fico 3 ‚Äì Histograma o L√≠nea

### üìä Gr√°fico 4 ‚Äì Libre

## 4. An√°lisis Descriptivo de Variables

### ‚û§ Medidas estad√≠sticas (media, mediana, moda, etc.)

### ‚û§ Simetr√≠a de las distribuciones